o1在ARC-AGI半私密评估中得分约为32%，相比之下o1-preview和Sonnet 3.5的得分约为21%。更有趣的是，性能随着计算能力的提升而提高。

齐思GPT 2024-12-19 00:00:00 185

这段内容讨论了一个名为o1的AI模型在ARC-AGI半私密评估中的表现，得分约为32%，超过了其先前版本o1-preview和另一个模型Sonnet 3.5。一个重要的观点是AI性能随着计算资源的增加而提高。这些结果具有重要意义，因为它们揭示了AI在理解和解决复杂任务方面的进展。内容还包括一条来自评论的更正，指出o1-preview和Sonnet的早期得分低于最初陈述的数字。这些信息对于那些对AI模型的发展和基准测试感兴趣的人可能很有价值。- o1在ARC-AGI半私人评估中得分约为32% - o1-preview和Sonnet 3.5得分约为21% - 性能与计算能力成比例 - 更正：o1-preview和Sonnet在半私人评估中得分较低（约为18%和14%） - 推文链接：[https://x.com/arcprize/status/1869551373848908029](https://x.com/arcprize/status/1869551373848908029) - 结果链接：[https://arcprize.org/2024-results](https://arcprize.org/2024-results)

登录后可评论

上一篇：OmniAudio-2.6B：最快的边缘音频语言模型 | Nexa AI

下一篇：AnthropicAI(ch402)：新的Anthropic研究：大型语言模型中的对齐伪装。在与Redwood Research进行的一系列实验中，我们发现Claude经常在训练过程中假装持有不同的观点，实际上却保持其原始偏好

上一篇：OmniAudio-2.6B：最快的边缘音频语言模型 | Nexa AI 下一篇：AnthropicAI(ch402)：新的Anthropic研究：大型语言模型中的对齐伪装。在与Redwood Research进行的一系列实验中，我们发现Claude经常在训练过程中假装持有不同的观点，实际上却保持其原始偏好