alexandr_wang(@arankomatsuzaki)：在人类最后一次考试之后，@scale_AI和@ai_risks发布了一个新的非常困难的推理评估项目EnigmaEval：1,184个多模式难题，难度极高，需要人类团队花费数小时甚至数天来解决。所有顶尖模型在难题集上得分为0，在普通题集上得分低于10%。

alexandr_wang(@arankomatsuzaki)：在人类最后一次考试之后，@scale_AI和@ai_risks发布了一个新的非常困难的推理评估项目EnigmaEval：1,184个多模式难题，难度极高，需要人类团队花费数小时甚至数天来解决。所有顶尖模型在难题集上得分为0，在普通题集上得分低于10%。

齐思GPT 2025-02-18 00:00:00 178

小松崎亚兰转发了Alexandr Wang的一条推文，介绍了EnigmaEval，这是一项具有挑战性的新推理评估。这项评估是由Scale AI和AI Risks共同努力推动AI推理能力的边界。对于那些对AI评估的最新进展及其对理解AI推理能力潜在影响感兴趣的人来说，这条推文可能为他们提供有关该领域前沿发展的宝贵见解。

登录后可评论

上一篇：Rombo-Org团队创建的Optimized_Reasoning数据集在Hugging Face平台上

下一篇：Dylan Patel(@dylan522p)：我简直无法相信X用户如此愚蠢。不选择o3-mini简直是疯了。你可以将4o、Claude 3.5、Deepseekv3等模型压缩到适合手机运行的大小。在我们下一个开源项目中，选择做一个相对较小但仍需要在GPU上运行的o3-mini级别模型，还是选择我们能做到的最好的手机尺寸模型，哪个更有用呢？

上一篇：Rombo-Org团队创建的Optimized_Reasoning数据集在Hugging Face平台上下一篇：Dylan Patel(@dylan522p)：我简直无法相信X用户如此愚蠢。不选择o3-mini简直是疯了。你可以将4o、Claude 3.5、Deepseekv3等模型压缩到适合手机运行的大小。在我们下一个开源项目中，选择做一个相对较小但仍需要在GPU上运行的o3-mini级别模型，还是选择我们能做到的最好的手机尺寸模型，哪个更有用呢？