ZeroBench:当代大型多峰值模型不可能的视觉基准

齐思GPT 2025-02-18 00:00:00 205

ZeroBench是一个视觉推理基准，旨在测试大型多模态模型（LMMs）在解释图像和空间认知方面的极限。它以严谨的方式脱颖而出，提出了100个当前模型无法正确回答的问题，正如20个评估的LMMs的0%成功率所证明的那样。这个基准很重要，因为它突出了LMMs中普遍存在的视觉解释错误优于推理错误的问题，这一发现可能引导未来人工智能研究和发展。ZeroBench的轻量化特性也使其适用于测试时的扩展方法，确保其在模型发展过程中的相关性。对于那些对人工智能视觉推理的前沿挑战和LMMs当前限制感兴趣的人来说，ZeroBench提供了一个引人入胜且关键的评估工具。- ZeroBench是一个视觉推理基准测试，旨在对当前大型多模态模型（LMMs）来说是不可能的。 - 它包含100个具有挑战性的问题和334个子问题。 - 在ZeroBench上评估了20个LMMs，所有模型在主要问题上得分为0.0%。 - 该基准测试侧重于视觉解释错误，而不是逻辑推理或基于知识的错误。 - 问题的难度经过对抗性过滤来校准，以确保超过当前模型的能力。 - ZeroBench提供了轻量级和高效的视觉推理能力评估。 - 文章提供了ZeroBench的详细信息，包括测试的目的、测试的模型和数据集。 - 列举了一些模型的失败案例，包括计数问题、空间推理问题、阅读时钟问题等。 - 提供了模型的超参数和API访问时间的信息。 - 总结了模型在不同问题上的失败模式，包括计数问题、空间推理问题、阅读问题等。

登录后可评论

下一篇：Paul Graham(@paulg)：每次我们回到硅谷，我的16岁儿子都会感到极度的认知失调，因为他发现那些表面上聪明和理性的人们竟然急于获取他坚信毫无价值的东西。

上一篇：Alexandr Wang(@alexandr_wang)：Grok 3是@xai团队开发的全球最佳模型！Grok 3在Chatbot Arena上排名第一，与其他模型之间有很大的差距，并且在预训练和推理评估方面表现出色。祝贺@elonmusk @ibab @jimmybajimmyba @Yuhu_ai_，期待在Grok 4及更多合作上的伙伴关系！下一篇：Paul Graham(@paulg)：每次我们回到硅谷，我的16岁儿子都会感到极度的认知失调，因为他发现那些表面上聪明和理性的人们竟然急于获取他坚信毫无价值的东西。