ZeroBench:当代大型多峰值模型不可能的视觉基准
齐思GPT
2025-02-18 00:00:00
126
ZeroBench是一个视觉推理基准,旨在测试大型多模态模型(LMMs)在解释图像和空间认知方面的极限。它以严谨的方式脱颖而出,提出了100个当前模型无法正确回答的问题,正如20个评估的LMMs的0%成功率所证明的那样。这个基准很重要,因为它突出了LMMs中普遍存在的视觉解释错误优于推理错误的问题,这一发现可能引导未来人工智能研究和发展。ZeroBench的轻量化特性也使其适用于测试时的扩展方法,确保其在模型发展过程中的相关性。
ZeroBench是一个视觉推理基准,旨在测试大型多模态模型(LMMs)在解释图像和空间认知方面的极限。它以严谨的方式脱颖而出,提出了100个当前模型无法正确回答的问题,正如20个评估的LMMs的0%成功率所证明的那样。这个基准很重要,因为它突出了LMMs中普遍存在的视觉解释错误优于推理错误的问题,这一发现可能引导未来人工智能研究和发展。ZeroBench的轻量化特性也使其适用于测试时的扩展方法,确保其在模型发展过程中的相关性。对于那些对人工智能视觉推理的前沿挑战和LMMs当前限制感兴趣的人来说,ZeroBench提供了一个引人入胜且关键的评估工具。- ZeroBench是一个视觉推理基准测试,旨在对当前大型多模态模型(LMMs)来说是不可能的。
- 它包含100个具有挑战性的问题和334个子问题。
- 在ZeroBench上评估了20个LMMs,所有模型在主要问题上得分为0.0%。
- 该基准测试侧重于视觉解释错误,而不是逻辑推理或基于知识的错误。
- 问题的难度经过对抗性过滤来校准,以确保超过当前模型的能力。
- ZeroBench提供了轻量级和高效的视觉推理能力评估。
- 文章提供了ZeroBench的详细信息,包括测试的目的、测试的模型和数据集。
- 列举了一些模型的失败案例,包括计数问题、空间推理问题、阅读时钟问题等。
- 提供了模型的超参数和API访问时间的信息。
- 总结了模型在不同问题上的失败模式,包括计数问题、空间推理问题、阅读问题等。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。