VisualAgentBench:将大型多峰值模型作为Visual Foundation代理
Micheli
2024-08-13 00:00:00
309
VisualAgentBench(VAB)是一个开创性的基准测试,旨在训练和评估大型多模态模型(LMMs)作为视觉基础代理,旨在推动人工智能在复杂的现实世界场景中的边界。该基准测试独特之处在于它在不同环境中测试LMMs,如具体化、图形用户界面和视觉设计任务,旨在探究模型对理解和交互能力的深度。
VisualAgentBench(VAB)是一个开创性的基准测试,旨在训练和评估大型多模态模型(LMMs)作为视觉基础代理,旨在推动人工智能在复杂的现实世界场景中的边界。该基准测试独特之处在于它在不同环境中测试LMMs,如具体化、图形用户界面和视觉设计任务,旨在探究模型对理解和交互能力的深度。该研究通过对专有和开放模型进行严格测试,展示了这些代理的相当大但仍在发展中的能力。此外,VAB提供了一个轨迹训练集,采用了诸如基于程序的求解器、LMM代理引导和人类演示等混合方法,这是通过行为克隆改善LMM性能的重要一步。对于人工智能领域的研究人员和开发人员,这些内容非常值得关注,因为它不仅对现有模型进行了基准测试,还为视觉基础代理的未来发展奠定了基础。代码、训练和测试数据以及经过调整的开放LMMs的可用性使其成为进一步探索和发展该领域的宝贵资源。- 大型多模态模型(LMMs)将语言和视觉能力融合,形成高度能力的视觉基础代理。
- 现有的基准测试无法充分挑战或展示LMMs在复杂的现实环境中的全部潜力。
- 引入了VisualAgentBench(VAB),是一个专门设计用于训练和评估LMMs作为视觉基础代理的全面而开创性的基准测试。
- VAB涵盖了多种场景,任务旨在探索LMMs的理解和交互能力的深度。
- 通过对九个专有LMM API和八个开放模型进行严格测试,展示了这些模型的代理能力。
- VAB通过混合方法构建了一个轨迹训练集,通过行为克隆促进了LMMs的性能改进。
- 该工作为未来发展视觉基础代理提供了坚实的基础。
- 代码、训练和测试数据以及部分经过优化的开放LMMs可在指定的链接上获得。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论