GitHub-BradyFU/视频MME:✨✨Video-MME:视频分析中多模式LLM的首次综合评估基准

阿里云创新中心> 创业资讯> GitHub-BradyFU/视频MME:✨✨Video-MME:视频分析中多模式LLM的首次综合评估基准
0
0

GitHub-BradyFU/视频MME:✨✨Video-MME:视频分析中多模式LLM的首次综合评估基准

阎荟 2024-06-03 00:00:00 363
Video-MME代表了针对视频分析定制的多模态大型语言模型(MLLMs)评估的重大进展。由傅朝友领导的团队撰写,这一基准是首个在各种视觉领域、时间持续性和数据模态上提供全面评估的基准。Video-MME的独特之处在于其视频类型的多样性,包括六个主要视觉领域和30个子领域,确保广泛的场景泛化性。它还涵盖了各种视频持续时间,从短片到长达一小时的视频,并整合了多模态输入,如字幕和音频,而不仅仅是视频帧。这一基准经过精心策划,包括900个视频,总计256小时和2,700个人工注释的问题-答案对,所有这些都是新收

Video-MME代表了针对视频分析定制的多模态大型语言模型(MLLMs)评估的重大进展。由傅朝友领导的团队撰写,这一基准是首个在各种视觉领域、时间持续性和数据模态上提供全面评估的基准。Video-MME的独特之处在于其视频类型的多样性,包括六个主要视觉领域和30个子领域,确保广泛的场景泛化性。它还涵盖了各种视频持续时间,从短片到长达一小时的视频,并整合了多模态输入,如字幕和音频,而不仅仅是视频帧。这一基准经过精心策划,包括900个视频,总计256小时和2,700个人工注释的问题-答案对,所有这些都是新收集的,而非从现有数据集中获取。对于人工智能和视频分析领域的研究人员和开发人员,Video-MME提供了一个独特的机会,测试和增强MLLMs在理解和解释复杂视频内容方面的能力。- Video-MME是第一个全面评估多模态LLMs在视频分析中的综合评估基准。 - Video-MME包含900个视频,总计256小时,以及2700个人工注释的问题-答案对。 - Video-MME通过视频类型、时间长度和数据模态的多样性以及注释质量等四个关键特征与现有基准区分开来。 - Video-MME的数据以JSON格式结构化,包含视频信息和问题-答案对。 - 评估流程包括使用特定格式的模型输出文件进行评估,并计算准确率得分。 - Video-MME的评估结果可以用于比较不同MLLMs的性能。 - 如果使用了Video-MME数据,请遵守相关许可协议。 - 如果对数据有任何问题,请通过指定的电子邮件进行联系。 - 如果引用了Video-MME的工作,请考虑引用相关论文。 - 相关研究包括MME和多模态大型语言模型的调查。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论