Video-MME代表了针对视频分析定制的多模态大型语言模型(MLLMs)评估的重大进展。由傅朝友领导的团队撰写,这一基准是首个在各种视觉领域、时间持续性和数据模态上提供全面评估的基准。Video-MME的独特之处在于其视频类型的多样性,包括六个主要视觉领域和30个子领域,确保广泛的场景泛化性。它还涵盖了各种视频持续时间,从短片到长达一小时的视频,并整合了多模态输入,如字幕和音频,而不仅仅是视频帧。这一基准经过精心策划,包括900个视频,总计256小时和2,700个人工注释的问题-答案对,所有这些都是新收集的,而非从现有数据集中获取。对于人工智能和视频分析领域的研究人员和开发人员,Video-MME提供了一个独特的机会,测试和增强MLLMs在理解和解释复杂视频内容方面的能力。- Video-MME是第一个全面评估多模态LLMs在视频分析中的综合评估基准。 - Video-MME包含900个视频,总计256小时,以及2700个人工注释的问题-答案对。 - Video-MME通过视频类型、时间长度和数据模态的多样性以及注释质量等四个关键特征与现有基准区分开来。 - Video-MME的数据以JSON格式结构化,包含视频信息和问题-答案对。 - 评估流程包括使用特定格式的模型输出文件进行评估,并计算准确率得分。 - Video-MME的评估结果可以用于比较不同MLLMs的性能。 - 如果使用了Video-MME数据,请遵守相关许可协议。 - 如果对数据有任何问题,请通过指定的电子邮件进行联系。 - 如果引用了Video-MME的工作,请考虑引用相关论文。 - 相关研究包括MME和多模态大型语言模型的调查。
评论