寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

阿里云创新中心> 创业资讯> 寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索
0

寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

LLM SPACE 2024-09-03 11:48:08 594
谢赛宁弟子解读 Xie & Lecun 团队最新成果Cambrain-1

寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

LLM SPACE LLM SPACE 2024年09月03日 11:48


Guest Information
分享嘉宾


Peter Tong 童晟邦
  • 纽约大学博士
  • 师从 Yann LeCun 教授和 Saining Xie 教授
  • 伯克利人工智能实验室(BAIR)的研究员
  • 近期获得 OpenAI 超对齐奖学金



Sharing
分享


主题:视觉在多模态大模型中扮演角色


我们的研究为以视觉为中心的MLLMs。虽然大模型如GPT和Claude在智力任务上表现出色,但它们在视觉密集型任务中的表现仍有待提高。我们关注这些模型在游戏、日常生活和自动驾驶等视觉要求较高的场景中的应用。去年,我们开始探索开源社区的多模态模型何时能与ChatGPT相媲美。现在,一年过去了,许多公司在这方面取得了显著进展,这正是我们研究的方向。

在讲解技术前,先介绍我们的工作“Cambrian-1”。“Cambrian”指寒武纪生物大爆炸的时期。


你可能好奇,动物何时开始长出眼睛?GPT告诉我,约5.41亿年前的寒武纪时期,动物才开始长出眼睛。在这个生物大爆炸阶段,生命从简单形态演变为多样化的生态系统。


来源:寒武纪图片


我们的研究动机来源于此。


我们认为AI的发展与寒武纪生命大爆炸相似。就像当时生物从单一视觉或语言概念进化到多模态,AI也在融合多种模态。我们希望AI能够像动物长出眼睛那样,标志着一个重要进化阶段,并加速这一过程。


所以我们主要关注排除 LLM 外标红的5个方面,也就是到底该采用何种视觉表征和视觉主干网络(Vision Backbone),如何实现视觉与语言的有效连接,使用何种数据进行连接,以及如何对模型进行评估。


如今,许多杰出的研究和研究人员已经完成大量评估工作,我们希望帮助了解模型的性能优劣。



为何研究视觉?


如果我们观察一些经典的 Benchmark,如 MMLU、MASH 和 GPQA,发现模型的改进已经日益增多,尤其在知识方面表现出色,但是同时它们可能会犯一些非常简单的错误。



比如在最新的 GPT-4o 模型中,问它狗狗是面向左还是右,它会回答错误;问它图中有几个轮子,它会答错。这不仅是 GPT,其他模型如 Gemini 和 Claude 3.5 Sonnet 也存在类似问题。


虽然这些问题看似简单,但是模型却持续出错。


如果你询问Claude有几个轮子,它会回答两个轮子;如果询问Gemini,答案更加离谱,有16个轮子。


我们想了解在模型能解答许多复杂问题的同时为何还会犯这些小错误?这些小错误是否会影响我们后续真正使用这些模型?因为我们使用这些模型的目的并不一定是解决复杂问题,可能只是想让它完成一些基础简单的任务,做出非常基本的判断。


正文


我将从以下五个方面讲述 MLLMs 的发展:

  • Visual Representations

  • Evaluation Protocol

  • Instruction Tuning Recipe

  • Connector Design 

  • Instruction Tuning Data


  1. Visual Representations



在探讨计算机视觉领域模型时,我们首先从模型的表征入手。自2014-2015年以来,研究者们提出了许多特征提取模型,如基于ImageNet训练的经典模型、CLIP模型,以及自监督学习(SSL)模型。2020年至2023年间,诸如MAE、DINOv2、MiDas、SAM等创新模型也被用于特征提取。此外,还有 diffusion、depth、segmentation 和 SAM1、SAM2 等最新模型。


为了评估这些模型,我们测试了市场上表现最佳的23个公开视觉模型,以比较它们的适用性和性能。

  1. Evaluation Protocol


在深入讨论这些模型之前,必须解决一个先决问题:如何进行有效评估。

由于缺乏准确评估,我们无法判断哪些模型更为优越,因此我们需要从评估方法入手。


当前存在多种评估方法,如MMMU 评估大学生考试难度,MM-Bench测试一般性BQA,DocVQA专注于OCR能力,RealWorldQA 检验现实环境中的表现等。然而,系统性评估是一个挑战,我们希望看到一些简洁明了的指标。

为此,我们设计了以下两项实验来探讨这一问题。

Benchmark Analysis


  1. Access the "Multimodality" of the Benchmarks


  2. Group Benchmarks into Clusters


  • 首先,我们评估有哪些多模态的Benchmark,需要利用多模态去训练理解 Motion Model。

  • 其次,我们的目标是将不同的Benchmark进行分组,以便不仅观察到Benchmark的数量,还能评估每组模型的性能表现。


首先我们提出一个问题:是语言模型(LLM)在还是多模态大模型(MLLM)在回答问题?

为此我们训练了23个模型,包括启用视觉(vision enable)和禁用视觉(vision disable)两种模式。启用视觉模型(vision enable)就是正常执行视觉问答任务,而禁用视觉模型(vision disable)则在回答问题时去除图像,仅依据问题本身进行回答。

我们发现某些Benchmark对视觉依赖不强,或者在测试模型中不显著。同时有些模型在视觉标签绿色点与禁用视觉红色点之间离得较远,这表明某些模型更加依赖于视觉能力。


其次,我们希望对模型进行分类。鉴于我们拥有大量数据,因此进行了相关性分析,并绘制图表以观察不同Benchmark之间的相关性。如上图所示,如果两个Benchmark之间的相关性较高,那么它们本质上更为相似。图表的左上角和中心区域自然地聚集了许多高相关性的Benchmark,表明它们之间存在显著关联性。


我们将这种相关性进行了可视化处理,以便更清晰地展示。可以观察到Benchmark已经根据其特性被聚类为不同类别。

第一类是通用类别,例如MME Perception和GQA,这些主要评估模型的基础能力。

第二类是知识类别,如MMMU、MathVista、SQA等。它们更多地测试模型的知识水平,对视觉的依赖可能并不强烈。

第三类是OCM&Chart,主要测试模型对文本的理解能力。我们发现模型的OCR能力与模型本身能力不同,OCR是一种特殊技能,需要单独训练。

第四类侧重于Vision-Centric,这些Benchmark更需要视觉本身的能力。


究竟是LLM在回答问题还是MLLM在回答问题?我们发现知识类别位于左侧,对模型的视觉能力要求不高。OCR&Chart、General、Vision Centric将更加依赖模型的视觉处理能力。


我们发现General中bubble非常大,Vision-Centric的bubble非常小。实际上这种情况不太理想,这可能会导致模型在某些方面出现偏差。为解决这一问题,我们计划提出更多Vision-Centric Benchmark专门测量模型的视觉能力。


为评估模型的视觉能力,我们建议重新利用现有的视觉数据集,并借鉴语言模型发展之前的成果。具体方法是结合视觉相关的专业知识,创建新的Benchmark。MS COCO是一个提供分割、检测及3D模型理解的经典数据集。我们将这些数据集转化为 VQA Benchmark,以考察模型对2D空间关系和3D深度及相对距离的理解。


我们将充分利用已有的优秀Benchmark,如ADE20K、COCO、Omini3D等,通过程序生成的方式将其归类为四类,为确保Benchmark的有效性,我们将通过人工审核接受、修改或拒绝题目。最终我们得到了约2,700个题目,旨在通过新的Benchmark更准确地评估模型的视觉处理能力。


从Bubble Chart中可以看出,新的CV-Bench确实也归在 Vision-Centric里面,其数据量比以前的总和增加约3.5倍。因此我们的目标是为Vision-Centric提供一个更加精确的Benchmark以评估模型的视觉能力。

  1. Instruction Tuning Recipe


一旦我们对模型的视觉能力有了深入了解,接下来就是探索如何调整和优化模型。通过阅读相关文献,我们会发现不同研究推荐的调优方法各不相同。
在这个过程中,有两个关键点需要明确。首先,我们需要确定采用单一阶段还是两个阶段训练模型。其次,我们是否应该在训练过程中冻结vision backbone。


Instruction Tuning Recipe中,我们的实验涵盖了4种不同的设置:0M、0.5M、1.2M 和 1.2M on frozen (图示带小火花)。我们在实验中考察了三列不同的模型,如上图左边是clip,然后中间是SL,右边是其他模型,每列代表一个类别。图示有四行,每一行是一个种类,分别是General、Knowledge、OCR&Chart、Vision-Centric。

我们发现:

第一个特征是更多的对齐数据有助于训练 connector(即 vision 和 language 之间的联系)。显然,数据量越大,效果越好。

第二,即使在拥有大量数据的情况下,我们仍然需要 unfreeze vision backbone。视觉模型的发展并非一蹴而就,不能仅依赖于预训练,而是需要逐步谨慎地进行微调和优化,以实现更好的模态融合。


在确定评估和训练方法之后,我们可以进一步探讨应该使用哪种Visual Representation。我们将这些发现总结为23个模型,本研究涉及4个主要类别:General、Knowlege、OCR&Chart以及 Vision-Centric。在此研究中,我们通过研究三类曲线的走势。

  1. 首个发现指出语言监督模型普遍表现优异,其中CLIP模型的性能超越其他模型。因此推荐在当前阶段采用CLIP模型或者 CLIP Alignment 模型会更好。

  2. 第二个观察结果是在OCR&Chart 方面,模型之间的性能差异最为显著,而在 General、Knowledge 和 Vision-Centric则不明显。这种差异可归因于模型预训练数据的不同,例如SigLIP模型在100亿数据上进行预训练,而CLIP在4亿数据上进行预训练。目前其他最大的模型仅在约1亿数据上预训练,这种数据量的差异导致模型在处理OCR&Chart存在难度差异。

  3. 第三个发现是ConvNets在OCR中表现出色。我们提供了排名的结果,以便更清晰地展示这一点。在当前研究中,大多数研究者都在探索基于Transformer,VIT。我们发现ConvNets不仅效率高,而且在处理高分辨率图像时比VIT模型更为高效和有效。

  4. 第四个重要发现是在Vision-Centric的任务中,未经过语言训练的最佳SSL模型(Vision-Only SSL Model),也能取得很好的效果。


正如先前所述,不同模型之间的数据差异显著。我们通过从0.7 million到5 million增加数据量来弥补这一差距。在某些类别中,如General、Vision Centric模型间的数据差距可以逐渐缩小甚至被反超。这表明尽管现有模型的训练已经相当成功,但仍有改进的空间。SSL模型并非在所有方面都逊色于CLIP模型,而是有可能逐步弥补差距,Knowledge和OCR&Chart方面的差距正在扩大。


正如之前提到的,目前还没有完美的视觉模型。我们想探讨一个问题:是否可以通过组合不同模型来获得最佳结果。在当前的研究中,我们尝试构建了一套综合视觉模型系统。观察发现,随着组合更多视觉模型,系统性能显著提升。当模型数量增至3~4个时,性能增益达到饱和点。

然而,这种多模型集成策略存在两个主要问题:

  • 首先,不同模型设计用于处理不同规模的数据,所以假定所有模型处理相同分辨率的输入不合理;

  • 其次,均等关注所有视觉模型并不高效,有时需要依据特定任务调整对模型的关注程度。

  1. Connector Design



为了解决多模型集成的效率问题,我们探索了Connector Design,提出了一个包括Flamingo、Resampler、LLAMA 和 GPT 模型的复杂方案。通过引入可学习的tokens,使用交叉注意力机制访问编码器的不同区域,保留自然分辨率特性,并多次重复使用此模块,提升了OCR&Chart和Vision-Centric的性能。
这一发现说明我们为何需要对Benchmark进行分类,以便更准确地评估各类模型的性能。我们发现,在大型语言模型(LLM)中,多次聚合的方法能带来显著的性能提升。

  1. Instruction Tuning Data



我们讨论了多模态大模型的数据问题。与语言模型不同,训练多模态模型时高质量的图片问答数据较难获取。为此,我们首先收集了约八九十个开源数据集用于训练,但科学等领域的数据尤其匮乏。

为了生成更多数据,我们设计了一个数据引擎,自动从网上搜集信息并生成问答内容。这个引擎基于特定领域,如物理学,将其分解为小词汇,再用语言模型生成视觉问答数据。这一方法使我们生成了16万条数据,比以往多4倍。


我们采用三种手段进行数据清洗:数据平衡、数据比率优化、数据预处理。


数据平衡用于过滤。在图表中,横坐标x轴代表各个数据源,而纵坐标y轴显示截至每个数据源的累积数据量。分析发现,若未对数据执行清洗操作,当数据源增至第70至75个时,数据量将呈指数级增长。这种现象主要是由于某些数据源的数据量极大,可达300万条,而整个数据库仅含1,000万条数据。若单一数据源即占300万条,则可能在训练过程中导致数据源偏差。因此,我们采取过滤措施以设定数据阈值。与先前研究一致,存在一个最佳的中间结构:若每个数据集分配25-30万条数据,模型的训练效果最佳。数据筛选过多或过少均不利于模型训练。

在进一步研究中,我们关注了不同类别数据的配比问题。由于数据涵盖语言、基础问答、OCR及数字等多个领域,我们旨在寻找平衡点以优化各类数据的配比。经过多次实验,最终确定了5个表现最优的类别配比:约20%的语言类数据、35%的通用类数据、27%的OCR类数据、8%的数字类数据以及约7%的科学类内容。在此配比下,模型的性能达到最优。


应用这些研究成果进行模型训练,与以往如LLaVA等工作相比,当数据量扩展至1,000万时,模型性能显著提升。随后,我们将数据量减至700万并加强数据清洗,虽然数据总量减少,但模型性能进一步提升,凸显了数据清洗的重要性。完成训练后进行测试,模型表现出色。然而,在实际应用中发现,该模型虽能高效回答问题,却在执行其他任务上显得不足。


例如,在被询问描述图像或宠物猫时,模型的回答虽正确但缺乏详细描述,显示出其局限性。同样,在提供旅游建议时,模型仅简单回答“纽约市”,未能提供更丰富的信息,这反映出模型在处理非问答类任务时的不足。


为了解决此问题,我们研究了数据清洗技术,旨在提升数据的显著性,并强调系统提示的重要性。在训练阶段,我们需要为模型提供明确的指示,指明训练数据的应用目的及所需完成的任务。通过这种方法,我们发现模型性能得到改善,在Benchmark不降低的情况下,输出的领域相关性明显增强。例如,在描述猫时,模型不仅简单地指出“这是一只猫”,而是能够提供详细且有意义的描述,如“这只猫在浴缸中”。作为用户,我更倾向于看到这种生动且有温度的回答,而非单调冷漠的描述。

结合所有经验,我们最终开发了一个名为“Cambrian-1”的模型。可以看到,我们将最先进水平Sota灰化了。尽管我们的模型在Benchmark中表现优异,但与GPT、Claude和Gemini等其他模型相比,它展现出了竞争力。然而,我们认为这个模型不会真正达到GPT的水平。


模型性能与挑战

尽管模型在问答任务中表现良好,但在描述图像或提供详细信息时表现不佳。这表明当前的数据清洗和训练方法仍有改进空间。为解决这一问题,我们加强了系统提示(system prompt)的使用,明确模型的训练目标。结果,模型在任务相关性和输出细节上有所改善。

模型与Benchmark

我们开发了“Cambrian-1”模型,尽管在Benchmark中表现良好,但与GPT等闭源模型相比仍有差距。这主要是因为当前的Benchmark未能全面捕捉模型的对话能力、创造力等方面。因此,我们希望开发更好的Benchmark,准确展示这些差距,推动开源模型的发展。

视觉标记与数据处理


后缀.jpg

#阿里云 #创新创业 #创业扶持 #创业资讯

我们关注国内外最热的创新创业动态,提供一站式的资讯服务,实时传递行业热点新闻、深度评测以及前瞻观点,帮助各位创业者掌握新兴技术趋势及行业变革,洞察未来科技走向。

>>>点击进入 更多创新创业资讯

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问