变压器的混合:多模式基础模型的稀疏和可扩展的架构

阿里云创新中心> 创业资讯> 变压器的混合:多模式基础模型的稀疏和可扩展的架构
0

变压器的混合:多模式基础模型的稀疏和可扩展的架构

Micheli 2024-11-11 00:00:00 296
该论文介绍了混合Transformer(MoT)架构,这是一种旨在增强多模态基础模型效率的新方法,用于处理和学习文本、图像和语音等多种数据类型。MoT架构通过按模态解耦非嵌入参数,实现了模态特定处理,同时利用全局自注意机制。这导致了计算成本的显著降低,并加速了预训练过程。MoT最引人注目的方面之一是,在Chameleon和Transfusion设置中,它能够在需要更少的每秒浮点运算次数(FLOPs)的情况下,与甚至超越密集基线模型的性能相匹配。
该论文介绍了混合Transformer(MoT)架构,这是一种旨在增强多模态基础模型效率的新方法,用于处理和学习文本、图像和语音等多种数据类型。MoT架构通过按模态解耦非嵌入参数,实现了模态特定处理,同时利用全局自注意机制。这导致了计算成本的显著降低,并加速了预训练过程。 MoT最引人注目的方面之一是,在Chameleon和Transfusion设置中,它能够在需要更少的每秒浮点运算次数(FLOPs)的情况下,与甚至超越密集基线模型的性能相匹配。该架构在各种模态和规模上展现出持续的改进,以速度和验证损失方面超越了密集模型和Mixture-of-Experts(MoE-4x)模型。 MoT的多功能性进一步突显了它与其他稀疏架构结合的潜力,增强了性能并保持了效率。这使其成为大规模多模态生成任务的有前途的选择,为更具计算效率的多模态模型铺平了道路。 对于人工智能和机器学习领域的研究人员和从业者,特别是那些专注于多模态学习和生成任务的人来说,MoT架构呈现了一项重大进展。它能够以降低的培训成本和时间交付高性能,使其成为那些希望推动基础模型可能性边界的人的有吸引力选择。- Mixture-of-Transformers (MoT)是一种稀疏的多模态生成模型框架,可以减少预训练计算成本。 - MoT通过模态解耦实现模态特定处理和全局自注意力。 - 在Chameleon设置中,MoT在减少FLOPs的同时与密集模型性能相匹配。 - 在包含语音的情况下,MoT在减少FLOPs的同时实现了与密集模型相媲美的语音性能。 - 在Transfusion设置中,MoT在图像生成指标上优于或与密集模型相匹配。 - MoT在较短的时间内实现了与密集模型相当的图像质量。 - MoT在效率和性能方面始终优于Mixture-of-Experts (MoE)模型。 - MoT可以与其他稀疏架构结合以进一步提高性能。 - MoT在7B规模的预训练中加速,以较短的时间实现相当的性能。 - MoT在Chameleon设置中的多个模型规模下展示了显著的加速和效率提升。 - MoT是一种加速预训练并改善多模态任务性能的模型架构。 - 在Chameleon设置中,MoT在不同规模下的图像模态实现了显著的加速,优于密集和MoE-4x模型。 - 在Chameleon设置中,MoT在文本模态上与MoE-4x和密集模型相比表现出相当或稍好的性能。 - 在Chameleon设置中,MoT在语音模态上始终优于密集和MoE-4x模型,展示了其可扩展性和可靠性。 - 在Transfusion设置中,MoT加速了图像模态的预训练,优于密集和MoE-4x模型。 - 在Transfusion设置中,MoT在图像生成指标(如CLIP分数和FID分数)上始终实现更好的性能,优于密集模型。 - MoT在图像和文本模态的不同模型规模下保持了效率和性能。 - 经过微调,MoT模型在图像生成能力上优于密集模型。 - 该模型可以生成包含文本和图像混合的序列。 - 通过扩展训练和使用更大的模型和更多的数据,可以进一步改进该模型。 - MoT是一种稀疏且可扩展的多模态模型预训练架构。 - MoT优化了模态特定处理,同时保留了跨模态交互。 - MoT实现了训练成本的显著降低,并保持了竞争性能。 - MoT可以从头开始训练,并为更高效的大规模多模态模型提供了路径。 - 该模型包括一个单一的Transformer来处理组合序列,无论模态如何。 - 添加模态特定模块将输入映射到共享的高维向量空间。 - 该模型使用包括语言建模和扩散损失在内的组合损失函数进行训练。 - 在推理过程中,该模型在语言建模和扩散采样模式之间交替。 - 经过微调,MoT模型在图像生成能力上优于密集模型。 - 该模型可以生成包含任意文本和图像混合的序列。 - 通过扩展训练和使用更大的模型和更多的数据,可以进一步改进该模型。 - 图24显示了在Chameleon设置下,对Obelisc数据集进行评估时,图像和文本模态的训练和验证损失。MoT在图像模态上始终提供了显著的加速优势,且随着模型规模的增加,优势逐渐增大。在文本模态中,MoT和MoE-4x都优于密集模型,MoT表现出相当或稍好的性能。 - 图25显示了在Chameleon+Speech设置下,对Obelisc数据集进行评估时,图像和文本模态的训练和验证损失。MoT在图像和文本模态的验证损失上都展现出一致且显著的改进,表明其在不同规模上的高效性和稳健性。 - 图26展示了在Transfusion设置下,跨模型规模的文本模态特定训练损失和步骤匹配情况。对于文本模态,MoT在C4和Wikipedia数据集上的训练和验证损失与密集模型相匹配,并在字幕任务的泛化性能上有所提升。MoE-4x在文本评估指标上表现不稳定,训练损失较低但泛化性能较差。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等