任务偏好最优化：用视觉任务对齐改进多峰值大语言模型

阎荟 2024-12-30 00:00:00 233

这篇名为《任务偏好优化：通过视觉任务对齐改进多模态大型语言模型》的论文介绍了一种名为任务偏好优化（TPO）的新方法，以提高多模态大型语言模型（MLLMs）在视觉任务中的性能。由Ziang Yan、Zhilin Li、Yi Wang等人组成的团队撰写，这项研究解决了MLLMs在细粒度视觉理解方面的挑战。关键创新在于使用可学习的任务标记，将任务特定头部连接到MLLM，利用视觉标签提高多模态能力。值得注意的是，该方法在多模态性能方面相比基线模型实现了显著的14.6%改进，并展现出有前景的零样本能力。这可能会改变需要精确视觉理解和推理的应用程序，对于对最前沿人工智能和机器学习进展感兴趣的人来说，这可能是一篇有价值的阅读。作者还承诺发布代码，这可能会引起该领域从业者的极大兴趣。- 当前的多模态大型语言模型（MLLMs）在细粒度或精确理解视觉方面存在困难 - 最近的研究要么开发工具，要么将特定的视觉任务统一到自回归框架中，但往往以整体多模态性能为代价 - 提出了任务偏好优化（TPO）方法，利用了从典型的细粒度视觉任务中得出的可微分任务偏好 - TPO引入了可学习的任务标记，建立了多个任务特定头部和MLLM之间的连接 - 通过在TPO中进行多任务共同训练，观察到协同效应的好处，使得个别任务的性能超过了单任务训练方法所能达到的水平 - 使用VideoChat和LLaVA对这种方法进行了实例化，相比基线模型，多模态性能整体提高了14.6% - MLLM-TPO在各种任务上表现出强大的零样本能力，与最先进的监督模型相当 - 代码将在https://github.com/OpenGVLab/TPO发布

登录后可评论

上一篇：为什么MAMBA没有流行起来？

下一篇：英诺赛科成功上市港股，募资13.99亿港元

上一篇：为什么MAMBA没有流行起来？下一篇：英诺赛科成功上市港股，募资13.99亿港元