文本到图像生成领域的重大进展

阿里云创新中心> 创业资讯> 文本到图像生成领域的重大进展
0
0

文本到图像生成领域的重大进展

阎荟 2024-10-21 00:00:00 322
在人工智能领域,题为《Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens》的论文展示了文本到图像生成领域的重大进展。
在人工智能领域,题为《Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens》的论文展示了文本到图像生成领域的重大进展。由Yonglong Tian领导的作者团队深入探讨了有效扩展自回归模型以用于视觉任务的挑战,这一壮举在大型语言模型的发展中具有变革性,但在视觉领域的影响较小。研究的实证发现表明,使用连续标记的模型产生的图像质量更高,而不是使用离散标记。此外,研究揭示了生成标记的顺序(随机与固定栅格)对评估性能有重大影响。这项研究的结晶是引入了Fluid,这是一种基于连续标记的尖端随机顺序自回归模型。Fluid在MS-COCO 30K数据集上以令人印象深刻的零样本FID分数和GenEval基准测试的整体得分创下了新的基准。对于那些对视觉和语言模型的融合以及更复杂的图像生成技术的追求感兴趣的人来说,这篇论文尤为重要。- 本文研究了文本到图像生成中的扩展问题。 - 关注了离散或连续令牌的模型以及使用BERT或GPT等变压器架构生成令牌的随机或固定光栅顺序两个关键因素。 - 实证结果显示,基于连续令牌的模型在视觉质量方面优于使用离散令牌的模型。 - 生成顺序和注意机制对GenEval分数有显著影响,随机顺序模型的GenEval分数优于光栅顺序模型。 - Fluid 10.5B模型在MS-COCO 30K上实现了6.16的零样本FID的最佳成绩,并在GenEval基准测试中获得了0.69的总体分数。 - 希望这些发现能够鼓励进一步弥合视觉和语言模型之间的扩展差距。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等