文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

Micheli 2024-10-07 00:00:00 415

Playground Research发布了最新的AI驱动图形设计创新，推出了PGv3，一个拥有240亿参数的文生成图模型。

Playground Research发布了最新的AI驱动图形设计创新，推出了PGv3，一个拥有240亿参数的文生成图模型。该模型在图形设计任务中声称超越了人类能力，以前所未有的准确性回应文本提示。PGv3的独特之处在于其深度融合大型语言模型（LLMs），这使得对提示的解释更加细致，包括复杂推理和文本渲染。该模型的架构受DiT启发，具有高级元素如U-Net跳跃连接、标记下采样和位置嵌入，实现了精细的色彩控制和多语言支持。PGv3的潜力巨大，应用范围从制作贴纸到设计书籍封面，为用户提供对图像中颜色的精确控制。对于那些对AI和图形设计前沿感兴趣的人来说，PGv3的发布是一个值得探索的发展。- Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师。 - PGv3完全集成了大型语言模型（LLMs），基于全新的深度融合（Deep-Fusion）架构，利用仅解码器（decoder-only）大型语言模型的知识，来进行文本到图像生成任务。 - PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确控制RGB颜色和多语言理解。 - PGv3模型采用了DiT风格的模型结构，图像模型中的每个Transformer块都设置得与语言模型（Llama3-8B）中的对应块相同，仅包含一个注意力层和一个前馈层，参数也相同。 - PGv3能够生成各种类别的图像，包括海报、logo、表情包、书籍封面和演示幻灯片，具有异常精细的颜色控制能力和多语言理解能力。

奇绩创坛

>>>了解更多创新创业资讯

登录后可评论

上一篇：黄仁勋谈AI与能源技术

下一篇：Reflection-70B模型发布后的技术反思

上一篇：黄仁勋谈AI与能源技术下一篇：Reflection-70B模型发布后的技术反思