文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
Micheli
2024-10-07 00:00:00
262
Playground Research发布了最新的AI驱动图形设计创新,推出了PGv3,一个拥有240亿参数的文生成图模型。
Playground Research发布了最新的AI驱动图形设计创新,推出了PGv3,一个拥有240亿参数的文生成图模型。该模型在图形设计任务中声称超越了人类能力,以前所未有的准确性回应文本提示。PGv3的独特之处在于其深度融合大型语言模型(LLMs),这使得对提示的解释更加细致,包括复杂推理和文本渲染。该模型的架构受DiT启发,具有高级元素如U-Net跳跃连接、标记下采样和位置嵌入,实现了精细的色彩控制和多语言支持。PGv3的潜力巨大,应用范围从制作贴纸到设计书籍封面,为用户提供对图像中颜色的精确控制。对于那些对AI和图形设计前沿感兴趣的人来说,PGv3的发布是一个值得探索的发展。- Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师。
- PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进行文本到图像生成任务。
- PGv3模型在常见的设计应用中,如表情包(stickers)、海报和logo设计,具有超越人类的图形设计能力,还能够精确控制RGB颜色和多语言理解。
- PGv3模型采用了DiT风格的模型结构,图像模型中的每个Transformer块都设置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同。
- PGv3能够生成各种类别的图像,包括海报、logo、表情包、书籍封面和演示幻灯片,具有异常精细的颜色控制能力和多语言理解能力。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论