用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景

阿里云创新中心> 创业资讯> 用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景
0
0

用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景

阎荟 2024-05-29 00:00:00 443
在图像编辑领域取得了一项重要进展,北京大学、Tiamat AI、天宫AI和Mila实验室合作推出了EditWorld,这是一种新型的世界指导图像编辑模型。该模型在一个独特的多模态数据集上进行训练,利用了GPT-3.5、Video-LLava和SDXL等预训练模型来模拟图像编辑任务中的真实世界物理现象。EditWorld在创建能够准确反映物理世界动态的图像方面,超越了现有方法,达到了最先进的水平。这一进展对于对人工智能和逼真图像处理交叉领域感兴趣的人来说非常重要。研究成果已通过发表论文和在GitHub上发布

在图像编辑领域取得了一项重要进展,北京大学、Tiamat AI、天宫AI和Mila实验室合作推出了EditWorld,这是一种新型的世界指导图像编辑模型。该模型在一个独特的多模态数据集上进行训练,利用了GPT-3.5、Video-LLava和SDXL等预训练模型来模拟图像编辑任务中的真实世界物理现象。EditWorld在创建能够准确反映物理世界动态的图像方面,超越了现有方法,达到了最先进的水平。这一进展对于对人工智能和逼真图像处理交叉领域感兴趣的人来说非常重要。研究成果已通过发表论文和在GitHub上发布代码的方式公开,为AI图像编辑领域的开发者和研究人员提供了宝贵的资源。- 北大天工团队提出了一种名为EditWorld的图像编辑方法,可以模拟物理世界场景。 - EditWorld引入了世界指令图像编辑任务,定义和分类基于世界场景的指令。 - 使用预训练模型建立了一个带有世界指令的多模态数据集。 - 在该数据集上训练了一个基于扩散的图像编辑模型EditWorld,结果表现优于现有的编辑方法。 - 现有的图像编辑方法在处理真实物理世界和虚拟媒体中的世界动态方面存在困难。 - 团队定义并分类了各种世界动态指令,并创建了一个多模态训练数据集。 - 使用精心制作的数据集训练了一个文本引导的扩散模型,并提出了一种零样本图像操作策略。 - 团队将世界指令图像编辑分为7种类别,并提供了数据样例。 - 团队设计了文本到图片生成和视频分镜提取两个分支来获取数据集。 - 通过从视频中提取关键帧作为编辑数据,向数据集中添加真实数据。 - 团队对生成数据进行了人工recheck,提升数据质量。 - 团队对InstructPix2Pix模型进行了finetune,并提出了post-edit策略来保护非编辑区域实现更精确的编辑。 - 团队的方法可以很好地实现世界指令图像编辑。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等