作为动作模型的生成图像

阿里云创新中心> 创业资讯> 作为动作模型的生成图像
0

作为动作模型的生成图像

Micheli 2024-07-11 00:00:00 238
在一项名为“生成图像作为动作模型”的开创性研究中,研究人员对图像生成扩散模型进行了微调,这些模型以创建高质量合成图像而闻名,目的是用于视觉运动控制。该研究提出了GENIMA,一个创新的行为克隆代理,它调整了稳定扩散模型在RGB图像上“绘制联合动作”。这些图像随后被控制器解释,以执行一系列的联合位置动作,有效地使机器人能够通过视觉解释绘制的动作来执行任务。
在一项名为“生成图像作为动作模型”的开创性研究中,研究人员对图像生成扩散模型进行了微调,这些模型以创建高质量合成图像而闻名,目的是用于视觉运动控制。该研究提出了GENIMA,一个创新的行为克隆代理,它调整了稳定扩散模型在RGB图像上“绘制联合动作”。这些图像随后被控制器解释,以执行一系列的联合位置动作,有效地使机器人能够通过视觉解释绘制的动作来执行任务。 这种方法已在25个RLBench和9个真实世界操纵任务上进行了测试,结果表明GENIMA在对场景变化的鲁棒性以及泛化到新物体的能力方面,可以胜过最先进的视觉运动方法。值得注意的是,GENIMA实现了这些成果,而不依赖于常见的机器人先验知识,如深度感知、关键点或运动规划器。这项研究可能标志着机器人控制领域的一个重大飞跃,对于那些对AI生成图像和机器人技术交叉领域感兴趣的人来说,这是一篇必读的文章。- GENIMA是一种行为克隆代理,通过将图像转化为关节位置序列来实现“绘制联合动作”。 - GENIMA在25个RLBench和9个真实世界的操作任务上进行了研究。 - 通过将行动转化为图像空间,互联网预训练的扩散模型可以生成优于最先进的视觉运动方法的策略。 - GENIMA的策略在场景扰动的鲁棒性和对新对象的泛化方面表现出色。 - 尽管缺乏深度、关键点或运动规划器等先验知识,GENIMA与3D代理具有竞争力。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问