北京大学与智元机器人联合实验室发布OmniManip：显著提升机器人3D操作能力

阎荟 2025-01-24 00:00:00 130

北京大学与智元机器人联合实验室发布OmniManip：显著提升机器人3D操作能力。OmniManip通过整合视觉语言模型（VLMs）与机器人操作，解决了3D理解和动作输出的挑战。该系统基于围绕物体的3D交互原语设计，结合了VLM规划和机器人执行的闭环系统设计。OmniManip在各种机器人操控任务中展现出强大的零样本泛化能力，系统设计简单高效，计划发布代码和测试平台。OmniManip相比之前的方法实现了17%的性能提升，它在物体的规范空间中提取交互原语，确保了可靠的规划。OmniManip有望与高级任务规划器和不同的机器人形态集成，已应用于数字资产的自动注释和合成管道。研究团队计划发布一个通用操作数据集和仿真评估基准。- 北京大学与智元机器人联合实验室发布了OmniManip技术，提升机器人的3D操作能力。 - OmniManip基于以对象为中心的3D交互基元，将VLM的推理能力转化为机器人的动作。 - OmniManip通过双闭环系统解决了大模型幻觉问题和真实环境操作的不确定性。 - OmniManip是一种免训练的开放词汇操作方法，具备零样本泛化能力。 - OmniManip的关键设计包括任务解析、交互基元、闭环规划和闭环执行。 - OmniManip的交互基元在物体的规范空间中进行采样，实现可靠的3D交互基元提取。 - OmniManip具有通用泛化能力，适用于不同形态的机械臂。 - 研究团队将开源泛化操作数据集和仿真评测基准。

登录后可评论

上一篇：静态人工智能视频再见🪦，今天我们推出了动态控制。这样你的虚拟形象可以弹吉他、跳TikTok舞蹈，甚至是翩翩起舞

下一篇：Bespoke-Stratos-17k ——全新的推理数据集

上一篇：静态人工智能视频再见🪦，今天我们推出了动态控制。这样你的虚拟形象可以弹吉他、跳TikTok舞蹈，甚至是翩翩起舞下一篇：Bespoke-Stratos-17k ——全新的推理数据集