采用LPLM模型的多模态切割方法,全面提升了分割挑战中的鲁棒性和完整性。
获得三项国际冠军
nuScenes lidar semantic segmentation
ScanNetV2 3D Object Detection
Road Estimation Evaluation
The following article is from 有鹿具身智能大脑实验室 Author 鹿人甲
专业设备和机器人的通用具身智能大脑
今天跟大家分享来自元璟人工智能领域投后项目“有鹿机器人”的前沿技术进展。
有鹿即将发布的 LPLM 2.4版本,在国际人工智能顶级竞赛上为中国拿下8个冠军。并在多个项目中以绝对领先的分数打败了NVIDIA,Google、Meta(Facebook)、三星等海外科技巨头!
我们祝贺有鹿!并与大家分享相关技术进展的细节。
有鹿的全系产品会在25年Q1收到该版本的OTA!
LPLM模型为何领先?
目前机器人的技术路线主要分为GPS定位算法和SLAM定位算法两类。而有鹿采用端到端大模型的思路,这不仅能更好的解决传统算法的定位导航与紧急避障等问题,还可以实现动态博弈式的三维空间路径规划与控制,更可以让机器人理解物理世界和语言世界的关系,让机器人进入通用机器人时代。
有鹿创新式的设计了“三维纹理占用网格序列即语义“的tokenizaer技术,并采用超级标签对齐技术,突破性的创造了一种描述物理世界的语言体系,称之为 Large physics language model,简称 LPLM 模型。
采用LPLM模型的多模态切割方法,全面提升了分割挑战中的鲁棒性和完整性。
获得三项国际冠军
nuScenes lidar semantic segmentation
ScanNetV2 3D Object Detection
Road Estimation Evaluation
在如下室外场景中,点云图中的锥桶实际上上只打到几个点,如果单纯依赖点云召回是非常困难的,在有鹿的模型里加入图像后,在点云图中可以容易找回来(红点显示)。
在如下室内场景中,图所示的垃圾桶属于长尾类别,在3d空间下较难识别,但是借助预训练好的2d视觉encoder可以轻松识别。
采用LPLM模型的三维纹理占用网格技术,丰富了传感器的感知内容和表达能力,创造出了“完美传感器”,使得感知识别效果有了质的提升。
获得四项国际冠军
KITTI Instance Sementation
KITTI Depth Completion
KITTI Road Estimation
Argoverse 2 2024 Scene Flow Challenge
效果如下图所示:上面是PLARD方法,下面是有鹿的方法。在前后两辆车的停车区域,都正确识别了道路分割,在实际应用中对于机器人(例如扫地机)的贴边工作有更精准的效果。
同样的,在拥挤的窄道,可以提升过窄道的能力,同时因为稳定的检测边缘能力,降低机器人过窄道时因为传感器抖动造成的卡停现象。
LPLM模型本质就是一种物理世界描述语言,天然具备出色prompt和3D grounding的能力。
获得以下国际冠军
Talk2car Referring expression comprehension
评论