在机器人领域,MiniVLA模型凭借其显著的进步脱颖而出,为广泛使用的OpenVLA提供了更高效的替代方案
Micheli
2024-12-19 00:00:00
422
在机器人领域,MiniVLA模型凭借其显著的进步脱颖而出,为广泛使用的OpenVLA提供了更高效的替代方案。由斯坦福大学的Suneel Belkhale和Dorsa Sadigh撰写,该模型将参数数量从70亿减少到10亿,而不降低性能,在Libero-90基准测试中取得了令人印象深刻的82%的成功率。值得注意的是,MiniVLA融合了创新功能,如用于动作分块的矢量量化和多图像支持,包括手腕图像和图像历史。这些增强不仅提高了模型的性能,还提高了其速度,MiniVLA的运行速度比其前身快2.5倍。
在机器人领域,MiniVLA模型凭借其显著的进步脱颖而出,为广泛使用的OpenVLA提供了更高效的替代方案。由斯坦福大学的Suneel Belkhale和Dorsa Sadigh撰写,该模型将参数数量从70亿减少到10亿,而不降低性能,在Libero-90基准测试中取得了令人印象深刻的82%的成功率。值得注意的是,MiniVLA融合了创新功能,如用于动作分块的矢量量化和多图像支持,包括手腕图像和图像历史。这些增强不仅提高了模型的性能,还提高了其速度,MiniVLA的运行速度比其前身快2.5倍。对于机器人领域的研究人员来说,MiniVLA代表着在创建更紧凑高效的视觉-语言-动作模型方面的一大飞跃。- MiniVLA是OpenVLA的轻量级版本,参数数量减少了7倍,但在Libero-90上的性能相当。
- MiniVLA使用Qwen 2.5 0.5B作为骨干网络,保留了OpenVLA的ViT进行视觉编码。
- MiniVLA在Libero-90上的任务成功率为61.4%,与OpenVLA相比没有显著差异。
- MiniVLA的推理速度比OpenVLA快2.5倍。
- 使用矢量量化的动作分块可以提高模型性能,在Libero-90上的任务成功率达到77%。
- 添加多图像支持和手腕图像可以进一步提高任务成功率,达到82%。
- MiniVLA是一个开源项目,可在GitHub上找到完整的代码和指令。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论