对话星动纪元陈建宇:定义通用具身智能体 | 硬币的另一面

阿里云创新中心> 创业资讯> 对话星动纪元陈建宇:定义通用具身智能体 | 硬币的另一面
0
0

对话星动纪元陈建宇:定义通用具身智能体 | 硬币的另一面

硬币的另一面 2024-12-13 12:32:08 374
90后清华博导讲述他亲历的AI如何加速通用具身智能。

对话星动纪元陈建宇:定义通用具身智能体 | 硬币的另一面

硬币的另一面 清流资本 2024年12月13日 12:32


清流资本在过去十年捕捉了TMT、消费、硬科技等主流行业下的多个细分赛道冠军,也建立了投得“稳”、“准”、“精”的基金形象。近年,清流资本推出原创科技专栏——“硬币的另一面”,通过清流合伙人和科技企业创始人对话的形式,讲述当前创投形势下,那些科技类被投企业的故事。清流资本将持续关注新兴科技赛道。


今天,我们对话的主角是星动纪元的创始人陈建宇


本文包含以下内容,阅读需要12分钟。

 • 投身机器人科研13年,中国原创科技引领全球

 • AI加速具身智能,坚定原生通用人形

 • 搭乐高一样做机器人,连推六代人形本体

 • 小步快跑商业化,清流是赋能型投资人

 • 清流为何投资星动纪元


北京星动纪元科技有限公司成立于2023年8月,是唯一一家清华大学占股,并获上海期智研究院支持的,研发具身智能及通用人形机器人的新兴科技公司。团队成员来自清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业,研发人员占比超过80%。

星动纪元的创始人陈建宇,2015年本科毕业于清华大学精密仪器系,这是国内最早从事双足人形机器人研究的单位之一。后直博于加州大学伯克利分校(UC Berkeley),师从美国工程院院士、机电控制先驱、MPC(模型预测控制)算法理论奠基人Masayoshi Tomizuka教授。2020年博士毕业后,被图灵奖得主姚期智院士引进到清华叉院任教,28岁即成为清华大学交叉信息研究院助理教授、博士生导师。陈建宇在机器人、人工智能、控制、交通等领域的国际顶级会议和期刊上发表了七十余篇论文,其中多篇论文获得了RSS 2024、L4DC 2022、IEEE IV 2021、IFAC MECC 2021等国际顶级学术会议的优秀论文提名奖。

公司成立一年以来,人形机器人产品已经迭代到第六代——星动STAR 1,目前已经通过了一系列极限测试,性能已达世界顶尖水平,被认为是全球跑得最快、最稳的人形机器人。此外,公司基于模块化的能力,迅速从人形机器人中分化出了灵巧手和轮式机器人等场景级产品,使得原本遥远的人形机器人商业化路径得以更快落地,帮助公司实现了初步商业化。


星动纪元创始人陈建宇


投身机器人科研13年

中国原创科技引领全球


清流:请先简单介绍一下星动纪元?

陈建宇:星动纪元是专注于做原生具身通用智能体的科技公司,2023年从清华大学孵化出来的。我们希望做出真正原生的机器人,以及围绕AI构建的整套硬件平台。


清流:近两年具身智能赛道随着AI大模型的出现急速升温,和你选择开始创业的Timing有关吗?

陈建宇:我就是一直在做(具身智能)这件事,只是做着做着这个赛道火了。甚至可以说,今天具身智能火起来也有我们的一部分贡献


清流:怎么说?

陈建宇:我一直以来的梦想就是做通用的机器人。2011年上大学开始,我就在研究机器人,我本科在清华做的毕业设计就是双足机器人的步态规划。后来到UC Berkeley 直博也一直从事机器人领域的研究。博士毕业后,我有幸获得姚期智院士的认可,被他引进到清华叉院任教,并启动了通用机器人的研究课题。


2022年末ChatGPT刚出来,我就提出要把大模型的强大能力和机器人结合起来,实现AI与物理世界的交互——做通用具身智能。要实现这个终极目标需要强大的工程能力和资金支持,学校的工程资源有限,所以我们就开始筹备成立公司。


2023年,我们团队发表了世界上第一篇用大语言模型赋能人形机器人决策的文章。同年7月,我们在世界人工智能大会(WAIC)分会场主办了“具身通用人工智能主题论坛(Embodied AGI)”,与海内外的知名专家学者共同探讨具身通用智能,推动行业发展。


现在无论是国家层面,还是投资人、产业方,对具身智能的关注和投入的确越来越多了。


清流:很多人认为具身智能是中国原创科技引领全球的新高地,你怎么看?

陈建宇:每一波新的科技出现,中美的差距都在逐步缩小。从芯片到AI领域,中国企业的追赶速度越来越快。具身智能领域中美的差距就更小了,都在起步期,大家都是摸索前进。可能过去美国积累了一定的人才优势,但中国也有产业链优势可以与之形成分庭抗礼之势。甚至,我认为中国反而会比其他国家跑得更快。


机器人的算法能力决定产品力天花板,硬件端能力保障类人运动功能的实现,两者缺一不可。硬件在很大程度上会影响算法的performance,海外在硬件上的不足会反向拖慢他们的软件迭代速度。美国这一波机器人硬件端现在主要就看特斯拉了。


中国对具身智能的重视和关注度更高,很多地方政府和国资都在快速发力支持具身智能,中国也有很多原创性的人才(机器人顶尖学府如伯克利、斯坦福、MIT的教授是外国人,但学生都是来自清华、北大、交大等等国内高校的华人在推进出下一代成果)。而且,中国还有全球最大的机器人硬件产业链优势,参照中国新能源车的发展路径,我们在具身智能领域可能会更快领跑,有望实现中国原创技术引领全球。


清流:中国具身智能领域目前的瓶颈有哪些?星动纪元如何突破?
陈建宇:从技术层面来看,我认为所存在的瓶颈在未来都是可以去突破的。现在行业内讨论最多的硬件、算法、数据这三个最核心的环节,任一环节出现瓶颈都会制约具身智能的发展所以星动纪元现阶段坚持全栈自研,主动去发现关键环节上的问题、逐一攻坚,目前已取得了一些突破性的进展:

硬件端,基于我们在双足领域的积淀,已经推出了全球户外性能最强、跑得最快的人形机器人本体,实现了让机器人从“能动”迅速迭代到“走得稳、跑得快”。未来将继续迭代,让它可以走得更久、更稳;手部操作方面,我们自研了全球综合性能最高的灵巧手,后续会随着产品化进一步提升其耐久度和稳定性。

算法端,目前多数产学研都在研究如何将大脑、小脑、末端控制的分层框架进行融合。星动纪元背靠全球顶尖学府清华的科研资源,领先推出了自研的原生机器人大模型框架,率先实现了端到端、多模态、多策略的算法框架。目前,我们的手部操作是全球首个灵巧手端到端大模型,腿部运控也已经实现了真机全地形、全步态泛化的能力。基于此,我们会继续让机器人摒弃人类先验、通过自我探索和学习,更早实现具身智能的Scaling law。

数据是具身智能领域的稀缺资产和资源,想要实现具身智能,需要大量的高质量数据给机器人学习。我们的解题思路还是基于第一性原理,先广泛地从各个领域获取多模态(语音、视觉、触觉等)的信息输入,比如互联网数据/图像/视频、现实中的动捕、虚拟的仿真/合成数据,并结合摇操作和现场部署实际收集回来的数据,去反哺我们的原生大模型,提升其理解、学习和优化能力,并对我们的硬件迭代提供不同场景参数。

AI加速具身智能

坚定原生通用人形


清流:研究机器人这13年,你亲历了AI如何推动具身智能发展,和我们分享一下这个过程?

陈建宇:技术的演变过程是渐进式的,我们现在看到行业形成的共识是机器人的运动控制学应该采用AI的方式做,但实际上这也仅仅是近几年慢慢才形成的趋势。


本科期间我就一直在思考机器人本质的问题,同时对AI一直保持密切关注,当我看到有人用强化学习(Reinforcement Learning,RL)做出来一些简单的Demo,觉得非常神奇、非常有前景。但那时还没法把它和机器人结合起来,因为要把RL引入到机器人有一个先决条件——必须能实现在连续的空间里做任务,因为机器人在物理实验中是连续的,此前的技术没法达到这个条件。2016年左右,深度强化学习的出现使得我们可以在连续空间做任务了,我就开始往这个方向专门去做一些研究。


清流:那时做RL算很超前了吧?

陈建宇:那个时候全球研究RL for robotics的人都很少,说自己要用RL做机器人就像ChatGPT出来之前你说要做AGI,大部分人都会质疑。但我很清楚它的价值,非常坚定地推动相关研究。后来陆陆续续这个领域出来了一些成果,大家才开始陆续转RL,再过了一段时间,RL的表现就开始超越MPC了。


2022年,ChatGPT的出现是一个非常关键的时间节点。


虽然我之前一直有关注到前几代GPT2、GPT3,也知道大语言模型等研究工作的进展,但我当时对“怼算力出奇迹”这个事情是比较存疑的。直到ChatGPT出现改变了我的看法,大模型展现了惊人的泛化能力,我立刻带着团队研究大模型在人形机器人领域的应用。后来越来越多科研成果也表明,Scaling up可以加速具身智能领域的发展,实现通用具身智能这个终极目标不再遥不可及


清流:你一直在做第一个吃螃蟹的人。

陈建宇:核心还是基于技术的第一性原理推演。如果只看表象的话,RL一开始的表现的确比MPC差,只能在仿真方面做一些很Toy的例子。但因为我自己是写MPC求解器的,写过很多基础代码,我清晰地知道MPC有很多局限。同时我也一直保持对AI算法的关注,对RL有一定的了解和判断,所以我当时很坚定要做RL。后来大模型出现了,我也把很多精力放在大模型领域的研究。从传统的MPC转到RL、再到大模型,这些技术路线的演变都是在我们计划中的,只是时间上比我们设想得更快一些。


清流:为什么特别强调要做“原生机器人大模型”?

陈建宇:只有原生性突破才能真正解决传统机器人没有解决的很多问题。原生就是要让机器人既有上层的逻辑思考能力,还要对身体有完整的控制权,能够调控身体和物理世界进行各种各样的交互。举个例子,让机器人在复杂的路面上行走,传统机器人是人为去hardcode,经过精确的建模计算,腿抬多高、步幅多少厘米、落在什么地方、使多大的力等等,最后它只能在特定环境下做一些很机械的动作。而人走路是来自于我们从小开始学习在各种环境中摸爬滚打、站立行走,在这个过程中人的硬件(身体)在逐渐成长,算法(大脑)一直在迭代,逐渐收敛到一个最佳状态,最后走路就成为瞬间发生的条件反射动作,不仅能走路,还能跑能跳,能适应各种各样的地面环境。


人的行为整个就是data driven训练出来的原生模型。


清流:所以你是坚定的“人形”拥趸?

陈建宇:我们追求靠近人形,但并不迷信人形。


当前世界上唯一存在的通用具身智能体的实例就只有人,从人身上学习能得到很多启发,向人形靠近有很多的优势:


数据层面,当前具身领域的一大痛点就是缺少数据,人形机器人可以很好地复用人类现有的视频、摇操作等等数据。


场景层面,在当前的人类环境所有设施都是为人类去设计的,要在这个环境里面生活,就迫使机器人要去贴合环境。对机器人的通用性要求越高,越需要接近人形的形态。机器人如果只需要在平地环境里工作,可以用人类一样的上半身,下半身用轮式,但如果我想要它能下楼给我取快递,就需要腿了。


功能性角度,对比此前的传统机器人,如工业的机械臂、夹爪、轮式底盘等。人形机器人有手有腿,手比夹爪灵巧,能做的事情就多很多,双腿比轮子能到的地方也多,移动能力的边界就提升了,这让具身智能也有更多的发挥空间。


从技术上,人形是更难实现的,有能力做到人形之后,其他的机器人形态我们都能快速分化出来,是可以向下兼容的。反着来可能就不行。所以,人形机器人也是我们保持技术领先性的战略高地。


但我们并不坚持只做人形,在商业化角度,会基于实际应用场景去提供性价比最高的适配产品。通用场景中人形机器人更容易规模化,单一任务均摊下来的成本降低了,且空间利用率更高,那我们会主推人形机器人;如果是某些特定场景,我们也能从人形快速分化出模块化的产品,以最低的成本高效解决实际应用需求。


搭乐高一样做机器人

连推六代人形本体


清流:听起来像搭乐高一样简单,但要怎么实现?

陈建宇:我们一开始入局就选择先攻坚hard模式(人形机器人),打磨出了做机器人的能力,并在这个过程中把很多能力给聚集和模块化了。我们的机器人硬件都是可拆卸和组装的,你可以理解为就像乐高积木块一样。例如,我们的灵巧手就是一个单独的部件,可以直接拆下来放到另一个机器人的手臂上,甚至灵巧手的手指都可以拆下来,每个关节都是单独的部件,非常灵活。而我们的算法是通用的,(硬件)排布装置改了也没关系,算法再跑一遍自动就能出来。


后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论