本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
马斯克同样看好对于通用人形机器人。马斯克要求 Optimus 做出来必须是一款人形,并且体态和人一样的机器人,而不是波士顿动力公司或其他公司造的四条腿或者带轮子的机械装置。
AGI 的最终形态应该是人形机器人,是业内的一种主流声音。对于人形机器人的追求,或许不亚于实现超级智能、通用智能。
1、从近期业内的动态来看,都在朝着接近「通用人形机器人」的方向使劲。
① 挪威的人形机器人公司 1X 推出了专用于通用机器人的世界模型,通过对直接从机器人收集的原始传感器数据进行训练来学习模拟现实世界。[14]
② 傅利叶智能推出新一代通用人形机器人 GR-2,GR-2 在外观上沿用 1 代仿生设计语言,同时进一步优化全身比例,升级后的身高达到 175cm,体重 63kg,全身共有 53 个自由度,单臂运动负载达 3kg,能够完成更复杂的拟人操作。[15]
2、为何实现「通用人形机器人」如此重要?
① 清华大学交叉信息研究院助理教授许华哲认为,通用性的理想定义与「开放世界」概念相匹配。当机器人能够在一个未设定具体规则、一切皆可变化的开放环境中解决问题时,可以被视为真正的通用型机器人。
② 简单来说,在任何场景、面对任何物体、任何状态下,只要这些条件对机器人有影响,机器人在这些任意定义的条件下仍能完成任务,即可称其为最严格意义上的通用性产品。[16]
3、而以往的机器人都是针对专门场景设计,当环境、场景、任务等发生变化时,专门设计的机器人就不具备通用性了。据国际机器人联合会数据,2023 年,全球工业机器人的总销量只有 59 万台。且这 59 万台中至少数十种互不通用的专门形态,大部分年产几百台,完全没有规模效应。
4、业内的一种主流观点是,人形是最适合实现通用具身智能的形态。清华大学交叉信息研究院院长姚期智认为,人形是最适合实现通用具身智能的形态。目前只有人类本身达到了真正的通用具身智能,因此人形机器人被视为最好的通用具身智能体。
5、除了「人形机器人」外,面向通用场景的形态还包括「四足机器人」。例如,近期蔚蓝科技推出的「BabyAlpha」机器狗,即是四足机器人。相比于人形机器人,「四足机器人」具备更成熟的移动控制能力,更适合全地形移动。[17]
「人形」一定是做通用机器人最合适的形态吗?其实目前业内的看法不一。
1、英伟达、特斯拉都是「人形」的拥护者。黄仁勋认为,我们所有人都将建造全新类别的设备是「人形机器人」。「生产线是为人类设计的,仓库是为人类设计的,很多东西都是为人类设计的,因此人形机器人在那种环境中更有可能富有成效。」; 马斯克也持有类似观点,马斯克要求 Optimus 做出来必须是一款人形,并且体态和人一样的机器人,而不是波士顿动力公司或其他公司造的四条腿或者带轮子的机械装置。
2、人形机器人从驱动角度,还可以细分为双足(Bipedal)和轮式(Wheeled)两种。双足机器人模仿人类行走方式,在不平坦的地形上更具灵活性和适应性;轮式机器人在平坦或预定轨道上运行时,稳定性较好,控制相对简单,工厂、仓库等环境使用。
3、人形机器人还包含全身仿人、纯 humanoid 的腿式「纯人形机器人」,以及上半身仿人、下半身采取较为成熟的轮式底盘的「半人形机器人」。
① 例如,腾讯 Robotics X 近日推出的人居环境机器人「小五」,采用了四条直线腿和轮足复合的设计,结合了足式机器人的越障能力和轮式机器人的运行效率。其在平地上可以切换四轮模态和两轮模态;在不平整地形上,使用可伸缩的直线腿配合主动力控,实现弹簧悬挂效果。[18]
② 北大 CGCS 助理教授王鹤认为,「轮式人形机器人的商业化落地将更好,轮式人形机器人重点在于手眼脑的配合,仿人的上半身能不能泛化地在不同场景里干各种各样的活,把各种不靠灵活的双腿才能够完成的事情先给解决。」
4、考虑到使用场景、实用性、商业化落地等因素,也有一方观点认为,尽管人形机器人是当前业内的主流,但相比人形机器人,四足机器人的商业化落地能力会更强,四足机器人具备更成熟的移动控制能力,适合全地形移动。
5、还有一类观点是,通用机器人的具体某种形态相对并不重要,而是根据不同的场景需求来选择不同的「身体」,以功能来驱动。上海交大的卢策吾教授认为,当到了成熟的阶段,所有的硬件都是模块化的,接口是确定且清晰的,根据场景、需求等进行快速组装。每个身体的功能模块,都能根据场景自由组合。[19]
① 人形是目前社会认可度比较高的,但实际上随着 AI 技术的发展,别的形态也是可以的。关注的重点是需要把 AI 技术真正切合到机器人上面,而不单纯做个大模型。通用机器人的形态并不重要,未来可能是其他形态机器人。
01 Scaling 范式变了?Self-Play 还值得 All In 吗?
OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?…
02 o1涨价4倍,OpenAI的这种商业模式可持续吗?
OpenAI 计划提高付费版模型价格?为什么说 o1 模型的计费可能是个「坑」?OpenAI 这种想要快速增加收入的方式可行吗?OpenAI 的商业模式可持续吗?实现AGI还是盈利,OpenAI 如何抉择?…
03 Sergey Lavine 今年都在如何解决具身智能的数据问题?
Sergey Levine近期研究了哪些具身课题?Cross-Embodiment能解决数据类型繁杂问题吗?DROID 比 Open X-Embodiment还好用吗?VLA 现在更好用了吗?…
04 Machine Psychology,解构LLM还是心理学更靠谱吗?