今天,世界见证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。
无需人类背后操作,RDT 即可指挥机器人双臂并用,完美调出如晚霞般梦幻的鸡尾酒 Malibu Sunset。
和人类调酒师一样,首先,RDT 将冰块稳稳倒入高脚杯中,不撒不漏,一套动作行云流水。
倒完冰块后,RDT 先后倒入椰子酒、橙汁、菠萝汁,操作娴熟,顺序不乱,确保口味一致。
注入石榴汁,晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。
最后,RDT 发挥空间感,夹起一片柠檬,轻轻卡在有弧度的杯口上,漂亮!
同行看后纷纷表示:有了十亿参数的 RDT ,智能机器人时代不远矣!去酒吧点 RDT 调酒师,赛博朋克感瞬间拉满。
在领略了 RDT 的强大后,是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer,是全球最大的针对双臂机器人操作任务的扩散基础模型,由清华大学人工智能研究院 TSAIL 团队构建。
当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手无策”。
而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”,使其能摆脱人类的操控,自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”,从 “单臂” 变为 “双臂”,是目前运动控制水平最接近人类的机器人小脑之一。
更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。
项目主页:https://rdt-robotics.github.io/rdt-robotics
论文链接:https://arxiv.org/pdf/2410.07864
论文标题:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation
值得注意的是,目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。在 RDT 模型的加持下,双臂机器人成功挑战 7 项高难度任务,平均成功率上比当前最好的模型还要惊人地高出 56%。让我们一起来看看,有了 RDT,双臂机器人还能解锁哪些高阶特征吧。在 RDT 的指挥下,机器人能灵巧地握住长度不到 2cm 的迷你摇杆,控制机器狗走出完美直线。而如果把 RDT 换成其他模型,就会导致机器狗会走弯路、甚至见墙就撞。倒水大师 RDT,让倒 1/3 的水就倒 1/3 的水,让倒 2/3 就倒 2/3,简直分毫不差!值得一提的是,RDT 从未见过 1/3 这个词,也就是说,没有人给 RDT 演示过 1/3 的水应该怎么倒。RDT 完全是凭借自己的泛化性,准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。与之相对,其他模型会指挥机器人倒得过多或过少,甚至尴尬洒水。谁说人类才是唯一能适应环境变化的智能体?RDT 也能轻松做到。清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水…更厉害的是,RDT 有很强的领悟力,是机器人模型中的“学霸”。教会 RDT 叠衣服仅需演示 1 遍,而其他模型要重复教几十遍才能勉强学会。相比其他机器人模型,为什么 RDT 能做到如此智能?相比同行最优水准领先多少?在机器人扩散模型中,RDT 拥有目前「最大的模型参数量」,高达 1.2B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型(八爪鱼,Octo,93M)还要大一个数量级。
RDT 在「最大的具身数据集」上预训练。预训练数据集包含 46 个不同的机器人数据集,总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1M 步。
RDT 拥有目前「最大的双臂微调数据集」。清华团队构建了包括 300+ 任务和 6K+ 条演示的数据集。与之对比,先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 的微调数据集仅有几百条演示。
在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类演示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。为了解决这个问题,一种通常的做法是,利用多种不同机器人的数据,训练一个可泛化的「大模型」。一是,在机器人领域,缺乏一个像 GPT 一样的通用、强大的「模型架构」。它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能,比如擦桌子和倒水等。然而,人类的动作模式千变万化,就连抓起一个方块都有好几种做法(见下图)。为了能学会多样的动作模式,研究者采用扩散模型(diffusion model)来进行建模。图 3 描绘了 RDT 的整体架构,接下来我们逐一进行介绍。对于一个具体的机器人任务,模型在收到人类发出的语言指令后,需要结合自己的视觉观察,来预测完成任务所需的机械臂动作(action)。动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机(MLP)来进行编码。
图片具有高维度的特点,同时含有丰富的空间和语义信息。研究者采用经过对齐的 SigLIP 进行编码。
语言具有变长的特点,并且高度抽象。研究者采用一个具有丰富知识的语言大模型 —— T5-XXL 来进行编码。
咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。为了避免模型 “偷懒”,只看信息量大的模态,在训练中,研究者会以一定概率随机遮蔽(mask)各个模态。为了保证可扩展性,研究者选择 Transformer 作为骨干网络,并做出如下关键修改:由于传感器失灵等原因,机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的 QKNorm 和 RMSNorm 来进行缓解。
机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力,研究者将最终层的线性解码器替换为非线性的 MLP 解码器。
图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时,往往图像会淹没文本,从而削弱模型的指令遵循能力。为此,研究者采取了交替注入的方式。
为了在多种机器人数据上进行预训练,研究者需要对数据格式进行统一。具体来说,研究者构建了一个统一的动作空间(如图 3 左侧所示)。该空间的每个维度具有明确的物理含义,以保证模型能够从不同机器人数据中学习到共享的物理规律。在有了统一数据格式后,研究者就能将所有不同类型的机器人数据汇聚在一起,形成了目前最大的数据集,其包含超过 100 万条演示。正因为在如此大的数据集上进行预训练,RDT 获得了无与伦比的泛化性。最后,研究者还采集了目前质量最高的双臂微调数据集,用来微调 RDT 以增强其双臂操作能力。该团队设计了 7 个挑战性任务,从不同维度评估 RDT 的泛化能力和操作精度。具体来说,机器人需要拿起未见过的杯子,用另一只手打开水龙头,清洗杯子,倒干净杯中的水,并关闭水龙头。机器人需要用一只手抓住遥控器,并用另一只手推动遥杆控制机器狗向前。这项任务比洗杯子的精度要求更高,因为迷你摇杆的长度不到 2cm,且稍有偏移机器狗就会 “走弯路”。对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。而对于传递物体和叠裤子的任务,仅给少量演示(1 – 5 条),RDT 就需要学会一个全新的技能。实验评估(结果见表 3)中,研究者主要回答以下问题:Q: RDT 能否对未见的物体和场景实现零样本(Zero-Shot)泛化?并遵循未见过的自然语言指令?A:可以。在洗杯子(Wash Cup)和倒水(Pour Water)任务中,RDT 对未见场景和物体仍能达到较高成功率,其表现与见过的情况相差不大。在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中,RDT 精确地理解了应该用哪只手操作、倒多少水,并能够严格遵循指令,即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。A:可以。在物品传递(Handover)和折叠短裤(Fold Shorts)任务中,对于两个与已知动作模式完全不同的全新技能,RDT 仅分别通过 1 和 5 条演示的训练就轻松掌握,而其他方法几乎无法成功。A:可以。在遥控机器狗(Robot Dog)任务中,RDT 在推动操纵杆时准确控制了角度,而其他模型会导致机器狗发生偏离。Q:扩散建模、大模型以及大数据是否有助于提升 RDT 的性能?A:是的。如表 2 所示,研究人员对三者分别进行了消融实验,结果表明缺少任何一者都会带来极大的性能损失。特别地,仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差,这表明预训练中学会的知识对于泛化性至关重要。该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭,主要研究方向是具身智能和 AI for Science,此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文,曾获清华大学本科生特等奖学金。另一位是清华大学计算机系的二年级博士生吴凌轩,目前主要研究方向是人工智能安全和具身智能,此前在 ICLR 发表过论文。该项目的团队是清华大学计算机系 TSAIL 课题组,团队在扩散模型的基础理论和关键技术方面有长期的积累,提出了首个扩散模型与 Transformer 融合的架构 U-ViT,联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu,部分成果获国际表示学习大会(ICLR 2022)杰出论文奖,被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的,TSAIL 团队在国际上率先提出 “扩散策略 “概念,并长期进行 “扩散策略” 构建算法研究,在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4],包括扩散策略模型动作重采样方法 SfBC,奖励函数引导采样算法 CEP,高效扩散策略梯度蒸馏算法 SRPO,扩散策略对齐算法 EDA 等。为了更好的帮助大家了解这项研究,10月21日晚19:00-20:00,论文作者、清华大学计算机系的二年级博士生刘松铭带来线上直播,为大家进一步解读这项工作。本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023. [2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023. [3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024. [4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023. [10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., … & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw投稿或寻求报道:liyazhou@jiqizhixin.com