首页 > 要闻动态 > 科技成果转化高地 > 科技前沿

北京人形开源具身小脑XR-1模型

北京人形开源具身小脑XR-1模型.jpg

具身天工2.0人形机器人完成倒料任务。 北京人形/供图

  近日,北京人形机器人创新中心(以下简称“北京人形”)正式开源面向具身小脑能力的XR-1模型,以及为XR-1等模型提供数据训练支持的RoboMIND 2.0和ArtVIP。其中,XR-1是国内首个且唯一通过具身智能国标测试的具身VLA(视觉-语言-动作)大模型。基于以上开源成果,能让机器人真正在各类应用场景中能干活、会干活,推动国内具身智能行业迈向“全自主、更好用”的新阶段。

  XR-1

  让机器人跨过“看到与做到”的鸿沟

  当前,具身智能行业面临一个核心痛点:AI技术虽能实现文本创作、视频生成等虚拟场景应用,但机器人在物理世界中往往难以完成“拿东西”“递东西”等基础任务。这背后是“视觉感知”与“动作执行”的割裂——机器人虽能识别物体,却依赖预设指令运行,一旦环境有变,便不知所措。

  为解决这一难题,北京人形自主研发具备“知行合一”能力的XR-1具身小脑大模型。该模型在今年8月世界机器人大会上首秀,具备多场景、多本体、多任务的高度泛化特点。其技术内核在于三大支柱:跨数据源学习、跨模态对齐、跨本体控制。它能从海量人类视频中学习训练,大幅降本增效;打破视觉和动作的隔阂,实现“看到即做到”的闭环;并可快速适配不同类型、不同品牌的机器人本体,提高技术泛用性。

  其中,北京人形首创的UVMC(多模态视动统一表征)技术是关键。该技术能搭建起视觉与动作的映射桥梁,让机器人像人一样“条件反射”,将看到的画面瞬间转化为身体相应动作的本能反应。以倒水为例,如果机器人在倒水时看到杯子被拿走,就会停止倒水动作。这种“本能反应”,让机器人能够应对真实世界以及工作场景中的复杂变化和突发情况,走向全自主作业。

  在具体应用中,搭载XR-1的“具身天工2.0”机器人能完成大幅弯腰下蹲、精准抓取物料箱的复杂倒料任务;基于XR-1框架微调后的轻量级VLA模型,能让机器人具备快速精确物料分拣能力。更具标杆意义的是,在业内首个连续开关穿行5扇门的测试中,天轶2.0面对各种颜色、不同类型的门,依托XR-1模型对场景的实时理解与动作预测,分别能做出张开双臂、下压门把手、收肩、稳力通过、推拉滑动等应对动作,全程无需人工干预,实现在复杂环境中“看得懂、做得对、走得稳”的全自主操作本能。

  RoboMIND 2.0和ArtVIP

  为机器人打造数据底座

  不仅开源模型,北京人形还构建“XR-1+RoboMIND 2.0+ArtVIP”全链条开源生态,加速机器人应用落地。

  为解决具身智能优质数据的稀缺问题,北京人形去年12月推出大规模、多构型智能机器人数据集和Benchmark——RoboMIND,累计下载量已超15万次。在RoboMIND 1.0基础上全面升级,北京人形最新发布RoboMIND 2.0。该数据集的机器人操作轨迹数据达30+万条,扩展了11个涵盖工业、商用、家庭的场景,适配的机器人本体、任务、技能数量也分别有了2倍以上的提升。尤其是,RoboMIND 2.0增加了1.2万条带触觉操作数据,支持训练VTLA、MLA模型,支持不同机器人实现长程协作任务;并新增开源了基于ArtVIP的大量仿真数据,可支持仿真数据的批量评测。这种海量虚实结合的多模态训练数据,不仅能降低模型训练的门槛,也能显著提升机器人的任务成功率。

  同时,北京人形发布的高保真铰接物体数字资产数据集ArtVIP,则提供超1000个高保真数字孪生铰接物品(如转椅、抽屉等带有可活动关节的物体),覆盖6大场景类型,实现了全场景物品可交互。测试表明,在机器人训练中提升ArtVIP的仿真数据比例,能提升机器人在不同任务执行中的成功率。如在XR-1模型中,通过将真机数据与仿真数据比例从1∶0提升到1∶5后,4个不同任务的成功率平均能够提升超过25%。

  从实验室到生产线

  加速机器人规模化落地

  技术创新的最终价值,在于场景落地。

  目前,北京人形已与多家合作伙伴达成合作,将人形机器人部署到各行各业中。其中,搭载XR-1的“具身天工2.0”“天轶2.0”已进入福田康明斯发动机工厂,在“无人生产线”上自主完成料箱取放、搬运任务测试。北京人形还与中国电科院合作落地了人形机器人高危电力巡检项目,以及与李宁运动科学实验室合作开展人形机器人跑鞋测试。近期,北京人形还与拜耳签订合作协议,共同推动人形机器人及具身智能技术在制药生产中的技术开发。

  从模型、数据到工具,作为坐落于北京亦庄的创新中心平台,北京人形实现全方位的能力开放,让更多企业、开发者告别重复造轮子。基于开源成果,他们无需从零开始攻克基础技术,可以聚焦场景创新与应用落地,加速机器人在工业制造、3D作业、商用服务、家庭服务等领域的规模化应用。北京亦庄也正以场景牵引,以政策支撑,以标准引领,加速构建涵盖“大脑”“小脑”“本体”的具身智能全链生态。融媒体中心 孙艳平

相关新闻