北京人形开源具身小脑XR-1模型_科技前沿

北京人形开源具身小脑XR-1模型

来源：亦城时报时间：2025年12月22日 13:03

【字体：大中小】

北京人形开源具身小脑XR-1模型.jpg

具身天工2.0人形机器人完成倒料任务。北京人形/供图

　　近日，北京人形机器人创新中心（以下简称“北京人形”）正式开源面向具身小脑能力的XR-1模型，以及为XR-1等模型提供数据训练支持的RoboMIND 2.0和ArtVIP。其中，XR-1是国内首个且唯一通过具身智能国标测试的具身VLA（视觉-语言-动作）大模型。基于以上开源成果，能让机器人真正在各类应用场景中能干活、会干活，推动国内具身智能行业迈向“全自主、更好用”的新阶段。

　　XR-1

　　让机器人跨过“看到与做到”的鸿沟

　　当前，具身智能行业面临一个核心痛点：AI技术虽能实现文本创作、视频生成等虚拟场景应用，但机器人在物理世界中往往难以完成“拿东西”“递东西”等基础任务。这背后是“视觉感知”与“动作执行”的割裂——机器人虽能识别物体，却依赖预设指令运行，一旦环境有变，便不知所措。

　　为解决这一难题，北京人形自主研发具备“知行合一”能力的XR-1具身小脑大模型。该模型在今年8月世界机器人大会上首秀，具备多场景、多本体、多任务的高度泛化特点。其技术内核在于三大支柱：跨数据源学习、跨模态对齐、跨本体控制。它能从海量人类视频中学习训练，大幅降本增效；打破视觉和动作的隔阂，实现“看到即做到”的闭环；并可快速适配不同类型、不同品牌的机器人本体，提高技术泛用性。

　　其中，北京人形首创的UVMC（多模态视动统一表征）技术是关键。该技术能搭建起视觉与动作的映射桥梁，让机器人像人一样“条件反射”，将看到的画面瞬间转化为身体相应动作的本能反应。以倒水为例，如果机器人在倒水时看到杯子被拿走，就会停止倒水动作。这种“本能反应”，让机器人能够应对真实世界以及工作场景中的复杂变化和突发情况，走向全自主作业。

　　在具体应用中，搭载XR-1的“具身天工2.0”机器人能完成大幅弯腰下蹲、精准抓取物料箱的复杂倒料任务；基于XR-1框架微调后的轻量级VLA模型，能让机器人具备快速精确物料分拣能力。更具标杆意义的是，在业内首个连续开关穿行5扇门的测试中，天轶2.0面对各种颜色、不同类型的门，依托XR-1模型对场景的实时理解与动作预测，分别能做出张开双臂、下压门把手、收肩、稳力通过、推拉滑动等应对动作，全程无需人工干预，实现在复杂环境中“看得懂、做得对、走得稳”的全自主操作本能。

　　RoboMIND 2.0和ArtVIP

　　为机器人打造数据底座

　　不仅开源模型，北京人形还构建“XR-1+RoboMIND 2.0+ArtVIP”全链条开源生态，加速机器人应用落地。

　　为解决具身智能优质数据的稀缺问题，北京人形去年12月推出大规模、多构型智能机器人数据集和Benchmark——RoboMIND，累计下载量已超15万次。在RoboMIND 1.0基础上全面升级，北京人形最新发布RoboMIND 2.0。该数据集的机器人操作轨迹数据达30+万条，扩展了11个涵盖工业、商用、家庭的场景，适配的机器人本体、任务、技能数量也分别有了2倍以上的提升。尤其是，RoboMIND 2.0增加了1.2万条带触觉操作数据，支持训练VTLA、MLA模型，支持不同机器人实现长程协作任务；并新增开源了基于ArtVIP的大量仿真数据，可支持仿真数据的批量评测。这种海量虚实结合的多模态训练数据，不仅能降低模型训练的门槛，也能显著提升机器人的任务成功率。

　　同时，北京人形发布的高保真铰接物体数字资产数据集ArtVIP，则提供超1000个高保真数字孪生铰接物品（如转椅、抽屉等带有可活动关节的物体），覆盖6大场景类型，实现了全场景物品可交互。测试表明，在机器人训练中提升ArtVIP的仿真数据比例，能提升机器人在不同任务执行中的成功率。如在XR-1模型中，通过将真机数据与仿真数据比例从1∶0提升到1∶5后，4个不同任务的成功率平均能够提升超过25%。

　　从实验室到生产线

　　加速机器人规模化落地

　　技术创新的最终价值，在于场景落地。

　　目前，北京人形已与多家合作伙伴达成合作，将人形机器人部署到各行各业中。其中，搭载XR-1的“具身天工2.0”“天轶2.0”已进入福田康明斯发动机工厂，在“无人生产线”上自主完成料箱取放、搬运任务测试。北京人形还与中国电科院合作落地了人形机器人高危电力巡检项目，以及与李宁运动科学实验室合作开展人形机器人跑鞋测试。近期，北京人形还与拜耳签订合作协议，共同推动人形机器人及具身智能技术在制药生产中的技术开发。

　　从模型、数据到工具，作为坐落于北京亦庄的创新中心平台，北京人形实现全方位的能力开放，让更多企业、开发者告别重复造轮子。基于开源成果，他们无需从零开始攻克基础技术，可以聚焦场景创新与应用落地，加速机器人在工业制造、3D作业、商用服务、家庭服务等领域的规模化应用。北京亦庄也正以场景牵引，以政策支撑，以标准引领，加速构建涵盖“大脑”“小脑”“本体”的具身智能全链生态。融媒体中心孙艳平

相关新闻