首页 > 要闻动态 > 科技成果转化高地 > 科技前沿

全球首个开放场景高质量真机数据集开源

近日,北京亦庄企业星海图正式开源其开放世界数据集——Galaxea Open-World Dataset(GOD),这是全球首个开放场景高质量真机数据集,以扎实的数据助力全球开发者更高效地推进具身智能的研究与应用。

GOD数据集里有什么

“数据集是构建多任务、多技能、多环境泛化智能体的重要基石。而真机数据处于具身智能数据金字塔的顶端,是打破具身智能天花板能力的关键技术。”星海图首席科学家赵行表示,“因此,我们要带着机器人去真实世界里采集数据。”

基于统一的机器人平台——星海图 R1 Lite,星海图在真实的人类生活与工作场景中完成采集任务。GOD现已覆盖住宅、厨房、零售和办公室等50种环境,总计包含500小时高质量移动操作数据,涵盖超过234种任务、1600多种操作对象以及58种操作技能。

该数据集中的任务既包括常见的桌面整理、物体抓取与家电操作等短时序动作,也包含如铺床等需要全身协调和多步推理的长时序任务,增加了数据集中任务分布的多样性和复杂性。

在采集过程中,统一的硬件设计保证了所有数据具有一致的动作空间和感知输入,使得数据集能够在不同任务和场景中保持动作参数的一致性。此外,GOD在采集过程中特别强调多视角覆盖和自然光照条件,确保感知信息更加接近真实部署环境,减少领域适配成本。

语言标注和场景真实成亮点

值得关注的是,该数据集的每一个任务都被拆解成“步骤说明书”并精确标注。具体来看,GOD对每个任务进行了子任务级语言标注,将一个完整任务分解为多个具有明确语义的动作步骤,并精确对齐对应的感知与执行数据。这种细粒度标注不仅支持动作级别的监督学习,还为训练高层任务规划模块提供了可直接利用的序列化知识。这意味着,通过语言精准标注,机器人不仅能学动作,还能学规划,能更高效地完成目标。

与大多数在模拟环境或受控实验室采集的数据集相比,GOD在场景真实性、任务多样性和动作复杂度上均有显著优势,让机器人训练从“温室做题家”变身“街头实战派”。它能直接反映机器人在非结构化环境中面临的感知噪声、对象遮挡、动作冗余和任务干扰等实际挑战,从而为模型的泛化性和稳定性提供更有价值的训练信号。这些特性使GOD不仅适合作为具身智能模型的预训练数据源,也能够作为评估移动操作与多模态任务规划能力的高标准基准。

数据集+模型均对外开放

目前,星海图已将GOD数据集与端到端双系统全身智能VLA模型——星海图G0相结合,开放给全球开发者。这相当于星海图为行业建了一座线上“真实训练基地”,大幅降低具身智能研发门槛,加速具身智能从实验室创新迈向普惠性社会价值的转化。

星海图的开源动作与北京亦庄支持具身智能产业发展方向相契合。2025世界机器人大会期间,北京亦庄启动具身智能社会实验计划,其中提出全域开放真实世界数据采集资源,并发布“具身智能机器人十条”政策,包括支持真实世界数据采集、推动具身智能数据开源开放、支持企业建设机器人二次开发社区等,营造具有国际影响力的机器人产业生态,加快形成新质生产力,打造具身智能机器人产业高质量发展的“亦庄样板”。未来,在北京亦庄的政策与创新土壤中,越来越多机器人将加速走出实验室,真正进入家庭、工厂、商场等真实场景。融媒体中心 孙艳平


相关新闻