星海图真机数据集登顶全球主流开源平台

在多样化场景中采集数据。 星海图/供图
开源2个月,下载量突破40万次。北京亦庄企业星海图的开放世界数据集(Galaxea Open-World Dataset)今年8月发布以来,成为全球最受关注、下载量最高的具身智能真机数据集之一。这家以“整机+智能”为战略支点的机器人行业新秀,正用真实世界数据推动具身智能落地。
三大支柱
塑造机器人生态系统
“我们致力于通过硬件、模型与工具三大支柱来塑造机器人生态系统。”星海图首席技术官赵行表示。目前,星海图的产品融合三大核心要素:以机器人作为物理载体,以预训练模型作为智能大脑,并配备用于评估、微调与部署的后训练工具。与此同时,该企业携手企业用户与开发者,共同构建机器人应用生态系统。
在硬件方面,星海图打造了R1 Pro、R1 Lite等R系列机器人,适用于工业、科研、服务等场景。作为新一代仿人机器人平台,R1 Pro具备高自由度及高性能,专为精细操作及复杂具身任务而设计;R1 Lite则是最佳移动操作载体,轻巧灵活,具备高精准感知能力,并采用更紧凑、可扩展的机身设计。
真实数据
重构数据采集路径
为让机器人更“懂”世界,星海图以R1 Lite为数据采集设备,自主开发了星海图的开放世界数据集(Galaxea Open-World Dataset)及G0模型。
长期以来,业界主流大模型预训练多依赖互联网或仿真数据,但前者质量参差不齐,后者难以还原真实物理交互,影响模型迁移表现。为破局,星海图直面现实复杂性,重构数据采集范式。
星海图的开放世界数据集基于真实场景采集,覆盖住宅、餐饮、零售、办公室等50多个场景,涵盖人机交互主要形态。该数据集规模超10TB,累计时长500小时,包含10万条以上真实操作数据、150类任务类型、1600+操作对象与58项操作技能,并提供多模态传感信息与自然语言标注,确保真实性、复杂性与通用性。
开源开放
推动具身智能落地
随着星海图的开放世界数据集(Galaxea Open-World Dataset)的开源,星海图让全球研究者都能加速验证具身智能模型在现实环境中的感知、规划与执行能力,推动具身智能从实验室迈向产业化。
如今,上线仅两个月,星海图开放世界数据集的下载量已突破40万次。来自Physical Intelligence、Bitrobot、Hugging Face 等国际前沿团队的研究者,在社交媒体上公开点赞推荐,称该数据集为“极具价值的社区资源”。
该数据集之所以能迅速获得认可,正得益于星海图在硬件、场景与工程化体系三方面的积累,也进一步推动了其“硬件—模型—工具”闭环的成型。
当前,北京亦庄正开放真实世界数据采集资源、建设机器人二次开发社区,营造具有国际影响力的机器人产业生态。星海图的实践也成为其开放生态的一个生动注脚。数据的共享与协作,能够加速整个行业的技术进步。未来,星海图将持续扩展数据集的场景覆盖与任务类型,构建多维度的评测体系,助力开发者更高效地进行模型训练与验证,共同拓展具身智能的研究与应用边界。融媒体中心 孙艳平