首页 > 创新亦庄 > 创新展示

“亦庄智慧”解决具身智能延迟难题

  本报讯(融媒体中心 孙艳平)近日,北京经济技术开发区(北京亦庄)企业星海图发布世界模型研究成果——Fast-WAM。该成果突破“先想象、后执行”传统范式,解决具身智能的延迟难题,将单步延迟从800毫秒缩短至190毫秒,实现4倍速度提升,让世界模型跨越实时控制门槛,为具身智能的大规模产业落地铺平道路。

  星海图此次的核心突破在于将训练与推理两个环节拆开。在训练阶段,Fast-WAM保留视频协同训练,让视觉模块深入学习物理动力学与空间交互逻辑;在推理阶段,该模型则直接砍掉冗余的预测分支,不再进行迭代去噪,仅通过一次前向传播,提取隐含物理规律的“世界表征”。这一设计证明:模型的物理理解力根植于视频建模能力,而非视频生成过程本身。

  测试数据显示,Fast-WAM的单步推理仅需190毫秒,相比传统WAM的800毫秒量级,实现4倍速度跨越,适配实时控制要求。对标行业头部SOTA世界模型(当前最佳世界模型),在双臂操作基准RoboTwin 2.0和长程任务基准LIBERO上,Fast-WAM即便完全不生成未来视频,其成功率依然能与最强世界模型持平。面对真实世界挑战,以毛巾折叠任务为例,Fast-WAM展现了对易变形物体极强的物理建模能力,证明了其在复杂物理交互中的实用价值。

  这一进展已引发AI圈广泛关注。其中,纽约大学助理教授、DiT(diffusion transformers)核心作者谢赛宁将其与图灵奖得主Yann LeCun的最新力作LeWorldModel并列推荐。

  此次星海图190毫秒延迟的突破,扫清了世界模型在机械臂操作、工业自动化等延迟敏感场景下的部署障碍。作为北京市重要的机器人产业集聚区,北京亦庄正实施具身智能社会实验计划。随着Fast-WAM这类底层技术的成熟,有望让具身智能机器人突破原本算力与响应速度的限制,加速从实验室走向大规模产业落地。


相关新闻