京东推出并开源长音视频生成框架_创新展示

京东推出并开源长音视频生成框架

来源：亦城时报时间：2026年06月12日 14:33

【字体：大中小】

　　本报讯（融媒体中心李玉凤）近日，北京经济技术开发区（简称北京经开区，又称北京亦庄）企业京东宣布，推出JoyAI-Echo长音视频生成框架，致力于解决行业长视频生成三大难题：角色易崩、声音乱变、生成缓慢。目前，JoyAI-Echo代码与权重已全部开源，项目页和GitHub代码仓库均已上线，开发者和创作者可进行体验和二次开发。这也标志着京东在长视频生成领域实现了重大突破。

　　据介绍，JoyAI-Echo带来了四项关键的技术创新。

　　第一，跨模态音视频记忆库能在多镜头生成过程中，持续保存并调用角色的外观特征和说话人音色信息。实测结果显示，通过JoyAI-Echo生成的长达5分钟的视频里，角色身份、视觉形象和声音音色都能保持高度一致，再也不会出现“同一个人演着演着变成另一个人”的尴尬情况。

　　第二，团队创新性地提出了记忆驱动后训练流程，结合SFT（监督微调）、跨模态RLHF（人类反馈强化学习）和Distribution Matching Distillation（即DMD，分布匹配蒸馏）技术，大幅提升生成质量，更实现极具突破性的推理加速。其中，仅DMD一项技术就带来了约7.5倍的速度提升，让长视频生成从“等半天”变成“秒出片”。

　　第三，JoyAI-Echo内置Director Agent（智能导演助理）功能。用户只需用自然语言描述需求，它会自动拆解出剧本、角色、场景和镜头；哪里不满意直接对话修改，只重新生成有问题的局部镜头，无需全片重来。整个工作流包含规划、生成、评审和局部修订四个环节，让长视频创作从“静态生成”变成了“动态协作”。

　　第四，JoyAI-Echo还配套了专门的实时超分模块，支持两档分辨率提升（736×1280→1152×1920和736×1280→1472×2560）。它通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟的约束下，也能保持稳定的高清表现。

　　京东相关负责人表示，JoyAI-Echo的推出，将为虚拟故事创作与动漫制作、数字人内容生产与直播等带来全新的可能性，并通过全面开源加速AI长视频生成技术在各行各业的落地与普及。

相关新闻