京东推出并开源长音视频生成框架
本报讯(融媒体中心 李玉凤)近日,北京经济技术开发区(简称北京经开区,又称北京亦庄)企业京东宣布,推出JoyAI-Echo长音视频生成框架,致力于解决行业长视频生成三大难题:角色易崩、声音乱变、生成缓慢。目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。这也标志着京东在长视频生成领域实现了重大突破。
据介绍,JoyAI-Echo带来了四项关键的技术创新。
第一,跨模态音视频记忆库能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。实测结果显示,通过JoyAI-Echo生成的长达5分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现“同一个人演着演着变成另一个人”的尴尬情况。
第二,团队创新性地提出了记忆驱动后训练流程,结合SFT(监督微调)、跨模态RLHF(人类反馈强化学习)和Distribution Matching Distillation(即DMD,分布匹配蒸馏)技术,大幅提升生成质量,更实现极具突破性的推理加速。其中,仅DMD一项技术就带来了约7.5倍的速度提升,让长视频生成从“等半天”变成“秒出片”。
第三,JoyAI-Echo内置Director Agent(智能导演助理)功能。用户只需用自然语言描述需求,它会自动拆解出剧本、角色、场景和镜头;哪里不满意直接对话修改,只重新生成有问题的局部镜头,无需全片重来。整个工作流包含规划、生成、评审和局部修订四个环节,让长视频创作从“静态生成”变成了“动态协作”。
第四,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升(736×1280→1152×1920和736×1280→1472×2560)。它通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。
京东相关负责人表示,JoyAI-Echo的推出,将为虚拟故事创作与动漫制作、数字人内容生产与直播等带来全新的可能性,并通过全面开源加速AI长视频生成技术在各行各业的落地与普及。