近日,由阿里巴巴通义实验室(Tongyi Lab)语音团队与中国科学技术大学联合打造的 Fun-CineForge 项目正式宣布开源。该项目针对影视剧配音中的口型同步、音色迁移及情感表达等核心难题,推出了一套端到端的生产流水线及大模型解决方案。

核心突破:解决影视配音“出戏”痛点
传统的 AI 配音往往面临口型对不上、情感机械以及难以适应复杂影视场景(如对白、多人混响)的问题。Fun-CineForge 通过以下两项核心创新实现了质的飞跃:
-
MLLM 配音模型:不再单纯依赖唇部区域学习音视频对齐,而是基于多模态大模型(MLLM)架构,能够深度理解影视场景中的角色身份与情感波动。
-
CineDub 大规模数据集:利用自动化流水线构建了首个带有丰富标注的中文电视剧配音数据集,涵盖了独白、旁白、对白及多发言人等多样化场景。
项目动态与开源计划
该项目近期更新频繁,展示了极高的工程完成度:
-
2026年1月至3月:先后发布了中文(CineDub-CN)与英文(CineDub-EN)的数据集样本及演示 Demo。
-
2026年3月16日:正式开源推理代码与模型权重(Checkpoints),开发者现可通过 GitHub 获取相关资源。
-
数据集获取:目前已开放包括《红楼梦》(中文)和《唐顿庄园》(英文)在内的多个经典剧目数据集样本供研究使用。
技术实战:从“对话”到“表演”
根据官方展示的 Demo,该模型在《三国演义》等经典剧集的重塑中表现惊人。通过输入特定的“情感线索(Clue)”,模型能精准捕捉角色从恐惧到反抗的情感转变,实现高保真的音色克隆与自然的口型匹配。
Fun-CineForge 的出现,标志着影视 AI 配音从简单的“文字转语音”迈向了具备艺术理解力的“自动化后期生产”,有望大幅降低译制片及影视剧后期的制作成本。
项目:https://funcineforge.github.io/