025-52816006
邮 箱:328750080@qq.com
手 机:13917802777
电 话:025-52816006
地 址:南京市建邺区嘉陵江东街50号4幢611室
品玩3月16日讯,据通义实验室官方消息,通义实验室正式发布并开源了业界首个面向影视级复杂场景的多模态AI配音大模型——Fun-CineForge。该模型旨在攻克AI在专业影视、动画及游戏配音领域长期面临的核心挑战,即如何实现语音与角色口型、情绪、音色、时间点的高度同步。
现有AI配音技术主要受限于两大瓶颈:高质量多模态数据集稀缺,以及模型在应对镜头切换、人脸遮挡等复杂场景时能力不足。对此,Fun-CineForge创新性地提供了“数据-模型”一体化解决方案。在数据侧,其配套的自动化生产流程CineDub能从海量影视素材中构建高质量结构化数据集,并借助大模型思维链将中文字错率大幅降至0.94%。模型侧的核心突破在于,首次在配音任务中引入“时间模态”,结合视觉、文本、音频等多模态信息,使模型即使在说话人面部不可见时,也能精准控制语音的时间区间和说话人身份。
评测数据显示,Fun-CineForge在语音自然度、字错率、情感表达、唇形同步等多项关键指标上均领先于现有开源模型。它不仅优化了独白、旁白等单人场景的配音质量,更首次实现了对双人及多人对话场景的可靠支持,展现了强大的复杂场景适应能力。该项目已在GitHub、HuggingFace等平台开源,为专业内容制作领域提供了创新的技术路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
江西吉安一轿车落水 3人死亡 系车主操作失误撞上自家房前护栏后坠入池塘
妖股18连板暴涨551%后连续调2个月,累计跌幅37.83%,今日直接跌停!
如此奇葩的采购,武汉国资6382.5万买沥青,两年都没看到货,兜兜转转最后发现一罐是水,一罐是空气!
2026车企1-2月出口量:奇瑞24万辆,上汽第3,吉利增1.5倍超长安
Copyright © 2025 九游(南京)娱乐有限公司 版权所有 备案号:苏ICP备2022015555号-1