趣丸科技与香港中文大学(深圳)近日携手宣布,其共同研发的语音大模型“MaskGCT”已在Amphion系统中开源,供全球用户使用。这一创新模型融合了掩码生成与语音表征解耦编码技术,展现了在声音克隆、跨语种合成等领域的卓越性能。
MaskGCT在多个TTS基准数据集上均达到了顶尖水平,超越了当前最先进的同类模型。其独特之处体现在秒级超逼真的声音克隆、精细可控的语音生成以及基于全球最大且多样的高质量多语种语音数据集Emilia的训练。
MaskGCT的研发团队在语音领域拥有深厚积累,依托趣丸科技的音频技术服务和香港中文大学(深圳)的师资力量,实现了技术范式的创新。该模型采用非自回归掩码生成Transformer,无需文本与语音对齐,突破了传统TTS模型的限制。
MaskGCT已在多个领域展现出广阔的应用前景,特别是在短剧出海、数字人、智能助手等方面。趣丸科技推出的多语种速译智能视听平台“趣丸千音”,便是基于MaskGCT技术的实际应用,旨在降低翻译成本,加速内容出海。
随着MaskGCT技术的不断成熟和应用,中国AI企业在全球舞台上的竞争力将进一步提升,同时推动中华文化在全球的传播。