近日,RTE2024第十届实时互联网大会于北京盛大召开,本次大会由声网与RTE开发者社区联合举办。在备受瞩目的“重塑语音交互:音频技术和Voice AI”技术专场上,标贝科技联合创始人兼CTO李秀林博士发表了题为《语音合成大模型与高质量数据》的演讲,深入探讨了语音合成技术的最新进展。
李秀林博士首先回顾了语音合成技术的发展历程,指出随着大模型时代的来临,用户对于合成声音的需求已趋向个性化和情感化。他提到,如今的语音合成技术已能在音质、断句、韵律等多方面实现高度自然与真实的表达,这得益于大模型技术的深度应用。
标贝科技作为智能语音领域的佼佼者,紧跟技术潮流,推出了自家的语音合成大模型。该模型仅需极短的样音即可生成自然且个性化的合成声音,同时保留了样音中的情感特征,为用户提供了更为贴心的语音交互体验。
李博士还强调了高质量数据在语音合成大模型训练中的重要性。他表示,标贝科技拥有丰富的多模态数据资源和精标数据能力,为模型训练提供了坚实的基础。通过大规模、多样化的数据集训练,标贝科技的语音合成大模型得以在多个语种和风格上实现出色的表现。
目前,标贝科技已建立起涵盖40余种语种及方言的高标准合成数据库,满足不同年龄段、风格和情感的需求。这些丰富的数据资源为语音合成技术的进一步发展和创新提供了有力支撑。
通过李秀林博士的深入解读,与会者对语音合成大模型及其背后的高质量数据支撑有了更为全面的了解。标贝科技在智能语音领域的持续创新和应用实践,无疑为行业的未来发展注入了新的活力。