微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归

AI最新资讯7个月前发布 tree
69 0 0

今日应用


今日话题


微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
 

重点标签 语音合成NaturalSpeech 3微软AI技术招聘

文章摘要


NaturalSpeech 3 项目是微软语音合成领域的最新进展,它通过创新的技术和模型,实现了与人类相媲美的自然语音合成。项目的第一阶段,NaturalSpeech 1,在LJSpeech数据集上取得了与人类录音相当的音质。第二阶段,NaturalSpeech 2,通过扩散模型实现了零样本语音合成。最新的进展,NaturalSpeech 3,通过属性分解扩散模型和FACodec,实现了零样本语音合成的重要突破,极大地提高了语音合成的质量和自然度。NaturalSpeech 3的音色克隆效果令人印象深刻,能够复刻提示音频中的情绪等语音信息,并且能够根据不同属性的提示实现可控的生成。FACodec技术将复杂的语音波形转换成解耦表示,并从这些属性重构高质量的语音波形。NaturalSpeech 3的SOTA语音合成效果在多个方面超越了现有的TTS系统。此外,该团队正在招聘音频、视频和大模型方向的研究员和研究实习生。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...