微软推出NaturalSpeech2语音模型：零样本生成唱歌唱歌-东北木材网

首页 > 行情

微软推出NaturalSpeech2语音模型：零样本生成唱歌唱歌

来源:中关村在线发表时间:2023-07-28 15:04:20

(相关资料图)

微软近日推出了一款名为NaturalSpeech2的语音模型，该模型采用“潜在扩散”式设计，其在零样本语音合成层面的效果显著。微软表示，该模型提供了“商业级”的语音/歌唱解决方案，能够为用户提供高质量、多样化的语音合成体验。微软对NaturalSpeech2进行了一系列演示，展示了其在零样本情况下生成具有不同说话人身份、韵律和风格（如唱歌）的语音的能力。与传统的语音转文字（TTS）系统不同，NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音，从而生成更完整的语音片段，不会产生“缺乏感情”的“棒读（一字一顿地讲话）”现象。实验结果显示，NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律近乎一致，并且在LibriTTS和VCTK测试集上的自然度（以CMOS为度量）与真人语音难以区分。该项目的论文已经发布，感兴趣的人可以查阅。

关键词：

上一篇: 国金证券：高能级城市政策的宽松空间更大关注布局优质一二线城市央国企及改善型房企下一篇: 最后一页

推荐阅读更多>>