语音合成论文优选:Perceptually Guided End-to-End TTS With MOS Prediction

语音之家 2021-09-15 14:52:56
加精

Perceptually Guided End-to-End Text-to-Speech With MOS Prediction

本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章,主要使用MOSNet增加perceptual loss来优化TTS,从而提高自然度。

1、研究背景

这篇文章还挺有趣,主要在想法上边。首先,对于TTS的合成音频质量的标准主要靠主观的MOS来评分,但这需要组织大量人力来评分,因此自动MOS打分系统被研究,诸如MOSNet等等。本文把MOSNet系统作为loss在训练时期来优化TTS系统,从而提高主观MOS值。

2、详细设计

本篇文章主要是想法好玩,具体如图一所示。先使用具有MOS打分的数据训练MOSnet,然后把MOSnet作为主观loss来训练TTS,不管TTS是哪种类型的声学模型。

3、实验

本文的实验可懂度指标如table 1所示,其中table 2,table 3,fig 2和fig3展示了使用本文方案的效果,从结果可以看出,本文的方案提高了MOS值,其中音素错误PER下降,同时可懂度提高。

4、总结

本文使用MOSNET作为perceptual loss来优化TTS,从而提高自然度。

本文来源:语音之家

...全文
2736 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

209

社区成员

发帖
与我相关
我的任务
社区描述
助力AI语音开发者的社区
语音识别人工智能自然语言处理 企业社区 北京·昌平区
社区管理员
  • 语音之家
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧