语音合成论文优选：Perceptually Guided End-to-End TTS With MOS Prediction

语音之家 2021-09-15 14:52:56

加精

Perceptually Guided End-to-End Text-to-Speech With MOS Prediction

本文为韩国科学技术高等研究院电气工程学院在2021.08.19更新的文章，主要使用MOSNet增加perceptual loss来优化TTS，从而提高自然度。

1、研究背景

这篇文章还挺有趣，主要在想法上边。首先，对于TTS的合成音频质量的标准主要靠主观的MOS来评分，但这需要组织大量人力来评分，因此自动MOS打分系统被研究，诸如MOSNet等等。本文把MOSNet系统作为loss在训练时期来优化TTS系统，从而提高主观MOS值。

2、详细设计

本篇文章主要是想法好玩，具体如图一所示。先使用具有MOS打分的数据训练MOSnet,然后把MOSnet作为主观loss来训练TTS，不管TTS是哪种类型的声学模型。

3、实验

本文的实验可懂度指标如table 1所示，其中table 2，table 3，fig 2和fig3展示了使用本文方案的效果，从结果可以看出，本文的方案提高了MOS值，其中音素错误PER下降，同时可懂度提高。

4、总结

本文使用MOSNET作为perceptual loss来优化TTS，从而提高自然度。

本文来源：语音之家

...全文

2736 回复打赏收藏转发到动态举报

写回复

切换为时间正序

请发表友善的回复…

发表回复

209

社区成员

311

社区内容

发帖

与我相关

我的任务

语音识别人工智能自然语言处理企业社区北京·昌平区

社区管理员

加入社区

加载中

社区公告

暂无公告

试试用AI创作助手写篇文章吧