Chrome Extension
WeChat Mini Program
Use on ChatGLM

MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型

Journal of Chinese Information Processing(2022)

Cited 0|Views1
No score
Abstract
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonT TS.为了提高MonT TS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法.同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech.实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonT TS合成实时率达3.63×10-3,满足实时高保真合成要求.最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS).
More
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined