新闻中心

站内搜索

友情链接

学术动态

蒙古文智能信息处理技术国家地方联合工程研究中心在语音合成领域取得新进展

来源: 发布时间: 2022-05-04 18:59:34

近日，我校蒙古文智能信息处理技术国家地方联合工程研究中心（蒙古文信息处理技术自治区重点实验室）与香港中文大学李海洲教授团队合作在国际信号处理领域TOP期刊《IEEE/ACM Transactions on Audio, Speech, and Language Processing》上发表了题为“Decoding Knowledge Transfer for Neural Text-to-Speech Training”的研究论文（DOI：10.1109/TASLP.2022.3171974）。《IEEE/ACM Transactions on Audio, Speech, and Language Processing》期刊是是音频、声学、语言信号处理的顶级期刊，在中科院SCI期刊分区为一区TOP期刊，清华最新版计算机学术推荐列表中认定为A类刊物，影响因子3.919。

该论文针对语音合成的鲁棒性、表现力建模问题开展研究，提出了一种多教师知识蒸馏学习的语音合成声学建模方法。我校计算机学院刘瑞研究员为该论文第一作者，高光来教授为论文通讯作者，内蒙古大学为该论文第一作者和通讯作者单位。

语音合成的主要目的是将输入文本转化为高质量的合成语音，其中，端到端语音合成方法基于“编码器-解码器”结构可以实现优秀的语音合成表现，成为当前语音合成的主流方法。由于端到端语音合成模型的解码器在训练阶段和推理阶段存在解码方式不匹配的问题而导致模型在鲁棒性和表现力方面表现欠佳。为了提升端到端语音合成模型在鲁棒性和表现力两方面的表现，该论文提出了基于多教师知识蒸馏学习的声学建模方法。整个系统包含两个教师模型和一个学生模型：两个教师模型分别采用Teacher-forcing和Scheduled-Sampling解码机制，可以输出真实稳定的语音参数；学生模型则采用模型推理阶段的Free-Running解码机制。在多教师知识蒸馏学习阶段，通过添加多教师蒸馏损失函数，利用教师模型的知识来对学生模型的输出进行指导。训练结束后，学生模型可以在推理阶段直接使用，输出稳定可靠的声学参数进行合成语音的生成。最终，实验结果证明本文方法与传统端到端语音合成模型相比可以合成更加鲁棒和表现力丰富的合成语音。

该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目以及国家重点研发计划项目（2018YFE0122900），国家自然基金项目（61773224，62066033），内蒙古自然科学基金项目（2018MS06006），内蒙古自治区成果转化项目（CGZH2018125），内蒙古自治区应用技术研究与开发资金项目（2019GG372，2020GG0046）等项目的资助。

第一作者简介：刘瑞（个人主页：https://ttslr.github.io/），计算机学院骏马计划B1岗研究员，博士生导师。刘瑞研究员围绕人工智能、深度学习、表现力语音合成等内容进行了深入探索，在相关领域知名学术期刊发表论文20余篇，其中包括IEEE/ACM TASLP（JCR Q1区，SCI一区Top期刊）、IEEE Internet of Things Journal（JCR Q1区，SCI一区Top期刊）、Neural Networks（JCR Q1区，SCI二区期刊）、IEEE Signal Processing Letters（JCR Q1区，SCI二区期刊）和学术会议ICASSP（CCF-B，语音领域顶级会议）、InterSpeech（CCF-C，语音领域顶级会议）等。学术论文在业界产生广泛影响，论文累计引用二百余次，引用者包括来自美国卡耐基梅隆大学、英国剑桥大学、英国爱丁堡大学、日本名古屋工业大学、新加坡国立大学、新加坡科技与设计大学、中科院自动化所、香港中文大学、清华大学、西北工业大学等研究机构的国内外知名学者。

论文链接：https://ieeexplore.ieee.org/document/9767637