学术动态

当前位置: 首页 学术动态 正文
我院刘瑞研究员在情感语音转换领域取得新进展

发布日期:2022-07-22来源:

近日,我校蒙古文智能信息处理技术国家地方联合工程研究中心(蒙古文信息处理技术自治区重点实验室)刘瑞研究员与日本大阪大学科学与工业研究所Zhaojie Luo教授团队合作在国际信号处理领域TOP期刊《IEEE/ACM Transactions on Audio, Speech, and Language Processing》上发表了题为“Decoupling Speaker-independent Emotions for Voice Conversion Via Source-Filter Networks”的研究论文(DOI:10.1109/TASLP.2022.3190715)。

情感语音转换(VC)旨在将中性语音转换为情感声音,同时保留语言信息和说话者的身份。我们注意到,将情感特征与其他语音信息(例如内容、说话者身份等)的解藕是实现高质量转换效果的关键。由于情感语音中声学特征的解藕更加复杂,因此面向中性语音的特征解藕工作无法很好的工作。该论文针对情感语音转换的声学特征解藕问题开展研究,提出了一种基于“源-滤波器”模型的情感语音转换系统。具体来说,为了解决情感语音转换的特征解藕问题,该论文提出了一种新颖的基于Source-Filter(源-滤波器)模型的情感VC模型(简称SFEVC),以从音色和音调特征中准确过滤说话人独立的情感线索。SFEVC模型由多通道编码器、情感独立编码器、预训练的说话人相关编码器和相应的解码器组成。所有编码器模块都采用信息瓶颈自动编码器。此外,为了进一步提高各种情绪的转化质量,提出了基于二维VA空间的训练策略。实验结果表明,提出的SFEVC模型以及VA训练策略的表现均优于所有基线系统,并基于非平行数据在说话人无关的情感VC场景下实现了最优性能。

Graphical user interface, textDescription automatically generated

《IEEE/ACM Transactions on Audio, Speech, and Language Processing》期刊是是音频、声学、语言信号处理的顶级期刊,在中科院SCI期刊分区为一区TOP期刊,清华最新版计算机学术推荐列表中认定为A类刊物,2022最新影响因子4.364。我校计算机学院刘瑞研究员为该论文通讯作者,内蒙古大学为该论文通讯作者单位。该研究得到了2022年内蒙古大学骏马计划高层次人才引进项目(10000-22311201/002)的资助。

作者简介:刘瑞(个人主页:https://ttslr.github.io/),计算机学院骏马计划B1岗研究员,博士生导师。刘瑞研究员围绕人工智能、深度学习、表现力语音合成等内容进行了深入探索,在相关领域知名学术期刊发表论文20余篇,其中包括IEEE/ACM TASLP(JCR Q1区,SCI一区Top期刊)、IEEE Internet of Things Journal(JCR Q1区,SCI一区Top期刊)、Neural Networks(JCR Q1区,SCI二区期刊)、IEEE Signal Processing Letters(JCR Q1区,SCI二区期刊)和学术会议ICASSP(CCF-B,语音领域顶级会议)、InterSpeech(CCF-C,语音领域顶级会议)等。学术论文在业界产生广泛影响,论文累计引用二百余次,引用者包括来自美国卡耐基梅隆大学、英国剑桥大学、英国爱丁堡大学、日本名古屋工业大学、新加坡国立大学、新加坡科技与设计大学、中科院自动化所、香港中文大学、清华大学、西北工业大学等研究机构的国内外知名学者。

论文链接:https://ieeexplore.ieee.org/document/9829916



地址:内蒙古呼和浩特市大学西路235号内蒙古大学计算机学院

版权所有 © 内蒙古大学计算机学院

官方微信