站内搜索

  

友情链接

学术动态

我院刘瑞研究员团队最新研究论文被人工智能顶级国际会议AAAI2024录用
来源:  发布时间: 2023-12-15 15:19:38

     

对话式语音合成(Conversational Speech SynthesisCSS)旨在在对话环境中以适当的语调、语气和情感进行语音表达。然而,由于情感对话语音数据集的缺乏和情感建模的困难,之前的研究对于情感理解和情感表达问题的研究还不够深入。我院刘瑞研究员团队联合字节跳动(新加坡)公司研究团队,提出了一种新颖的情感对话语音合成模型,名为ECSS,显著提升了对话场景下合成语音的自然度以及情感表现力。

A diagram of a graphDescription automatically generated

 1 ECSS模型架构图

首先,对于对话情感理解,引入了一种基于异构图的情感上下文建模机制,以对话文本、语音、说话人身份、情感类别和情感强度等多源对话历史知识作为输入,对对话上下文进行建模,以准确的理解对话上下文中的情感线索。其次,对于对话情感表达,提出基于对比学习的情感渲染器模块,以准确推断目标话语的情感风格,从而实现准确的对话情感渲染。实验结果表明,我们的模型在对话语音自然度和情感表现力方面明显优于基线模型,为对话式人工智能的发展提供了新的思路。

相关论文被中国计算机学会(CCF)推荐的A类人工智能国际学术会议 The 38th Annual AAAI Conference on Artificial IntelligenceAAAI 2024)录用。AAAI是由人工智能促进协会举办的国际人工智能领域顶级会议之一,汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名,本届会议的投稿量为12100篇,9862篇论文进入评审环节,最终录用论文2342篇,论文录用率为23.75%

论文题目为《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling》。文章作者包括:刘瑞研究员(第一作者),2023级博士生胡一帆(导师外第一作者),以及新加坡字节跳动公司青年科学家任意。这项研究得到了国家自然科学基金青年基金、内蒙古自治区“草原英才”工程项目、自治区留学人员创新创业启动支持计划、广东省数字孪生人重点实验室(华南理工大学)开放课题、内蒙古大学骏马计划高层次人才引进项目、内蒙古自治区本级引进高层次人才科研支持等项目的支持。

 

 

地址:内蒙古呼和浩特市大学西路235号内蒙古大学计算机学院

版权所有 © 内蒙古大学计算机学院