学术动态

当前位置: 首页 学术动态 正文
我院五篇论文被语音与信号处理领域顶级会议ICASSP2020录用

发布日期:2020-04-29来源:

  ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界规模最大的,也是最全面的信号处理及其应用方面的顶级会议。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。

ICASSP 2020于2020年5月4-9日在西班牙第二大城市巴塞罗那市举办,但由于COVID-19的影响在线上举行。在本次会议上,我校计算机(软件)学院共有五篇论文被录用:

 

Masking and Inpainting: A Two-Stage Speech Enhancement Approach for Low SNR and Non-Stationary Noise(郝翔,苏向东*,文仕学,王治愚,潘逸倩,飞龙,陈伟)

 

绝大多数的语音增强方法非常难以处理低信噪比下,包含非平稳噪声的场景,这主要是由于该场景下,带噪语音语谱图上的数据分布过于复杂,且有效语音信息的占比很少。为了更好的在此场景下进行语音增强,这篇论文探索了一种基于掩蔽与补全的新方法。作者在第一阶段采用了一个硬化的软掩蔽模型直接将这些被严重噪声主导的时频点去除,避免后续的映射模型在这些时频点上“浪费精力”。作者在第二阶段提出了一个基于部分卷积的补全模型,根据语谱图上有效语音的上下文信息进行灵活的补全,并将仍然包含弱噪声的时频点转换为纯净语音对应的时频点。为了验证该方法,作者构建了一个包含大量非平稳噪声的低信噪比数据集。在该数据集上,作者验证了新方法的有效性,并通过对比两个有特点的语音增强模型,进一步阐述了新方法的优势。

 

 

A Multi-Scaled Receptive Field Learning Approach For Medical Image Segmentation(郭鹏程,苏向东*,张皓然,王蒙,飞龙)

 

生物医学图像分割已经得到了广泛的研究,并提出了许多方法。在这些方法中,Attention U-Net取得了很好的性能。然而,在高层次特征图上提取多尺度感受野特征存在缺陷,在处理具有明显尺度变化的病变时会导致退化。为了解决这一问题,作者在Attention U-Net的收缩路径中集成了一个ASPP模块。首先作者分析了ASPP模块中空洞卷积处理多尺度感受野的有效性,然后提出将ASPP模块加入到Attention U-Net的收缩路径中,最后通过实验表明,该方法显著提高了医学图像分割的性能,在公共数据集上明显优于具有代表性的深度学习模型

 

Teacher-Student Training for Robust Tacotron-based TTS(刘瑞,Berrak Sisman,李劲东,包飞龙*,高光来)

 

该论文深入研究了端到端语音合成模型的鲁棒性问题。端到端语音合成模型的出现极大了提升了语音合成的自然度,但是由于自回归解码器天然存在的暴露偏差问题而导致合成语音中频繁出现跳词、漏词和韵律不稳定等现象。为了解决这一问题,该论文提出了一种基于知识蒸馏技术的端到端语音合成训练方法,该方法使得学生模型的解码器可以很好的学习教师模型的解码器的隐状态,从而输出更稳定的合成语音。实验证明该训练方法可以很好的提升端到端语音合成模型的鲁棒性。该论文由第一作者的导师高光来教授与新加坡国立大学李海洲教授共同指导完成。

 

Beamformed Feature for Learning-Based Dual-Channel Speech Separation(李号,张学良*,高光来)

 

在双麦克风间距较小的情况下,常用的双麦克风特征很难提取有效的空间信息和语音谱信息。作者首先分析了差分麦克风阵列的优点,然后提出利用一对反方向的差分麦克风阵列提取有效特征,最后把提取的特征作为神经网络的输入达到固定角度区域内目标语音分离的目的。最后作者通过实验验证了算法的有效性。

 

SpeakerFilter: Deep Learning-Based Target Speaker Extraction Using Anchor Speech(何树林,李号,张学良*)

 

本篇论文提出了一种提取单通道混合语音中目标说话人的方法,并在实践上证明了提出的方法的有效性。此方法以某说话人的非特定语音(锚语音)作为指导信息提取目标语音。在该框架中,作者使用双向门控递归单元和卷积网络(BGRU-CNN)提取锚信息,使用卷积递归网络(CRN)作为说话人语音提取器,并提出了一种连接锚信息提取器和说话人语音提取器的新方式。该方法极大地提升了锚语音的利用率以及目标语音的质量。本篇论文何树林、李号共同一作,指导教师为张学良教授。

 

 

 

 

 


地址:内蒙古呼和浩特市大学西路235号内蒙古大学计算机学院

版权所有 © 内蒙古大学计算机学院

官方微信