近日,我院人工智能与蒙古文信息处理实验室的研究成果《 A Pairwise Algorithm Using the Deep Stacking Network for Speech Separation and Pitch Estimation》(作者:张学良*,张晖,聂帅,高光来,刘文举)被国际期刊IEEE Transactions on Audio, Speech and Language Processing 录用。该期刊是国际上公认的语音信号处理和人工智能研究领域的顶级期刊,同时也是中国计算机学会(CCF)推荐的B类刊物,SCI影响因子为2.475。
该论文针对单通道下语音与噪声分离这一公认难题(鸡尾酒会问题)进行了深入研究,利用深度堆叠网络(Deep Stacking Network, DSN)将传统语音信号处理方法和深度学习有机的融合。近几年,深度学习在包括语音、图像和自然语言理解方面取得突破性进展。使用深度神经网络进行语音分离也有不错的表现,然而要保证系统的泛化性能就需要大量的训练数据,同时神经网络被认为是“黑箱”。相反,传统信号处理建立在对信号理解基础之上,其缺点是需要满足假设条件。该研究将二者结合,克服了深度神经网络过分依赖训练数据,导致泛化性能下降,为深度学习在语音分离的研究提供了新的思路。(该研究的前期工作发表在语音信号处理顶级会议ICASSP 2015)。
张学良副教授所带领的小组从事语音分离、计算听觉场景分析、鲁棒性语音和语者识别等领域的研究,连续几年在ICASSP, Interspeech等顶级会议发表论文,承担国家自然科学基金、内蒙古自治区自然科学基金、内蒙古大学高层次人才引进等多个项目。