内蒙古大学蒙古文智能信息处理技术国家地方联合工程研究中心张学良教授课题组博士研究生潘佳慧同学的论文《Innovative Directional Encoding in Speech Processing: Leveraging Spherical Harmonics Injection for Multi-Channel Speech Enhancement》被国际人工智能联合会议(IJCAI 2024)录用。论文作者全部来自于内蒙古大学,包括:潘佳慧(2021级博士生)、沈鹏杰(2022级博士生),张晖(副教授)和张学良(教授)。这项研究得到了国家自然科学基金的支持。
IJCAI(International Joint Conference on Artificial Intelligence)是全球人工智能领域的主要国际会议之一,是中国计算机学会(CCF)推荐的A类国际会议。自1969年以来一直在推动人工智能技术的理论和应用发展。该会议每年吸引来自世界各地的顶尖研究者和实践者,分享他们在人工智能最前沿领域的最新研究成果,具有极高的学术声誉和影响力。
论文主要研究内容为多通道语音增强任务。多通道语音增强旨在通过多个麦克风从背景噪声中提取目标语音信号,有效地利用空间线索是实现这一目标的关键。尽管深度学习技术在多通道语音处理方面展现出巨大潜力,但大多数现有方法仍然依赖于直接操作短时傅里叶变换(STFT)系数。针对这一问题,潘佳慧同学提出了采用球谐变换(Spherical Harmonics Transformation, SHT)来处理多通道语音信号。该团队对TIMIT数据集进行了不同信噪比和混响条件下的评估,结果显示,他们开发的模型在性能上超越了现有的基线模型。这一成果不仅提升了性能,还在减少模型的计算量和参数的同时,显著增强了模型的泛化能力。MS-SNSD数据集上的实验结果进一步证实了所提方法的有效性。这项技术的应用前景广泛,为多通道语音增强领域带来了新的研究方向和解决方案。
将球谐变换系数作为模型的辅助输入可以简洁地表达空间分布,允许不同麦克风数量的信号转换为统一维度的系数,使得单一模型能够适应不同配置的麦克风阵列,无需为每种布局单独设计模型。团队设计了两种基于SHT辅助输入的模型架构:并行与串行。并行模型包括两个编码器,分别处理STFT和SHT数据,通过合并这两个编码器在解码器中的输出来估算增强的STFT,有效地融合了空间上下文信息。串行模型则首先对信号应用SHT变换,再将转换后的信号的STFT作为网络输入。这项研究的主要贡献包括:首先,将球谐变换技术集成进深度学习方法中,改进了多通道语音增强的空间处理能力;其次,引入了两种创新的网络架构,分别独立处理STFT系数和SHT的并行模型,以及联合处理空间和频谱数据的串行模型;最后,证明了所提模型在多种环境条件下均能展现出卓越的性能,并且能有效适应不同的麦克风阵列配置。