新闻中心

站内搜索

友情链接

学术动态

蒙古文智能信息处理技术国家地方联合工程研究中心4篇论文、2个报告被语音领域顶级会议ICASSP2024录用

来源: 发布时间: 2023-12-22 21:41:52

近日，2024年IEEE音频、语音与信号处理国际会议（2022 IEEE International Conference on Acoustics,Speech, and Signal Processing, ICASSP 2022）发布录用通知，我校蒙古文智能信息处理技术国家地方联合工程研究中心（蒙古文信息处理技术自治区重点实验室）有4篇论文以及2个报告被接收录用，涉及智能语音交互领域的语音增强，目标说话人提取、多麦克风信号处理、分布式声传感器网络等研究领域。ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议，是IEEE下语音方向最具代表性、最高荣誉的会议，在国际上享有盛誉并具有广泛的学术影响力。

Paper 01

3S-TSE: Efficient Three-Stage Target Speaker Extraction for Real-Time and Low-Resource Applications

作者：何树林1，刘晋江1，李号2,3，杨洋1，陈霏2,3，张学良1,*

单位：

1内蒙古大学

2南方科技大学

3中国自然资源部城市国土资源监测与模拟重点实验室

目标说话人提取（TSE）旨在根据注册样本从多个混合说话人中分离出特定的声音。由于声纹特征通常变化很大，当前的端到端神经网络需要大量的模型参数，庞大的计算复杂度对于实时应用来说是不切实际的，特别是在资源受限的平台上。在本文中，我们使用麦克风阵列解决 TSE 任务，并引入一种新颖的三阶段解决方案，系统地解耦该过程，降低任务难度：首先，训练神经网络来估计目标说话者的方向。第二步，确定方向后，使用广义旁瓣消除器（GSC）提取目标语音。第三，就地卷积循环神经网络 (ICRN) 充当去噪后处理器，改进 GSC 输出以产生最终的分离语音。我们的方法提供了卓越的性能，同时大大减少了计算负载，为高效的实时目标说话人提取树立了新标准。

Paper 02

Hierarchical speaker representation for target speaker extraction

作者：何树林1,2，张怀文1，饶为2，张康豪1，琚雨恺2，杨洋1，张学良1,*

单位：

1内蒙古大学

2腾讯天籁实验室

目标说话人提取的目的是在注册话语或称为锚点语音的指导下，从多个声源的组合中分离出特定说话人的声音。当前的方法主要从锚点语音导出说话人嵌入并将其集成到分离网络中以分离目标说话人的语音。然而，说话人嵌入的表示过于简单，通常只是一个 1×1024 的向量。这种密集的信息使得分离网络难以有效利用。为了解决这一限制，我们引入了一种称为分层表示（HR）的开创性方法，该方法可以跨分离网络的细粒层和总体层无缝融合锚数据，从而提高目标提取的精度。 HR 增强了锚点语音的功效，以改善目标说话者的隔离度。在 Libri-2talker 数据集上，HR 大大优于最先进的时频域技术。我们在著名的 ICASSP 2023 深度噪声抑制挑战赛中获得第一名，进一步展示了 HR 的能力。所提出的 HR 方法显示出通过增强锚点语音利用率来推进目标说话人提取的巨大前景。

Paper 03

Efficient multi-channel speech enhancement with spherical harmonics injection for directional encoding

作者：潘佳慧1，沈鹏杰1，张晖1，张学良1

单位：1内蒙古大学

多通道语音增强使用多个捕获空间线索的麦克风来提取语音，对于视频会议系统、远程通信和助听器等应用至关重要。如何有效利用方向信息是该技术的关键。本文引入了一种使用球谐变换（SHT）系数作为辅助模型输入的方法。这些系数简明地代表了空间分布。具体来说，所提出模型有两个编码器，一个用于 STFT，另一个用于 SHT。通过融合解码器中的两个编码器来估计增强的 STFT，有效地合并了空间上下文。实验结果证明所提出方法在不同噪声和混响下优于既定基线模型，且使用了更少的计算和参数。

Paper 04

SICRN: Advancing Speech Enhancement through State Space Model and Inplace Convolution Techniques

作者：赵昌江1，何树林1，张学良1

单位：1内蒙古大学

语音增强旨在提高语音质量和可懂度，特别是在嘈杂环境中，会降低语音的质量和可懂度。目前，深度学习方法在语音增强方面取得了巨大成功，例如，具有代表性的卷积循环神经网络（CRN）及其变体。然而，CRN 通常采用连续下采样和上采样卷积进行频率建模，这破坏了信号随频率变化的固有结构。此外，卷积层缺乏时间建模能力。为了解决这些问题，我们提出了一种创新的模块，结合了状态空间模型（SSM）和inplace卷积，并取代了CRN中的传统卷积，称为SICRN。具体来说，双路径多维状态空间模型捕获全局频率依赖性和长期时间依赖性。2D-inplace卷积实质就是将卷积核的步幅调为1，使用它来捕获局部结构，放弃了下采样和上采样。对公共 INTERSPEECH 2020 DNS 挑战数据集的系统评估证明了SICRN的有效性。与强基线相比，SICRN 实现了接近最先进的性能，同时模型有着较小的参数量和计算量。所提出的 SICRN 展示了改进语音增强的巨大前景。

Presentation 01

Distributed Self-Localization for Acoustic Transceiver Networks

(IEEE SPL)

作者：王旭1，呼德1

单位：1内蒙古大学

如今，智能手机、智能家居、平板电脑等智能终端日益普及。上述设备同时配备声传感器和扬声器，它们通过互联就能构成声收发器网络，并可用于语音增强、声源定位等任务。本文提出了一种声收发器网络的分布式节点自定位新方法。首先，在各节点上利用到达时间差和到达方向构建本地代价函数，通过求解实现本地坐标系中的节点自定位。而后，提出一种分布式一致性新算法，将所有本都坐标系映射到统一坐标系上。实验结果验证所提方法具有更好的节点定位性能。

Presentation 02

Distributed Sensor Selection for Speech Enhancement with Acoustic Sensor Networks (IEEE/ACM TASLP)

作者：呼德1，斯琴图雅1，刘瑞1，飞龙1

单位：1内蒙古大学

在分布式声传感器网络中，只有少量节点对语音增强任务具有重大贡献。仅使用这些节点进行语音增强，既能避免不必要的能量消耗，也能延长传感器寿命。为此，本文提出了一种分布式传感器选择新方法。首先，我们在保证所选子网络连通的前提下，通过最大化输入信噪比作为传感器选择准则。由于上述过程涉及整数规划和非线性规划，难以搜寻其全局最优解。针对这一点，我们提出了一种贪婪搜索策略，从而快速地获得次优子网络。最后，我们还将上述方法扩展到分布式模式中。与现有方法不同，所提方法适用于任意通信图的声传感器网络。同时，它仅需要相邻节点之间的局部通信，无需外部中央处理器。仿真与实际实验证明，所提方法在节能的同时，保证了良好的语音增强性能。

何树林

博士三年级指导教师：张学良主要研究方向：目标说话人提取，语音增强。

2019年于内蒙古大学获得学士学位，同年开始硕博连读，2021年于中国科学院自动化研究所模式识别重点实验室访问交流，2022年-2023年入选腾讯犀牛鸟精英人才计划联合培养并获得腾讯犀牛鸟精英人才计划优秀学生奖，2023年至今于香港科技大学访学，联合培养。多次在大象声科(深圳)科技有限公司实习。截止目前，何树林在语音领域顶级会议ICASSP以一作身份共录用4篇论文，并合作发表论文十余篇。担任ICASSP审稿人。入选NCMMSC2023优秀学生论坛。

潘佳慧

博士三年级指导教师：张学良主要研究方向：目标说话人提取，语音增强。

2019年于内蒙古大学获得学士学位，同年开始硕博连读，博士期间于中国科学院自动化研究所模式识别重点实验室访问交流并以第一作者身份发表论文。截止目前，潘佳慧同学在语音鉴伪领域以第一作者身份发表论文1篇，合作作者身份发表论文1篇，在多通道语音增强领域以第一作者身份发表论文1篇。

赵昌江

硕士二年级指导教师：张学良主要研究方向：语音增强

2022年于内蒙古大学获得学士学位，同年开始就读内蒙古大学硕士研究生。截止目前，赵昌江在语音领域顶级会议ICASSP以一作身份共录用1篇论文。

王旭

硕士二年级指导教师：呼德主要研究方向：声源定位

2022年于内蒙古大学就读硕士研究生。截止目前，王旭在IEEE SPL期刊上以一作身份发表论文1篇，在IEEE ICSIP会议上以第二作者发表论文1篇。