WikiEdge:ArXiv速递/2025-04-04
摘要
- 原文标题:An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
- 中文标题:基于GPU的高效噪声鲁棒声源定位实现
- 发布日期:2025-04-04 11:44:24+00:00
- 作者:Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
- 分类:cs.SD, cs.RO, eess.AS
- 原文链接:http://arxiv.org/abs/2504.03373v1
中文摘要:机器人听觉技术涵盖声源定位(SSL)、声源分离(SSS)和自动语音识别(ASR),使机器人和智能设备能获得类似人类听觉的能力。尽管应用广泛,但处理来自麦克风阵列的多通道音频信号涉及计算密集的矩阵运算,这会影响在中央处理器(CPU)上的高效部署,特别是在CPU资源有限的嵌入式系统中。本文提出了一种基于GPU的机器人听觉声源定位实现方案,在开源软件套件HARK平台中采用基于广义奇异值分解的多重信号分类(GSVD-MUSIC)这一抗噪算法。针对60通道麦克风阵列,该实现方案取得了显著的性能提升:在配备NVIDIAGPU和ARMCortex-A78AEv8.264位CPU的嵌入式设备Jetson AGX Orin上,GSVD计算加速比达4645.1倍,SSL模块加速比达8.8倍;在配置NVIDIAA100GPU和AMDEPYC 7352CPU的服务器上,GSVD计算加速比达2223.4倍,整个SSL模块加速比达8.95倍,使得大规模麦克风阵列的实时处理成为可能,并为后续潜在的机器学习或深度学习任务实时处理提供了充足容量。