WikiEdge:ArXiv速遞/2025-04-04
摘要
- 原文標題:An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
- 中文標題:基於GPU的高效噪聲魯棒聲源定位實現
- 發布日期:2025-04-04 11:44:24+00:00
- 作者:Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
- 分類:cs.SD, cs.RO, eess.AS
- 原文連結:http://arxiv.org/abs/2504.03373v1
中文摘要:機器人聽覺技術涵蓋聲源定位(SSL)、聲源分離(SSS)和自動語音識別(ASR),使機器人和智能設備能獲得類似人類聽覺的能力。儘管應用廣泛,但處理來自麥克風陣列的多通道音頻信號涉及計算密集的矩陣運算,這會影響在中央處理器(CPU)上的高效部署,特別是在CPU資源有限的嵌入式系統中。本文提出了一種基於GPU的機器人聽覺聲源定位實現方案,在開源軟體套件HARK平台中採用基於廣義奇異值分解的多重信號分類(GSVD-MUSIC)這一抗噪算法。針對60通道麥克風陣列,該實現方案取得了顯著的性能提升:在配備NVIDIAGPU和ARMCortex-A78AEv8.264位CPU的嵌入式設備Jetson AGX Orin上,GSVD計算加速比達4645.1倍,SSL模塊加速比達8.8倍;在配置NVIDIAA100GPU和AMDEPYC 7352CPU的伺服器上,GSVD計算加速比達2223.4倍,整個SSL模塊加速比達8.95倍,使得大規模麥克風陣列的實時處理成為可能,並為後續潛在的機器學習或深度學習任務實時處理提供了充足容量。