WikiEdge:ArXiv速遞/2025-04-04

出自WikiEdge

於 2025年4月7日 (一) 08:37 由 Carole（對話 | 貢獻）所做的修訂（Created page by Carole）

(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)

跳至導覽跳至搜尋

摘要

原文標題：An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
中文標題：基於GPU的高效噪聲魯棒聲源定位實現
發佈日期：2025-04-04 11:44:24+00:00
作者：Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
分類：cs.SD, cs.RO, eess.AS
原文連結：http://arxiv.org/abs/2504.03373v1

中文摘要：機械人聽覺技術涵蓋聲源定位(SSL)、聲源分離(SSS)和自動語音識別(ASR)，使機械人和智能設備能獲得類似人類聽覺的能力。儘管應用廣泛，但處理來自麥克風陣列的多通道音頻信號涉及計算密集的矩陣運算，這會影響在中央處理器(CPU)上的高效部署，特別是在CPU 資源有限的嵌入式系統中。本文提出了一種基於GPU的機械人聽覺聲源定位實現方案，在開源軟件套件 HARK 平台中採用基於廣義奇異值分解的多重信號分類(GSVD-MUSIC)這一抗噪算法。針對60通道麥克風陣列，該實現方案取得了顯著的性能提升：在配備NVIDIA GPU和ARM Cortex-A78AE v8.2 64位 CPU的嵌入式設備 Jetson AGX Orin上，GSVD 計算加速比達4645.1倍，SSL 模塊加速比達8.8倍；在配置NVIDIA A100 GPU和AMD EPYC 7352 CPU的伺服器上，GSVD 計算加速比達2223.4倍，整個SSL 模塊加速比達8.95倍，使得大規模麥克風陣列的實時處理成為可能，並為後續潛在的機器學習或深度學習任務實時處理提供了充足容量。

取自 "http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv速递/2025-04-04&oldid=5781"