WikiEdge:ArXiv速遞/2025-04-04

出自WikiEdge
於 2025年4月7日 (一) 08:37 由 Carole對話 | 貢獻 所做的修訂 (Created page by Carole)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋

摘要

  • 原文標題:An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
  • 中文標題:基於GPU的高效噪聲魯棒聲源定位實現
  • 發佈日期:2025-04-04 11:44:24+00:00
  • 作者:Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
  • 分類:cs.SD, cs.RO, eess.AS
  • 原文連結http://arxiv.org/abs/2504.03373v1

中文摘要機械人聽覺技術涵蓋聲源定位(SSL)、聲源分離(SSS)和自動語音識別(ASR),使機械人智能設備能獲得類似人類聽覺的能力。儘管應用廣泛,但處理來自麥克風陣列多通道音頻信號涉及計算密集的矩陣運算,這會影響在中央處理器(CPU)上的高效部署,特別是在CPU資源有限嵌入式系統中。本文提出了一種基於GPU機械人聽覺聲源定位實現方案,在開源軟件套件HARK平台中採用基於廣義奇異值分解多重信號分類(GSVD-MUSIC)這一抗噪算法。針對60通道麥克風陣列,該實現方案取得了顯著的性能提升:在配備NVIDIAGPUARMCortex-A78AEv8.264位CPU嵌入式設備Jetson AGX Orin上,GSVD計算加速比達4645.1倍,SSL模塊加速比達8.8倍;在配置NVIDIAA100GPUAMDEPYC 7352CPU伺服器上,GSVD計算加速比達2223.4倍,整個SSL模塊加速比達8.95倍,使得大規模麥克風陣列實時處理成為可能,並為後續潛在的機器學習深度學習任務實時處理提供了充足容量