WikiEdge:ArXiv速递/2025-04-04

来自WikiEdge
Carole留言 | 贡献2025年4月7日 (一) 08:37的版本 (Created page by Carole)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

摘要

  • 原文标题:An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
  • 中文标题:基于GPU的高效噪声鲁棒声源定位实现
  • 发布日期:2025-04-04 11:44:24+00:00
  • 作者:Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
  • 分类:cs.SD, cs.RO, eess.AS
  • 原文链接http://arxiv.org/abs/2504.03373v1

中文摘要机器人听觉技术涵盖声源定位(SSL)、声源分离(SSS)和自动语音识别(ASR),使机器人智能设备能获得类似人类听觉的能力。尽管应用广泛,但处理来自麦克风阵列多通道音频信号涉及计算密集的矩阵运算,这会影响在中央处理器(CPU)上的高效部署,特别是在CPU资源有限嵌入式系统中。本文提出了一种基于GPU机器人听觉声源定位实现方案,在开源软件套件HARK平台中采用基于广义奇异值分解多重信号分类(GSVD-MUSIC)这一抗噪算法。针对60通道麦克风阵列,该实现方案取得了显著的性能提升:在配备NVIDIAGPUARMCortex-A78AEv8.264位CPU嵌入式设备Jetson AGX Orin上,GSVD计算加速比达4645.1倍,SSL模块加速比达8.8倍;在配置NVIDIAA100GPUAMDEPYC 7352CPU服务器上,GSVD计算加速比达2223.4倍,整个SSL模块加速比达8.95倍,使得大规模麦克风阵列实时处理成为可能,并为后续潜在的机器学习深度学习任务实时处理提供了充足容量