WikiEdge:ArXiv速递/2025-04-04

来自WikiEdge

Carole（留言 | 贡献）2025年4月7日 (一) 08:37的版本（Created page by Carole）

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转到导航跳转到搜索

摘要

原文标题：An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
中文标题：基于GPU的高效噪声鲁棒声源定位实现
发布日期：2025-04-04 11:44:24+00:00
作者：Zirui Lin, Masayuki Takigahira, Naoya Terakado, Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai, Hideharu Amano
分类：cs.SD, cs.RO, eess.AS
原文链接：http://arxiv.org/abs/2504.03373v1

中文摘要：机器人听觉技术涵盖声源定位(SSL)、声源分离(SSS)和自动语音识别(ASR)，使机器人和智能设备能获得类似人类听觉的能力。尽管应用广泛，但处理来自麦克风阵列的多通道音频信号涉及计算密集的矩阵运算，这会影响在中央处理器(CPU)上的高效部署，特别是在CPU 资源有限的嵌入式系统中。本文提出了一种基于GPU的机器人听觉声源定位实现方案，在开源软件套件 HARK 平台中采用基于广义奇异值分解的多重信号分类(GSVD-MUSIC)这一抗噪算法。针对60通道麦克风阵列，该实现方案取得了显著的性能提升：在配备NVIDIA GPU和ARM Cortex-A78AE v8.2 64位 CPU的嵌入式设备 Jetson AGX Orin上，GSVD 计算加速比达4645.1倍，SSL 模块加速比达8.8倍；在配置NVIDIA A100 GPU和AMD EPYC 7352 CPU的服务器上，GSVD 计算加速比达2223.4倍，整个SSL 模块加速比达8.95倍，使得大规模麦克风阵列的实时处理成为可能，并为后续潜在的机器学习或深度学习任务实时处理提供了充足容量。

取自“http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv速递/2025-04-04&oldid=5781”