WikiEdge:ArXiv-2408.17431v1/abs

[{fullurl:WikiEdge:ArXiv-http://arxiv.org/abs/2408.17431v1/abs%7Caction=edit} 编辑]

标题：Advancing Multi-talker ASR Performance with Large Language Models
中文标题：多说话人自动语音识别性能的提升：大语言模型的应用
发布日期：2024-08-30T17:29:25+00:00
作者：Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu
分类：eess.AS, cs.AI
原文链接：http://arxiv.org/abs/2408.17431v1

摘要：识别对话场景中多位说话者的重叠语音是自动语音识别（ASR）中最具挑战性的问题之一。序列化输出训练（SOT）是一种经典的方法来解决多说话者ASR，其思路是根据多位说话者语音的发出时间将其转录拼接在一起进行训练。然而，SOT风格的转录依赖于对长上下文的建模，这些转录是通过拼接对话中多个相关的语句得到的。因此，与主要强调基于注意力机制的编码器-解码器（AED）架构中编码器性能的传统方法相比，利用大型语言模型（LLM）并利用预训练解码器能力的新方法可能更适合这种复杂且具有挑战性的场景。在本文中，我们提出了一种基于LLM的SOT方法用于多说话者ASR，利用预训练的语音编码器和LLM，并使用适当的策略在多说话者数据集上进行微调。实验结果表明，我们的方法在模拟数据集LibriMix上优于传统的AED方法，并在真实世界数据集AMI的评估集上实现了最先进的性能，超越了之前使用1000倍监督数据训练的AED模型。

WikiEdge:ArXiv-2408.17431v1/abs

导航菜单

搜索