WikiEdge:ArXiv-2408.17431v1/abs

来自WikiEdge
跳转到导航 跳转到搜索
[{fullurl:WikiEdge:ArXiv-http://arxiv.org/abs/2408.17431v1/abs%7Caction=edit} 编辑]
  • 标题:Advancing Multi-talker ASR Performance with Large Language Models
  • 中文标题:多说话人自动语音识别性能的提升:大语言模型的应用
  • 发布日期:2024-08-30T17:29:25+00:00
  • 作者:Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu
  • 分类:eess.AS, cs.AI
  • 原文链接http://arxiv.org/abs/2408.17431v1

摘要:识别对话场景中多位说话者的重叠语音是自动语音识别ASR)中最具挑战性的问题之一。序列化输出训练SOT)是一种经典的方法来解决多说话者ASR,其思路是根据多位说话者语音的发出时间将其转录拼接在一起进行训练。然而,SOT风格的转录依赖于对长上下文的建模,这些转录是通过拼接对话中多个相关的语句得到的。因此,与主要强调基于注意力机制编码器-解码器AED)架构中编码器性能的传统方法相比,利用大型语言模型LLM)并利用预训练解码器能力的新方法可能更适合这种复杂且具有挑战性的场景。在本文中,我们提出了一种基于LLM的SOT方法用于多说话者ASR,利用预训练的语音编码器和LLM,并使用适当的策略在多说话者数据集上进行微调。实验结果表明,我们的方法在模拟数据集LibriMix上优于传统的AED方法,并在真实世界数据集AMI的评估集上实现了最先进的性能,超越了之前使用1000倍监督数据训练的AED模型。