查看“WikiEdge:ArXiv-2408.17431v1/abs”的源代码

<!-- 不要移除下面第一行，如果有编辑错误，请直接修改第二行以后的内容 -->
<div style="float: right;">[{fullurl:WikiEdge:ArXiv-http://arxiv.org/abs/2408.17431v1/abs|action=edit} 编辑]</div>
* '''标题'''：Advancing Multi-talker ASR Performance with Large Language Models
* '''中文标题'''：多说话人自动语音识别性能的提升：大语言模型的应用
* '''发布日期'''：2024-08-30T17:29:25+00:00
* '''作者'''：Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu
* '''分类'''：eess.AS, cs.AI
*'''原文链接'''：http://arxiv.org/abs/2408.17431v1
'''摘要'''：识别对话场景中多位说话者的重叠语音是[[自动语音识别]]（[[ASR]]）中最具挑战性的问题之一。[[序列化输出训练]]（[[SOT]]）是一种经典的方法来解决多说话者ASR，其思路是根据多位说话者语音的发出时间将其转录拼接在一起进行训练。然而，SOT风格的转录依赖于对长上下文的建模，这些转录是通过拼接对话中多个相关的语句得到的。因此，与主要强调基于[[注意力机制]]的[[编码器-解码器]]（[[AED]]）架构中编码器性能的传统方法相比，利用[[大型语言模型]]（[[LLM]]）并利用预训练解码器能力的新方法可能更适合这种复杂且具有挑战性的场景。在本文中，我们提出了一种基于LLM的SOT方法用于多说话者ASR，利用预训练的语音编码器和LLM，并使用适当的策略在多说话者数据集上进行微调。实验结果表明，我们的方法在模拟数据集[[LibriMix]]上优于传统的AED方法，并在真实世界数据集[[AMI]]的评估集上实现了最先进的性能，超越了之前使用1000倍监督数据训练的AED模型。