查看“WikiEdge:ArXiv-2408.17431v1/abs”的源代码
←
WikiEdge:ArXiv-2408.17431v1/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<!-- 不要移除下面第一行,如果有编辑错误,请直接修改第二行以后的内容 --> <div style="float: right;">[{fullurl:WikiEdge:ArXiv-http://arxiv.org/abs/2408.17431v1/abs|action=edit} 编辑]</div> * '''标题''':Advancing Multi-talker ASR Performance with Large Language Models * '''中文标题''':多说话人自动语音识别性能的提升:大语言模型的应用 * '''发布日期''':2024-08-30T17:29:25+00:00 * '''作者''':Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu * '''分类''':eess.AS, cs.AI *'''原文链接''':http://arxiv.org/abs/2408.17431v1 '''摘要''':识别对话场景中多位说话者的重叠语音是[[自动语音识别]]([[ASR]])中最具挑战性的问题之一。[[序列化输出训练]]([[SOT]])是一种经典的方法来解决多说话者ASR,其思路是根据多位说话者语音的发出时间将其转录拼接在一起进行训练。然而,SOT风格的转录依赖于对长上下文的建模,这些转录是通过拼接对话中多个相关的语句得到的。因此,与主要强调基于[[注意力机制]]的[[编码器-解码器]]([[AED]])架构中编码器性能的传统方法相比,利用[[大型语言模型]]([[LLM]])并利用预训练解码器能力的新方法可能更适合这种复杂且具有挑战性的场景。在本文中,我们提出了一种基于LLM的SOT方法用于多说话者ASR,利用预训练的语音编码器和LLM,并使用适当的策略在多说话者数据集上进行微调。实验结果表明,我们的方法在模拟数据集[[LibriMix]]上优于传统的AED方法,并在真实世界数据集[[AMI]]的评估集上实现了最先进的性能,超越了之前使用1000倍监督数据训练的AED模型。
返回
WikiEdge:ArXiv-2408.17431v1/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息