WikiEdge:ArXiv-2408.17431v1/abs

出自WikiEdge
跳至導覽 跳至搜尋
[{fullurl:WikiEdge:ArXiv-http://arxiv.org/abs/2408.17431v1/abs%7Caction=edit} 編輯]
  • 標題:Advancing Multi-talker ASR Performance with Large Language Models
  • 中文標題:多說話人自動語音識別性能的提升:大語言模型的應用
  • 發佈日期:2024-08-30T17:29:25+00:00
  • 作者:Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu
  • 分類:eess.AS, cs.AI
  • 原文連結http://arxiv.org/abs/2408.17431v1

摘要:識別對話場景中多位說話者的重疊語音是自動語音識別ASR)中最具挑戰性的問題之一。序列化輸出訓練SOT)是一種經典的方法來解決多說話者ASR,其思路是根據多位說話者語音的發出時間將其轉錄拼接在一起進行訓練。然而,SOT風格的轉錄依賴於對長上下文的建模,這些轉錄是通過拼接對話中多個相關的語句得到的。因此,與主要強調基於注意力機制編碼器-解碼器AED)架構中編碼器性能的傳統方法相比,利用大型語言模型LLM)並利用預訓練解碼器能力的新方法可能更適合這種複雜且具有挑戰性的場景。在本文中,我們提出了一種基於LLM的SOT方法用於多說話者ASR,利用預訓練的語音編碼器和LLM,並使用適當的策略在多說話者數據集上進行微調。實驗結果表明,我們的方法在模擬數據集LibriMix上優於傳統的AED方法,並在真實世界數據集AMI的評估集上實現了最先進的性能,超越了之前使用1000倍監督數據訓練的AED模型。