WikiEdge:ArXiv-2408.17428v1/questions

出自WikiEdge
於 2024年9月3日 (二) 10:34 由 David對話 | 貢獻 所做的修訂 (Saved page by David)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋
編輯

作者面對的是歷史印刷媒體檔案數碼化過程中的挑戰,特別是在使用光學字符識別OCR)技術將實體記錄轉換為數字文本時出現的錯誤問題。具體問題包括:

  • OCR錯誤率高:特別是在報紙期刊這類具有複雜佈局的文檔中,OCR技術容易出錯,這影響了檔案研究的質量。
  • OCR校正方法的局限性:儘管已有多種後OCR校正方法,但2017年ICADAROCR校正競賽顯示,只有大約一半的方法能夠提高OCR質量。
  • 利用大型語言模型LMs)進行後OCR校正的潛力:儘管已有研究嘗試使用語言模型進行後OCR校正,但先前的研究並未發現語言模型能夠提高OCR質量,作者試圖證明這一點。