WikiEdge:ArXiv-2408.17428v1/questions

出自WikiEdge
跳至導覽 跳至搜尋
編輯

作者面對的是歷史印刷媒體檔案數字化過程中的挑戰,特別是在使用光學字符識別OCR)技術將實體記錄轉換為數字文本時出現的錯誤問題。具體問題包括:

  • OCR錯誤率高:特別是在報紙期刊這類具有複雜布局的文檔中,OCR技術容易出錯,這影響了檔案研究的質量。
  • OCR校正方法的局限性:儘管已有多種後OCR校正方法,但2017年ICADAROCR校正競賽顯示,只有大約一半的方法能夠提高OCR質量。
  • 利用大型語言模型LMs)進行後OCR校正的潛力:儘管已有研究嘗試使用語言模型進行後OCR校正,但先前的研究並未發現語言模型能夠提高OCR質量,作者試圖證明這一點。