WikiEdge:ArXiv-2408.17428v1/questions

出自WikiEdge

< WikiEdge:ArXiv-2408.17428v1

跳至導覽跳至搜尋

作者面對的是歷史印刷媒體檔案數碼化過程中的挑戰，特別是在使用光學字符識別（OCR）技術將實體記錄轉換為數字文本時出現的錯誤問題。具體問題包括：

OCR錯誤率高：特別是在報紙和期刊這類具有複雜佈局的文檔中，OCR技術容易出錯，這影響了檔案研究的質量。
後OCR校正方法的局限性：儘管已有多種後OCR校正方法，但2017年ICADAR後OCR校正競賽顯示，只有大約一半的方法能夠提高OCR質量。
利用大型語言模型（LMs）進行後OCR校正的潛力：儘管已有研究嘗試使用語言模型進行後OCR校正，但先前的研究並未發現語言模型能夠提高OCR質量，作者試圖證明這一點。

取自 "http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv-2408.17428v1/questions&oldid=785"