WikiEdge:ArXiv-2408.17428v1/questions
跳至導覽
跳至搜尋
問題與動機
作者面對的領域研究問題是如何提高光學字符識別(OCR)技術在數碼化歷史印刷媒體檔案,特別是報紙和期刊這類複雜佈局文檔中的準確性。具體問題包括:
- OCR錯誤率高:由於報紙和期刊的複雜佈局,傳統的OCR技術在轉換物理記錄為數字文本時容易出錯,這影響了檔案的研究和使用質量。
- 後OCR校正技術的改進:現有的後OCR校正方法,如眾包校正或在線安全測試,存在效率和準確性的局限性,需要探索更有效的算法和技術。
- 利用預訓練語言模型進行OCR校正:研究者探索使用基於Transformer的預訓練語言模型(LMs)進行後OCR校正的可能性,以及這些模型在提高OCR輸出質量和下游自然語言處理(NLP)任務中的表現。
- 社會文化背景信息在OCR校正中的作用:研究者試圖了解在OCR校正過程中提供社會文化背景信息的價值,以及這是否能夠進一步提升校正的準確性。