這篇文獻的背景主要集中在以下幾個方面:
- 光學字符識別(OCR)在歷史印刷媒體檔案數碼化中的重要性:
- 歷史印刷媒體檔案的數碼化對於提高當代記錄的可訪問性至關重要。這些檔案,如期刊和新聞媒體,為研究歷史事件提供了原始視角和見解。
- 然而,OCR技術在將實體記錄轉換為數字文本的過程中容易出錯,尤其是在處理報紙和期刊這類佈局複雜的文檔時。
- OCR錯誤對後續自然語言處理(NLP)任務的影響:
- 基於變換器的語言模型(LMs)在OCR後處理中的潛力:
綜上所述,這篇文獻的背景強調了在歷史文檔數碼化過程中提高OCR準確性的需求,以及利用先進的語言模型來改進OCR輸出和增強後續NLP任務的潛力。