WikiEdge:ArXiv-2408.17428v1/background

這篇文獻的背景主要集中在以下幾個方面：

光學字符識別（OCR）在歷史印刷媒體檔案數碼化中的重要性：
- 歷史印刷媒體檔案的數碼化對於提高當代記錄的可訪問性至關重要。這些檔案，如期刊和新聞媒體，為研究歷史事件提供了原始視角和見解。
- 然而，OCR技術在將實體記錄轉換為數字文本的過程中容易出錯，尤其是在處理報紙和期刊這類佈局複雜的文檔時。
OCR錯誤對後續自然語言處理（NLP）任務的影響：
- OCR過程中的錯誤會負面影響使用這些檔案的研究質量，尤其是在進行命名實體識別（NER）、情感分析、文本分類或問答等下游NLP任務時。
- 因此，提高OCR質量，尤其是在歷史文檔和報紙檔案的OCR處理中，是當前研究中的一個活躍領域。
基於變換器的語言模型（LMs）在OCR後處理中的潛力：
- 近年來，基於變換器架構的語言模型在自然語言處理領域取得了顯著進展，這些模型能夠執行複雜的語言任務，並且在某些情況下達到或超越人類水平。
- 這些模型的「注意力」機制和掩碼語言建模（MLM）訓練方法使它們能夠更好地理解和糾正文本中的錯誤，為OCR後處理提供了新的可能性。

綜上所述，這篇文獻的背景強調了在歷史文檔數碼化過程中提高OCR準確性的需求，以及利用先進的語言模型來改進OCR輸出和增強後續NLP任務的潛力。

導覽菜單