WikiEdge:ArXiv-2408.17428v1/background

出自WikiEdge
跳至導覽 跳至搜尋
編輯

這篇文獻的背景主要集中在以下幾個方面:

  1. 光學字符識別OCR)在歷史印刷媒體檔案數碼化中的重要性
    • 歷史印刷媒體檔案的數碼化對於提高當代記錄的可訪問性至關重要。這些檔案,如期刊和新聞媒體,為研究歷史事件提供了原始視角和見解。
    • 然而,OCR技術在將實體記錄轉換為數字文本的過程中容易出錯,尤其是在處理報紙和期刊這類佈局複雜的文檔時。
  2. OCR錯誤對後續自然語言處理NLP)任務的影響
  3. 基於變換器語言模型LMs)在OCR後處理中的潛力
    • 近年來,基於變換器架構的語言模型自然語言處理領域取得了顯著進展,這些模型能夠執行複雜的語言任務,並且在某些情況下達到或超越人類水平。
    • 這些模型的「注意力」機制和掩碼語言建模MLM)訓練方法使它們能夠更好地理解和糾正文本中的錯誤,為OCR後處理提供了新的可能性。

綜上所述,這篇文獻的背景強調了在歷史文檔數碼化過程中提高OCR準確性的需求,以及利用先進的語言模型來改進OCR輸出和增強後續NLP任務的潛力。