WikiEdge:ArXiv-2408.17428v1/background

出自WikiEdge
於 2024年9月3日 (二) 05:05 由 David留言 | 貢獻 所做的修訂 (Saved page by David)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋

研究背景

編輯

這篇文獻的背景主要集中在以下幾個方面: 1. 光學字符識別(Optical Character Recognition, OCR)技術在歷史印刷媒體檔案數字化中的重要性

  • 歷史印刷媒體檔案的數字化對於提高當代記錄的可訪問性至關重要,特別是對於報紙和期刊等能夠提供歷史事件當時觀點和看法的媒介。
  • 然而,OCR技術在轉換物理記錄為數字文本的過程中容易出錯,尤其是在報紙和期刊這類布局複雜的文檔中。

2. OCR後處理和質量評估的挑戰

  • OCR文檔的錯誤會負面影響使用這些檔案的研究質量,因此,OCR後處理和評估OCR質量成為活躍的研究領域。
  • 儘管已有多種流行的OCR後處理方法,如眾包校正和在線安全測試,但機器學習方法,特別是基於變換器架構的語言模型(LMs),因其在其他領域的成功和計算能力的提升,正變得越來越受歡迎。

3. 變換器架構和掩碼語言建模(Masked Language Modelling, MLM)的進步

  • 變換器架構自2017年引入以來,在自然語言處理(Natural Language Processing, NLP)領域迅速發展,產生了能夠執行任務的LMs,達到了人類甚至超人的水平。
  • MLM作為對訓練雙向BERT模型挑戰的響應,通過隨機遮蔽一部分標記並讓算法預測正確的標記,提高了LMs的表示能力,使得BERT模型能夠通過少量數據的微調,在多個基準測試中達到最先進的性能。

4. 利用社會文化背景信息進行OCR校正的潛力

  • 提供社會文化背景信息作為校正過程的一部分,可能會提高OCR校正的性能,這是本研究希望探索的新領域。

綜上所述,這篇文獻的背景強調了在OCR技術領域中對提高數字化檔案質量的需求,以及利用預訓練語言模型和文本的社會文化背景信息進行OCR後處理的潛力。