WikiEdge:ArXiv-2408.17428v1/background

出自WikiEdge

< WikiEdge:ArXiv-2408.17428v1

於 2024年9月3日 (二) 05:05 由 David（留言 | 貢獻）所做的修訂（Saved page by David）

(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)

跳至導覽跳至搜尋

研究背景

這篇文獻的背景主要集中在以下幾個方面： 1. 光學字符識別（Optical Character Recognition, OCR）技術在歷史印刷媒體檔案數字化中的重要性：

歷史印刷媒體檔案的數字化對於提高當代記錄的可訪問性至關重要，特別是對於報紙和期刊等能夠提供歷史事件當時觀點和看法的媒介。
然而，OCR技術在轉換物理記錄為數字文本的過程中容易出錯，尤其是在報紙和期刊這類布局複雜的文檔中。

2. OCR後處理和質量評估的挑戰：

OCR文檔的錯誤會負面影響使用這些檔案的研究質量，因此，OCR後處理和評估OCR質量成為活躍的研究領域。
儘管已有多種流行的OCR後處理方法，如眾包校正和在線安全測試，但機器學習方法，特別是基於變換器架構的語言模型（LMs），因其在其他領域的成功和計算能力的提升，正變得越來越受歡迎。

3. 變換器架構和掩碼語言建模（Masked Language Modelling, MLM）的進步：

變換器架構自2017年引入以來，在自然語言處理（Natural Language Processing, NLP）領域迅速發展，產生了能夠執行任務的LMs，達到了人類甚至超人的水平。
MLM作為對訓練雙向BERT模型挑戰的響應，通過隨機遮蔽一部分標記並讓算法預測正確的標記，提高了LMs的表示能力，使得BERT模型能夠通過少量數據的微調，在多個基準測試中達到最先進的性能。

4. 利用社會文化背景信息進行OCR校正的潛力：

提供社會文化背景信息作為校正過程的一部分，可能會提高OCR校正的性能，這是本研究希望探索的新領域。

綜上所述，這篇文獻的背景強調了在OCR技術領域中對提高數字化檔案質量的需求，以及利用預訓練語言模型和文本的社會文化背景信息進行OCR後處理的潛力。

取自「http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv-2408.17428v1/background&oldid=577」