WikiEdge:ArXiv-2408.17428v1/methods

編輯

這篇論文的工作部分詳細介紹了如何使用基於變換器的語言模型（LMs）進行光學字符識別（OCR）後處理以提高OCR質量。以下是這部分的主要內容：

OCR後處理（Post-OCR Correction）：
- 討論了OCR在轉換物理記錄為數字文本過程中容易出錯的問題，特別是在報紙和期刊等複雜佈局的文檔中。
上下文利用OCR校正（Context Leveraging OCR Correction, CLOCR-C）：
- 提出了CLOCR-C的概念，利用預訓練語言模型的填充和上下文適應能力來改善OCR質量。研究旨在確定LMs是否能夠執行OCR後處理，提高下游自然語言處理（NLP）任務的性能，以及提供社會文化背景作為校正過程的一部分的價值。
數據集和抽樣方法（Datasets and Sampling Methodology）：
- 使用了三個數據集進行實驗：19世紀期刊版（NCSE）、《悉尼先驅晨報》和美國報紙檔案Chronicling America。採用了分層隨機抽樣方法，確保樣本能夠代表整個數據集的分佈。
語言模型（Language Models）：
- 比較了七種流行的LMs在OCR後處理中的表現，包括GPT-4、GPT-3.5、Llama 3等。
實驗設置（Experimental Setup）：
- 描述了用於提示選擇過程和LM評估指標的提示變體，以及用於測試下游任務改進的實驗。
下游任務評估（Downstream Task Evaluation）：
- 通過命名實體識別（NER）任務來評估OCR後處理對下游任務的影響，使用餘弦命名實體相似度（CoNES）作為評估指標。
社會文化信息的使用（Use of Socio-Cultural Information）：
- 探討了在OCR校正中提供文本的社會文化背景信息的重要性，並通過實驗驗證了正確和誤導性提示對LMs性能的影響。

WikiEdge:ArXiv-2408.17428v1/methods

導覽菜單

搜尋