WikiEdge:ArXiv-2408.17428v1

本文的基本信息如下：

標題：CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
中文標題：上下文感知的OCR糾錯與預訓練語言模型
發布日期：2024-08-30T17:26:05+00:00
作者：Jonathan Bourne
分類：cs.CL, cs.DL
原文鏈接：http://arxiv.org/abs/2408.17428v1

摘要：本文介紹了利用上下文的光學字符識別（OCR）校正（CLOCR-C），它利用基於Transformer的語言模型（LMs）的填充和上下文自適應能力來提高OCR質量。研究旨在確定LMs是否可以執行OCR後的校正，改善下游自然語言處理任務，以及在校正過程中提供社會文化背景的價值。實驗使用了七個LMs在三個數據集上進行：19世紀期刊版（NCSE）和兩個來自Overproof集合的數據集。結果表明，一些LMs可以顯著降低錯誤率，表現最好的模型在NCSE數據集上實現了超過60%的字符錯誤率減少。OCR改進還擴展到下游任務，如命名實體識別，增加了餘弦命名實體相似性。此外，研究表明，在提示中提供社會文化背景可以提高性能，而誤導性提示則降低性能。除了研究結果外，本研究還發布了一個包含91篇來自NCSE的轉錄文章的數據集，總共包含4萬個單詞，以支持該領域的進一步研究。研究結果表明，CLOCR-C是一種通過利用嵌入在LMs和需要校正的文本中的社會文化信息來提高現有數字檔案質量的有前途的方法。

章節摘要

編輯

這份文件是一篇關於利用預訓練語言模型進行光學字符識別（OCR）後處理的研究論文，論文的主要內容可以概括如下：

引言：介紹了數字化歷史印刷媒體檔案的重要性以及OCR技術在轉換物理記錄為數字文本過程中的誤差問題，特別是在報紙和期刊這類複雜布局的文檔中。
CLOCR-C介紹：提出了一種名為Context Leveraging OCR Correction (CLOCR-C) 的方法，該方法利用基於變換器的語言模型（LMs）的填補和適應上下文的能力來提高OCR質量。
目標和貢獻：明確了研究旨在回答的三個問題：LMs是否能提高報紙和期刊OCR輸出的準確性；CLOCR-C錯誤率的降低是否能改善下游自然語言處理（NLP）任務；以及提供社會文化上下文是否能提高OCR輸出的準確性。
方法論：
- 數據集和抽樣方法：使用了包括19世紀期刊版（NCSE）和Overproof收藏中的兩個數據集在內的三個數據集進行實驗。
- 語言模型：比較了七種流行的LMs在OCR後處理上的表現。
- 實驗設置：描述了用於測試LMs的提示選擇過程、評估指標以及對下游任務改進的實驗。
實驗結果：展示了不同LMs在OCR後處理上的性能，以及它們在下游任務（如命名實體識別）上的影響。還探討了社會文化上下文在OCR後處理成功中的作用。
討論：分析了LMs在OCR後處理中的表現，以及提示和文本的社會文化上下文對性能的影響。
結論：總結了LMs可以用於OCR後處理，並且提供文本的社會文化上下文可以改善性能，同時誤導性的提示會降低性能。提出了CLOCR-C作為一種有前景的OCR校正方法，並強調了進一步研究的需求。

研究背景

編輯

這篇文獻的背景主要集中在以下幾個方面：

光學字符識別（OCR）在歷史印刷媒體檔案數字化中的重要性：
- 歷史印刷媒體檔案的數字化對於提高當代記錄的可訪問性至關重要。這些檔案，如期刊和新聞媒體，為研究歷史事件提供了原始視角和見解。
- 然而，OCR技術在將實體記錄轉換為數字文本的過程中容易出錯，尤其是在處理報紙和期刊這類布局複雜的文檔時。
OCR錯誤對後續自然語言處理（NLP）任務的影響：
- OCR過程中的錯誤會負面影響使用這些檔案的研究質量，尤其是在進行命名實體識別（NER）、情感分析、文本分類或問答等下游NLP任務時。
- 因此，提高OCR質量，尤其是在歷史文檔和報紙檔案的OCR處理中，是當前研究中的一個活躍領域。
基於變換器的語言模型（LMs）在OCR後處理中的潛力：
- 近年來，基於變換器架構的語言模型在自然語言處理領域取得了顯著進展，這些模型能夠執行複雜的語言任務，並且在某些情況下達到或超越人類水平。
- 這些模型的「注意力」機制和掩碼語言建模（MLM）訓練方法使它們能夠更好地理解和糾正文本中的錯誤，為OCR後處理提供了新的可能性。

綜上所述，這篇文獻的背景強調了在歷史文檔數字化過程中提高OCR準確性的需求，以及利用先進的語言模型來改進OCR輸出和增強後續NLP任務的潛力。

問題與動機

編輯

作者面對的是歷史印刷媒體檔案數字化過程中的挑戰，特別是在使用光學字符識別（OCR）技術將實體記錄轉換為數字文本時出現的錯誤問題。具體問題包括：

OCR錯誤率高：特別是在報紙和期刊這類具有複雜布局的文檔中，OCR技術容易出錯，這影響了檔案研究的質量。
後OCR校正方法的局限性：儘管已有多種後OCR校正方法，但2017年ICADAR後OCR校正競賽顯示，只有大約一半的方法能夠提高OCR質量。
利用大型語言模型（LMs）進行後OCR校正的潛力：儘管已有研究嘗試使用語言模型進行後OCR校正，但先前的研究並未發現語言模型能夠提高OCR質量，作者試圖證明這一點。

研究方法

編輯

這篇論文的工作部分詳細介紹了如何使用基於變換器的語言模型（LMs）進行光學字符識別（OCR）後處理以提高OCR質量。以下是這部分的主要內容：

OCR後處理（Post-OCR Correction）：
- 討論了OCR在轉換物理記錄為數字文本過程中容易出錯的問題，特別是在報紙和期刊等複雜布局的文檔中。
上下文利用OCR校正（Context Leveraging OCR Correction, CLOCR-C）：
- 提出了CLOCR-C的概念，利用預訓練語言模型的填充和上下文適應能力來改善OCR質量。研究旨在確定LMs是否能夠執行OCR後處理，提高下游自然語言處理（NLP）任務的性能，以及提供社會文化背景作為校正過程的一部分的價值。
數據集和抽樣方法（Datasets and Sampling Methodology）：
- 使用了三個數據集進行實驗：19世紀期刊版（NCSE）、《悉尼先驅晨報》和美國報紙檔案Chronicling America。採用了分層隨機抽樣方法，確保樣本能夠代表整個數據集的分布。
語言模型（Language Models）：
- 比較了七種流行的LMs在OCR後處理中的表現，包括GPT-4、GPT-3.5、Llama 3等。
實驗設置（Experimental Setup）：
- 描述了用於提示選擇過程和LM評估指標的提示變體，以及用於測試下游任務改進的實驗。
下游任務評估（Downstream Task Evaluation）：
- 通過命名實體識別（NER）任務來評估OCR後處理對下游任務的影響，使用餘弦命名實體相似度（CoNES）作為評估指標。
社會文化信息的使用（Use of Socio-Cultural Information）：
- 探討了在OCR校正中提供文本的社會文化背景信息的重要性，並通過實驗驗證了正確和誤導性提示對LMs性能的影響。

研究結論

編輯

根據提供的文獻內容，這篇論文的主要結論可以概括如下：

語言模型在OCR後處理中的應用：研究表明，使用基於變換器的大型語言模型（LMs）進行OCR後處理是可行的，並且能夠顯著提高OCR的準確性。特別是，GPT-4和Claude 3 Opus模型在19世紀連續出版物版（NCSE）數據集上實現了超過60%的字符錯誤率降低。
下游任務性能的提升：OCR質量的提高進一步增強了下游自然語言處理（NLP）任務，如命名實體識別（NER），通過使用餘弦命名實體相似度（CoNES）來衡量，顯示出與原始OCR相比的性能提升。
社會文化上下文的重要性：研究還發現，提供社會文化上下文可以改善OCR輸出的準確性，而誤導性的提示會降低性能。這表明在進行OCR校正時，利用語言模型中的社會文化信息是有價值的。
任務推斷的上下文學習（TIICL）：論文提出了任務推斷的上下文學習（TIICL）的概念，即語言模型能夠從任務本身推斷出所需的上下文信息，從而在長文本或較不損壞的文本中減少對具體提示的依賴。
CLOCR-C方法的前景：儘管一些模型在減少錯誤率方面非常有效，但使用大型閉源模型進行數字檔案校正的成本可能過高。這突顯了對訓練開源模型的進一步研究的需求，這些模型可以更便宜地部署，使CLOCR-C成為一種更易於訪問的解決方案。

術語表

編輯

這篇文章的術語表如下：

光學字符識別（Optical Character Recognition, OCR）：光學字符識別是一種技術，用於將不同類型的文檔（例如掃描的紙張文檔、PDF文件或數字相機拍攝的文本照片）轉換成可編輯和可搜索的數據。
上下文感知OCR校正（Context Leveraging OCR Correction, CLOCR-C）：上下文感知OCR校正是利用預訓練語言模型的填充和上下文適應能力來提高OCR質量的過程。
命名實體識別（Named Entity Recognition, NER）：命名實體識別是自然語言處理中的一項任務，涉及識別文本中的實體，如人名、地點、組織等。
餘弦命名實體相似度（Cosine Named Entity Similarity, CoNES）：餘弦命名實體相似度是一種衡量兩個文本在實體方面相似性的方法，不考慮實體在文本中的位置。
字符錯誤率（Character Error Rate, CER）：字符錯誤率是一種衡量文本識別或校正質量的指標，計算公式為（替換數+刪除數+插入數）/ 正確的總字符數。
錯誤減少百分比（Error Reduction Percentage, ERP）：錯誤減少百分比用于衡量OCR校正後錯誤率的降低程度，計算公式為（原始OCR錯誤率 - 校正後錯誤率）/ 原始OCR錯誤率 * 100。
語言模型（Language Model, LM）：語言模型是自然語言處理中的一個概念，用於預測一個詞序列的概率分布，常用於文本生成、語音識別等任務。
掩碼語言建模（Masked Language Modelling, MLM）：掩碼語言建模是一種語言模型訓練方法，通過隨機遮蔽文本中的一些單詞，然後預測這些被遮蔽的單詞來訓練模型。
自回歸模型（Autoregressive Model）：自回歸模型是一種統計模型，用於預測序列中下一個元素的概率分布，基於序列中前面的元素。
BERT：BERT（Bidirectional Encoder Representations from Transformers）是一種預訓練語言表示的方法，通過考慮上下文中的前後文信息來獲得高質量的文本表示。

WikiEdge:ArXiv-2408.17428v1

目次

章節摘要

研究背景

問題與動機

研究方法

研究結論

術語表

導覽選單

WikiEdge:ArXiv-2408.17428v1

章節摘要

研究背景

問題與動機

研究方法

研究結論

術語表

導覽選單

搜尋