WikiEdge:ArXiv-2408.17428v1/summary
跳至導覽
跳至搜尋
這份文件是一篇關於利用預訓練語言模型進行光學字符識別(OCR)後處理的研究論文,論文的主要內容可以概括如下:
- 引言:介紹了數字化歷史印刷媒體檔案的重要性以及OCR技術在轉換物理記錄為數字文本過程中的誤差問題,特別是在報紙和期刊這類複雜布局的文檔中。
- CLOCR-C介紹:提出了一種名為Context Leveraging OCR Correction (CLOCR-C) 的方法,該方法利用基於變換器的語言模型(LMs)的填補和適應上下文的能力來提高OCR質量。
- 目標和貢獻:明確了研究旨在回答的三個問題:LMs是否能提高報紙和期刊OCR輸出的準確性;CLOCR-C錯誤率的降低是否能改善下游自然語言處理(NLP)任務;以及提供社會文化上下文是否能提高OCR輸出的準確性。
- 方法論:
- 實驗結果:展示了不同LMs在OCR後處理上的性能,以及它們在下游任務(如命名實體識別)上的影響。還探討了社會文化上下文在OCR後處理成功中的作用。
- 討論:分析了LMs在OCR後處理中的表現,以及提示和文本的社會文化上下文對性能的影響。
- 結論:總結了LMs可以用於OCR後處理,並且提供文本的社會文化上下文可以改善性能,同時誤導性的提示會降低性能。提出了CLOCR-C作為一種有前景的OCR校正方法,並強調了進一步研究的需求。