WikiEdge:ArXiv-2408.17428v1/summary
跳至導覽
跳至搜尋
這篇論文介紹了一種名為Context Leveraging OCR Correction (CLOCR-C)的新方法,旨在利用預訓練語言模型(LMs)來提高光學字符識別(OCR)的質量。研究主要圍繞三個問題展開:LMs是否能夠提高報紙和期刊OCR輸出的準確性;CLOCR-C錯誤率的降低是否能夠改善下游自然語言處理(NLP)任務;以及提供社會文化背景信息是否能夠提高OCR輸出的準確性。
- 引言:強調了數字化歷史印刷媒體檔案對於提高當代記錄可訪問性的重要性,同時指出OCR在轉換物理記錄為數字文本時容易出錯,尤其是在報紙和期刊這類複雜布局的文檔中。以往的研究和方法,包括眾包校正和機器學習方法,都面臨着挑戰和局限性。
- CLOCR-C介紹:提出了利用預訓練LMs的「填充」和適應上下文的能力來改善OCR質量的概念。研究目標是探索LMs在OCR後校正、提高下游NLP任務性能以及在糾正過程中提供社會文化背景的價值。
- 方法論:
- 實驗結果:
- 結論:論文得出CLOCR-C是一種有前景的方法,能夠通過利用LMs中嵌入的社會文化信息和待糾正文本,提高現有數字檔案的質量。同時,論文還發布了一個包含91篇轉錄文章的數據集,以支持這一領域的進一步研究。