WikiEdge:ArXiv-2408.17428v1/abs
跳至導覽
跳至搜尋
- 標題:CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
- 中文標題:上下文感知的OCR糾錯與預訓練語言模型
- 發布日期:2024-08-30T17:26:05+00:00
- 作者:Jonathan Bourne
- 分類:cs.CL, cs.DL
- 原文鏈接:http://arxiv.org/abs/2408.17428v1
摘要:本文介紹了利用上下文的光學字符識別(OCR)校正(CLOCR-C),它利用基於Transformer的語言模型(LMs)的填充和上下文自適應能力來提高OCR質量。研究旨在確定LMs是否可以執行OCR後的校正,改善下游自然語言處理任務,以及在校正過程中提供社會文化背景的價值。實驗使用了七個LMs在三個數據集上進行:19世紀期刊版(NCSE)和兩個來自Overproof集合的數據集。結果表明,一些LMs可以顯著降低錯誤率,表現最好的模型在NCSE數據集上實現了超過60%的字符錯誤率減少。OCR改進還擴展到下游任務,如命名實體識別,增加了餘弦命名實體相似性。此外,研究表明,在提示中提供社會文化背景可以提高性能,而誤導性提示則降低性能。除了研究結果外,本研究還發布了一個包含91篇來自NCSE的轉錄文章的數據集,總共包含4萬個單詞,以支持該領域的進一步研究。研究結果表明,CLOCR-C是一種通過利用嵌入在LMs和需要校正的文本中的社會文化信息來提高現有數字檔案質量的有前途的方法。