WikiEdge:ArXiv-2408.17428v1/methods

出自WikiEdge
跳至導覽 跳至搜尋
編輯

這篇論文的工作部分詳細介紹了如何使用基於變換器語言模型(LMs)進行光學字符識別(OCR)後處理以提高OCR質量。以下是這部分的主要內容:

  1. OCR後處理(Post-OCR Correction)
    • 討論了OCR在轉換物理記錄為數字文本過程中容易出錯的問題,特別是在報紙期刊等複雜佈局的文檔中。
  2. 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C)
    • 提出了CLOCR-C的概念,利用預訓練語言模型的填充和上下文適應能力來改善OCR質量。研究旨在確定LMs是否能夠執行OCR後處理,提高下游自然語言處理(NLP)任務的性能,以及提供社會文化背景作為校正過程的一部分的價值。
  3. 數據集和抽樣方法(Datasets and Sampling Methodology)
    • 使用了三個數據集進行實驗:19世紀期刊版(NCSE)、《悉尼先驅晨報》和美國報紙檔案Chronicling America。採用了分層隨機抽樣方法,確保樣本能夠代表整個數據集的分佈。
  4. 語言模型(Language Models)
  5. 實驗設置(Experimental Setup)
    • 描述了用於提示選擇過程和LM評估指標的提示變體,以及用於測試下游任務改進的實驗。
  6. 下游任務評估(Downstream Task Evaluation)
    • 通過命名實體識別(NER)任務來評估OCR後處理對下游任務的影響,使用餘弦命名實體相似度(CoNES)作為評估指標。
  7. 社會文化信息的使用(Use of Socio-Cultural Information)
    • 探討了在OCR校正中提供文本的社會文化背景信息的重要性,並通過實驗驗證了正確和誤導性提示對LMs性能的影響。