WikiEdge:ArXiv-2408.17428v1/methods

出自WikiEdge
於 2024年9月3日 (二) 08:32 由 David留言 | 貢獻 所做的修訂 (Saved page by David)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋
編輯

這篇文獻的工作部分詳細介紹了如何利用基於變換器語言模型LMs)進行光學字符識別OCR)後處理校正。以下是這部分的主要內容:

  1. 數據集和抽樣方法
    • 使用了三個數據集,包括19世紀期刊版(NCSE)、《雪梨先驅晨報》和美國報紙檔案Chronicling America。這些數據集包含了不同時期和地區的報紙,用於訓練和評估模型。
  2. 語言模型(Language Models, LMs)
    • 比較了七種流行的基於變換器的LMs,包括GPT-4GPT-3.5Llama 3等,這些模型通過API訪問,覆蓋了最大的LM公司。
  3. 實驗設置
    • 實驗分為三個部分:提示prompt)的選擇和LM評估指標、下游任務改進的測試、以及利用LM進行OCR校正的概念性演示。
  4. 提示變體和選擇過程
    • 研究了不同的提示格式對LMs校正效果的影響,包括基本提示、專家提示、文本內容提示等,以確定最佳的提示策略。
  5. 下游任務評估:命名實體識別(Named Entity Recognition, NER)
    • 使用NER任務來評估OCR校正後的數據質量,通過比較原始OCR文本和校正後的文本中的實體識別性能。
  6. 利用社會文化信息
    • 探討了在提示中提供社會文化背景信息對OCR校正性能的影響,包括正確和誤導性的社會文化背景。