WikiEdge:ArXiv-2408.17428v1/methods

這篇文獻的工作部分詳細介紹了如何利用基於變換器的語言模型（LMs）進行光學字符識別（OCR）後處理校正。以下是這部分的主要內容：

數據集和抽樣方法：
- 使用了三個數據集，包括19世紀期刊版（NCSE）、《雪梨先驅晨報》和美國報紙檔案Chronicling America。這些數據集包含了不同時期和地區的報紙，用於訓練和評估模型。
語言模型（Language Models, LMs）：
- 比較了七種流行的基於變換器的LMs，包括GPT-4、GPT-3.5、Llama 3等，這些模型通過API訪問，覆蓋了最大的LM公司。
實驗設置：
- 實驗分為三個部分：提示（prompt）的選擇和LM評估指標、下游任務改進的測試、以及利用LM進行OCR校正的概念性演示。
提示變體和選擇過程：
- 研究了不同的提示格式對LMs校正效果的影響，包括基本提示、專家提示、文本內容提示等，以確定最佳的提示策略。
下游任務評估：命名實體識別（Named Entity Recognition, NER）：
- 使用NER任務來評估OCR校正後的數據質量，通過比較原始OCR文本和校正後的文本中的實體識別性能。
利用社會文化信息：
- 探討了在提示中提供社會文化背景信息對OCR校正性能的影響，包括正確和誤導性的社會文化背景。

導覽選單