WikiEdge:ArXiv-2408.17428v1/methods
跳至導覽
跳至搜尋
這篇文獻的工作部分詳細介紹了如何利用基於變換器的語言模型(LMs)進行光學字符識別(OCR)後處理校正。以下是這部分的主要內容:
- 數據集和抽樣方法:
- 使用了三個數據集,包括19世紀期刊版(NCSE)、《悉尼先驅晨報》和美國報紙檔案Chronicling America。這些數據集包含了不同時期和地區的報紙,用於訓練和評估模型。
- 語言模型(Language Models, LMs):
- 實驗設置:
- 提示變體和選擇過程:
- 研究了不同的提示格式對LMs校正效果的影響,包括基本提示、專家提示、文本內容提示等,以確定最佳的提示策略。
- 下游任務評估:命名實體識別(Named Entity Recognition, NER):
- 使用NER任務來評估OCR校正後的數據質量,通過比較原始OCR文本和校正後的文本中的實體識別性能。
- 利用社會文化信息:
- 探討了在提示中提供社會文化背景信息對OCR校正性能的影響,包括正確和誤導性的社會文化背景。