WikiEdge:ArXiv-2408.17428v1/methods
跳至導覽
跳至搜尋
這篇論文的工作部分詳細介紹了如何使用基於變換器的語言模型(LMs)進行光學字符識別(OCR)後處理以提高OCR質量。以下是這部分的主要內容:
- OCR後處理(Post-OCR Correction):
- 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C):
- 數據集和抽樣方法(Datasets and Sampling Methodology):
- 使用了三個數據集進行實驗:19世紀期刊版(NCSE)、《悉尼先驅晨報》和美國報紙檔案Chronicling America。採用了分層隨機抽樣方法,確保樣本能夠代表整個數據集的分佈。
- 語言模型(Language Models):
- 實驗設置(Experimental Setup):
- 描述了用於提示選擇過程和LM評估指標的提示變體,以及用於測試下游任務改進的實驗。
- 下游任務評估(Downstream Task Evaluation):
- 通過命名實體識別(NER)任務來評估OCR後處理對下游任務的影響,使用餘弦命名實體相似度(CoNES)作為評估指標。
- 社會文化信息的使用(Use of Socio-Cultural Information):
- 探討了在OCR校正中提供文本的社會文化背景信息的重要性,並通過實驗驗證了正確和誤導性提示對LMs性能的影響。