WikiEdge:ArXiv-2408.17428v1/methods
跳转到导航
跳转到搜索
这篇文献的工作部分详细介绍了如何利用基于变换器的语言模型(LMs)进行光学字符识别(OCR)后处理校正。以下是这部分的主要内容:
- 数据集和抽样方法:
- 使用了三个数据集,包括19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。这些数据集包含了不同时期和地区的报纸,用于训练和评估模型。
- 语言模型(Language Models, LMs):
- 实验设置:
- 提示变体和选择过程:
- 研究了不同的提示格式对LMs校正效果的影响,包括基本提示、专家提示、文本内容提示等,以确定最佳的提示策略。
- 下游任务评估:命名实体识别(Named Entity Recognition, NER):
- 使用NER任务来评估OCR校正后的数据质量,通过比较原始OCR文本和校正后的文本中的实体识别性能。
- 利用社会文化信息:
- 探讨了在提示中提供社会文化背景信息对OCR校正性能的影响,包括正确和误导性的社会文化背景。