WikiEdge:ArXiv-2408.17428v1/methods
跳转到导航
跳转到搜索
这篇论文的工作部分详细介绍了如何使用基于变换器的语言模型(LMs)进行光学字符识别(OCR)后处理以提高OCR质量。以下是这部分的主要内容:
- OCR后处理(Post-OCR Correction):
- 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C):
- 数据集和抽样方法(Datasets and Sampling Methodology):
- 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布。
- 语言模型(Language Models):
- 实验设置(Experimental Setup):
- 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进的实验。
- 下游任务评估(Downstream Task Evaluation):
- 通过命名实体识别(NER)任务来评估OCR后处理对下游任务的影响,使用余弦命名实体相似度(CoNES)作为评估指标。
- 社会文化信息的使用(Use of Socio-Cultural Information):
- 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能的影响。