WikiEdge:ArXiv-2408.17428v1/methods

编辑

这篇论文的工作部分详细介绍了如何使用基于变换器的语言模型（LMs）进行光学字符识别（OCR）后处理以提高OCR质量。以下是这部分的主要内容：

OCR后处理（Post-OCR Correction）：
- 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题，特别是在报纸和期刊等复杂布局的文档中。
上下文利用OCR校正（Context Leveraging OCR Correction, CLOCR-C）：
- 提出了CLOCR-C的概念，利用预训练语言模型的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理，提高下游自然语言处理（NLP）任务的性能，以及提供社会文化背景作为校正过程的一部分的价值。
数据集和抽样方法（Datasets and Sampling Methodology）：
- 使用了三个数据集进行实验：19世纪期刊版（NCSE）、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法，确保样本能够代表整个数据集的分布。
语言模型（Language Models）：
- 比较了七种流行的LMs在OCR后处理中的表现，包括GPT-4、GPT-3.5、Llama 3等。
实验设置（Experimental Setup）：
- 描述了用于提示选择过程和LM评估指标的提示变体，以及用于测试下游任务改进的实验。
下游任务评估（Downstream Task Evaluation）：
- 通过命名实体识别（NER）任务来评估OCR后处理对下游任务的影响，使用余弦命名实体相似度（CoNES）作为评估指标。
社会文化信息的使用（Use of Socio-Cultural Information）：
- 探讨了在OCR校正中提供文本的社会文化背景信息的重要性，并通过实验验证了正确和误导性提示对LMs性能的影响。

WikiEdge:ArXiv-2408.17428v1/methods

导航菜单

搜索