WikiEdge:ArXiv-2408.17428v1/methods

这篇文献的工作部分详细介绍了如何利用基于变换器的语言模型（LMs）进行光学字符识别（OCR）后处理校正。以下是这部分的主要内容：

数据集和抽样方法：
- 使用了三个数据集，包括19世纪期刊版（NCSE）、《悉尼先驱晨报》和美国报纸档案Chronicling America。这些数据集包含了不同时期和地区的报纸，用于训练和评估模型。
语言模型（Language Models, LMs）：
- 比较了七种流行的基于变换器的LMs，包括GPT-4、GPT-3.5、Llama 3等，这些模型通过API访问，覆盖了最大的LM公司。
实验设置：
- 实验分为三个部分：提示（prompt）的选择和LM评估指标、下游任务改进的测试、以及利用LM进行OCR校正的概念性演示。
提示变体和选择过程：
- 研究了不同的提示格式对LMs校正效果的影响，包括基本提示、专家提示、文本内容提示等，以确定最佳的提示策略。
下游任务评估：命名实体识别（Named Entity Recognition, NER）：
- 使用NER任务来评估OCR校正后的数据质量，通过比较原始OCR文本和校正后的文本中的实体识别性能。
利用社会文化信息：
- 探讨了在提示中提供社会文化背景信息对OCR校正性能的影响，包括正确和误导性的社会文化背景。

导航菜单