WikiEdge:ArXiv-2408.17428v1/summary

编辑

这份文件是一篇关于利用预训练语言模型进行光学字符识别（OCR）后处理的研究论文，论文的主要内容可以概括如下：

引言：介绍了数字化历史印刷媒体档案的重要性以及OCR技术在转换物理记录为数字文本过程中的误差问题，特别是在报纸和期刊这类复杂布局的文档中。
CLOCR-C介绍：提出了一种名为Context Leveraging OCR Correction (CLOCR-C) 的方法，该方法利用基于变换器的语言模型（LMs）的填补和适应上下文的能力来提高OCR质量。
目标和贡献：明确了研究旨在回答的三个问题：LMs是否能提高报纸和期刊OCR输出的准确性；CLOCR-C错误率的降低是否能改善下游自然语言处理（NLP）任务；以及提供社会文化上下文是否能提高OCR输出的准确性。
方法论：
- 数据集和抽样方法：使用了包括19世纪期刊版（NCSE）和Overproof收藏中的两个数据集在内的三个数据集进行实验。
- 语言模型：比较了七种流行的LMs在OCR后处理上的表现。
- 实验设置：描述了用于测试LMs的提示选择过程、评估指标以及对下游任务改进的实验。
实验结果：展示了不同LMs在OCR后处理上的性能，以及它们在下游任务（如命名实体识别）上的影响。还探讨了社会文化上下文在OCR后处理成功中的作用。
讨论：分析了LMs在OCR后处理中的表现，以及提示和文本的社会文化上下文对性能的影响。
结论：总结了LMs可以用于OCR后处理，并且提供文本的社会文化上下文可以改善性能，同时误导性的提示会降低性能。提出了CLOCR-C作为一种有前景的OCR校正方法，并强调了进一步研究的需求。

WikiEdge:ArXiv-2408.17428v1/summary

导航菜单

搜索