WikiEdge:ArXiv-2408.17428v1/summary

编辑

这篇论文介绍了一种名为Context Leveraging OCR Correction (CLOCR-C)的新方法，旨在利用预训练语言模型（LMs）来提高光学字符识别（OCR）的质量。研究主要围绕三个问题展开：LMs是否能够提高报纸和期刊OCR输出的准确性；CLOCR-C错误率的降低是否能够改善下游自然语言处理（NLP）任务；以及提供社会文化背景信息是否能够提高OCR输出的准确性。

引言：强调了数字化历史印刷媒体档案对于提高当代记录可访问性的重要性，同时指出OCR在转换物理记录为数字文本时容易出错，尤其是在报纸和期刊这类复杂布局的文档中。以往的研究和方法，包括众包校正和机器学习方法，都面临着挑战和局限性。
CLOCR-C介绍：提出了利用预训练LMs的“填充”和适应上下文的能力来改善OCR质量的概念。研究目标是探索LMs在OCR后校正、提高下游NLP任务性能以及在纠正过程中提供社会文化背景的价值。
方法论：
- 数据集和抽样方法：使用了包括19世纪期刊版（NCSE）、《悉尼先驱晨报》和《美国编年史》等三个数据集进行实验。
- 语言模型：比较了七种流行的LMs，包括GPT-4、GPT-3.5、Llama 3等。
- 实验设置：详细描述了用于LM评估的提示（prompt）变体、选择过程以及用于测试下游任务改进的实验。
实验结果：
- 语言模型比较：发现某些LMs显著降低了错误率，其中在NCSE数据集上表现最好的模型实现了字符错误率超过60%的降低。
- 下游任务影响：OCR质量的提高扩展到了下游任务，如命名实体识别（NER），提高了余弦命名实体相似度。
- 社会文化信息的作用：研究表明，在提示中提供社会文化背景可以改善性能，而误导性的提示则会降低性能。
结论：论文得出CLOCR-C是一种有前景的方法，能够通过利用LMs中嵌入的社会文化信息和待纠正文本，提高现有数字档案的质量。同时，论文还发布了一个包含91篇转录文章的数据集，以支持这一领域的进一步研究。

WikiEdge:ArXiv-2408.17428v1/summary

导航菜单

搜索