WikiEdge:ArXiv-2408.17428v1/summary
跳转到导航
跳转到搜索
这篇论文介绍了一种名为Context Leveraging OCR Correction (CLOCR-C)的新方法,旨在利用预训练语言模型(LMs)来提高光学字符识别(OCR)的质量。研究主要围绕三个问题展开:LMs是否能够提高报纸和期刊OCR输出的准确性;CLOCR-C错误率的降低是否能够改善下游自然语言处理(NLP)任务;以及提供社会文化背景信息是否能够提高OCR输出的准确性。
- 引言:强调了数字化历史印刷媒体档案对于提高当代记录可访问性的重要性,同时指出OCR在转换物理记录为数字文本时容易出错,尤其是在报纸和期刊这类复杂布局的文档中。以往的研究和方法,包括众包校正和机器学习方法,都面临着挑战和局限性。
- CLOCR-C介绍:提出了利用预训练LMs的“填充”和适应上下文的能力来改善OCR质量的概念。研究目标是探索LMs在OCR后校正、提高下游NLP任务性能以及在纠正过程中提供社会文化背景的价值。
- 方法论:
- 实验结果:
- 结论:论文得出CLOCR-C是一种有前景的方法,能够通过利用LMs中嵌入的社会文化信息和待纠正文本,提高现有数字档案的质量。同时,论文还发布了一个包含91篇转录文章的数据集,以支持这一领域的进一步研究。