这篇文献的背景主要集中在以下几个方面:
- 光学字符识别(OCR)在历史印刷媒体档案数字化中的重要性:
- 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案,如期刊和新闻媒体,为研究历史事件提供了原始视角和见解。
- 然而,OCR技术在将实体记录转换为数字文本的过程中容易出错,尤其是在处理报纸和期刊这类布局复杂的文档时。
- OCR错误对后续自然语言处理(NLP)任务的影响:
- 基于变换器的语言模型(LMs)在OCR后处理中的潜力:
综上所述,这篇文献的背景强调了在历史文档数字化过程中提高OCR准确性的需求,以及利用先进的语言模型来改进OCR输出和增强后续NLP任务的潜力。