WikiEdge:ArXiv-2408.17428v1/background

这篇文献的背景主要集中在以下几个方面：

光学字符识别（OCR）在历史印刷媒体档案数字化中的重要性：
- 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案，如期刊和新闻媒体，为研究历史事件提供了原始视角和见解。
- 然而，OCR技术在将实体记录转换为数字文本的过程中容易出错，尤其是在处理报纸和期刊这类布局复杂的文档时。
OCR错误对后续自然语言处理（NLP）任务的影响：
- OCR过程中的错误会负面影响使用这些档案的研究质量，尤其是在进行命名实体识别（NER）、情感分析、文本分类或问答等下游NLP任务时。
- 因此，提高OCR质量，尤其是在历史文档和报纸档案的OCR处理中，是当前研究中的一个活跃领域。
基于变换器的语言模型（LMs）在OCR后处理中的潜力：
- 近年来，基于变换器架构的语言模型在自然语言处理领域取得了显著进展，这些模型能够执行复杂的语言任务，并且在某些情况下达到或超越人类水平。
- 这些模型的“注意力”机制和掩码语言建模（MLM）训练方法使它们能够更好地理解和纠正文本中的错误，为OCR后处理提供了新的可能性。

综上所述，这篇文献的背景强调了在历史文档数字化过程中提高OCR准确性的需求，以及利用先进的语言模型来改进OCR输出和增强后续NLP任务的潜力。

导航菜单