查看“WikiEdge:ArXiv-2408.17428v1/background”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div>
这篇文献的背景主要集中在以下几个方面：
# '''[[光学字符识别]]（[[OCR]]）在历史印刷媒体档案数字化中的重要性'''：
#* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案，如期刊和新闻媒体，为研究历史事件提供了原始视角和见解。
#* 然而，[[OCR]]技术在将实体记录转换为数字文本的过程中容易出错，尤其是在处理报纸和期刊这类布局复杂的文档时。
# '''[[OCR]]错误对后续[[自然语言处理]]（[[NLP]]）任务的影响'''：
#* [[OCR]]过程中的错误会负面影响使用这些档案的研究质量，尤其是在进行[[命名实体识别]]（[[NER]]）、[[情感分析]]、[[文本分类]]或[[问答]]等下游[[NLP]]任务时。
#* 因此，提高[[OCR]]质量，尤其是在历史文档和报纸档案的[[OCR]]处理中，是当前研究中的一个活跃领域。
# '''基于[[变换器]]的[[语言模型]]（[[LMs]]）在[[OCR]]后处理中的潜力'''：
#* 近年来，基于[[变换器]]架构的[[语言模型]]在[[自然语言处理]]领域取得了显著进展，这些模型能够执行复杂的语言任务，并且在某些情况下达到或超越人类水平。
#* 这些模型的“[[注意力]]”机制和[[掩码语言建模]]（[[MLM]]）训练方法使它们能够更好地理解和纠正文本中的错误，为[[OCR]]后处理提供了新的可能性。
综上所述，这篇文献的背景强调了在历史文档数字化过程中提高[[OCR]]准确性的需求，以及利用先进的[[语言模型]]来改进[[OCR]]输出和增强后续[[NLP]]任务的潜力。