WikiEdge:ArXiv-2408.17428v1/background:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
Saved page by David |
||
(未显示同一用户的1个中间版本) | |||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div> | <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div> | ||
这篇文献的背景主要集中在以下几个方面: | 这篇文献的背景主要集中在以下几个方面: | ||
# '''[[光学字符识别]]([[OCR]])在历史印刷媒体档案数字化中的重要性''': | |||
* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要, | #* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案,如期刊和新闻媒体,为研究历史事件提供了原始视角和见解。 | ||
* 然而 | #* 然而,[[OCR]]技术在将实体记录转换为数字文本的过程中容易出错,尤其是在处理报纸和期刊这类布局复杂的文档时。 | ||
# '''[[OCR]]错误对后续[[自然语言处理]]([[NLP]])任务的影响''': | |||
* OCR | #* [[OCR]]过程中的错误会负面影响使用这些档案的研究质量,尤其是在进行[[命名实体识别]]([[NER]])、[[情感分析]]、[[文本分类]]或[[问答]]等下游[[NLP]]任务时。 | ||
#* 因此,提高[[OCR]]质量,尤其是在历史文档和报纸档案的[[OCR]]处理中,是当前研究中的一个活跃领域。 | |||
# '''基于[[变换器]]的[[语言模型]]([[LMs]])在[[OCR]]后处理中的潜力''': | |||
* 变换器架构 | #* 近年来,基于[[变换器]]架构的[[语言模型]]在[[自然语言处理]]领域取得了显著进展,这些模型能够执行复杂的语言任务,并且在某些情况下达到或超越人类水平。 | ||
* | #* 这些模型的“[[注意力]]”机制和[[掩码语言建模]]([[MLM]])训练方法使它们能够更好地理解和纠正文本中的错误,为[[OCR]]后处理提供了新的可能性。 | ||
综上所述,这篇文献的背景强调了在历史文档数字化过程中提高[[OCR]]准确性的需求,以及利用先进的[[语言模型]]来改进[[OCR]]输出和增强后续[[NLP]]任务的潜力。 | |||
综上所述,这篇文献的背景强调了 |