WikiEdge:ArXiv-2408.17428v1/background:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
 
David留言 | 贡献
Saved page by David
 
(未显示同一用户的1个中间版本)
第1行: 第1行:
== 研究背景 ==
<!-- 不要移除下面一行,如果有编辑错误,请直接修改该行以后的内容 -->
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div>
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div>
这篇文献的背景主要集中在以下几个方面:
这篇文献的背景主要集中在以下几个方面:
1. '''光学字符识别(Optical Character Recognition, OCR)技术在历史印刷媒体档案数字化中的重要性''':
# '''[[光学字符识别]]([[OCR]])在历史印刷媒体档案数字化中的重要性''':
* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要,特别是对于报纸和期刊等能够提供历史事件当时观点看法的媒介
#* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案期刊和新闻媒体,为研究历史事件提供了原始视角见解
* 然而,OCR技术在转换物理记录为数字文本的过程中容易出错,尤其是在报纸和期刊这类布局复杂的文档
#* 然而,[[OCR]]技术在将实体记录转换为数字文本的过程中容易出错,尤其是在处理报纸和期刊这类布局复杂的文档
2. '''OCR后处理和质量评估挑战''':
# '''[[OCR]]错误对续[[自然语言处理]]([[NLP]])任务影响''':
* OCR文档的错误会负面影响使用这些档案的研究质量,因此,OCR后处理和评估OCR质量成为活跃的研究领域。
#* [[OCR]]过程中的错误会负面影响使用这些档案的研究质量,尤其是在进行[[命名实体识别]]([[NER]])、[[情感分析]]、[[文本分类]]或[[问答]]等下游[[NLP]]任务时。
* 尽管已有多种流行的OCR后处理方法,如众包校正和在线安全测试,但机器学习方法,特别是基于变换器架构的语言模型(LMs,因其其他领域成功和计算能的提升,正变得越来越受欢迎。
#* 因此,提高[[OCR]]质量,尤其是在历史文档和报纸档案[[OCR]]处理中,是当前研究中的一个活跃领域。
3. '''变换器架构和掩码语言建模(Masked Language Modelling, MLM)的进步''':
# '''基于[[变换器]][[语言模型]]([[LMs]])在[[OCR]]后处理中力''':
* 变换器架构自2017年引入以来,在自然语言处理(Natural Language Processing, NLP)领域迅速发展,产生了能够执行任务的LMs,达到人类甚至超人的水平。
#* 近年来,基于[[变换器]]架构的[[语言模型]][[自然语言处理]]领域取得了显著进展,这些模型能够执行复杂的语言任务,并且在某些情况下达到或超越人类水平。
* MLM作为对训练双向BERT模型挑战响应,通过随遮蔽一部分标记并让算预测正确的标记,提高了LMs的表示能力,使得BERT模型能够通过少量数据微调在多个基准测试中达到最先进的性能。
#* 这些模型的“[[注意力]]”制和[[掩码语言建模]]([[MLM]])训练方法使它们能够更好地理解和纠正文本中错误为[[OCR]]后处理提供了新的可能性。
4. '''利用社会文化背景信息进行OCR校正的潜力''':
综上所述,这篇文献的背景强调了在历史文档数字化过程中提高[[OCR]]准确性的需求,以及利用先进的[[语言模型]]来改进[[OCR]]输出增强续[[NLP]]任务的潜力。
* 提供社会文化背景信息作为校正过程一部分,可能会提高OCR校正的能,这是本研究希望探索的新领域
综上所述,这篇文献的背景强调了在OCR技术领域提高数字化档案质量的需求,以及利用预训练语言模型和文本的社会文化背景信息进行OCR处理的潜力。

2024年9月3日 (二) 10:33的最新版本

编辑

这篇文献的背景主要集中在以下几个方面:

  1. 光学字符识别OCR)在历史印刷媒体档案数字化中的重要性
    • 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案,如期刊和新闻媒体,为研究历史事件提供了原始视角和见解。
    • 然而,OCR技术在将实体记录转换为数字文本的过程中容易出错,尤其是在处理报纸和期刊这类布局复杂的文档时。
  2. OCR错误对后续自然语言处理NLP)任务的影响
  3. 基于变换器语言模型LMs)在OCR后处理中的潜力
    • 近年来,基于变换器架构的语言模型自然语言处理领域取得了显著进展,这些模型能够执行复杂的语言任务,并且在某些情况下达到或超越人类水平。
    • 这些模型的“注意力”机制和掩码语言建模MLM)训练方法使它们能够更好地理解和纠正文本中的错误,为OCR后处理提供了新的可能性。

综上所述,这篇文献的背景强调了在历史文档数字化过程中提高OCR准确性的需求,以及利用先进的语言模型来改进OCR输出和增强后续NLP任务的潜力。