查看“WikiEdge:ArXiv-2408.17428v1/background”的源代码
←
WikiEdge:ArXiv-2408.17428v1/background
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div> 这篇文献的背景主要集中在以下几个方面: # '''[[光学字符识别]]([[OCR]])在历史印刷媒体档案数字化中的重要性''': #* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案,如期刊和新闻媒体,为研究历史事件提供了原始视角和见解。 #* 然而,[[OCR]]技术在将实体记录转换为数字文本的过程中容易出错,尤其是在处理报纸和期刊这类布局复杂的文档时。 # '''[[OCR]]错误对后续[[自然语言处理]]([[NLP]])任务的影响''': #* [[OCR]]过程中的错误会负面影响使用这些档案的研究质量,尤其是在进行[[命名实体识别]]([[NER]])、[[情感分析]]、[[文本分类]]或[[问答]]等下游[[NLP]]任务时。 #* 因此,提高[[OCR]]质量,尤其是在历史文档和报纸档案的[[OCR]]处理中,是当前研究中的一个活跃领域。 # '''基于[[变换器]]的[[语言模型]]([[LMs]])在[[OCR]]后处理中的潜力''': #* 近年来,基于[[变换器]]架构的[[语言模型]]在[[自然语言处理]]领域取得了显著进展,这些模型能够执行复杂的语言任务,并且在某些情况下达到或超越人类水平。 #* 这些模型的“[[注意力]]”机制和[[掩码语言建模]]([[MLM]])训练方法使它们能够更好地理解和纠正文本中的错误,为[[OCR]]后处理提供了新的可能性。 综上所述,这篇文献的背景强调了在历史文档数字化过程中提高[[OCR]]准确性的需求,以及利用先进的[[语言模型]]来改进[[OCR]]输出和增强后续[[NLP]]任务的潜力。
返回
WikiEdge:ArXiv-2408.17428v1/background
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息