查看“WikiEdge:ArXiv-2408.17428v1/background”的源代码
←
WikiEdge:ArXiv-2408.17428v1/background
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
== 研究背景 == <!-- 不要移除下面一行,如果有编辑错误,请直接修改该行以后的内容 --> <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div> 这篇文献的背景主要集中在以下几个方面: 1. '''光学字符识别(Optical Character Recognition, OCR)技术在历史印刷媒体档案数字化中的重要性''': * 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要,特别是对于报纸和期刊等能够提供历史事件当时观点和看法的媒介。 * 然而,OCR技术在转换物理记录为数字文本的过程中容易出错,尤其是在报纸和期刊这类布局复杂的文档中。 2. '''OCR后处理和质量评估的挑战''': * OCR文档的错误会负面影响使用这些档案的研究质量,因此,OCR后处理和评估OCR质量成为活跃的研究领域。 * 尽管已有多种流行的OCR后处理方法,如众包校正和在线安全测试,但机器学习方法,特别是基于变换器架构的语言模型(LMs),因其在其他领域的成功和计算能力的提升,正变得越来越受欢迎。 3. '''变换器架构和掩码语言建模(Masked Language Modelling, MLM)的进步''': * 变换器架构自2017年引入以来,在自然语言处理(Natural Language Processing, NLP)领域迅速发展,产生了能够执行任务的LMs,达到了人类甚至超人的水平。 * MLM作为对训练双向BERT模型挑战的响应,通过随机遮蔽一部分标记并让算法预测正确的标记,提高了LMs的表示能力,使得BERT模型能够通过少量数据的微调,在多个基准测试中达到最先进的性能。 4. '''利用社会文化背景信息进行OCR校正的潜力''': * 提供社会文化背景信息作为校正过程的一部分,可能会提高OCR校正的性能,这是本研究希望探索的新领域。 综上所述,这篇文献的背景强调了在OCR技术领域中对提高数字化档案质量的需求,以及利用预训练语言模型和文本的社会文化背景信息进行OCR后处理的潜力。
返回
WikiEdge:ArXiv-2408.17428v1/background
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息