WikiEdge:ArXiv-2408.17428v1/background

来自WikiEdge

< WikiEdge:ArXiv-2408.17428v1

David（留言 | 贡献）2024年9月3日 (二) 05:05的版本（Saved page by David）

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转到导航跳转到搜索

研究背景

这篇文献的背景主要集中在以下几个方面： 1. 光学字符识别（Optical Character Recognition, OCR）技术在历史印刷媒体档案数字化中的重要性：

历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要，特别是对于报纸和期刊等能够提供历史事件当时观点和看法的媒介。
然而，OCR技术在转换物理记录为数字文本的过程中容易出错，尤其是在报纸和期刊这类布局复杂的文档中。

2. OCR后处理和质量评估的挑战：

OCR文档的错误会负面影响使用这些档案的研究质量，因此，OCR后处理和评估OCR质量成为活跃的研究领域。
尽管已有多种流行的OCR后处理方法，如众包校正和在线安全测试，但机器学习方法，特别是基于变换器架构的语言模型（LMs），因其在其他领域的成功和计算能力的提升，正变得越来越受欢迎。

3. 变换器架构和掩码语言建模（Masked Language Modelling, MLM）的进步：

变换器架构自2017年引入以来，在自然语言处理（Natural Language Processing, NLP）领域迅速发展，产生了能够执行任务的LMs，达到了人类甚至超人的水平。
MLM作为对训练双向BERT模型挑战的响应，通过随机遮蔽一部分标记并让算法预测正确的标记，提高了LMs的表示能力，使得BERT模型能够通过少量数据的微调，在多个基准测试中达到最先进的性能。

4. 利用社会文化背景信息进行OCR校正的潜力：

提供社会文化背景信息作为校正过程的一部分，可能会提高OCR校正的性能，这是本研究希望探索的新领域。

综上所述，这篇文献的背景强调了在OCR技术领域中对提高数字化档案质量的需求，以及利用预训练语言模型和文本的社会文化背景信息进行OCR后处理的潜力。

取自“http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv-2408.17428v1/background&oldid=577”