查看“WikiEdge:ArXiv-2408.17428v1/questions”的源代码

== 问题与动机 ==
<!-- 不要移除下面一行，如果有编辑错误，请直接修改该行以后的内容 -->
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/questions|action=edit}} 编辑]</div>
作者面对的领域研究问题是如何提高光学字符识别（OCR）技术在数字化历史印刷媒体档案，特别是报纸和期刊这类复杂布局文档中的准确性。具体问题包括：
* OCR错误率高：由于报纸和期刊的复杂布局，传统的OCR技术在转换物理记录为数字文本时容易出错，这影响了档案的研究和使用质量。
* 后OCR校正技术的改进：现有的后OCR校正方法，如众包校正或在线安全测试，存在效率和准确性的局限性，需要探索更有效的算法和技术。
* 利用预训练语言模型进行OCR校正：研究者探索使用基于Transformer的预训练语言模型（LMs）进行后OCR校正的可能性，以及这些模型在提高OCR输出质量和下游自然语言处理（NLP）任务中的表现。
* 社会文化背景信息在OCR校正中的作用：研究者试图了解在OCR校正过程中提供社会文化背景信息的价值，以及这是否能够进一步提升校正的准确性。