查看“WikiEdge:ArXiv-2408.17428v1/abs”的源代码

<!-- 不要移除下面第一行，如果有编辑错误，请直接修改第二行以后的内容 -->
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/abs|action=edit}} 编辑]</div>
* '''标题'''：CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
* '''中文标题'''：上下文感知的OCR纠错与预训练语言模型
* '''发布日期'''：2024-08-30T17:26:05+00:00
* '''作者'''：Jonathan Bourne
* '''分类'''：cs.CL, cs.DL
*'''原文链接'''：http://arxiv.org/abs/2408.17428v1
'''摘要'''：本文介绍了利用上下文的[[光学字符识别]]（OCR）校正（CLOCR-C），它利用基于[[变压器]]的[[语言模型]]（LMs）的填充和上下文自适应能力来提高OCR质量。研究旨在确定LMs是否可以执行OCR后的校正，改善下游[[自然语言处理]]任务，以及在校正过程中提供[[社会文化背景]]的价值。实验使用了七个LMs在三个数据集上进行：19世纪期刊版（NCSE）和两个来自[[Overproof]]集合的数据集。结果表明，一些LMs可以显著降低错误率，表现最好的模型在NCSE数据集上实现了超过60%的字符错误率减少。OCR改进还扩展到下游任务，如[[命名实体识别]]，增加了余弦命名实体相似性。此外，研究表明，在提示中提供社会文化背景可以提高性能，而误导性提示则降低性能。除了研究结果外，本研究还发布了一个包含91篇来自NCSE的转录文章的数据集，总共包含4万个单词，以支持该领域的进一步研究。研究结果表明，CLOCR-C是一种通过利用嵌入在LMs和需要校正的文本中的社会文化信息来提高现有数字档案质量的有前途的方法。