WikiEdge:ArXiv-2408.17428v1/abs

来自WikiEdge
跳转到导航 跳转到搜索
编辑
  • 标题:CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models
  • 中文标题:上下文感知的OCR纠错与预训练语言模型
  • 发布日期:2024-08-30T17:26:05+00:00
  • 作者:Jonathan Bourne
  • 分类:cs.CL, cs.DL
  • 原文链接http://arxiv.org/abs/2408.17428v1

摘要:本文介绍了利用上下文的光学字符识别(OCR)校正(CLOCR-C),它利用基于Transformer语言模型(LMs)的填充和上下文自适应能力来提高OCR质量。研究旨在确定LMs是否可以执行OCR后的校正,改善下游自然语言处理任务,以及在校正过程中提供社会文化背景的价值。实验使用了七个LMs在三个数据集上进行:19世纪期刊版(NCSE)和两个来自Overproof集合的数据集。结果表明,一些LMs可以显著降低错误率,表现最好的模型在NCSE数据集上实现了超过60%的字符错误率减少。OCR改进还扩展到下游任务,如命名实体识别,增加了余弦命名实体相似性。此外,研究表明,在提示中提供社会文化背景可以提高性能,而误导性提示则降低性能。除了研究结果外,本研究还发布了一个包含91篇来自NCSE的转录文章的数据集,总共包含4万个单词,以支持该领域的进一步研究。研究结果表明,CLOCR-C是一种通过利用嵌入在LMs和需要校正的文本中的社会文化信息来提高现有数字档案质量的有前途的方法。