WikiEdge:ArXiv-2408.17428v1/methods

来自WikiEdge
跳转到导航 跳转到搜索
编辑

这篇论文的工作部分详细介绍了如何使用基于变换器语言模型(LMs)进行光学字符识别(OCR)后处理以提高OCR质量。以下是这部分的主要内容:

  1. OCR后处理(Post-OCR Correction)
    • 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题,特别是在报纸期刊等复杂布局的文档中。
  2. 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C)
    • 提出了CLOCR-C的概念,利用预训练语言模型的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理,提高下游自然语言处理(NLP)任务的性能,以及提供社会文化背景作为校正过程的一部分的价值。
  3. 数据集和抽样方法(Datasets and Sampling Methodology)
    • 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布。
  4. 语言模型(Language Models)
  5. 实验设置(Experimental Setup)
    • 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进的实验。
  6. 下游任务评估(Downstream Task Evaluation)
    • 通过命名实体识别(NER)任务来评估OCR后处理对下游任务的影响,使用余弦命名实体相似度(CoNES)作为评估指标。
  7. 社会文化信息的使用(Use of Socio-Cultural Information)
    • 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能的影响。