WikiEdge:ArXiv-2408.17428v1/methods

来自WikiEdge
David留言 | 贡献2024年9月3日 (二) 08:32的版本 (Saved page by David)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索
编辑

这篇文献的工作部分详细介绍了如何利用基于变换器语言模型LMs)进行光学字符识别OCR)后处理校正。以下是这部分的主要内容:

  1. 数据集和抽样方法
    • 使用了三个数据集,包括19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。这些数据集包含了不同时期和地区的报纸,用于训练和评估模型。
  2. 语言模型(Language Models, LMs)
    • 比较了七种流行的基于变换器的LMs,包括GPT-4GPT-3.5Llama 3等,这些模型通过API访问,覆盖了最大的LM公司。
  3. 实验设置
    • 实验分为三个部分:提示prompt)的选择和LM评估指标、下游任务改进的测试、以及利用LM进行OCR校正的概念性演示。
  4. 提示变体和选择过程
    • 研究了不同的提示格式对LMs校正效果的影响,包括基本提示、专家提示、文本内容提示等,以确定最佳的提示策略。
  5. 下游任务评估:命名实体识别(Named Entity Recognition, NER)
    • 使用NER任务来评估OCR校正后的数据质量,通过比较原始OCR文本和校正后的文本中的实体识别性能。
  6. 利用社会文化信息
    • 探讨了在提示中提供社会文化背景信息对OCR校正性能的影响,包括正确和误导性的社会文化背景。