WikiEdge:ArXiv-2408.17428v1/methods:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
 
David留言 | 贡献
Saved page by David
 
第1行: 第1行:
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/methods|action=edit}} 编辑]</div>
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/methods|action=edit}} 编辑]</div>
这篇文的工作部分详细介绍了如何用基于[[变换器]]的[[语言模型]]([[LMs]])进行[[光学字符识别]]([[OCR]])后处理校正。以下是这部分的主要内容:
这篇文的工作部分详细介绍了如何使用基于[[变换器]]的[[语言模型]](LMs)进行[[光学字符识别]](OCR)后处理以提高OCR质量。以下是这部分的主要内容:
# '''数据集和抽样方法''':
# '''OCR后处理(Post-OCR Correction)''':
#* 使用了三个数据集,包括19世纪期刊版([[NCSE]])、《[[悉尼先驱晨报]]》和美国报纸档案[[Chronicling America]]。这些数据集包含了不同时期和地区报纸,用于训练和评估模型
#* 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题,特别是在[[报纸]]和[[期刊]]等复杂布局的文档中。
# '''语言模型(Language Models, LMs)''':
# '''上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C)''':
#* 比较了七种流行的基于变换器的LMs,包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等,这些模型通过[[API]]访问,覆盖了最大的LM公司
#* 提出了CLOCR-C的概念,利用[[预训练语言模型]]的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理,提高下游[[自然语言处理]](NLP)任务的性能,以及提供[[社会文化]]背景作为校正过程的一部分的价值。
# '''实验设置''':
# '''数据集和抽样方法(Datasets and Sampling Methodology)''':
#* 实验分为三个部分:[[提示]]([[prompt]])的选择和LM评估指标、下游任务改进的测试、以及利用LM进行OCR校正概念性演示。
#* 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《[[悉尼先驱晨报]]》和美国报纸档案[[Chronicling America]]。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布
#  '''提示变体和选择过程''':
# '''语言模型(Language Models)''':
#* 研究了不同的提示格式对LMs校正效果的影响,包括基本提示、专家提示、文本内容提示等,以确定最佳提示策略
#* 比较了七种流行的LMs在OCR后处理中表现,包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等。
# '''下游任务评估:命名实体识别(Named Entity Recognition, NER)''':
# '''实验设置(Experimental Setup)''':
#* 使用[[NER]]任务来评估OCR校正后的数据质量通过比较原始OCR文本和校正后的文本中的实体识别性能
#* 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进实验
# '''利用社会文化信息''':
# '''下游任务评估(Downstream Task Evaluation)''':
#* 探讨了在提示中提供社会文化背景信息对OCR校正能的影响包括正确和误导性的社会文化背景
#* 通过[[命名实体识别]](NER)任务来评估OCR后处理对下游任务影响使用余弦命名实体相似度(CoNES)作为评估指标
# '''社会文化信息的使用(Use of Socio-Cultural Information)''':
#* 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能影响

2024年9月3日 (二) 10:35的最新版本

编辑

这篇论文的工作部分详细介绍了如何使用基于变换器语言模型(LMs)进行光学字符识别(OCR)后处理以提高OCR质量。以下是这部分的主要内容:

  1. OCR后处理(Post-OCR Correction)
    • 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题,特别是在报纸期刊等复杂布局的文档中。
  2. 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C)
    • 提出了CLOCR-C的概念,利用预训练语言模型的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理,提高下游自然语言处理(NLP)任务的性能,以及提供社会文化背景作为校正过程的一部分的价值。
  3. 数据集和抽样方法(Datasets and Sampling Methodology)
    • 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布。
  4. 语言模型(Language Models)
  5. 实验设置(Experimental Setup)
    • 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进的实验。
  6. 下游任务评估(Downstream Task Evaluation)
    • 通过命名实体识别(NER)任务来评估OCR后处理对下游任务的影响,使用余弦命名实体相似度(CoNES)作为评估指标。
  7. 社会文化信息的使用(Use of Socio-Cultural Information)
    • 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能的影响。