WikiEdge:ArXiv-2408.17428v1/methods:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
Saved page by David |
||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/methods|action=edit}} 编辑]</div> | <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/methods|action=edit}} 编辑]</div> | ||
这篇文 | 这篇论文的工作部分详细介绍了如何使用基于[[变换器]]的[[语言模型]](LMs)进行[[光学字符识别]](OCR)后处理以提高OCR质量。以下是这部分的主要内容: | ||
# '''数据集和抽样方法''': | # '''OCR后处理(Post-OCR Correction)''': | ||
#* 使用了三个数据集 | #* 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题,特别是在[[报纸]]和[[期刊]]等复杂布局的文档中。 | ||
# | # '''上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C)''': | ||
#* 比较了七种流行的 | #* 提出了CLOCR-C的概念,利用[[预训练语言模型]]的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理,提高下游[[自然语言处理]](NLP)任务的性能,以及提供[[社会文化]]背景作为校正过程的一部分的价值。 | ||
# | # '''数据集和抽样方法(Datasets and Sampling Methodology)''': | ||
#* | #* 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《[[悉尼先驱晨报]]》和美国报纸档案[[Chronicling America]]。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布。 | ||
# '''语言模型(Language Models)''': | |||
#* 比较了七种流行的LMs在OCR后处理中的表现,包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等。 | |||
# | # '''实验设置(Experimental Setup)''': | ||
#* | #* 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进的实验。 | ||
# | # '''下游任务评估(Downstream Task Evaluation)''': | ||
#* 探讨了 | #* 通过[[命名实体识别]](NER)任务来评估OCR后处理对下游任务的影响,使用余弦命名实体相似度(CoNES)作为评估指标。 | ||
# '''社会文化信息的使用(Use of Socio-Cultural Information)''': | |||
#* 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能的影响。 |
2024年9月3日 (二) 10:35的最新版本
这篇论文的工作部分详细介绍了如何使用基于变换器的语言模型(LMs)进行光学字符识别(OCR)后处理以提高OCR质量。以下是这部分的主要内容:
- OCR后处理(Post-OCR Correction):
- 上下文利用OCR校正(Context Leveraging OCR Correction, CLOCR-C):
- 数据集和抽样方法(Datasets and Sampling Methodology):
- 使用了三个数据集进行实验:19世纪期刊版(NCSE)、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法,确保样本能够代表整个数据集的分布。
- 语言模型(Language Models):
- 实验设置(Experimental Setup):
- 描述了用于提示选择过程和LM评估指标的提示变体,以及用于测试下游任务改进的实验。
- 下游任务评估(Downstream Task Evaluation):
- 通过命名实体识别(NER)任务来评估OCR后处理对下游任务的影响,使用余弦命名实体相似度(CoNES)作为评估指标。
- 社会文化信息的使用(Use of Socio-Cultural Information):
- 探讨了在OCR校正中提供文本的社会文化背景信息的重要性,并通过实验验证了正确和误导性提示对LMs性能的影响。