WikiEdge:ArXiv-2408.17428v1/summary:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
David留言 | 贡献
Saved page by David
 
第1行: 第1行:
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/summary|action=edit}} 编辑]</div>
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/summary|action=edit}} 编辑]</div>
篇论介绍了种名为[[Context Leveraging OCR Correction]] (CLOCR-C)的新方法,旨在利用[[预训练语言模型]]([[LMs]])来提高[[光学字符识别]]([[OCR]])的质量。研究主要围绕三个问题展开:LMs是否能够提高[[报纸]]和[[期刊]]OCR输出的准确性;CLOCR-C错误率的降低是否能够改善游[[自然语言处理]]([[NLP]])任务;以及提供[[社会文化背景信息]]是否能够提高OCR输出的准确性。
件是篇关于利用[[预训练语言模型]]进行[[光学字符识别]]([[OCR]])后处理的研究论文,论文的主要内容可以概括如
# '''引言''':强调[[数字化]]历史[[印刷媒体]]档案对于提高当代记录可访问性的重要性,同时指出OCR在转换物理记录为数字文本时容易出错尤其是在报纸和期刊这类复杂布局的文档中。以往的研究和方法,包括[[众包校正]]和[[机器学习方法]],都面临着挑战和局限性
# '''引言''':介绍了数字化历史印刷媒体档案的重要性以及OCR技术在转换物理记录为数字文本过程中的误差问题特别是在[[报纸]][[期刊]]这类复杂布局的文档中。
# '''CLOCR-C介绍''':提出了利用预训练LMs充”和适应上下文的能力来改善OCR质量的概念。研究目标探索LMs在OCR后校正、提高下游NLP任务性能以及在纠正过程中提供社会文化背景价值
# '''CLOCR-C介绍''':提出了一种名为[[Context Leveraging OCR Correction]] (CLOCR-C) 的方法,该方法利用基于[[变换器]]的[[语言模型]]([[LMs]])的填和适应上下文的能力来提高OCR质量。
# '''目标和贡献''':明确了研究旨在回答的三个问题:LMs否能提高报纸和期刊OCR输出的准确性;CLOCR-C错误率的降低是否能改善游[[自然语言处理]]([[NLP]])任务以及提供社会文化上下文是否能提高OCR输出准确性
# '''方法论''':
# '''方法论''':
#* '''数据集和抽样方法''':使用了包括19世纪期刊版([[NCSE]])、《[[悉尼先驱晨报]]》[[美国编年史]]》等三个数据集进行实验。
#* '''数据集和抽样方法''':使用了包括19世纪期刊版([[NCSE]])和[[Overproof]]收藏中的两个数据集在内的三个数据集进行实验。
#* '''语言模型''':比较了七种流行的LMs,包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等
#* '''语言模型''':比较了七种流行的LMs在OCR后处理上的表现
#* '''实验设置''':详细描述了用于LM评估[[提示]](prompt)变体、选择过程以及用于测试下游任务改进的实验。
#* '''实验设置''':描述了用于测试LMs的提示选择过程、评估指标以及下游任务改进的实验。
# '''实验结果''':
# '''实验结果''':展示不同LMs在OCR后处理上的性能,以及它们在下游任务如[[命名实体识别]])上的影响。还探讨社会文化上下文在OCR后处理成功中的作用
#* '''语言模型比较''':发现某些LMs显著降低错误率,其中在NCSE数据集表现最好模型实现了[[字符错误率]]超过60%的降低。
# '''讨论''':分析了LMs在OCR后处理中的表现,以及提示和文本的社会文化上下文对性能影响。
#* '''下游任务影响''':OCR质量的提高扩展到了下游任务,如[[命名实体识别]]([[NER]]),提高余弦命名实体相似度
# '''结论''':总结了LMs可以用于OCR后处理并且提供文本的社会文化上下文可以改善性能,同时误导性的提示会降低性能。提出了CLOCR-C作为一种有前景的OCR校正方法,并强调了进一步研究的需求
#* '''社会文化信息作用''':研究表明在提示中提供社会文化背景可以改善性能,误导性的提示会降低性能。
# '''结论''':论文得出CLOCR-C一种有前景方法,能够通过利用LMs中嵌入的社会文化信息和待纠正文本,提高现有数字档案的质量。同时,论文还发布一个包含91篇转录文章的数据集,以支持这一领域的进一步研究。

2024年9月3日 (二) 10:33的最新版本

编辑

这份文件是一篇关于利用预训练语言模型进行光学字符识别OCR)后处理的研究论文,论文的主要内容可以概括如下:

  1. 引言:介绍了数字化历史印刷媒体档案的重要性以及OCR技术在转换物理记录为数字文本过程中的误差问题,特别是在报纸期刊这类复杂布局的文档中。
  2. CLOCR-C介绍:提出了一种名为Context Leveraging OCR Correction (CLOCR-C) 的方法,该方法利用基于变换器语言模型LMs)的填补和适应上下文的能力来提高OCR质量。
  3. 目标和贡献:明确了研究旨在回答的三个问题:LMs是否能提高报纸和期刊OCR输出的准确性;CLOCR-C错误率的降低是否能改善下游自然语言处理NLP)任务;以及提供社会文化上下文是否能提高OCR输出的准确性。
  4. 方法论
    • 数据集和抽样方法:使用了包括19世纪期刊版(NCSE)和Overproof收藏中的两个数据集在内的三个数据集进行实验。
    • 语言模型:比较了七种流行的LMs在OCR后处理上的表现。
    • 实验设置:描述了用于测试LMs的提示选择过程、评估指标以及对下游任务改进的实验。
  5. 实验结果:展示了不同LMs在OCR后处理上的性能,以及它们在下游任务(如命名实体识别)上的影响。还探讨了社会文化上下文在OCR后处理成功中的作用。
  6. 讨论:分析了LMs在OCR后处理中的表现,以及提示和文本的社会文化上下文对性能的影响。
  7. 结论:总结了LMs可以用于OCR后处理,并且提供文本的社会文化上下文可以改善性能,同时误导性的提示会降低性能。提出了CLOCR-C作为一种有前景的OCR校正方法,并强调了进一步研究的需求。