查看“WikiEdge:ArXiv-2408.17428v1/summary”的源代码
←
WikiEdge:ArXiv-2408.17428v1/summary
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/summary|action=edit}} 编辑]</div> 这篇论文介绍了一种名为[[Context Leveraging OCR Correction]] (CLOCR-C)的新方法,旨在利用[[预训练语言模型]]([[LMs]])来提高[[光学字符识别]]([[OCR]])的质量。研究主要围绕三个问题展开:LMs是否能够提高[[报纸]]和[[期刊]]OCR输出的准确性;CLOCR-C错误率的降低是否能够改善下游[[自然语言处理]]([[NLP]])任务;以及提供[[社会文化背景信息]]是否能够提高OCR输出的准确性。 # '''引言''':强调了[[数字化]]历史[[印刷媒体]]档案对于提高当代记录可访问性的重要性,同时指出OCR在转换物理记录为数字文本时容易出错,尤其是在报纸和期刊这类复杂布局的文档中。以往的研究和方法,包括[[众包校正]]和[[机器学习方法]],都面临着挑战和局限性。 # '''CLOCR-C介绍''':提出了利用预训练LMs的“填充”和适应上下文的能力来改善OCR质量的概念。研究目标是探索LMs在OCR后校正、提高下游NLP任务性能以及在纠正过程中提供社会文化背景的价值。 # '''方法论''': #* '''数据集和抽样方法''':使用了包括19世纪期刊版([[NCSE]])、《[[悉尼先驱晨报]]》和《[[美国编年史]]》等三个数据集进行实验。 #* '''语言模型''':比较了七种流行的LMs,包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等。 #* '''实验设置''':详细描述了用于LM评估的[[提示]](prompt)变体、选择过程以及用于测试下游任务改进的实验。 # '''实验结果''': #* '''语言模型比较''':发现某些LMs显著降低了错误率,其中在NCSE数据集上表现最好的模型实现了[[字符错误率]]超过60%的降低。 #* '''下游任务影响''':OCR质量的提高扩展到了下游任务,如[[命名实体识别]]([[NER]]),提高了余弦命名实体相似度。 #* '''社会文化信息的作用''':研究表明,在提示中提供社会文化背景可以改善性能,而误导性的提示则会降低性能。 # '''结论''':论文得出CLOCR-C是一种有前景的方法,能够通过利用LMs中嵌入的社会文化信息和待纠正文本,提高现有数字档案的质量。同时,论文还发布了一个包含91篇转录文章的数据集,以支持这一领域的进一步研究。
返回
WikiEdge:ArXiv-2408.17428v1/summary
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息