查看“WikiEdge:ArXiv-2408.17428v1/summary”的源代码
←
WikiEdge:ArXiv-2408.17428v1/summary
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/summary|action=edit}} 编辑]</div> 这份文件是一篇关于利用[[预训练语言模型]]进行[[光学字符识别]]([[OCR]])后处理的研究论文,论文的主要内容可以概括如下: # '''引言''':介绍了数字化历史印刷媒体档案的重要性以及OCR技术在转换物理记录为数字文本过程中的误差问题,特别是在[[报纸]]和[[期刊]]这类复杂布局的文档中。 # '''CLOCR-C介绍''':提出了一种名为[[Context Leveraging OCR Correction]] (CLOCR-C) 的方法,该方法利用基于[[变换器]]的[[语言模型]]([[LMs]])的填补和适应上下文的能力来提高OCR质量。 # '''目标和贡献''':明确了研究旨在回答的三个问题:LMs是否能提高报纸和期刊OCR输出的准确性;CLOCR-C错误率的降低是否能改善下游[[自然语言处理]]([[NLP]])任务;以及提供社会文化上下文是否能提高OCR输出的准确性。 # '''方法论''': #* '''数据集和抽样方法''':使用了包括19世纪期刊版([[NCSE]])和[[Overproof]]收藏中的两个数据集在内的三个数据集进行实验。 #* '''语言模型''':比较了七种流行的LMs在OCR后处理上的表现。 #* '''实验设置''':描述了用于测试LMs的提示选择过程、评估指标以及对下游任务改进的实验。 # '''实验结果''':展示了不同LMs在OCR后处理上的性能,以及它们在下游任务(如[[命名实体识别]])上的影响。还探讨了社会文化上下文在OCR后处理成功中的作用。 # '''讨论''':分析了LMs在OCR后处理中的表现,以及提示和文本的社会文化上下文对性能的影响。 # '''结论''':总结了LMs可以用于OCR后处理,并且提供文本的社会文化上下文可以改善性能,同时误导性的提示会降低性能。提出了CLOCR-C作为一种有前景的OCR校正方法,并强调了进一步研究的需求。
返回
WikiEdge:ArXiv-2408.17428v1/summary
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息