查看“WikiEdge:ArXiv-2408.17428v1/abs”的源代码
←
WikiEdge:ArXiv-2408.17428v1/abs
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<!-- 不要移除下面第一行,如果有编辑错误,请直接修改第二行以后的内容 --> <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/abs|action=edit}} 编辑]</div> * '''标题''':CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models * '''中文标题''':上下文感知的OCR纠错与预训练语言模型 * '''发布日期''':2024-08-30T17:26:05+00:00 * '''作者''':Jonathan Bourne * '''分类''':cs.CL, cs.DL *'''原文链接''':http://arxiv.org/abs/2408.17428v1 '''摘要''':本文介绍了利用上下文的[[光学字符识别]](OCR)校正(CLOCR-C),它利用基于[[变压器]]的[[语言模型]](LMs)的填充和上下文自适应能力来提高OCR质量。研究旨在确定LMs是否可以执行OCR后的校正,改善下游[[自然语言处理]]任务,以及在校正过程中提供[[社会文化背景]]的价值。实验使用了七个LMs在三个数据集上进行:19世纪期刊版(NCSE)和两个来自[[Overproof]]集合的数据集。结果表明,一些LMs可以显著降低错误率,表现最好的模型在NCSE数据集上实现了超过60%的字符错误率减少。OCR改进还扩展到下游任务,如[[命名实体识别]],增加了余弦命名实体相似性。此外,研究表明,在提示中提供社会文化背景可以提高性能,而误导性提示则降低性能。除了研究结果外,本研究还发布了一个包含91篇来自NCSE的转录文章的数据集,总共包含4万个单词,以支持该领域的进一步研究。研究结果表明,CLOCR-C是一种通过利用嵌入在LMs和需要校正的文本中的社会文化信息来提高现有数字档案质量的有前途的方法。
返回
WikiEdge:ArXiv-2408.17428v1/abs
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息