查看“WikiEdge:ArXiv-2408.17428v1/questions”的源代码
←
WikiEdge:ArXiv-2408.17428v1/questions
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/questions|action=edit}} 编辑]</div> 作者面对的是历史[[印刷媒体]]档案[[数字化]]过程中的挑战,特别是在使用[[光学字符识别]]([[OCR]])技术将实体记录转换为数字文本时出现的错误问题。具体问题包括: * [[OCR]]错误率高:特别是在[[报纸]]和[[期刊]]这类具有复杂布局的文档中,[[OCR]]技术容易出错,这影响了档案研究的质量。 * 后[[OCR]]校正方法的局限性:尽管已有多种后[[OCR]]校正方法,但2017年[[ICADAR]]后[[OCR]]校正竞赛显示,只有大约一半的方法能够提高[[OCR]]质量。 * 利用大型[[语言模型]]([[LMs]])进行后[[OCR]]校正的潜力:尽管已有研究尝试使用[[语言模型]]进行后[[OCR]]校正,但先前的研究并未发现[[语言模型]]能够提高[[OCR]]质量,作者试图证明这一点。
返回
WikiEdge:ArXiv-2408.17428v1/questions
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息