WikiEdge
:
ArXiv-2408.17428v1/questions
来自WikiEdge
<
WikiEdge:ArXiv-2408.17428v1
跳转到导航
跳转到搜索
编辑
作者面对的是历史
印刷媒体
档案
数字化
过程中的挑战,特别是在使用
光学字符识别
(
OCR
)技术将实体记录转换为数字文本时出现的错误问题。具体问题包括:
OCR
错误率高:特别是在
报纸
和
期刊
这类具有复杂布局的文档中,
OCR
技术容易出错,这影响了档案研究的质量。
后
OCR
校正方法的局限性:尽管已有多种后
OCR
校正方法,但2017年
ICADAR
后
OCR
校正竞赛显示,只有大约一半的方法能够提高
OCR
质量。
利用大型
语言模型
(
LMs
)进行后
OCR
校正的潜力:尽管已有研究尝试使用
语言模型
进行后
OCR
校正,但先前的研究并未发现
语言模型
能够提高
OCR
质量,作者试图证明这一点。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
打印版本
固定链接
页面信息