WikiEdge:ArXiv-2408.17428v1/questions:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
Saved page by David |
||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/questions|action=edit}} 编辑]</div> | |||
作者面对的是历史[[印刷媒体]]档案[[数字化]]过程中的挑战,特别是在使用[[光学字符识别]]([[OCR]])技术将实体记录转换为数字文本时出现的错误问题。具体问题包括: | |||
* [[OCR]]错误率高:特别是在[[报纸]]和[[期刊]]这类具有复杂布局的文档中,[[OCR]]技术容易出错,这影响了档案研究的质量。 | |||
* 后[[OCR]]校正方法的局限性:尽管已有多种后[[OCR]]校正方法,但2017年[[ICADAR]]后[[OCR]]校正竞赛显示,只有大约一半的方法能够提高[[OCR]]质量。 | |||
* 利用大型[[语言模型]]([[LMs]])进行后[[OCR]]校正的潜力:尽管已有研究尝试使用[[语言模型]]进行后[[OCR]]校正,但先前的研究并未发现[[语言模型]]能够提高[[OCR]]质量,作者试图证明这一点。 | |||