WikiEdge:ArXiv-2408.17428v1/questions:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
David留言 | 贡献
Saved page by David
 
David留言 | 贡献
Saved page by David
 
(未显示同一用户的1个中间版本)
第1行: 第1行:
== 问题与动机 ==
<!-- 不要移除下面一行,如果有编辑错误,请直接修改该行以后的内容 -->
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/questions|action=edit}} 编辑]</div>
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/questions|action=edit}} 编辑]</div>
作者面对的领域研究问题如何提高光学字符识别(OCR)技术在数字化历史印刷媒体档案,特别是报纸和期刊这类复杂布局档中准确性。具体问题包括:
作者面对的是历史[[印刷媒体]]档案[[数字化]]过程中的挑战,特别是在使用[[光学字符识别]]([[OCR]])技术将实体记录转换为数字本时出现错误问题。具体问题包括:
* OCR错误率高:由于报纸和期刊复杂布局,传统的OCR技术在转换物理记录为数字文本时容易出错,这影响了档案研究和使用质量。
* [[OCR]]错误率高:特别是在[[报纸]][[期刊]]这类具有复杂布局的文档中[[OCR]]技术容易出错,这影响了档案研究质量。
* 后OCR校正技术改进的后OCR校正方法,如众包校正或在线安全测试,存在效率和准确性的局限性需要探索更和技术
* 后[[OCR]]校正方法局限性尽管已多种后[[OCR]]校正方法,但2017年[[ICADAR]]后[[OCR]]校正竞赛显示大约一半能够提高[[OCR]]质量
* 利用预训练语言模型进行OCR校正:研究者探索使用基于Transformer的预训练语言模型(LMs)进行后OCR校正的可能性,以及这些模型高OCR输出质量和下游自然语言处理(NLP)任务中的表现。
* 利用大型[[语言模型]]([[LMs]])行后[[OCR]]校正的潜力尽管已有研究尝试使用[[语言模型]]进行后[[OCR]]校正,但先前研究并未发现[[语言模型]]能够高[[OCR]]质量作者试图证明这一
* 社会文化背景信息在OCR校正中的用:研究者试图了解在OCR校正过程中提供社会文化背景信息的价值,以及是否能够进步提升校正的准确性

2024年9月3日 (二) 10:34的最新版本

编辑

作者面对的是历史印刷媒体档案数字化过程中的挑战,特别是在使用光学字符识别OCR)技术将实体记录转换为数字文本时出现的错误问题。具体问题包括:

  • OCR错误率高:特别是在报纸期刊这类具有复杂布局的文档中,OCR技术容易出错,这影响了档案研究的质量。
  • OCR校正方法的局限性:尽管已有多种后OCR校正方法,但2017年ICADAROCR校正竞赛显示,只有大约一半的方法能够提高OCR质量。
  • 利用大型语言模型LMs)进行后OCR校正的潜力:尽管已有研究尝试使用语言模型进行后OCR校正,但先前的研究并未发现语言模型能够提高OCR质量,作者试图证明这一点。