WikiEdge:ArXiv-2408.17428v1/questions

来自WikiEdge
跳转到导航 跳转到搜索
编辑

作者面对的是历史印刷媒体档案数字化过程中的挑战,特别是在使用光学字符识别OCR)技术将实体记录转换为数字文本时出现的错误问题。具体问题包括:

  • OCR错误率高:特别是在报纸期刊这类具有复杂布局的文档中,OCR技术容易出错,这影响了档案研究的质量。
  • OCR校正方法的局限性:尽管已有多种后OCR校正方法,但2017年ICADAROCR校正竞赛显示,只有大约一半的方法能够提高OCR质量。
  • 利用大型语言模型LMs)进行后OCR校正的潜力:尽管已有研究尝试使用语言模型进行后OCR校正,但先前的研究并未发现语言模型能够提高OCR质量,作者试图证明这一点。