WikiEdge:ArXiv-2408.17428v1/questions

来自WikiEdge

< WikiEdge:ArXiv-2408.17428v1

跳转到导航跳转到搜索

作者面对的是历史印刷媒体档案数字化过程中的挑战，特别是在使用光学字符识别（OCR）技术将实体记录转换为数字文本时出现的错误问题。具体问题包括：

OCR错误率高：特别是在报纸和期刊这类具有复杂布局的文档中，OCR技术容易出错，这影响了档案研究的质量。
后OCR校正方法的局限性：尽管已有多种后OCR校正方法，但2017年ICADAR后OCR校正竞赛显示，只有大约一半的方法能够提高OCR质量。
利用大型语言模型（LMs）进行后OCR校正的潜力：尽管已有研究尝试使用语言模型进行后OCR校正，但先前的研究并未发现语言模型能够提高OCR质量，作者试图证明这一点。

取自“http://zh.wikiedge.org/index.php?title=WikiEdge:ArXiv-2408.17428v1/questions&oldid=785”