WikiEdge:ArXiv-2408.17428v1/terms

来自WikiEdge
跳转到导航 跳转到搜索
编辑

这篇文章的术语表如下:

  • 光学字符识别(Optical Character Recognition, OCR):光学字符识别是一种技术,用于将不同类型的文档(例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片)转换成可编辑和可搜索的数据。
  • 上下文感知OCR校正(Context Leveraging OCR Correction, CLOCR-C):上下文感知OCR校正是利用预训练语言模型的填充和上下文适应能力来提高OCR质量的过程。
  • 命名实体识别(Named Entity Recognition, NER):命名实体识别是自然语言处理中的一项任务,涉及识别文本中的实体,如人名、地点、组织等。
  • 余弦命名实体相似度(Cosine Named Entity Similarity, CoNES):余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法,不考虑实体在文本中的位置。
  • 字符错误率(Character Error Rate, CER):字符错误率是一种衡量文本识别或校正质量的指标,计算公式为(替换数+删除数+插入数)/ 正确的总字符数。
  • 错误减少百分比(Error Reduction Percentage, ERP):错误减少百分比用于衡量OCR校正后错误率的降低程度,计算公式为(原始OCR错误率 - 校正后错误率)/ 原始OCR错误率 * 100。
  • 语言模型(Language Model, LM):语言模型是自然语言处理中的一个概念,用于预测一个词序列的概率分布,常用于文本生成、语音识别等任务。
  • 掩码语言建模(Masked Language Modelling, MLM):掩码语言建模是一种语言模型训练方法,通过随机遮蔽文本中的一些单词,然后预测这些被遮蔽的单词来训练模型。
  • 自回归模型(Autoregressive Model):自回归模型是一种统计模型,用于预测序列中下一个元素的概率分布,基于序列中前面的元素。
  • BERT:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示的方法,通过考虑上下文中的前后文信息来获得高质量的文本表示。