WikiEdge:ArXiv-2408.17428v1/terms

编辑

这篇文章的术语表如下：

光学字符识别（Optical Character Recognition, OCR）：光学字符识别是一种技术，用于将不同类型的文档（例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片）转换成可编辑和可搜索的数据。
上下文感知OCR校正（Context Leveraging OCR Correction, CLOCR-C）：上下文感知OCR校正是利用预训练语言模型的填充和上下文适应能力来提高OCR质量的过程。
命名实体识别（Named Entity Recognition, NER）：命名实体识别是自然语言处理中的一项任务，涉及识别文本中的实体，如人名、地点、组织等。
余弦命名实体相似度（Cosine Named Entity Similarity, CoNES）：余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法，不考虑实体在文本中的位置。
字符错误率（Character Error Rate, CER）：字符错误率是一种衡量文本识别或校正质量的指标，计算公式为（替换数+删除数+插入数）/ 正确的总字符数。
错误减少百分比（Error Reduction Percentage, ERP）：错误减少百分比用于衡量OCR校正后错误率的降低程度，计算公式为（原始OCR错误率 - 校正后错误率）/ 原始OCR错误率 * 100。
语言模型（Language Model, LM）：语言模型是自然语言处理中的一个概念，用于预测一个词序列的概率分布，常用于文本生成、语音识别等任务。
掩码语言建模（Masked Language Modelling, MLM）：掩码语言建模是一种语言模型训练方法，通过随机遮蔽文本中的一些单词，然后预测这些被遮蔽的单词来训练模型。
自回归模型（Autoregressive Model）：自回归模型是一种统计模型，用于预测序列中下一个元素的概率分布，基于序列中前面的元素。
BERT：BERT（Bidirectional Encoder Representations from Transformers）是一种预训练语言表示的方法，通过考虑上下文中的前后文信息来获得高质量的文本表示。

WikiEdge:ArXiv-2408.17428v1/terms

导航菜单

搜索