查看“WikiEdge:ArXiv-2408.17428v1/terms”的源代码

<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/terms|action=edit}} 编辑]</div>
这篇文章的术语表如下：
* [[光学字符识别]]（Optical Character Recognition, OCR）：光学字符识别是一种技术，用于将不同类型的文档（例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片）转换成可编辑和可搜索的数据。
* [[上下文感知OCR校正]]（Context Leveraging OCR Correction, CLOCR-C）：上下文感知OCR校正是利用预训练[[语言模型]]的填充和上下文适应能力来提高OCR质量的过程。
* [[命名实体识别]]（Named Entity Recognition, NER）：命名实体识别是[[自然语言处理]]中的一项任务，涉及识别文本中的实体，如人名、地点、组织等。
* [[余弦命名实体相似度]]（Cosine Named Entity Similarity, CoNES）：余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法，不考虑实体在文本中的位置。
* [[字符错误率]]（Character Error Rate, CER）：字符错误率是一种衡量文本识别或校正质量的指标，计算公式为（替换数+删除数+插入数）/ 正确的总字符数。
* [[错误减少百分比]]（Error Reduction Percentage, ERP）：错误减少百分比用于衡量OCR校正后错误率的降低程度，计算公式为（原始OCR错误率 - 校正后错误率）/ 原始OCR错误率 * 100。
* [[语言模型]]（Language Model, LM）：语言模型是[[自然语言处理]]中的一个概念，用于预测一个词序列的概率分布，常用于文本生成、语音识别等任务。
* [[掩码语言建模]]（Masked Language Modelling, MLM）：掩码语言建模是一种语言模型训练方法，通过随机遮蔽文本中的一些单词，然后预测这些被遮蔽的单词来训练模型。
* [[自回归模型]]（Autoregressive Model）：自回归模型是一种统计模型，用于预测序列中下一个元素的概率分布，基于序列中前面的元素。
* [[BERT]]：BERT（Bidirectional Encoder Representations from Transformers）是一种预训练语言表示的方法，通过考虑上下文中的前后文信息来获得高质量的文本表示。