WikiEdge:ArXiv-2408.17428v1/terms:修订间差异
跳转到导航
跳转到搜索
Saved page by David |
Saved page by David |
||
第1行: | 第1行: | ||
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/terms|action=edit}} 编辑]</div> | |||
这篇文章的术语表如下: | |||
* [[光学字符识别]](Optical Character Recognition, OCR):光学字符识别是一种技术,用于将不同类型的文档(例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片)转换成可编辑和可搜索的数据。 | |||
* [[上下文感知OCR校正]](Context Leveraging OCR Correction, CLOCR-C):上下文感知OCR校正是利用预训练[[语言模型]]的填充和上下文适应能力来提高OCR质量的过程。 | |||
* [[命名实体识别]](Named Entity Recognition, NER):命名实体识别是[[自然语言处理]]中的一项任务,涉及识别文本中的实体,如人名、地点、组织等。 | |||
* [[余弦命名实体相似度]](Cosine Named Entity Similarity, CoNES):余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法,不考虑实体在文本中的位置。 | |||
* [[字符错误率]](Character Error Rate, CER):字符错误率是一种衡量文本识别或校正质量的指标,计算公式为(替换数+删除数+插入数)/ 正确的总字符数。 | |||
* [[错误减少百分比]](Error Reduction Percentage, ERP):错误减少百分比用于衡量OCR校正后错误率的降低程度,计算公式为(原始OCR错误率 - 校正后错误率)/ 原始OCR错误率 * 100。 | |||
* [[语言模型]](Language Model, LM):语言模型是[[自然语言处理]]中的一个概念,用于预测一个词序列的概率分布,常用于文本生成、语音识别等任务。 | |||
* [[掩码语言建模]](Masked Language Modelling, MLM):掩码语言建模是一种语言模型训练方法,通过随机遮蔽文本中的一些单词,然后预测这些被遮蔽的单词来训练模型。 | |||
* [[自回归模型]](Autoregressive Model):自回归模型是一种统计模型,用于预测序列中下一个元素的概率分布,基于序列中前面的元素。 | |||
* [[BERT]]:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示的方法,通过考虑上下文中的前后文信息来获得高质量的文本表示。 |
2024年9月3日 (二) 10:36的最新版本
这篇文章的术语表如下:
- 光学字符识别(Optical Character Recognition, OCR):光学字符识别是一种技术,用于将不同类型的文档(例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片)转换成可编辑和可搜索的数据。
- 上下文感知OCR校正(Context Leveraging OCR Correction, CLOCR-C):上下文感知OCR校正是利用预训练语言模型的填充和上下文适应能力来提高OCR质量的过程。
- 命名实体识别(Named Entity Recognition, NER):命名实体识别是自然语言处理中的一项任务,涉及识别文本中的实体,如人名、地点、组织等。
- 余弦命名实体相似度(Cosine Named Entity Similarity, CoNES):余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法,不考虑实体在文本中的位置。
- 字符错误率(Character Error Rate, CER):字符错误率是一种衡量文本识别或校正质量的指标,计算公式为(替换数+删除数+插入数)/ 正确的总字符数。
- 错误减少百分比(Error Reduction Percentage, ERP):错误减少百分比用于衡量OCR校正后错误率的降低程度,计算公式为(原始OCR错误率 - 校正后错误率)/ 原始OCR错误率 * 100。
- 语言模型(Language Model, LM):语言模型是自然语言处理中的一个概念,用于预测一个词序列的概率分布,常用于文本生成、语音识别等任务。
- 掩码语言建模(Masked Language Modelling, MLM):掩码语言建模是一种语言模型训练方法,通过随机遮蔽文本中的一些单词,然后预测这些被遮蔽的单词来训练模型。
- 自回归模型(Autoregressive Model):自回归模型是一种统计模型,用于预测序列中下一个元素的概率分布,基于序列中前面的元素。
- BERT:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示的方法,通过考虑上下文中的前后文信息来获得高质量的文本表示。