查看“WikiEdge:ArXiv-2408.17428v1/terms”的源代码
←
WikiEdge:ArXiv-2408.17428v1/terms
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/terms|action=edit}} 编辑]</div> 这篇文章的术语表如下: * [[光学字符识别]](Optical Character Recognition, OCR):光学字符识别是一种技术,用于将不同类型的文档(例如扫描的纸张文档、PDF文件或数字相机拍摄的文本照片)转换成可编辑和可搜索的数据。 * [[上下文感知OCR校正]](Context Leveraging OCR Correction, CLOCR-C):上下文感知OCR校正是利用预训练[[语言模型]]的填充和上下文适应能力来提高OCR质量的过程。 * [[命名实体识别]](Named Entity Recognition, NER):命名实体识别是[[自然语言处理]]中的一项任务,涉及识别文本中的实体,如人名、地点、组织等。 * [[余弦命名实体相似度]](Cosine Named Entity Similarity, CoNES):余弦命名实体相似度是一种衡量两个文本在实体方面相似性的方法,不考虑实体在文本中的位置。 * [[字符错误率]](Character Error Rate, CER):字符错误率是一种衡量文本识别或校正质量的指标,计算公式为(替换数+删除数+插入数)/ 正确的总字符数。 * [[错误减少百分比]](Error Reduction Percentage, ERP):错误减少百分比用于衡量OCR校正后错误率的降低程度,计算公式为(原始OCR错误率 - 校正后错误率)/ 原始OCR错误率 * 100。 * [[语言模型]](Language Model, LM):语言模型是[[自然语言处理]]中的一个概念,用于预测一个词序列的概率分布,常用于文本生成、语音识别等任务。 * [[掩码语言建模]](Masked Language Modelling, MLM):掩码语言建模是一种语言模型训练方法,通过随机遮蔽文本中的一些单词,然后预测这些被遮蔽的单词来训练模型。 * [[自回归模型]](Autoregressive Model):自回归模型是一种统计模型,用于预测序列中下一个元素的概率分布,基于序列中前面的元素。 * [[BERT]]:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示的方法,通过考虑上下文中的前后文信息来获得高质量的文本表示。
返回
WikiEdge:ArXiv-2408.17428v1/terms
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息