WikiEdge:ArXiv-2408.17428v1/terms
跳至導覽
跳至搜尋
這篇文章的術語表如下:
- 光學字符識別(Optical Character Recognition, OCR):光學字符識別是一種技術,用於將不同類型的文檔(例如掃描的紙張文檔、PDF文件或數字相機拍攝的文本照片)轉換成可編輯和可搜索的數據。
- 上下文感知OCR校正(Context Leveraging OCR Correction, CLOCR-C):上下文感知OCR校正是利用預訓練語言模型的填充和上下文適應能力來提高OCR質量的過程。
- 命名實體識別(Named Entity Recognition, NER):命名實體識別是自然語言處理中的一項任務,涉及識別文本中的實體,如人名、地點、組織等。
- 餘弦命名實體相似度(Cosine Named Entity Similarity, CoNES):餘弦命名實體相似度是一種衡量兩個文本在實體方面相似性的方法,不考慮實體在文本中的位置。
- 字符錯誤率(Character Error Rate, CER):字符錯誤率是一種衡量文本識別或校正質量的指標,計算公式為(替換數+刪除數+插入數)/ 正確的總字符數。
- 錯誤減少百分比(Error Reduction Percentage, ERP):錯誤減少百分比用于衡量OCR校正後錯誤率的降低程度,計算公式為(原始OCR錯誤率 - 校正後錯誤率)/ 原始OCR錯誤率 * 100。
- 語言模型(Language Model, LM):語言模型是自然語言處理中的一個概念,用於預測一個詞序列的概率分布,常用於文本生成、語音識別等任務。
- 掩碼語言建模(Masked Language Modelling, MLM):掩碼語言建模是一種語言模型訓練方法,通過隨機遮蔽文本中的一些單詞,然後預測這些被遮蔽的單詞來訓練模型。
- 自回歸模型(Autoregressive Model):自回歸模型是一種統計模型,用於預測序列中下一個元素的概率分布,基於序列中前面的元素。
- BERT:BERT(Bidirectional Encoder Representations from Transformers)是一種預訓練語言表示的方法,通過考慮上下文中的前後文信息來獲得高質量的文本表示。