WikiEdge:ArXiv-2408.17428v1/terms

編輯

這篇文章的術語表如下：

光學字符識別（Optical Character Recognition, OCR）：光學字符識別是一種技術，用於將不同類型的文檔（例如掃描的紙張文檔、PDF文件或數字相機拍攝的文本照片）轉換成可編輯和可搜索的數據。
上下文感知OCR校正（Context Leveraging OCR Correction, CLOCR-C）：上下文感知OCR校正是利用預訓練語言模型的填充和上下文適應能力來提高OCR質量的過程。
命名實體識別（Named Entity Recognition, NER）：命名實體識別是自然語言處理中的一項任務，涉及識別文本中的實體，如人名、地點、組織等。
餘弦命名實體相似度（Cosine Named Entity Similarity, CoNES）：餘弦命名實體相似度是一種衡量兩個文本在實體方面相似性的方法，不考慮實體在文本中的位置。
字符錯誤率（Character Error Rate, CER）：字符錯誤率是一種衡量文本識別或校正質量的指標，計算公式為（替換數+刪除數+插入數）/ 正確的總字符數。
錯誤減少百分比（Error Reduction Percentage, ERP）：錯誤減少百分比用于衡量OCR校正後錯誤率的降低程度，計算公式為（原始OCR錯誤率 - 校正後錯誤率）/ 原始OCR錯誤率 * 100。
語言模型（Language Model, LM）：語言模型是自然語言處理中的一個概念，用於預測一個詞序列的概率分布，常用於文本生成、語音識別等任務。
掩碼語言建模（Masked Language Modelling, MLM）：掩碼語言建模是一種語言模型訓練方法，通過隨機遮蔽文本中的一些單詞，然後預測這些被遮蔽的單詞來訓練模型。
自回歸模型（Autoregressive Model）：自回歸模型是一種統計模型，用於預測序列中下一個元素的概率分布，基於序列中前面的元素。
BERT：BERT（Bidirectional Encoder Representations from Transformers）是一種預訓練語言表示的方法，通過考慮上下文中的前後文信息來獲得高質量的文本表示。

WikiEdge:ArXiv-2408.17428v1/terms

導覽選單

搜尋