WikiEdge
:
ArXiv-2408.17428v1/questions
出自WikiEdge
<
WikiEdge:ArXiv-2408.17428v1
跳至導覽
跳至搜尋
編輯
作者面對的是歷史
印刷媒體
檔案
數碼化
過程中的挑戰,特別是在使用
光學字符識別
(
OCR
)技術將實體記錄轉換為數字文本時出現的錯誤問題。具體問題包括:
OCR
錯誤率高:特別是在
報紙
和
期刊
這類具有複雜佈局的文檔中,
OCR
技術容易出錯,這影響了檔案研究的質量。
後
OCR
校正方法的局限性:儘管已有多種後
OCR
校正方法,但2017年
ICADAR
後
OCR
校正競賽顯示,只有大約一半的方法能夠提高
OCR
質量。
利用大型
語言模型
(
LMs
)進行後
OCR
校正的潛力:儘管已有研究嘗試使用
語言模型
進行後
OCR
校正,但先前的研究並未發現
語言模型
能夠提高
OCR
質量,作者試圖證明這一點。
導覽菜單
個人工具
建立帳號
登入
命名空間
計劃頁面
討論
香港繁體
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
視圖
閱讀
檢視原始碼
檢視歷史
更多
搜尋
導覽
首頁
最近修改
隨機頁面
MediaWiki說明
工具
連結至此的頁面
相關變更
特殊頁面
可列印版
靜態連結
頁面資訊