WikiEdge:ArXiv-2409.17179
- 標題:Fully automatic extraction of morphological traits from the Web: utopia or reality?
- 中文標題:從網絡全自動提取形態特徵:烏托邦還是現實?
- 發布日期:2024-09-23 17:40:24+00:00
- 作者:Diego Marcos, Robert van de Vlasakker, Ioannis N. Athanasiadis, Pierre Bonnet, Hervé Goeau, Alexis Joly, W. Daniel Kissling, César Leblanc, André S. J. van Proosdij, Konstantinos P. Panousis
- 分類:cs.CL, cs.AI, cs.LG
- 原文連結:http://arxiv.org/abs/2409.17179v1
摘要:植物形態特徵,即它們的可觀察特性,對於理解每個物種在其生態系統中的角色至關重要。然而,即使對於數量適中的物種,編制特徵信息也是一項耗時的任務,可能需要專家花費數年時間來完成。與此同時,大量的物種描述信息以文本形式在線可用,儘管數據的缺乏結構使得這種數據源無法大規模使用。為了克服這一問題,我們提出利用最近在大型語言模型(LLMs)中的進步,設計一種收集和處理植物特徵信息的機制,這些信息以非結構化文本描述的形式存在,無需手動策劃。我們通過自動複製三個手動創建的物種-特徵矩陣來評估我們的方法。我們的方法能夠找到超過一半的所有物種-特徵對的值,F1得分超過75%。我們的結果表明,由於LLMs的信息提取能力,目前已經可以從非結構化的在線文本中大規模創建結構化的特徵資料庫,其限制在於覆蓋所有感興趣特徵的文本描述的可用性。