WikiEdge:ArXiv-2409.17179

出自WikiEdge
於 2024年9月28日 (六) 04:30 由 David留言 | 貢獻 所做的修訂 (Updated page by David)
跳至導覽 跳至搜尋
  • 標題:Fully automatic extraction of morphological traits from the Web: utopia or reality?
  • 中文標題:從網絡全自動提取形態特徵:烏托邦還是現實?
  • 發布日期:2024-09-23 17:40:24+00:00
  • 作者:Diego Marcos, Robert van de Vlasakker, Ioannis N. Athanasiadis, Pierre Bonnet, Hervé Goeau, Alexis Joly, W. Daniel Kissling, César Leblanc, André S. J. van Proosdij, Konstantinos P. Panousis
  • 分類:cs.CL, cs.AI, cs.LG
  • 原文連結http://arxiv.org/abs/2409.17179v1

摘要:植物形態特徵,即它們的可觀察特性,對於理解每個物種在其生態系統中的角色至關重要。然而,即使對於數量適中的物種,編制特徵信息也是一項耗時的任務,可能需要專家花費數年時間來完成。與此同時,大量的物種描述信息以文本形式在線可用,儘管數據的缺乏結構使得這種數據源無法大規模使用。為了克服這一問題,我們提出利用最近在大型語言模型(LLMs)中的進步,設計一種收集和處理植物特徵信息的機制,這些信息以非結構化文本描述的形式存在,無需手動策劃。我們通過自動複製三個手動創建的物種-特徵矩陣來評估我們的方法。我們的方法能夠找到超過一半的所有物種-特徵對的值,F1得分超過75%。我們的結果表明,由於LLMs的信息提取能力,目前已經可以從非結構化的在線文本中大規模創建結構化的特徵資料庫,其限制在於覆蓋所有感興趣特徵的文本描述的可用性。

問題與動機

作者的研究問題包括:

  • 如何從網際網路上的非結構化文本中自動提取植物形態特徵?
  • 大型語言模型(LLMs)在沒有手動整理的情況下,能否用於收集和處理植物特徵信息?
  • 如何評估所提出方法在自動複製手動創建的物種特徵矩陣方面的有效性?
  • 自動化特徵提取的準確性和覆蓋率如何,以及與手動整理的數據相比有何差異?
  • 如何確保從文本中提取的特徵信息的準確性,避免錯誤地增加或遺漏信息?