查看“WikiEdge:ArXiv-2409.17179”的源代码
←
WikiEdge:ArXiv-2409.17179
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
* '''标题''':Fully automatic extraction of morphological traits from the Web: utopia or reality? * '''中文标题''':从网络全自动提取形态特征:乌托邦还是现实? * '''发布日期''':2024-09-23 17:40:24+00:00 * '''作者''':Diego Marcos, Robert van de Vlasakker, Ioannis N. Athanasiadis, Pierre Bonnet, Hervé Goeau, Alexis Joly, W. Daniel Kissling, César Leblanc, André S. J. van Proosdij, Konstantinos P. Panousis * '''分类''':cs.CL, cs.AI, cs.LG *'''原文链接''':http://arxiv.org/abs/2409.17179v1 '''摘要''':植物形态特征,即它们的可观察特性,对于理解每个物种在其生态系统中的角色至关重要。然而,即使对于数量适中的物种,编制特征信息也是一项耗时的任务,可能需要专家花费数年时间来完成。与此同时,大量的物种描述信息以文本形式在线可用,尽管数据的缺乏结构使得这种数据源无法大规模使用。为了克服这一问题,我们提出利用最近在大型语言模型(LLMs)中的进步,设计一种收集和处理植物特征信息的机制,这些信息以非结构化文本描述的形式存在,无需手动策划。我们通过自动复制三个手动创建的物种-特征矩阵来评估我们的方法。我们的方法能够找到超过一半的所有物种-特征对的值,F1得分超过75%。我们的结果表明,由于LLMs的信息提取能力,目前已经可以从非结构化的在线文本中大规模创建结构化的特征数据库,其限制在于覆盖所有感兴趣特征的文本描述的可用性。 == 问题与动机 == 作者的研究问题包括: * 如何从[[互联网]]上的非结构化[[文本]]中自动提取[[植物]]形态特征? * 大型[[语言模型]](LLMs)在没有手动整理的情况下,能否用于收集和处理植物特征信息? * 如何评估所提出方法在自动复制手动创建的[[物种]]特征矩阵方面的有效性? * 自动化特征提取的准确性和覆盖率如何,以及与手动整理的数据相比有何差异? * 如何确保从文本中提取的特征信息的准确性,避免错误地增加或遗漏信息?
返回
WikiEdge:ArXiv-2409.17179
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息