WikiEdge:ArXiv-2408.15950v1/abs
跳转到导航
跳转到搜索
- 标题:Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games
- 中文标题:Atari-GPT:探讨多模态大型语言模型作为Atari游戏低级策略的能力
- 发布日期:2024-08-28 17:08:56+00:00
- 作者:['Nicholas R. Waytowich', 'Devin White', 'MD Sunbeam', 'Vinicius G. Goecks']
- 分类:['cs.AI']
- 原文链接:http://arxiv.org/abs/2408.15950v1
摘要:最近,大型语言模型(LLMs)的进展已将其能力扩展到传统文本任务之外,进入多模态领域,整合视觉、听觉和文本数据。尽管多模态LLMs在机器人和游戏等领域的高层规划中得到了广泛探索,但它们作为低层控制器的潜力仍然未被充分挖掘。本文探讨了多模态LLMs在Atari视频游戏领域作为低层控制器的应用,引入Atari游戏表现作为评估多模态LLMs执行低层控制任务的新基准。与传统的强化学习(RL)和模仿学习(IL)方法需要大量计算资源以及奖励函数规范不同,这些LLMs利用现有的多模态知识直接与游戏环境进行交互。我们的研究评估了多种多模态LLMs的表现,与传统的RL代理、人类玩家和随机代理进行比较,重点关注它们理解和与复杂视觉场景互动以及制定战略响应的能力。此外,我们通过结合人类示范的游戏轨迹来增强模型的上下文理解,考察了上下文学习(ICL)的影响。通过这项研究,我们旨在确定多模态LLMs在多大程度上能够利用其广泛的训练有效地作为低层控制器,从而重新定义其在动态和视觉复杂环境中的潜在应用。