WikiEdge:ArXiv-2408.15950v1/abs

标题：Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games
中文标题：Atari-GPT：探讨多模态大型语言模型作为Atari游戏低级策略的能力
发布日期：2024-08-28 17:08:56+00:00
作者：['Nicholas R. Waytowich', 'Devin White', 'MD Sunbeam', 'Vinicius G. Goecks']
分类：['cs.AI']
原文链接：http://arxiv.org/abs/2408.15950v1

摘要：最近，大型语言模型（LLMs）的进展已将其能力扩展到传统文本任务之外，进入多模态领域，整合视觉、听觉和文本数据。尽管多模态LLMs在机器人和游戏等领域的高层规划中得到了广泛探索，但它们作为低层控制器的潜力仍然未被充分挖掘。本文探讨了多模态LLMs在Atari视频游戏领域作为低层控制器的应用，引入Atari游戏表现作为评估多模态LLMs执行低层控制任务的新基准。与传统的强化学习（RL）和模仿学习（IL）方法需要大量计算资源以及奖励函数规范不同，这些LLMs利用现有的多模态知识直接与游戏环境进行交互。我们的研究评估了多种多模态LLMs的表现，与传统的RL代理、人类玩家和随机代理进行比较，重点关注它们理解和与复杂视觉场景互动以及制定战略响应的能力。此外，我们通过结合人类示范的游戏轨迹来增强模型的上下文理解，考察了上下文学习（ICL）的影响。通过这项研究，我们旨在确定多模态LLMs在多大程度上能够利用其广泛的训练有效地作为低层控制器，从而重新定义其在动态和视觉复杂环境中的潜在应用。

WikiEdge:ArXiv-2408.15950v1/abs

导航菜单

搜索