WikiEdge:ArXiv-2408.15950v1/abs

標題：Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games
中文標題：Atari-GPT：探討多模態大型語言模型作為Atari遊戲低級策略的能力
發佈日期：2024-08-28 17:08:56+00:00
作者：['Nicholas R. Waytowich', 'Devin White', 'MD Sunbeam', 'Vinicius G. Goecks']
分類：['cs.AI']
原文連結：http://arxiv.org/abs/2408.15950v1

摘要：最近，大型語言模型（LLMs）的進展已將其能力擴展到傳統文本任務之外，進入多模態領域，整合視覺、聽覺和文本數據。儘管多模態LLMs在機械人和遊戲等領域的高層規劃中得到了廣泛探索，但它們作為低層控制器的潛力仍然未被充分挖掘。本文探討了多模態LLMs在Atari視頻遊戲領域作為低層控制器的應用，引入Atari遊戲表現作為評估多模態LLMs執行低層控制任務的新基準。與傳統的強化學習（RL）和模仿學習（IL）方法需要大量計算資源以及獎勵函數規範不同，這些LLMs利用現有的多模態知識直接與遊戲環境進行交互。我們的研究評估了多種多模態LLMs的表現，與傳統的RL代理、人類玩家和隨機代理進行比較，重點關注它們理解和與複雜視覺場景互動以及制定戰略響應的能力。此外，我們通過結合人類示範的遊戲軌跡來增強模型的上下文理解，考察了上下文學習（ICL）的影響。通過這項研究，我們旨在確定多模態LLMs在多大程度上能夠利用其廣泛的訓練有效地作為低層控制器，從而重新定義其在動態和視覺複雜環境中的潛在應用。

WikiEdge:ArXiv-2408.15950v1/abs

導覽菜單

搜尋