WikiEdge:ArXiv-2408.15950v1/abs

出自WikiEdge
跳至導覽 跳至搜尋
編輯
  • 標題:Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games
  • 中文標題:Atari-GPT:探討多模態大型語言模型作為Atari遊戲低級策略的能力
  • 發佈日期:2024-08-28 17:08:56+00:00
  • 作者:['Nicholas R. Waytowich', 'Devin White', 'MD Sunbeam', 'Vinicius G. Goecks']
  • 分類:['cs.AI']
  • 原文連結http://arxiv.org/abs/2408.15950v1

摘要:最近,大型語言模型(LLMs)的進展已將其能力擴展到傳統文本任務之外,進入多模態領域,整合視覺聽覺文本數據。儘管多模態LLMs在機械人遊戲等領域的高層規劃中得到了廣泛探索,但它們作為低層控制器的潛力仍然未被充分挖掘。本文探討了多模態LLMs在Atari視頻遊戲領域作為低層控制器的應用,引入Atari遊戲表現作為評估多模態LLMs執行低層控制任務的新基準。與傳統的強化學習(RL)和模仿學習(IL)方法需要大量計算資源以及獎勵函數規範不同,這些LLMs利用現有的多模態知識直接與遊戲環境進行交互。我們的研究評估了多種多模態LLMs的表現,與傳統的RL代理、人類玩家和隨機代理進行比較,重點關注它們理解和與複雜視覺場景互動以及制定戰略響應的能力。此外,我們通過結合人類示範的遊戲軌跡來增強模型的上下文理解,考察了上下文學習(ICL)的影響。通過這項研究,我們旨在確定多模態LLMs在多大程度上能夠利用其廣泛的訓練有效地作為低層控制器,從而重新定義其在動態和視覺複雜環境中的潛在應用。