Scaling Instructable Agents Across Many Simulated Worlds (1)

1.6K Views

April 04, 24

#汎用人工知能 #エージェント #深層学習 #マルチモーダル #強化学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Scaling Instructable Agents Across Many Simulated Worlds Jeong Seong Cheol, M1, Matsuo Lab, The University of Tokyo http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • 概要：研究⽤のシミュレーション環境だけでなく、オープンエンドな商⽤ビデオゲームを含む、多様な仮想 3D環境において、⾔語によって⾏動の指⽰ができ、⼈間ができることは何でも実⾏可能なエージェント SIMA(Scalable, Instructable, Multiworld Agent)を開発するプロジェクトを紹介するテクニカルペーパー • Publish date: 13 March 2024 • Blog: h"ps://dpmd.ai/3TiYV7d • Paper: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agentfor-3d-virtual-environments/Scaling Instructable Agents Across Many Simulated Worlds.pdf 1

背景&先⾏研究&⽬的 • 背景: 3Dの環境で任意の⾔語指⽰に従える⾝体性を持ったAIシステムを構築することは、汎⽤⼈⼯知能を実現するための重要な課題 • 先⾏研究: シミュレーション環境でエージェントにタスクを解かせる先⾏研究は多くあり、それらの研究は特定のシミュレーション環境やゲーム環境に特化していたり、APIや事前に⽤意されたスキルセットの仕様が可能な設定である (Voyager,2023; JARVIS-1,2023) • SIMAの⽬的: 本研究では複数の3D環境(FPS、TPS)で動作でき、ゲームのプレイ画像と⼈間の⾔語の指⽰のみを⼊⼒とし、キーボードとマウスの動作を出⼒とするより汎⽤的なエージェントの開発を⽬指す • 本研究の新規性: 多様な環境で⼈間と同じインタフェースを⽤いて学習する点 2

アプローチ • ⼈間が⽣成したデータに基づいて観測から⾏動へのマッピングを教師あり学習することにより、エージェントを⼤規模に訓練する • まずはデータ(ゲームのプレイ&⾔語の指⽰)を集める • 7つの商⽤ゲームと4つの研究⽤シミュレーション環境で、⼈間のプレイデータからプレイ画像を記録 • プレイ後に⾔語による指⽰(⾏動の⾔語化）や⾏動が成功したか失敗したかの注釈付けを⼈⼒で⾏う • 集めたデータは学習前に前処理や重みつけ、フィルタリングが⾏われる(詳細は不明) 3

アプローチエージェントのアーキテクチャ • ⼊⼒：視覚的な観測(ゲームの画⾯)と⼈間からの⾔語の指⽰(例：前進しろ) • 出⼒：8つのアクションのシーケンスに対してキーボードとマウスのアクション • 事前学習済みモデル(Bica et al., 2024; Villegas et al., 2022)を導⼊しFine-tuning：SPARC(image2text)、Phenaki(Video Predic:on) 4

アプローチ Classiﬁer-free guidanceによる⾔語へしたポリシー𝜋を獲得する(下図⾚枠) (CFGは当初、拡散モデルにおけるテキスト条件付けを強化するために提案されたが(Ho and Salimans, 2022; Lifshitz et al., 2023)、⾔語モデル(Sanchez et al., 2023)や⾔語条件付きエージェント(Lifshitz et al., 2023)でも同様の⽬的で有⽤であることが証明されている) 5

実験 • 研究⽤シミュレーション環境と商⽤ゲームでのエージェントの定量的・定性的評価 • アーキテクチャの各要素のアブレーション実験 • 他環境への汎化やゼロショット転移の評価 • ⼈間プレイヤーとの⽐較 6

評価 -定性評価研究⽤シミュレーション環境と商⽤ゲームでのエージェントの定性的評価右図） • 各⾏：異なるゲームの各場⾯(左から右に時間が経過) • ⼈間の⾔語による指⽰に従ってエージェントが各環境で⾏動する様⼦ • No Man’s Skyでは最初の観測画⾯に spaceshipが写っていないが周辺を探索してspaceshipを発⾒している • Goat Simulator3は⽺を操って街を駆け回るゲームで、SIMAの出⼒がマウスとキーボード⼊⼒なら⽺でも操れる 7

評価 -定性評価 - SIMAのゲームプレイ動画 (再⽣可) 8

10.

評価 -定量評価⾃由度の⾼いゲーム環境ではエージェントの⾏動の定量評価が難しい本研究では3つの指標を使って定量評価 • Ground-Truth：研究⽤シミュレーション環境にもとからついていた⾏動の定量評価指標 • Human Eval：エージェントが、与えられた⾔語の指⽰に従った⾏動を成功できたか⼈間が評価．タスクを完了できても冗⻑な動作をしていたら失敗とする(例：「⻩⾊い箱を持て」を成功してもその⾏動の前に⾚い箱を持ち上げたりしたら失敗判定) • OCR-Human Eval：ゲームによってはタスクを完了できると「〇〇達成！」みたいな通知が来るのでそれを OCRで読み取り、エージェントの⾏動が指⽰した⾏動か⼈間が評価 ← • 7つの環境でSIMAが指⽰した⾏動を成功したかの割合 (Success Rate)． • 研究⽤シミュレーション環境は(図の⻘い環境) 、ゲーム環境よりシンプルな環境なので成功率が⾼い 9

11.

評価 - Ablation 7つの環境においてSIMAのパフォーマンスをアブレーション • SIMA： Hydroneer and Wobbly Lifeを除く全ての環境で学習したSIMAのパフォーマンス • Zero-Shot：各列の環境以外で学習されたSIMAの各列の環境でのZero-Shotパフォーマンス (例： ConstrucWon Labの列はそれ以外の環境で学習したSIMAをConstrucWon LabでZero-Shot評価) • No Pretraining (AblaGon)：学習済みのSPARCと Phenakiを、ResNetエンコーダに置き換えフルスクラッチで学習した場合のSIMAのパフォーマンス • No Language (AblaGon) : 訓練中および評価中に⾔語による指⽰がない場合のSIMAエージェント．環境によっては⾔語による指⽰がなくても次の⾏動ができる（例：まな板と包丁とトマトがあれば、切ればいいんだろうなみたいな）ので⾔ • すべての場合において、SIMAは環境特化型エージェントを有意に語による指⽰の影響を図る．上回っている • ⾔語なしのアブレーション(No language)の性能は⾮常に悪い．⾔語 • Environment-specialized：各列の環境のみでSIMA を学習させた環境特化型SIMAのパフォーマンによる指⽰がエージェントのパフォーマンスに重要な影響を与えス．このパフォーマンスを100%としてAblaWon ているの評価をする.(各環境間で評価を⽐べられない • ゼロショットもいい感じ．環境固有のタスクはできないが、⼀般 10 的なスキルは獲得できる（例えば、「丘を下る」）ことに注意)

12.

評価 - Ablation Classiﬁer-Free-Guidance(CFG)の影響をアブレーション • CFGの有無によるエージェントのパフォーマンスを⽐較 • ConstrucWon Lab、Playhouse、WorldLabの３つの環境で評価 • λ=0の場合(No CFG)、SIMAエージェントのパフォーマンスは顕著に悪化 • 訓練中および評価中に⾔語による指⽰がない場合のSIMAエージェント(No Language)はCFGなしより悪いパフォーマンス． • 図10の結果は、CFGの利点を⽰しており、推論時の介⼊(⾔語の指⽰)がエージェントの制御可能性に与える影響を強調している 11

13.

評価⼈間プレイヤーとの⽐較 • No Man‘s Skyのゲーム環境で追加のタスクを⽤意して、エージェントと⼈間のパフォーマンスを⽐較 • タスクは簡単な指⽰（“前に歩く”）から、より複雑な指⽰（“分析バイザーを使⽤して新しい動物を特定する”）まで、難易度が異なる • タスクを実⾏した⼈間は、私たちのデータ収集に参加し、ゲームの経験があるプレイヤー • ⼈間のパフォーマンスは、エージェントに使⽤されたのと同じ審判と評価設定を使⽤して評価され、審判は、⼈間のパフォーマンスを評価していることを知らされなかった(エージェントだと思わせた)． • • ⼈間のプレイヤーでも60%の成功率しか出ないくらい難しいタスク←⾃分たちの評価基準の厳しさをアピール厳しい評価基準にもかかわらずSIMAは34%の成功率 12

14.

今後の展望 SIMAは現在進⾏中のプロジェクト • ゲーム、環境、データセットのポートフォリオを拡⼤し続けることで、より多くの環境とデータセットに拡張すること • エージェントの堅牢性と制御可能性を向上させること • ⾼品質の事前学習済みモデルを活⽤すること（Gemini Team et al., 2023） • より包括的で慎重に制御された評価を開発すること将来的には、エージェントが⼈間と⾃然な対話を交わし、オープンエンドなタスクを協⼒して達成できるようになることを期待している 13

15.

感想 • SIMAはAGIに向けた⾔語と環境の統合の重要な⼀歩である • 多様な3D環境で⼀定の⾔語理解に基づく⾏動⽣成を実現できたのはすごい • 更なる発展が期待される挑戦的で将来性のあるプロジェクト 14

16.

参考⽂献 • • • • • • • • P2で引⽤: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv preprint arXiv:2305.16291, 2023a. P2で引⽤: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, et al. JARVIS-1: Open-World MulG-task Agents with Memory- Augmented MulGmodal Language Models. arXiv preprint arXiv:2311.05997, 2023b. P4で引⽤: Ioana Bica, Anastasija Ilić, Ma"hias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Ma"hias Minderer, Charles Blundell, Razvan Pascanu, and Jovana Mitrović. Improving ﬁne-grained understanding in image-text pre-training. arXiv preprint arXiv:2401.09865, 2024. P4で引⽤: Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saﬀar, SanWago Castro, Julius Kunze, and Dumitru Erhan. Phenaki: Variable Length Video GeneraGon from Open Domain Textual DescripGons. In Interna8onal Conference on Learning Representa8ons, 2022. P11で引⽤: Jonathan Ho and Tim Salimans. Classiﬁer-Free Diﬀusion Guidance. arXiv preprint arXiv:2207.12598, 2022. P11で引⽤: Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, and Sheila McIlraith. STEVE-1: A GeneraGve Model for Text-to-Behavior in Minecraa. arXiv preprint arXiv:2306.00937, 2023. P11で引⽤: Guillaume Sanchez, Honglu Fan, Alexander Spangher, Elad Levi, Pawan Sasanka Ammanamanchi, and Stella Biderman. Stay on topic with Classiﬁer-Free Guidance. arXiv preprint arXiv:2306.17806, 2023. P13で引⽤: Gemini Team, Rohan Anil, SebasWan Borgeaud, Yonghui Wu, Jean-BapWste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: A Family of Highly Capable MulGmodal Models. arXiv preprint arXiv:2312.11805, 2023. 15