1.4K Views
April 04, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Scaling Instructable Agents Across Many Simulated Worlds Jeong Seong Cheol, M1, Matsuo Lab, The University of Tokyo http://deeplearning.jp/
書誌情報 • 概要:研究⽤のシミュレーション環境だけでなく、オープンエンドな商⽤ビデオゲームを含む、多様な仮想 3D環境において、⾔語によって⾏動の指⽰ができ、⼈間ができることは何でも実⾏可能なエージェント SIMA(Scalable, Instructable, Multiworld Agent)を開発するプロジェクトを紹介するテクニカルペーパー • Publish date: 13 March 2024 • Blog: h"ps://dpmd.ai/3TiYV7d • Paper: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agentfor-3d-virtual-environments/Scaling Instructable Agents Across Many Simulated Worlds.pdf 1
背景&先⾏研究&⽬的 • 背景: 3Dの環境で任意の⾔語指⽰に従える⾝体性を持ったAIシステムを構築す ることは、汎⽤⼈⼯知能を実現するための重要な課題 • 先⾏研究: シミュレーション環境でエージェントにタスクを解かせる先⾏研究 は多くあり、それらの研究は特定のシミュレーション環境やゲーム環境に特化 していたり、APIや事前に⽤意されたスキルセットの仕様が可能な設定である (Voyager,2023; JARVIS-1,2023) • SIMAの⽬的: 本研究では複数の3D環境(FPS、TPS)で動作でき、ゲームのプレイ画 像と⼈間の⾔語の指⽰のみを⼊⼒とし、キーボードとマウスの動作を出⼒とす るより汎⽤的なエージェントの開発を⽬指す • 本研究の新規性: 多様な環境で⼈間と同じインタフェースを⽤いて学習する点 2
アプローチ • ⼈間が⽣成したデータに基づいて観測から⾏動へのマッピン グを教師あり学習することにより、エージェントを⼤規模に 訓練する • まずはデータ(ゲームのプレイ&⾔語の指⽰)を集める • 7つの商⽤ゲームと4つの研究⽤シミュレーション環境 で、⼈間のプレイデータからプレイ画像を記録 • プレイ後に⾔語による指⽰(⾏動の⾔語化)や⾏動が成 功したか失敗したかの注釈付けを⼈⼒で⾏う • 集めたデータは学習前に前処理や重みつけ、フィルタリ ングが⾏われる(詳細は不明) 3
アプローチ エージェントのアーキテクチャ • ⼊⼒:視覚的な観測(ゲームの画⾯)と⼈間からの⾔語の指⽰(例:前進しろ) • 出⼒:8つのアクションのシーケンスに対してキーボードとマウスのアクション • 事前学習済みモデル(Bica et al., 2024; Villegas et al., 2022)を導⼊しFine-tuning:SPARC(image2text)、Phenaki(Video Predic:on) 4
アプローチ Classifier-free guidanceによる⾔語へしたポリシー𝜋を獲得する(下図⾚枠) (CFGは当初、拡散モデルにおけるテキスト条件付けを強化するために提案されたが(Ho and Salimans, 2022; Lifshitz et al., 2023)、⾔語モデル(Sanchez et al., 2023)や⾔語条件付きエージェント(Lifshitz et al., 2023)でも同様の⽬的で有 ⽤であることが証明されている) 5
実験 • 研究⽤シミュレーション環境と商⽤ゲームでのエージェン トの定量的・定性的評価 • アーキテクチャの各要素のアブレーション実験 • 他環境への汎化やゼロショット転移の評価 • ⼈間プレイヤーとの⽐較 6
評価 -定性評価 研究⽤シミュレーション環境と商⽤ ゲームでのエージェントの定性的評価 右図) • 各⾏:異なるゲームの各場⾯(左から 右に時間が経過) • ⼈間の⾔語による指⽰に従ってエー ジェントが各環境で⾏動する様⼦ • No Man’s Skyでは最初の観測画⾯に spaceshipが写っていないが周辺を探 索してspaceshipを発⾒している • Goat Simulator3は⽺を操って街を駆け 回るゲームで、SIMAの出⼒がマウス とキーボード⼊⼒なら⽺でも操れる 7
評価 -定性評価 - SIMAのゲームプレイ動画 (再⽣可) 8
評価 -定量評価 ⾃由度の⾼いゲーム環境ではエージェントの⾏動の定量評価が難しい 本研究では3つの指標を使って定量評価 • Ground-Truth:研究⽤シミュレーション環境にもとからついていた⾏動の定量評価指標 • Human Eval:エージェントが、与えられた⾔語の指⽰に従った⾏動を成功できたか⼈間が評価.タスクを完 了できても冗⻑な動作をしていたら失敗とする(例:「⻩⾊い箱を持て」を成功してもその⾏動の前に⾚い 箱を持ち上げたりしたら失敗判定) • OCR-Human Eval:ゲームによってはタスクを完了できると「〇〇達成!」みたいな通知が来るのでそれを OCRで読み取り、エージェントの⾏動が指⽰した⾏動か⼈間が評価 ← • 7つの環境でSIMAが指⽰し た⾏動を成功したかの割合 (Success Rate). • 研究⽤シミュレーション環 境は(図の⻘い環境) 、ゲー ム環境よりシンプルな環境 なので成功率が⾼い 9
評価 - Ablation 7つの環境においてSIMAのパフォーマンスをアブレーション • SIMA: Hydroneer and Wobbly Lifeを除く全ての 環境で学習したSIMAのパフォーマンス • Zero-Shot:各列の環境以外で学習されたSIMAの 各列の環境でのZero-Shotパフォーマンス (例: ConstrucWon Labの列はそれ以外の環境で学習し たSIMAをConstrucWon LabでZero-Shot評価) • No Pretraining (AblaGon):学習済みのSPARCと Phenakiを、ResNetエンコーダに置き換えフルス クラッチで学習した場合のSIMAのパフォーマン ス • No Language (AblaGon) : 訓練中および評価中に⾔ 語による指⽰がない場合のSIMAエージェント. 環境によっては⾔語による指⽰がなくても次の ⾏動ができる(例:まな板と包丁とトマトがあ れば、切ればいいんだろうなみたいな)ので⾔ • すべての場合において、SIMAは環境特化型エージェントを有意に 語による指⽰の影響を図る. 上回っている • ⾔語なしのアブレーション(No language)の性能は⾮常に悪い.⾔語 • Environment-specialized:各列の環境のみでSIMA を学習させた環境特化型SIMAのパフォーマン による指⽰がエージェントのパフォーマンスに重要な影響を与え ス.このパフォーマンスを100%としてAblaWon ている の評価をする.(各環境間で評価を⽐べられない • ゼロショットもいい感じ.環境固有のタスクはできないが、⼀般 10 的なスキルは獲得できる(例えば、「丘を下る」) ことに注意)
評価 - Ablation Classifier-Free-Guidance(CFG)の影響をアブレーション • CFGの有無によるエージェントのパフォーマンスを⽐較 • ConstrucWon Lab、Playhouse、WorldLabの3つの環境で評価 • λ=0の場合(No CFG)、SIMAエージェントのパフォーマンスは顕著に悪化 • 訓練中および評価中に⾔語による指⽰がない場合のSIMAエージェント(No Language)はCFGなしより悪いパフォーマンス. • 図10の結果は、CFGの利点を⽰しており、推論時の介⼊(⾔語の指⽰)がエージェ ントの制御可能性に与える影響を強調している 11
評価 ⼈間プレイヤーとの⽐較 • No Man‘s Skyのゲーム環境で追加のタスクを⽤意して、エージェントと⼈間のパフォーマンスを⽐較 • タスクは簡単な指⽰(“前に歩く”)から、より複雑な指⽰(“分析バイザーを使⽤して新しい動物を特定す る”)まで、難易度が異なる • タスクを実⾏した⼈間は、私たちのデータ収集に参加し、ゲームの経験があるプレイヤー • ⼈間のパフォーマンスは、エージェントに使⽤されたのと同じ審判と評価設定を使⽤して評価され、審判 は、⼈間のパフォーマンスを評価していることを知らされなかった(エージェントだと思わせた). • • ⼈間のプレイヤーでも60%の成功率しか出ないくらい難しいタスク←⾃分たちの評価基準の厳しさをアピール 厳しい評価基準にもかかわらずSIMAは34%の成功率 12
今後の展望 SIMAは現在進⾏中のプロジェクト • ゲーム、環境、データセットのポートフォリオを拡⼤し続けることで、よ り多くの環境とデータセットに拡張すること • エージェントの堅牢性と制御可能性を向上させること • ⾼品質の事前学習済みモデルを活⽤すること(Gemini Team et al., 2023) • より包括的で慎重に制御された評価を開発すること 将来的には、エージェントが⼈間と⾃然な対話を交わし、オープンエンド なタスクを協⼒して達成できるようになることを期待している 13
感想 • SIMAはAGIに向けた⾔語と環境の統合の重要な⼀歩である • 多様な3D環境で⼀定の⾔語理解に基づく⾏動⽣成を実現できたのはすごい • 更なる発展が期待される挑戦的で将来性のあるプロジェクト 14
参考⽂献 • • • • • • • • P2で引⽤: Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv preprint arXiv:2305.16291, 2023a. P2で引⽤: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, et al. JARVIS-1: Open-World MulG-task Agents with Memory- Augmented MulGmodal Language Models. arXiv preprint arXiv:2311.05997, 2023b. P4で引⽤: Ioana Bica, Anastasija Ilić, Ma"hias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Ma"hias Minderer, Charles Blundell, Razvan Pascanu, and Jovana Mitrović. Improving fine-grained understanding in image-text pre-training. arXiv preprint arXiv:2401.09865, 2024. P4で引⽤: Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, SanWago Castro, Julius Kunze, and Dumitru Erhan. Phenaki: Variable Length Video GeneraGon from Open Domain Textual DescripGons. In Interna8onal Conference on Learning Representa8ons, 2022. P11で引⽤: Jonathan Ho and Tim Salimans. Classifier-Free Diffusion Guidance. arXiv preprint arXiv:2207.12598, 2022. P11で引⽤: Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, and Sheila McIlraith. STEVE-1: A GeneraGve Model for Text-to-Behavior in Minecraa. arXiv preprint arXiv:2306.00937, 2023. P11で引⽤: Guillaume Sanchez, Honglu Fan, Alexander Spangher, Elad Levi, Pawan Sasanka Ammanamanchi, and Stella Biderman. Stay on topic with Classifier-Free Guidance. arXiv preprint arXiv:2306.17806, 2023. P13で引⽤: Gemini Team, Rohan Anil, SebasWan Borgeaud, Yonghui Wu, Jean-BapWste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: A Family of Highly Capable MulGmodal Models. arXiv preprint arXiv:2312.11805, 2023. 15