1.1K Views
May 22, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Comparison of Vision-Language-Action Models: Pi0, Pi0.5, and Gemini Robotics 2025.5.22 Mimo Shirasaka, RA at Matsuo-Iwasawa Lab B4 http://deeplearning.jp/ 1
書誌情報 • π0: A Vision-Language-Action Flow Model for General Robot Control • Paper: https://www.physicalintelligence.company/download/pi0.pdf • Code: https://github.com/Physical-Intelligence/openpi.git • Authors: Physical Intelligence Team • π0.5: a Vision-Language-Action Model with Open-World Generalization • Paper: https://www.physicalintelligence.company/download/pi05.pdf • Authors: Physical Intelligence Team • Gemini Robotics: Bringing AI into the Physical World • Paper: https://arxiv.org/pdf/2503.20020 • Authors: Gemini Robotics Team, Google DeepMind 2
発表の流れ • 書誌情報 • 3つの論文の概要紹介 • 共通点と相違点 • 課題とタスクの違い • 手法の比較:学習データ、入出力の処理、事前・事後学習 (fine-tuning) • 疑問とディスカッション 3
概要 • 論文 π0 複雑かつ器用なタスク汎化を目的に、ロボット基盤モデルを提案 • 事前学習済みの視覚言語モデル + action chunking + flow matching 構造 • 単腕ロボット・双腕ロボット・モバイルマニピュレータなど、 多種のロボットから収集した多様かつ大規模なデータセットを用いた学習 ü プロンプトから直接タスク実行、言語指示(人間/上位VLM policy)への 追従、および fine tuning を通じた新たなスキル獲得能力について検証 4
概要 • 論文 π0.5 汎化能力を高めることを目的に、π0を基盤とする共学習モデルを提案 • 複数ロボット・Webデータ、意味的予測などさまざまな情報源を活用 • 共学習と、画像観察、言語コマンド、物体検出、意味的なサブタスク予測、 low-level actions といったマルチモーダルな例の組み合わせ ü 実験結果から、知識転移が汎化性能の向上に必要であることを示した ü End-to-end 学習モデルが、キッチンや寝室の掃除といった長時間・高難度の 操作タスクを実行可能であることを示した 5
概要 • 論文 Gemini Robotics 物理世界での汎化性強化を目的に、空間・時間推論強化Geminiを提案 • Gemini Robotics-ER(Embodied Reasoning) Geminiの推論能力を物理世界へと拡張し、空間的・時間的理解を強化 • Gemini Robotics Webデータ、意味的予測などさまざまな情報源を活用 ü Fine-tuning により、long-horizon・器用さを要するタスクへの対応、 わずか100デモからのタスクの習得、双腕・ヒューマノイドといった 未知のロボット形態への適応も実現可能と報告 ü Zero-shot や、少数デモからの in-context learning といった応用可能性を 示し、Gemini Robotics に関連する安全性の観点についても議論 6
Pi0, Pi0.5, Gemini Robotics ̶ 共通点と相違点 共通点 • • • • • モデルの種類:VLA 目的:汎用 robot policy の構築 入力:画像、言語指示 出力:ロボットの動作コマンド (action) 学習データの種類:複数ロボット、複数タスク 相違点 • • 基礎知識:Pi0, Pi0.5 は Paligemma 3B, Gemini Robotics は Gemini 2.0 汎化範囲:タスクの既知/未知、環境の既知/未知 に違いあり 7
Pi0, Pi0.5, Gemini Robotics ̶ 課題とタスクの違い 比較観点 主な課題 代表的タスク例 π0 異なるロボット形態・ 多数タスクへの統合学習 洗濯物たたみ テーブルセットアップ 箱組立て等 π0.5 Gemini Robotics 実(未知)環境への汎化 AIの空間・時間推論能力強化 キッチン清掃 寝室片付け等 折り紙 カードゲームなど +未訓練タスクの指示 8
学習データの構成 • Pi0 • 大規模ロボットデータ o 独自で収集したmanipulation データ:約903M steps o オープンソースのデータ:OXE, BridgeDatav2, DROID(全体の9.1%) • Pi0.5 • 複数ドメインのデータを統合 o 97.6%は、家庭内 mobile manipulation 以外のデータ • Gemini Robotics • 大規模テレオペデータ(実機データ)+Webベースのデータを融合 o 実機デモ:双腕ロボットALOHA2で数千時間、タスクも数千種類と多様 o Webベースのデータ・コード・画像・音声・動画、VQAデータなど 9
視覚・言語情報(入力)の処理方法 • Pi0 • VLMをバックボーンとして採用(PaliGemma 3B) • 画像エンコーダは、画像を言語トークンと同じ埋め込み空間にマッピング • カメラ最大3台、なければマスクで処理 • Pi0.5 • Pi0をベースに改良(視覚言語処理に使うVLMはWebデータで学習済み) • マルチモーダルなトークン列へのマッピングが柔軟 • 複数種類の情報をtokenizeし、単一のTransformerで処理 • Gemini Robotics • Gemini Robics-ERが視覚情報に対する空間的理解を担う • Gemini Robotics-ERを蒸留により軽量化したバックボーンを使用 • 環境の画像+言語指示を入力として処理 10
Action(出力)の生成方法 • Pi0 • Flow matching による連続制御出力 • “Action expert”(Transformer内部にロボットの入出力処理のために 設けられた3Mパラメータの専用の重み)がロボットの action chunk を出力 • Pi0.5 • 2段階出力:サブタスクを推論→連続actionシーケンスを生成 • FAST action tokenizer1 によりaction を離散tokenとして表現 • Flow matching により連続actionシーケンスを生成 • Gemini Robotics • 2段階出力:backbone が action chunk を出力→ decoderがactionを生成 • 1 chunk に複数 actions を含む手法2を用いると効果的な制御周波数は50Hz 1: FAST: Efficient Action Tokenization for Vision-Language-Action Models. URL: https://arxiv.org/pdf/2501.09747 2: ALOHA Unleashed: A Simple Recipe for Robot Dexterity URL: https://proceedings.mlr.press/v270/zhao25b.html 11
事前学習:用いたデータと学習目的 • Pi0 • 様々なタスク・ロボットの混合データ • 目的:広範な能力と汎化性能を備えたベースモデルを訓練すること • Pi0.5 • ロボット+非ロボットのデータ • 目的:多様なロボットタスクに適応できるようにモデルを訓練すること • 重みは web データで学習済みの VLM で初期化、ロボットデータを混ぜて学習 • Gemini Robotics • 第1段階:Gemini 2.0 モデル+Webデータ、認識タスク・Q&A のデータ o 目的:Embodied 推論能力の向上(Gemini Robotics-ER) • 第2段階:大規模ロボット action データ o 目的:embodied reasoning から、action を生成できるようにすること 12
事後学習 (fine-tuning):内容と効果 • Pi0 • 高難度タスクに特化した追加訓練。5時間~/task のデータ量で、高性能に汎化 • “action expert” (flow matching) により連続的な action が生成可能に • 洗濯物たたみなど、複雑なタスクで成功率大幅向上 • Pi0.5 • モバイルマニピュレーションタスクに特化した訓練。 “action expert”を導入 • 事前学習で離散 token 表現となっている action を連続シーケンスに変換 • 言語指示データを追加することで、未知環境で指示に基づくタスク遂行を実現 • Gemini Robotics • 高度で長いタスクに特化した訓練、または新ロボットでの訓練 • 折り紙を折る、カードゲームをする、など長時間で複雑なタスクを習得 • ゼロショットでの達成が難しい、器用さを要するタスクに対し、 プロンプトで数例のデモを与えることで性能が向上 13
疑問・ディスカッション • VLAは1段階か2段階か、どちらがより良いのだろう? • 一気に high-level reasoning と、action 生成をする論文も発表されている OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning (https://arxiv.org/pdf/2505.11917) • VLAに3Dシーンを理解させるのにより良いシーン表現はなんだろう? • 指示された物体が見えない時に適切な reasoning をする能力 など • ロボットによって届く距離、回転角、navigation の可否など、 物理的な可動範囲が異なることをどうVLAは考慮できるだろう? →安全性を考慮した、物理的に妥当性のある推論の実現が今後の課題か 14