【DL輪読会】Cosmos Policy: Fine-Tuning Video Models For Visuomotor Control and Planning

356 Views

February 12, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Cosmos Policy: Fine-Tuning Video Models For Visuomotor Control and Planning Daichi Azuma, D1, Matsuo-Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning • 著者 – Moo Jin, Kim,Yihuai, Gao,Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu • https://arxiv.org/pdf/2601.16163 2

https://arxiv.org/pdf/2405.14394

この論文を選んだ理由 ➢ ワールドモデルによるロボットのプランニングに関心があり、先を予測してアクションを変える枠組みに興味を持っていた。 ➢ 過去にDiffusionを使った空間的予測の研究をしており、時系列的な予測についても考えたいと思っていた。 ➢ データ生成分野でのワールドモデルだけでなく、本論文のように推論時に「どうアクションするとどうなるか」を考えながらタスクを遂行する枠組みは今後さらに増えていくと思った。 3

論文概要 ① 目的は何か ② どのようことができるか動画生成モデルをロボットの「頭脳」に転用する「行動」「未来」「価値」の同時生成 ❑ Action: ロボットが次に行うべき動作。 ❑ World Model: その動作をした結果、世界がどう変わるか。 ❑ Value Function: その未来が良い状態かどうか。未来の映像をシミュレーションし、最も成功率が高い行動を選んでから動くが可能。 ❑ 物理法則を学習済みの動画生成モデルが持つ知識を、ロボット制御に活かすこと。 ❑ 従来のようにモデルを改造するのではなく、そのまま再利用することを目指す。 ③ どのような効果があるか圧倒的な性能とデータ効率 ❑ シミュレーションで98.5%の成功率を記録し、SOTAを達成。 ❑ 従来モデルと比較して、少ない学習データでも複雑なタスクを習得可能。実世界での高い適応力 ❑ 実機において、ジップロックの開閉のような精密な動作や、未知の状況への対応力が向上 ④ どのような特徴か Latent Injection（潜在空間注入） ❑ ロボットの関節角度や動作指令といった数値データをモデルに入力する独自技術。構造変更ゼロ (No Architectural Changes) ❑ アクション専用の出力装置を後付けせず、動画生成モデルのニューラルネットワークをそのまま使用している点。 4

現状と課題ロボットタスクの遂行にはVLA (Vision-Launguage-Action)モデルが主流でありつつ、動画生成モデルをロボットに活かそうという流れがある。主流の手法 (VLAモデル) 新たな潮流 (動画生成モデル) 大規模な画像とテキストのペアで学習したモデルが主流物理世界をシミュレートできる動画生成モデルが登場 * RT-2 (Google), OpenVLA (Stanford), π0 (Physical Intelligence)など * Sora (OpenAI), Cosmos (Nvidia), Wan (Alibaba)など *引用: π0 (Physical Intelligence, 2024) *引用: Cosmos Predict2 (Nvidia, 2025) 5

従来手法の壁従来手法の壁: 動画生成モデルの性能を最大限活かしきれない。アプローチ①: VLM + 「追加のアクション専用装置」アプローチ②: 独自設計の統合モデル動画モデルの特徴抽出能力だけ使い、動作生成には別のネットワーク（MLPやTransformer）をくっつける手法。ゼロから統合モデルを作る手法。既存の高性能な動画モデルの恩恵が薄くなる。 Video Generators are Robot Policies (Liang et al., 2025) Video Prediction Policy (Hu et al., 2024) など Unified Video Action Model (Li et al., 2025) Unified World Models (Zhu et al., 2025) など *引用: Video Generators are Robot Policies (Liang et al., 2025) *引用: Video Generators are Robot Policies (Liang et al., 2025) 結論: 「事前学習済み動画モデルをそのまま、構造を変えずに」使う手法が存在しなかった。 6

Cosmos Policyの提案核心アイデア: NVIDIAの動画生成モデル Cosmos Predict2 (2Bモデル) を再利用。 • Unified Model (統一モデル): ◦ 以下の3つを全て「動画のフレーム（コマ）」として扱うことで、1つのモデルで処理する。 1. Policy: ロボットのアクション 2. World Model: 未来の映像と自己状態 3. Value Function: その状態の価値（報酬期待値） • 実績: シミュレーション(LIBERO, RoboCasa)と実機(ALOHA)でSOTA（最高性能）を達成 *引用: Cosmos Policy (Jin et al., 2026) 7

入力と出力の流れ入力: [現在の画像] + [言語指示 (T5 Embedding)] • Latent Injection: ◦ 空のフレームを用意し、そこに[現在の関節角度(Proprio)]を埋め込む。 • 出力（拡散モデルによる生成）: ◦ [アクションチャンク] (Action) ◦ [未来の関節角度] (Future Proprio) ◦ [未来の画像] (Future Image) ◦ [価値] (Value) • 根拠: これらを時系列順に並べることで、自己回帰的な予測が可能になる。 8

技術的アプローチ①: Latent Injection • 課題: 動画モデルは画像やテキストしか入力できない。ロボットの関節角度(数値)をどう入れるか？ • 解決策: Latent Injection (潜在空間注入) ◦ 動画モデルの入力（潜在表現）の一部を、無理やりロボットの数値データで上書きする。 ◦ 参考文献: ベースとなっているモデルは Wan 2.1 Video VAE (Wang et al., 2025) の潜在空間を使用。 • メリット: モデルの「目」や「脳」を改造せずに、数値データを画像の一種として認識させることに成功。 *引用: Cosmos Policy (Jin et al., 2026) 9

10.

技術的アプローチ②: 冗長符号化 • 冗長符号化 (Redundant Encoding): ◦ ロボットの動作データ（例: 112次元）は、画像データ（例: 12,544次元）に比べて小さすぎる。 ◦ 手法: 動作データを繰り返してコピーし、画像のサイズまで埋める。 ◦ 復元時: コピーされた全データの平均を取ることで、生成時のノイズを相殺し、精度を高める 10

11.

技術的アプローチ②: 統一学習学習の仕組み: データの「マスク（隠す場所）」を変えるだけで、3つの役割を学習させる。 ◦ Policy学習: 現在 → アクションを予測。 ◦ World Model学習: 現在＋アクション → 未来を予測。 ◦ Value学習: 未来 → 価値を予測。 • 比較: 従来は Dreamer のように、これらを別々のネットワークで学習させていたが、Cosmos Policyは単一モデルで実現。 *引用: Cosmos Policy (Jin et al., 2026) 11

12.

学習の工夫 –ハイブリッドなノイズ分布 • 問題: 通常の動画生成（EDM）は、微細なノイズ除去（低ノイズ域）を重視する。 • ロボットの事情: ロボット制御は「大まかな動きの決定（高ノイズ域）」が重要。 • 対策: Hybrid Sigma Distribution ◦ 学習時に、あえて強いノイズ（Uniform分布）を混ぜることで、高ノイズからの回復能力を強化。 ◦ 結果: アクション生成の精度が向上。 *引用: Cosmos Policy (Jin et al., 2026) 12

13.

データセット構成使用データ: 1. Expert Demo: 人間の操作データ (50%) 2. Rollout (成功): AI自身の成功データ (25%) 3. Rollout (失敗): AI自身の失敗データ (25%) • 意図: 失敗データも含めて学習することで、**「何が良い状態で、何が悪い状態か（価値関数）」**を正しく理解させる。 • 強化学習における「失敗データの活用」と同じ考え方。 13

14.

推論について Direct Policy Model-Based Planning 動作: 画像やテキストを入力し、アクションを出力して実行。 Model Predictive Control (MPC) や Dreamer の系譜。 • 特徴: 思考（探索）を行わない「直感的な反応」。 • 手法: Best-of-N Search ◦ 「行動する前に考える」アプローチ。 • 設定: Classifier-Free Guidance (CFG) は使用しない。 ◦ N個の行動候補を出し、それぞれの未来と価値を予測してベストを選ぶ。 ◦ 理由: 言語指示には常に従う必要があり、計算コストを下げてリアルタイム性を確保するため。 • 本研究の強み: 動画モデルが物理法則（重力など）を理解しているため、シミュレーション（未来予測）の精度が非常に高い。 14

15.

価値関数の設計 • 価値関数の設計: ◦ V(s'): 未来の状態だけを見て価値を判断（本手法）。 ◦ Q(s,a): 現在の状態と行動から価値を判断（一般的RL）。 ◦ 結果: V(s′) の方が精度が高かった。動画モデルは「未来の映像」を具体的に生成できるため、その映像を見て良し悪しを判断する方が確実だから。 15

16.

実験設定とベースライン • 比較対象 (Baselines): ◦ Diffusion Policy: 画像ベースの強力な模倣学習。 ◦ OpenVLA, π0: 大規模なVLAモデル。 ◦ Video Policy: 動画モデルを使うが、アクション専用ヘッドを持つ手法。 • タスク: ◦ シミュレーション: LIBERO, RoboCasa (キッチン作業)。 ◦ 実機: ALOHA (Tシャツ畳み、ジップロック開閉など)。 *引用: Cosmos Policy (Jin et al., 2026) 16

17.

実験結果: シミュレーション • LIBERO: 平均成功率 98.5%。 ◦ OpenVLA (97.1%) や π0 (94.2%) を上回る。 • RoboCasa: 平均成功率 67.1%。 ◦ 特筆点: わずか50デモの学習で達成。他手法（300デモ以上使用）を凌駕。 ◦ 動画モデルの事前知識が、データ効率（Few-shot性能）に効いている証拠。 LIBERO (10tasks * 50 episode) RoboCasa (24 kitchen tasks) *引用: Cosmos Policy (Jin et al., 2026) 17

18.

実験結果: 実機実機ALOHAでの比較 • 結果: 4タスク185デモ平均で最高スコア (93.6%) *引用: Cosmos Policy (Jin et al., 2026) 18

19.

定性評価 ◦ π0.5 の失敗: ジップロックの細かいスライダーをつかみ損ねる（空間認識の甘さ）。 ◦ OpenVLAの失敗: キャンディの山に対し、キャンディの「間」を掴んでしまう（マルチモーダル分布の弱さ）。 ◦ Cosmos Policy: 精密な操作と、曖昧な状況への対応を両立 Cosmos Policy *引用: Cosmos Policy (Jin et al., 2026) 19

20.

プランニングの効果検証実験: 難しい初期配置（OOD: Out-Of-Distribution）でのテスト。 • 結果: ◦ プランニングなし vs あり(Model-Based)。 ◦ ありの場合、スコアが +12.5ポイント向上。 • 事例: 「袋を掴み損ねる未来」を予測し、事前に手首の角度を修正する動きが見られた *引用: Cosmos Policy (Jin et al., 2026) 20

21.

課題と結論 • Limitationと課題は: 1. 推論速度: プランニング時は数秒かかるため、瞬時の反応が必要なタスクには不向き。 2. 計算コスト: 複数のH100 GPUが必要。 3. データの必要性: プランニングモデルの学習には、デモだけでなくAI自身の試行錯誤（ロールアウト）データが必要。 • 端的にいうと: 1. 「動画生成モデル＝物理シミュレータ＝ロボットの脳」 2. 専用ヘッドや改造は不要。Latent Injectionでロボットタスクへのワールドモデルの組み込みを実現。 3. 既存のVLA（静止画）から、Video-Action Model（動画）へのパラダイムシフトを示唆。 21