---
title: 【Diffusion勉強会】World Action Models
tags: 
author: [Deep Learning JP](https://image.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/L71Y4GDDJG.jpg?width=480
description: 【Diffusion勉強会】World Action Models by Deep Learning JP
published: March 26, 26
canonical: https://image.docswell.com/s/DeepLearning2023/ZY8DJP-2026-04-15-121949
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/L71Y4GDDJG.jpg)

DEEP LEARNING JP
[DL Papers]
World Action Models
Yusei Koen, Matsuo Lab
http://deeplearning.jp/
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/G7WGXKY8E2.jpg)

目次
1. World Action Modelとは？
2. 代表的なWorld Action Model
i. Mimic-video
ii. Cosmos-Policy
iii. DreamZero
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JZL6ZX9E3.jpg)

World Action Modelとは？
• 将来予測と行動予測を同時に
学習することで，将来予測を行動生成に
活用することができるモデル
観測と行動の同時分布を学習している
WAM
• World Action Model（WAM）はVideo
Action Model（VAM）を
包含する概念
• World Modelの知識を使いながら
行動生成する方策モデル
というイメージ
VAM
観測として動画を使用する
Latent や動画以外のモダリティを使用する
設計も考えれる
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/YE6W2Z4DEV.jpg)

World Modelと呼ばれがちなものの分類
Video Action Model
Video Generation Model
Action Conditioned World Model
現在の観測から行動と次の観測の
同時分布を学習
現在観測から次の観測を
予測するよう学習
行動に条件づけて次の観測や
潜在状態を予測するよう学習
代表的なモデル：
• DreamZero
• Cosmos Policy
• Lingbot-va
行動生成が目的
代表的なモデル：
• Veo
• Sora
• Wan
代表的なモデル：
• Dreamer系
• Genie
• V-JEPA2-AC
動画生成・将来予測が目的
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GE5M2WQ8E4.jpg)

VAMは何が良いのか？ -VLAとの違いVLA
画像
VAM
VLM
VGM
動画
テキスト
• VLMの事前学習は画像やテキストなど
のStaticなデータ
• 動画生成モデル（VGM）の事前学習
はSpatio-temporalな動画データ
• VLAを学習する際に，Semanticな
理解ができても行動コマンドに
結びつきにくい
• 事前学習のPriorを活かしやすく，
方策の学習効率が速い
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/97294QPVJR.jpg)

目次
1. World Action Modelとは？
2. 代表的なWorld Action Model
i. Mimic-video
ii. Cosmos-Policy
iii. DreamZero
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/DJY4MW5Q7M.jpg)

VAM設計上のInverse Dynamicsの定式化
• VAMではInverse Dynamicsを用いて行動を生成する
– Inverse Dynamics：現在観測と次観測からその間の行動を生成する
• 次の観測を予測して，その間の行動を予測する（下式左辺）
– Mimic-Videoはこれに近い実装
• この積をまとめて同時分布のように学習する方法もある（下式右辺）
– Cosmos Policy, DreamZeroはこの実装
– Implicit IDMと呼んでいる
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/V7NYW9N2E8.jpg)

Mimic-Video 2512.15692
• VAMという単語をおそらく初めて
使用した研究
• 事前学習済みの動画生成モデル
（Cosmos-Predict）をbackboneに使用
する
• Action Decoderは別に初期化した
DiTを使用する
• VLAよりもVAMの方が10倍
サンプル効率が良いと主張
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/YJ9PX2RD73.jpg)

Mimic-Video 2512.15692
• 訓練は二段階
1. Video Modelのfine-tuning
•
ロボットのデモデータでVideo Modelをfine-tuningする
2. Action Decoderの学習
•
•
•
•
Video Modelはfreeze
Video側とAction側で独立なflow time 𝜏𝑣 , 𝜏𝑎 をサンプル
Video Modelの第k層の出力をcross-attentionで
条件づけてAction decoderを学習
推論時
–
–
–
–
–
𝜏𝑣 はハイパーパラメータ
ノイズののった画像（Partially-denoised）の隠れ状態から
行動を生成する
実用上は𝜏𝑣 = 1でも結構うまくいくらしい
つまり，入力のノイズから一回のforwardで得た
第k層の隠れ状態で条件づけて行動生成する
𝜏𝑎 は通常通り1から0に積分する
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/GJ8D25W5JD.jpg)

Cosmos-Policy 2601.16163
•
ICLR 2026採択
•
動画生成モデル（Cosmos-Predict）の
アーキテクチャを変えずに方策学習
を行う
•
行動，次観測に加えて，価値も予測
することで，世界モデルを用いた
プランニングを行うことも可能
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LJLM2YN3ER.jpg)

Cosmos-Policy 2601.16163
•
観測，行動価値を並べて動画として扱う
•
使用するデータ
–
–
•
50%：demonstration dataset
50%：rollouts dataset（最適ではない，失敗
も含むデータ）
Demonstration datasetはPolicy学習に使用し，
rollouts datasetはWorld ModelとValue Function
学習に使用
–
ヘッドが分かれているとかではなく，conditionに
するframeを変えているだけ
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/47MY8NXM7W.jpg)

Cosmos-Policy 2601.16163
•
World ModelとValue Functionのみを
学習済みの方策で集めたデータでfine-tuningする
ことでPlannerとしても使える
•
ある複数の行動に対する次状態の価値の予測を
行うことで最適な行動を選択する
–
–
•
Model-Based Planning
深さは今は1でしか行っていない
（直近の行動のプランニングのみを行っている）
性能は良くなっているが，推論時間が長くなる
–
–
通常の推論：&lt;1s
Planning：&gt;5s
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/P7R95DNLE9.jpg)

DreamZero 2602.15922
•
NVIDIAから出た研究
•
結構バズっている
•
WAMという単語を初めて使用
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/PJXQK1867X.jpg)

DreamZero 2602.15922
•
Backboneは事前学習済みのWan2.1 14B
•
学習時には次観測と行動にノイズをかけて
flow matchingで学習する
–
•
同時分布を学習
推論時には共同でdenoiseするが観測側のlatent
は使わずに行動だけ使用する
–
Contextにも実際に得られた観測を使用するので，
予測画像は実質的に捨てられる
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/3JK952KGJD.jpg)

DreamZero 2602.15922
•
14Bサイズでも色々と最適化することで7Hz
（GB200）での制御を実現
–
–
–
•
Zero-shotでの汎化性能がVLAよりも高い
–
•
観測と行動のノイズレベルを分けて学習し，
推論時には観測よりも短いstepで行動を
出せるようにする
CFGの並列化，DiTのcaching等々
VLAはもっと弱いGPUで20HZくらいで制御可能
Pi05は4Bとかなのでフェアではない気がする
Cross-embodimentでの学習ができる
–
–
異なるロボットや人間の動画データで学習
この時は動画側のみでlossをとって学習
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/LE3WK4Z5E5.jpg)

所感・課題
• ロボット制御のためのPriorとしては，VLMよりは動画生成の方が
直感的には良い気がする
• 課題
– 推論時間
•
–
次観測を同時に予測する設計だとどうしても推論時間がかかってしまう
長期のプランニングの欠如
•
•
既存手法は結局（定式化上）1stepの行動と観測予測しか行っていないので，動画生成モデルの
良さを活かしきれているか怪しい
直近の研究では1stepの将来予測もそんなに重要ではない可能性
–
2603.16666
16


