---
title: 【DL輪読会】π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
tags: 
author: [Deep Learning JP](https://image.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/V7PKPL8VJ8.jpg?width=480
description: 【DL輪読会】π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities by Deep Learning JP
published: April 23, 26
canonical: https://image.docswell.com/s/DeepLearning2023/Z27ME6-2026-04-24-135712
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/V7PKPL8VJ8.jpg)


# Page. 2

![Page Image](https://bcdn.docswell.com/page/2JVV2QNRJQ.jpg)

書誌情報
題名
著者
会議
概要
π0.7: a Steerable Generalist Robotic Foundation Model with
Emergent Capabilities
Physical Intelligence
Preprint, 2025 / https://pi.website/pi07
サブゴール画像・エピソードメタデータなどリッチなプロンプトで条件付け
低品質データも学習に利用し、fine-tuningなしでspecialist policyを上回る性
能・構成的汎化を実現
スライド中の図表は該当論文から引用
※
1 / 22


# Page. 3

![Page Image](https://bcdn.docswell.com/page/5EGLRWK6JL.jpg)

概要
多様なプロンプトで条件付けしたsteerableなVLA
0:00 / 4:02
1 / 22


# Page. 4

![Page Image](https://bcdn.docswell.com/page/4JQYV3N27P.jpg)

背景：VLA (Vision-Language-Action Model)
画像＋言語を入力に行動を出力する、VLMベースのロボット方策
画像観測 + 言語指示 → 行動 を出力するロボット方策
大規模 VLM (PaliGemma, Gemma など) の事前知識を、ロボット行動空間へ転用
行動の text token 空間への埋め込み，MoT構成で action expert 側を flow matching loss で学習等
代表例：RT-2 (Google), OpenVLA, Octo, π0 / π0.5
多様な多ロボットデータで学習することで zero/few-shot な新タスク対応が可能に
​
​
1 / 22


# Page. 5

![Page Image](https://bcdn.docswell.com/page/K74WM1GPE1.jpg)

背景：π シリーズ
π
モデ
ル
π0
発表日
VLM
backbone
Action
expert
主要メッセージ
2024-10-31
PaliGemma 3B
300M
VLM + flow matching action expert
VLA
2025-04-22
PaliGemma 3B
300M
Co-training
2025-11-17
Gemma3 4B
860M
2025-11-18
Gemma3 4B
860M
​
π0.5
π0.6
∗
π0.6
π0.7
​
​
した最初の
で高周波dexterous制御を実現
で open-world 汎化。未知の家でキッチン/寝室掃除。
階層的推論の導入
VLM とアクションエキスパートを大型化。メタデータ条件付け。
出力精度と speed の向上
RL (Recap) で経験から学習する VLA。value function による
advantage conditioning
​
2026-04-16
​
シリーズの系譜
Gemma3 4B
860M
メタデータ サブゴール画像 + メモリ) によ
Diverse prompting (
+
emergent capability
る構成的汎化と
1 / 22


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LJ1Y8GDXEG.jpg)

課題と提案
従来 VLA の課題 → 本研究のアプローチ
従来 VLA の課題
学習済みの指示ですら fine-tuning なしで流暢に実行できない
戦略や品質が異なるデモを naive に混ぜると 平均化された sub-optimal 方策に収束
新しいタスクやスキルの 構成的再利用 が不十分
本研究のアプローチ：言語 + subgoal画像 + metadata による多様な prompting で
混合品質データを活かしつつ、推論時に steerable な汎用 VLA を構築
1 / 22


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GJWGZKYK72.jpg)

π0.7
​
アーキテクチャ
5B VLM + 860M action expert
の VLA
粗い指示
+ memory → subtask に分解
World Model (BAGEL 14B): 観測 +
subtask → subgoal image 生成
Prompt: 言語 + subgoal画像 +
metadata を同時条件付け
HL/WM は切替可、人から直接 steer
可能
High-Level Policy (VLM):
1 / 22


# Page. 8

![Page Image](https://bcdn.docswell.com/page/4EZL1ZXN73.jpg)

Diversifying the Prompt
言語・サブゴール画像・メタデータで条件付け
言語命令: task (粗い) + subtask (細かい
動作語彙)
Subgoal画像: 次に達成すべき状態を画
像で与える
Metadata: Quality(1-5), Speed, Mistake,
Control Mode …
例:
Full Prompt
1 / 22


# Page. 9

![Page Image](https://bcdn.docswell.com/page/Y76WLZ497V.jpg)

World Model: BAGEL 14B
外付け Diffusion World Model
入力: 3枚の観測画像 + 言語指示 + metadata
出力: 1枚の subgoal 画像
訓練: 同エピソードの 最終フレームを subgoal GT として使用
推論: 現在状態から次の達成目標状態を画像で提示 → VLA の条件入力になる
は subgoal 生成のみ に利用。動作は生成しない → 軽量な action expert で高頻度制御を維持
補足: Training Time RTC で action chunk 間を滑らかに接続し、境界のカクつきを抑制
WM
1 / 22


# Page. 10

![Page Image](https://bcdn.docswell.com/page/G75M1WQD74.jpg)

訓練・推論の工夫
CFG + 25% subgoal +
推論時: Classifier-Free Guidance (CFG)
外付け BAGEL WM
metadata (Quality=5 / Speed=fast / Mistake=false …)
を ガイダンス条件として利用
「速く・高品質・ミスなし」方向へ誘導
→ 低品質データも学習に使いつつ、推論では 高品質寄りの挙動のみ引き出す
訓練時: Subgoal conditioning を25%だけ適用
全サンプルに subgoal を付けると VLA が画像差分から inverse dynamics をショートカット学習
→ 言語/metadata 理解が育たない
→ 25%のみ subgoal 条件付け
勾配を VLM に流さず知識保護
進捗) + video encoder で短期記憶 (数秒の密な観測) を併用
Knowledge Insulation (KI) [Driess+ 2025]: action expert
MEM video encoder: [Torne+ 2026] text
(subtask
で長期記憶
1 / 22


# Page. 11

![Page Image](https://bcdn.docswell.com/page/9J291QWMER.jpg)

実験：Metadata Ablation (scaling &amp; diversity)
メタデータ条件付けが「大規模 × 混合品質」を活かす鍵
スケーリング: メタデータあり → データ量↑で性能が継続的に向上 (平均品質が低下しても)
メタデータなしでは 逆に劣化
タスク多様性: 多様性上位 20% を除去 → タスク汎化が大きく低下
結論: メタデータ条件付けが「大規模 × 混合品質」を活かす鍵
1 / 22


# Page. 12

![Page Image](https://bcdn.docswell.com/page/DEY4ZWLPJM.jpg)

実験：vs Specialized Models
特化モデル(SFT)と同等以上の巧緻性
比較対象: π0.6 -MEM SFT Specialist、タスク: Swap 3 Mugs / Find Object / Scoop Coffee / Window
​
Cleaning
汎用モデルでありながら fine-tuning なしで 特化モデルと同等以上、Find Object では +10pt 改善
1 / 22


# Page. 13

![Page Image](https://bcdn.docswell.com/page/VJNY394M78.jpg)

実験：vs Specialized Models (詳細)
RL/SFT Specialist
との比較
上段: vs π0.6 -RL Specialist (Laundry / Make Espresso / Box Building): throughputで上回る例も
下段: vs π0.6 SFT Specialist (PB Sandwich / Slice Zucchini 等 6タスク): おおむね同水準
​
​
1 / 22


# Page. 14

![Page Image](https://bcdn.docswell.com/page/YE9P92QWJ3.jpg)

実験：Language Following
未知の言語命令への追従
未知の Kitchen / Bedroom で多様な命令に追従: π0.5 / π0.6 を大きく上回る
&quot;open the wardrobe&quot;, &quot;put the empty soda can into the trash can&quot; など抽象的で長い指示にも従う
​
​
1 / 22


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GE8D95GRED.jpg)

実験：Language Following (複雑指示)
複雑な言い回しにも追従
Office Desk Rearrangement
Standard: &quot;pick up the grapes&quot; :
ル成功
ほぼ全モデ
Complex: &quot;pick up the fruit on the largest
は 20%程度 → π0.7 で 改
善、GC (goal-conditioned) でさらに向上
plate&quot; : π0.5 /π0.6
​
​
​
1 / 22


# Page. 16

![Page Image](https://bcdn.docswell.com/page/LELMWYG27R.jpg)

実験：Cross-Embodiment Transfer
未学習のエンボディメントへゼロショット転移
左: 学習済エンボディメント (Mobile, Bimanual, UR5 …) でも π0.7 は上位
右: Static Bimanual に 未学習タスクを転移 (Towel / Shirt Folding): π0.7 は大幅改善、Shirt では
Human水準に迫る
GC: goal画像で条件付けすることでさらに向上
​
​
1 / 22


# Page. 17

![Page Image](https://bcdn.docswell.com/page/4JMY9NQ9JW.jpg)

実験：Compositional Task Generalization
既知スキルの新しい組み合わせで新タスク
Reverse Bussing:
向に配膳
通常「片付け」→ 逆方
冷蔵庫か
ら取り出しレンジへ (学習データに無い方
向)
既知スキルの新しい順序・方向で合成
π0.5 /π0.6 はほぼ失敗 → π0.7 (GC) で 70%
超
Reverse Fridge to Microwave:
​
​
​
1 / 22


# Page. 18

![Page Image](https://bcdn.docswell.com/page/PJR9GD8979.jpg)

実験：Learning from Mixed-Quality Data
低品質・非標準データも性能を押し上げる
等を抜く →
no metadata: Quality/Speed
大幅に劣化
評価対象環境のデータを
除外 → 性能低下
結論: 混合品質データを使うなら メタデ
ータ条件付けが必須
no eval data:
低品質・失敗データも「これは品質2だ」とラベル付けすれば、モデルは&quot;何を避けるか&quot;として学習できる
1 / 22


# Page. 19

![Page Image](https://bcdn.docswell.com/page/PEXQX183JX.jpg)

実験：Language Coaching
推論時に人が言語で「コーチング」
推論時に人が 細かい言語指示で steer
(&quot;grasp the handle with the left hand&quot; …)
Load/Unload Air Fryer, Toast Bagel
で成
功率が 大幅改善
ゼロショットで未学習タスクを実行可能：
サブタスクへの分解を人が与える
1 / 22


# Page. 20

![Page Image](https://bcdn.docswell.com/page/3EK9W2KNED.jpg)

論文に載っていないこと
最重要: データセットの絶対量が不記載
§VI-A はソース列挙のみ、時間数・エピソード数の絶対量なし → スケール主張の検証不能
追加で欲しい ablation
Subgoal 画像なし訓練: 訓練パイプラインの寄与分離 (metadata には Fig. 7 あるのに非対称)
π0.6 → π0.7 の要素別寄与: MEM / subgoal画像 / 拡張 metadata の独立・相互寄与
∗
次善データのカテゴリ別: 失敗 / 自律 / RL ロールアウト (π0.6
) / 人間介入を個別除外
CFG の要素別効果: speed / quality / mistake どれが throughput 改善に効くか
評価タスクの novelty 定量化: §X で seen/unseen 判定困難と著者自身が言及
​
​
​
1 / 22


# Page. 21

![Page Image](https://bcdn.docswell.com/page/L73W14ZZ75.jpg)

所感
結果が強い (特に 未知ロボットへの汎化)
Mixed-quality を metadata + CFG で活かす設計，直感的にはそれはそう
fine-tuning なしで specialist 並，本当？手元のロボットでプロンプトだけで本当に動くのか
PI では実ロボットデータのスケーリングでまだまだ性能が伸びている
最近 human video からの学習や video diffusion ベースの world model などが流行っているが
X で著者 Lucy が「当初 world model 関連のプロジェクトを進めていたが、baseline がデータス
ケールで強くなったのでこちらを論文化した」と発言
評価が追いついていない印象
π0 の 1 万時間以降、データサイズは非開示
​
1 / 22


# Page. 22

![Page Image](https://bcdn.docswell.com/page/87DKXQR4JG.jpg)

まとめ
Key takeaways
言語 + subgoal画像 + metadata でリッチに条件付けした steerable な汎用 VLA
High-Level Policy / World Model を切替可能な階層的推論で、人が言語・goalで直接 steer
Mixed-quality データ も metadata 付けで活用: 低品質・失敗・人の動画まで性能向上に寄与
Out-of-the-box で specialist と同等、未知命令・未知embodiment・構成的タスクに汎化
示唆: what (task) と how (quality/speed/mistake) の両方を与える prompting が鍵
π0.7 :
​
1 / 22