【DL輪読会】TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From LLM-Generated Demonstrations

1.

TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy DEEP LEARNING JP Learned From LLM-Generated Demonstrations [DL Papers] 2025. 10.09 Yongdong Wang PD, Dept. of Precision Engineering, The university of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報 • TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From LLM-Generated Demonstrations • TARAD：LLMが生成したデモから学習した、タスク認識型・アフォーダンス中心のロボット拡散方策 • Paper: https://ieeexplore.ieee.org/document/11124589(IEEE Robotics and Automation Letters2025) • Digital Object Identifier: 10.1109/LRA.2025.3598998 • 著者： Site Hu 1, Takayuki Nagai 1, Takato Horii 1 (大阪大学 1) • 特に断りのない限り，図表等の出典は本論文からの引用 2

https://ieeexplore.ieee.org/document/11124589

3.

背景 • 従来のアプローチの限界 • 専門家デモへの依存収集コストが高く，データ偏りで未知タスク・新環境への汎化が弱い。 • 事前定義の運動プリミティブ依存接触条件や微細操作に脆弱で，計画は正しくても実行で失敗しがち。 • 細粒度アフォーダンス理解の不足どこを／どう触るかの認識が不十分。 • シミュレーションと実機のギャップ（sim-to-real）が残存 • 大規模言語モデル（LLM）の可能性 • 言語から高レベル計画を抽出し，Web規模知識でタスク理解。 • オープンボキャブラリ検出＋セグメンテーションで対象物の同定・追跡が可能。 • マルチモーダル推論によりアフォーダンス（どこ／どう操作するか）の推定が期待できる。専門家デモ／運動プリミティブに依存せず，言語指示から軌道を自動合成し，アフォーダンス中心の拡散方策へ蒸留する新手法「TARAD」を提案。 3

4.

提案と貢献 1. データ生成パイプライン（TARAD）: 1. 2. 3. 2. 観測からのアフォーダンス抽出: 1. 2. 3. 3. タスク分解テンプレートの使用自然言語指示を LLM でサブゴール列へ分解（例：対象を把持 → 容器へ配置 → グリッパ開閉）。依存関係・接触条件・成功条件を明示し，実行時のチェックリストを自動生成。 GroundingDINO で対象検出，SAM2 でセグメント＆トラッキングし，対象点群を取得。マルチモーダル LLM がボックス／マスクの妥当性を言語条件と照合・修正。 LLM 生成スクリプトでボクセル価値マップを算出： 𝑚𝑐 （空間コスト）， 𝑚𝑟 （末端姿勢；クォータニオン）， 𝑚𝑔 （グリッパ開閉）。自動実行・フィルタリング・保存: 1. 2. 3. ボクセル空間のグリーディ算法で低レベル軌道を合成。実行後にマルチモーダル LLM で成功判定（失敗は破棄／再試行）。成功試行のみデータ化：RGB-D，対象点群，プロプリオセプション，言語指示＆サブゴール，低レベルコマンドを保存。 4

5.

提案特徴 • フレームワークの特徴 • ゼロショット軌道合成：LLMで高レベル計画を作成し，LLM＋VLMでアフォーダンス（対象点群＋ボクセル価値マップ 𝑚𝑐 ， 𝑚𝑟 ， 𝑚𝑔 を抽出。ヒューリスティックプランナで低レベル動作へ変換。 • データセット収集完全自動化：実行後は多モーダルLLMで成功判定し，成功試行のみを言語ラベル・アフォーダンス・RGB-D・プロプリオセプション付きで保存。 • アフォーダンス中心3D拡散方策：DP3（点群エンコーダ）， CLIP（言語エンコーダ）， FiLM（条件付け）で多タスク方策を学習。 • 専門家デモ／運動プリミティブ不要：データ収集コストを削減し，新タスクへの展開が迅速。 5

6.

提案手法 1. データ生成スキーム（自動化）: 1. 2. 3. 4. 5. 2. タスク分解（LLM）：自然言語→サブゴール列（依存関係・接触条件・成功条件を明示）。アフォーダンス抽出（LLM+VLM）： 1. GroundingDINO で検出，SAM2 で分割・追跡→対象点群を取得。 2. LLM 生成スクリプトでボクセル 3. 価値マップ（ 𝑚𝑐 ：空間コスト， 𝑚𝑟 ：末端姿勢， 𝑚𝑔 ：グリッパ）を計算。低レベル実行（ヒューリスティック）：ボクセル空間の貪欲探索で軌道を作り， 𝑚𝑟 / 𝑚𝑔 を付与して実行。自動フィルタリングと保存：マルチモーダル LLM が成功判定→成功試行のみを言語＋アフォーダンス付きで保存。トレーニング目標: 1. 1. アフォーダンス中心のマルチタスク3D拡散方策を学習。 1. 条件付け：対象点群（DP3埋め込み）＋言語指示（CLIP B/32）＋プロプリオセプションを FiLM で注入。 2. 目的関数：拡散方策のノイズ予測 MSE（真のノイズと予測ノイズの二乗誤差）。 2. サブゴール監視なしで言語→行動をエンドツーエンドに学習（遅延を抑制）。 6

7.

アルゴリズム：ボクセル価値マップの計算 • 目的対象点群とサブゴールから，空間コスト 𝑚𝑐 •末端姿勢 𝑚𝑟 ・グリッパ 𝑚𝑔 の 3 種マップを生成し，後段のグリーディプランナに渡す。 • 入力／出力入力：対象点群𝑃，サブゴール 𝑠𝑔𝑖 ，ボクセル解像度 𝑠𝑚 ，LLMs 出力： 𝑚𝑐 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚 （距離ベースのコスト） 𝑚𝑟 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚×4 （姿勢：クォータニオン） 𝑚𝑔 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚 （開／閉） LLMが返すパラメータ目標位置 (𝑥, 𝑦, 𝑧) ，姿勢 𝑟𝑤 , 𝑟𝑥 , 𝑟𝑦 , 𝑟𝑧 ，半径 𝜷𝐫 （姿勢適用域），グリッパ動作𝐚𝐠 ，半径𝜷𝒈 （開閉適用域） 7

8.

可視化：空間コストマップと計画軌道 1. データ生成パイプライン（TARAD）• 目的 1. LLM/VLMで得たアフォーダンスから，ボクセル空間の空間コストマップ（𝑚𝑐 ）を生成し，貪欲探索で低レベル軌道を計画。 2. 姿勢マップ（ 𝑚𝑟 ）とグリッパマップ（ 𝑚𝑔 ）で，各点の末端姿勢と開閉タイミングを決定。 2. サブゴール分解 1. Subgoal 1：おもちゃ犬を把持 1. 𝑚𝑐 の谷（低コスト領域）が把持部位に集中 → その谷に沿って軌道を生成。 2. 𝑚𝑟 ＝把持姿勢， 𝑚𝑔 ＝閉。 2. Subgoal 2：初期位置へ戻る 1. 障害物を避けつつ安全な高さへ退避。 2. 𝑚𝑟 ＝搬送姿勢， 𝑚𝑔 ＝閉（保持）。 3. Subgoal 3：開いた引き出し上 5 cm へ移動 1. 目標位置上空で姿勢を合わせ， 𝑚𝑔 ＝開で投入。 8

9.

提案手法 1. データ生成スキーム（自動化）: 1. 2. 3. 4. 5. 2. タスク分解（LLM）：自然言語→サブゴール列（依存関係・接触条件・成功条件を明示）。アフォーダンス抽出（LLM+VLM）： 1. GroundingDINO で検出，SAM2 で分割・追跡→対象点群を取得。 2. LLM 生成スクリプトでボクセル 3. 価値マップ（ 𝑚𝑐 ：空間コスト， 𝑚𝑟 ：末端姿勢， 𝑚𝑔 ：グリッパ）を計算。低レベル実行（ヒューリスティック）：ボクセル空間の貪欲探索で軌道を作り， 𝑚𝑟 / 𝑚𝑔 を付与して実行。自動フィルタリングと保存：マルチモーダル LLM が成功判定→成功試行のみを言語＋アフォーダンス付きで保存。トレーニング目標: 1. 1. アフォーダンス中心のマルチタスク3D拡散方策を学習。 1. 条件付け：対象点群（DP3埋め込み）＋言語指示（CLIP B/32）＋プロプリオセプションを FiLM で注入。 2. 目的関数：拡散方策のノイズ予測 MSE（真のノイズと予測ノイズの二乗誤差）。 2. サブゴール監視なしで言語→行動をエンドツーエンドに学習（遅延を抑制）。 9

10.

拡散方策の推論（条件付き逆拡散） 1 1 − 𝛼𝑘 𝑎𝑘−1 = 𝑎𝑘 − 𝜖𝜃 𝑎𝑘 , 𝑘, 𝑐 𝛼𝑘 1 − 𝛼᪄ 𝑘 + 𝜎𝑘 𝑧 𝜖𝜃 はノイズ予測器。条件ベクトル 𝑐 で言語・可供性・本体感覚を注入（FiLM）。研究の新規性： 𝑐にアフォーダンス（対象点群の DP3 特徴）を入れることで，方策が対象局所幾何に整合。条件ベクトル 𝑐 の設計 𝑐 = concat([ CLIP_text(タスク指示), DP3(対象点群), proprioception_history ]) # 512 # 256 # 14 ← アフォーダンス符号化 10

11.

損失関数（ノイズ回帰 MSE） ℒ = 𝔼𝑎0,𝜖,𝑘 𝜖 − 𝜖𝜃 𝑎𝑘 , 𝑘, 𝑐 2 学習手順データ：自動収集デモ（言語・RGB-D・対象点群・低レベルコマンド）。前向き拡散で 𝑎0 → 𝑎𝐾 、ランダムな 𝑘をサンプリングし真のノイズ 𝜖 を教師信号に。条件付け： 𝑐を FiLM でネットワークに注入。設計意図：サブゴール監視なしで言語→行動を直接学習／対象点群で視点・背景に頑健。 11

12.

評価 1. RLBench（シミュレーション）： 1. 単一×3，マルチ×4，複合×1（計8領域）。各タスク30件の自動デモを収集（仮想では oracle mask 使用）。 2. 専門家デモを用いるSOTA（Act3D／3D Diffuser Actor／3D Diffusion Policy 等）に対し，同等〜上回る成功率を達成。 2. 実機 UR5e: 1. SpongeInPlate／CloseDrawer／ToyInDrawerの3種類のタスク（RealSense D435）。 2. 約1 Hzの感知–行動ループで安定動作し，VoxPoser と 3D Diffusion Policy を大幅に上回る成功率。 3. 汎化評価: 1. 外観（色），インスタンス（物体入替），視点変更，雑然シーンに対して高い頑健性。 2. 入力を「タスク関連のアフォーダンス点群」に限定することで，視点差や背景変化の影響を最小化。 TARADは，LLM/VLMで抽出した言語条件付きアフォーダンスに基づいてデモを自動収集し，アフォーダンス中心の拡散方策を学習する。 12

13.

実験（シミュレーション：タスク構成） • 環境・RLBench（5カメラ）。VLM の代わりに oracle mask を用いてアフォーダンス抽出を高速化。 • タスク（全7種） 1. PutRubbishInBin：卓上のゴミを把持してゴミ箱へ投入。 2. SlideBlockToTarget：ブロックをスライドで目標位置へ移動。 3. PushButton：卓上ボタンの押下。 4. MeatOffGrill：グリル上の肉を把持して取り上げ。 5. OpenDrawer：引き出しを開ける。 6. CloseDrawer：引き出しを閉める。 7. PutItemInDrawer：物体を開いた引き出しへ入れる。 13

14.

結果①：シミュレーション（成功率％，平均 ± 標準誤差） • 設定・提案手法：各タスク 30 デモ（自動生成）で学習。・ベースライン： Voxposer は Foundation Models 系（学習なしの実行）。 Act3D／3D Diffuser Actor／3D Diffusion Policy は専門家デモ 30で学習。・評価は各タスク 20 エピソード（学習法は上位3チェックポイントの平均）。 • 総括・専門家デモなしにもかかわらず，提案手法は SOTA と同等水準。・特に CloseDrawer：92.8±5.36 と SlideBlockToTarget：85.0±2.89 は全手法中ベスト。・PushButton：97.8±1.92 は Voxposer の 100.0 に肉薄。・PutRubbishInBin：88.9±3.47 は 3D Diffuser Actor（90.6±3.47）と拮抗。 • 弱い領域と考察・MeatOffGrill（73.3±3.33）／OpenDrawer（78.3±4.41）／PutItemInDrawer（73.9±6.31）／MultiTaskDrawer （67.2±3.47）は SOTA に劣後。・->ボクセル分解能による把手などの微小対象の難しさ、IK 依存で全腕姿勢が非最適になりやすい、複合タスクで誤差が伝播。

15.

結果②：アブレーション（Ablation Study） •設定 1.3D Diffuser Actor / 3D Diffusion Policy（TARADデータで学習） 3.Ours（TARADデータ） 4.Ours（Expert Demoで学習） 5.Ours（言語条件なし） •考察 •データ品質だけでは説明できない：同じ TARAD 自動生成データで学習しても，SOTA基線（Actor/DP）は Ours に届かない。 → アフォーダンス中心の観測＋条件付け設計（ 𝑐に DP3点群）が効いている。 •Expert Demo での Ours はわずかに低下： → 生成・学習の両段でアフォーダンス表現を共有した方が分布整合が良く，性能が高い。 •言語条件なし（Ours w/o Language）は多バリアント/複合タスクで顕著に低下： → タスク切り替え・対象選別にテキスト条件が重要。 → それでも単純タスクでは一定の強さを維持（アフォーダンス点群の寄与）。

16.

実験（実機：タスク構成） • セットアップ・UR5e ロボットアーム＋Intel RealSense D435（RGB-D）。・各タスクにつきカメラは1台のみ使用。作業域はデスク上の赤枠エリア。・同一パイプライン（GroundingDINO → SAM2 → 点群 → ボクセル価値マップ → ヒューリスティック計画）。・感知–行動ループ ≈ 1 Hz：RGB-D/点群 ≈130 ms，マスク更新 ≈110 ms，UR5e 実行 ≈650 ms。 • タスク（図 (b)–(d)） 1. SpongeInPlate：スポンジを把持して皿に置く。 2. CloseDrawer：3つの引き出しのうち1つを閉じる。 3. ToyInDrawer：おもちゃ犬を把持して，開いた引き出しに入れる。 • データ収集・SpongeInPlate：30 デモ。・実行後，多モーダル LLM により成功試行のみを保存（言語ラベル＋アフォーダンス＋RGB-D＋プロプリオセプション）。 16

17.

結果③（左）：実機（Success Rate, %） •総合：提案手法が全タスクで最高。 •SpongeInPlate：96.7（Voxposer 76.7 / 3DP 83.3） •CloseDrawer：93.3（70.0 / 66.7） •ToyInDrawer：86.7（46.7 / 73.3） •差分の要点 •CloseDrawer：+23.3〜+26.6 pt（開閉の細作業で優位）。 •ToyInDrawer：+13.4〜+40.0 pt（目標選別＋投入が安定）。

18.

汎化（外観・インスタンス） • 設定：SpongeInPlate 系の一般化テスト (a) スポンジ→青皿 (b) 黄スポンジ→桃皿 (c) スポンジ→おもちゃ犬＋濃青皿 • 狙い：色・見た目・物体入替（インスタンス）が変わっても，アフォーダンス中心の方策が安定実行できるか。 • 方法：・GroundingDINO＋SAM2 で対象を同定→色に依存しない点群を抽出。・LLM スクリプトでボクセル価値マップ（ 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 ）を生成。・観測は対象点群に限定（背景や色の変化の影響を抑制）。 • 結果：・(a)→(b) 色のみ変更，(c) 形状をスポンジ→おもちゃ犬に置換しても，類似のアフォーダンス点群が得られ，軌道計画が破綻しない。・学習は一部の外観（例：縞スポンジ＋青皿）のみでも，他色／類似サイズの別物体へほぼ同等の成功率で展開。 18

19.

汎化（シーン：雑然環境） • 設定・学習：簡素な環境（縞スポンジ＋青皿のみ）。・評価：雑然シーンに変更し，指示も更新例：「黄色のスポンジをピンクの皿に入れて」。 • 課題・見た目が似た物体が多数 → 対象の取り違えが起きやすい。・背景物・照明・部分遮蔽で検出が不安定。 • 方法（選別の流れ） 1. VLM（GroundingDINO）が「yellow sponge」「pink plate」で複数候補を検出。 2. 多モーダル LLMが言語条件（色・器）で候補を照合し，正解（box 0）を確定。 3. SAM2でその候補だけを分割・追跡 → 対象点群を抽出。 4. 点群から 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 （ボクセル価値マップ）を生成し，計画・実行。 • 結果・雑然シーンでも正しいインスタンスを選択し，タスクを安定達成。・「対象点群に限定した観測」のため，背景クラッターの影響が小さい。 19

20.

汎化（視点変更） • 設定・学習：赤丸のカメラで収集したデモのみ。・評価：緑／青丸の別視点で実行。俯角・距離・照明が変化。 • ねらい・視点が変わっても，アフォーダンス中心の方策が安定動作するかを検証。 • 方法（視点に強い理由）・RGB-D を外参でロボット基座座標に変換し，対象点群のみを観測として使用。・背景や視点差は点群の局所幾何にほぼ影響しないため，抽出されるアフォーダンス点群が類似。・以降は 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 （ボクセル価値マップ）で計画→実行。 • 結果・小〜中程度の視点差では成功率はほぼ不変。・大きな視点シフトでも軽微な低下に留まり，タスクは安定完了。 • 失敗要因と対策・極端な遮蔽／視野外 → 再検出→再追跡で復帰，必要に応じて複数視点を併用。・深度ノイズ増大 → 外れ値除去・距離制限・点群下サンプルで緩和。 20

21.

結果④（右）：汎化（SpongeInPlate / ItemInDrawer） •外観変更（App）・インスタンス置換（Inst） •Ours：83–93% 台を維持（局所幾何で条件付け）。 •3DP：Inst で 66.7/63.3% と低下。 •雑然シーン（Clutter） •Ours：96.7 / 83.3 —— 高水準を維持。 •3DP：33.3 / 26.7 —— 大きく崩れる。 •視点変更 •View-1：Ours 96.7 / 90.0（3DP 80.0 / 66.7）。 •View-2：Ours 90.0 / 70.0 に留まり，3DP は 26.7 / 6.7 まで低下。

22.

感想 • 専門家デモ／運動プリミティブ不要で「言語→アフォーダンス→拡散方策」を実機まで通した点が新規かつ実用的。 • 観測をアフォーダンス点群に限定する設計が，色・背景・視点差への頑健性を明確に担保していて納得感がある。 22

23.

[beta]

参考文献
•

S. Hu, T. Nagai and T. Horii, "TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From
LLM-Generated Demonstrations," in IEEE Robotics and Automation Letters, vol. 10, no. 10, pp. 10122-10129,
Oct. 2025, doi: 10.1109/LRA.2025.3598998. keywords: {Affordances;Robots;Point cloud
compression;Training;Foundation models;Natural languages;Data collection;Grippers;Trajectory;Threedimensional displays;AI-enabled robotics;learning from demonstration;manipulation planning},

23

【DL輪読会】TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From LLM-Generated Demonstrations

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト