>100 Views
October 09, 25
スライド概要
DL輪読会資料
TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy DEEP LEARNING JP Learned From LLM-Generated Demonstrations [DL Papers] 2025. 10.09 Yongdong Wang PD, Dept. of Precision Engineering, The university of Tokyo http://deeplearning.jp/ 1
書誌情報 • TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From LLM-Generated Demonstrations • TARAD:LLMが生成したデモから学習した、タスク認識型・アフォーダンス中心のロボット拡散方策 • Paper: https://ieeexplore.ieee.org/document/11124589(IEEE Robotics and Automation Letters2025) • Digital Object Identifier: 10.1109/LRA.2025.3598998 • 著者: Site Hu 1, Takayuki Nagai 1, Takato Horii 1 (大阪大学 1) • 特に断りのない限り,図表等の出典は本論文からの引用 2
背景 • 従来のアプローチの限界 • 専門家デモへの依存 収集コストが高く,データ偏りで未知タスク・新環境への汎化が弱い。 • 事前定義の運動プリミティブ依存 接触条件や微細操作に脆弱で,計画は正しくても実行で失敗しがち。 • 細粒度アフォーダンス理解の不足 どこを/どう触るかの認識が不十分。 • シミュレーションと実機のギャップ(sim-to-real)が残存 • 大規模言語モデル(LLM)の可能性 • 言語から高レベル計画を抽出し,Web規模知識でタスク理解。 • オープンボキャブラリ検出+セグメンテーションで対象物の同定・追跡が可能。 • マルチモーダル推論によりアフォーダンス(どこ/どう操作するか)の推定が期待できる。 専門家デモ/運動プリミティブに依存せず,言語指示から軌道を自動合成し, アフォーダンス中心の拡散方策へ蒸留する新手法「TARAD」を提案。 3
提案と貢献 1. データ生成パイプライン(TARAD): 1. 2. 3. 2. 観測からのアフォーダンス抽出: 1. 2. 3. 3. タスク分解テンプレートの使用 自然言語指示を LLM でサブゴール列へ分解(例:対象を把持 → 容器へ配置 → グリッパ開閉)。 依存関係・接触条件・成功条件を明示し,実行時のチェックリストを自動生成。 GroundingDINO で対象検出,SAM2 でセグメント&トラッキングし,対象点群を取得。 マルチモーダル LLM がボックス/マスクの妥当性を言語条件と照合・修正。 LLM 生成スクリプトでボクセル価値マップを算出: 𝑚𝑐 (空間コスト), 𝑚𝑟 (末端姿勢;クォータニオン), 𝑚𝑔 (グリッパ開閉)。 自動実行・フィルタリング・保存: 1. 2. 3. ボクセル空間のグリーディ算法で低レベル軌道を合成。 実行後にマルチモーダル LLM で成功判定(失敗は破棄/再試行)。 成功試行のみデータ化:RGB-D,対象点群,プロプリオセプション,言語指示&サブゴール,低レベルコマンドを保存。 4
提案特徴 • フレームワークの特徴 • ゼロショット軌道合成:LLMで高レベル計画を作成し,LLM+VLMでアフォーダンス(対象点群+ボクセル 価値マップ 𝑚𝑐 , 𝑚𝑟 , 𝑚𝑔 を抽出。ヒューリスティックプランナで低レベル動作へ変換。 • データセット収集完全自動化:実行後は多モーダルLLMで成功判定し,成功試行のみを言語ラベル・ア フォーダンス・RGB-D・プロプリオセプション付きで保存。 • アフォーダンス中心3D拡散方策:DP3(点群エンコーダ) , CLIP(言語エンコーダ) , FiLM(条件付 け)で多タスク方策を学習。 • 専門家デモ/運動プリミティブ不要:データ収集コストを削減し,新タスクへの展開が迅速。 5
提案手法 1. データ生成スキーム(自動化): 1. 2. 3. 4. 5. 2. タスク分解(LLM):自然言語→サブゴール列(依存関係・接触条件・成功条件を明示)。 アフォーダンス抽出(LLM+VLM): 1. GroundingDINO で検出,SAM2 で分割・追跡→対象点群を取得。 2. LLM 生成スクリプトでボクセル 3. 価値マップ( 𝑚𝑐 :空間コスト, 𝑚𝑟 :末端姿勢, 𝑚𝑔 :グリッパ)を計算。 低レベル実行(ヒューリスティック):ボクセル 空間の貪欲探索で軌道を作り, 𝑚𝑟 / 𝑚𝑔 を付与して実行。 自動フィルタリングと保存:マルチモーダル LLM が成功判定→成功試行のみを言語+アフォーダンス付きで保存。 トレーニング目標: 1. 1. アフォーダンス中心のマルチタスク3D拡散方策を学習。 1. 条件付け:対象点群(DP3埋め込み)+言語指示(CLIP B/32)+プロプリオセプションを FiLM で注入。 2. 目的関数:拡散方策のノイズ予測 MSE(真のノイズと予測ノイズの二乗誤差)。 2. サブゴール監視なしで言語→行動をエンドツーエンドに学習(遅延を抑制)。 6
アルゴリズム:ボクセル価値マップの計算 • 目的 対象点群とサブゴールから,空間コス ト 𝑚𝑐 •末端姿勢 𝑚𝑟 ・グリッパ 𝑚𝑔 の 3 種マップを生成し,後段のグリー ディプランナに渡す。 • 入力/出力 入力:対象点群𝑃,サブゴール 𝑠𝑔𝑖 ,ボクセル 解像度 𝑠𝑚 ,LLMs 出力: 𝑚𝑐 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚 (距離ベースのコスト) 𝑚𝑟 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚×4 (姿勢:クォータニオン) 𝑚𝑔 ∈ ℝ 𝑆𝑚×𝑆𝑚×𝑆𝑚 (開/閉) LLMが返すパラメータ 目標位置 (𝑥, 𝑦, 𝑧) ,姿勢 𝑟𝑤 , 𝑟𝑥 , 𝑟𝑦 , 𝑟𝑧 ,半径 𝜷𝐫 (姿勢適用域),グリッパ動作𝐚𝐠 ,半径𝜷𝒈 (開閉適用域) 7
可視化:空間コストマップと計画軌道 1. データ生成パイプライン(TARAD)• 目的 1. LLM/VLMで得たアフォーダンスから,ボクセル空間の空間コストマップ(𝑚𝑐 )を生成し,貪欲探索で低レベル軌道を計画。 2. 姿勢マップ( 𝑚𝑟 )とグリッパマップ( 𝑚𝑔 )で,各点の末端姿勢と開閉タイミングを決定。 2. サブゴール分解 1. Subgoal 1:おもちゃ犬を把持 1. 𝑚𝑐 の谷(低コスト領域)が把持部位に集中 → その谷に沿って軌道を生成。 2. 𝑚𝑟 =把持姿勢, 𝑚𝑔 =閉。 2. Subgoal 2:初期位置へ戻る 1. 障害物を避けつつ安全な高さへ退避。 2. 𝑚𝑟 =搬送姿勢, 𝑚𝑔 =閉(保持)。 3. Subgoal 3:開いた引き出し上 5 cm へ移動 1. 目標位置上空で姿勢を合わせ, 𝑚𝑔 =開で投入。 8
提案手法 1. データ生成スキーム(自動化): 1. 2. 3. 4. 5. 2. タスク分解(LLM):自然言語→サブゴール列(依存関係・接触条件・成功条件を明示)。 アフォーダンス抽出(LLM+VLM): 1. GroundingDINO で検出,SAM2 で分割・追跡→対象点群を取得。 2. LLM 生成スクリプトでボクセル 3. 価値マップ( 𝑚𝑐 :空間コスト, 𝑚𝑟 :末端姿勢, 𝑚𝑔 :グリッパ)を計算。 低レベル実行(ヒューリスティック):ボクセル 空間の貪欲探索で軌道を作り, 𝑚𝑟 / 𝑚𝑔 を付与して実行。 自動フィルタリングと保存:マルチモーダル LLM が成功判定→成功試行のみを言語+アフォーダンス付きで保存。 トレーニング目標: 1. 1. アフォーダンス中心のマルチタスク3D拡散方策を学習。 1. 条件付け:対象点群(DP3埋め込み)+言語指示(CLIP B/32)+プロプリオセプションを FiLM で注入。 2. 目的関数:拡散方策のノイズ予測 MSE(真のノイズと予測ノイズの二乗誤差)。 2. サブゴール監視なしで言語→行動をエンドツーエンドに学習(遅延を抑制)。 9
拡散方策の推論(条件付き逆拡散) 1 1 − 𝛼𝑘 𝑎𝑘−1 = 𝑎𝑘 − 𝜖𝜃 𝑎𝑘 , 𝑘, 𝑐 𝛼𝑘 1 − 𝛼᪄ 𝑘 + 𝜎𝑘 𝑧 𝜖𝜃 はノイズ予測器。条件ベクトル 𝑐 で言語・可供性・本体感覚を注入(FiLM)。 研究の新規性: 𝑐にアフォーダンス(対象点群の DP3 特徴)を入れることで,方策 が対象局所幾何に整合。 条件ベクトル 𝑐 の設計 𝑐 = concat([ CLIP_text(タスク指示), DP3(対象点群), proprioception_history ]) # 512 # 256 # 14 ← アフォーダンス符号化 10
損失関数(ノイズ回帰 MSE) ℒ = 𝔼𝑎0,𝜖,𝑘 𝜖 − 𝜖𝜃 𝑎𝑘 , 𝑘, 𝑐 2 学習手順 データ:自動収集デモ(言語・RGB-D・対象点群・低レベルコマンド)。 前向き拡散で 𝑎0 → 𝑎𝐾 、ランダムな 𝑘をサンプリングし真のノイズ 𝜖 を教師信号に。 条件付け: 𝑐を FiLM でネットワークに注入。 設計意図:サブゴール監視なしで言語→行動を直接学習/対象点群で視点・背景に頑 健。 11
評価 1. RLBench(シミュレーション): 1. 単一×3,マルチ×4,複合×1(計8領域)。各タス ク30件の自動デモを収集(仮想では oracle mask 使 用)。 2. 専門家デモを用いるSOTA(Act3D/3D Diffuser Actor/3D Diffusion Policy 等)に対し,同等〜上回る 成功率を達成。 2. 実機 UR5e: 1. SpongeInPlate/CloseDrawer/ToyInDrawerの3種 類のタスク(RealSense D435)。 2. 約1 Hzの感知–行動ループで安定動作し,VoxPoser と 3D Diffusion Policy を大幅に上回る成功率。 3. 汎化評価: 1. 外観(色),インスタンス(物体入替),視点変更, 雑然シーンに対して高い頑健性。 2. 入力を「タスク関連のアフォーダンス点群」に限定 することで,視点差や背景変化の影響を最小化。 TARADは,LLM/VLMで抽出した言語条件付きアフォーダ ンスに基づいてデモを自動収集し,アフォーダンス中心の 拡散方策を学習する。 12
実験(シミュレーション:タスク構成) • 環境 ・RLBench(5カメラ)。VLM の代わりに oracle mask を用いてアフォーダンス抽出を高速化。 • タスク(全7種) 1. PutRubbishInBin:卓上のゴミを把持してゴミ箱へ投入。 2. SlideBlockToTarget:ブロックをスライドで目標位置へ移動。 3. PushButton:卓上ボタンの押下。 4. MeatOffGrill:グリル上の肉を把持して取り上げ。 5. OpenDrawer:引き出しを開ける。 6. CloseDrawer:引き出しを閉める。 7. PutItemInDrawer:物体を開いた引き出しへ入れる。 13
結果①:シミュレーション(成功率%,平均 ± 標準誤差) • 設定 ・提案手法:各タスク 30 デモ(自動生成)で学習。 ・ベースライン: Voxposer は Foundation Models 系(学習なしの実行)。 Act3D/3D Diffuser Actor/3D Diffusion Policy は専門家デモ 30で学習。 ・評価は各タスク 20 エピソード(学習法は上位3チェックポイントの平均)。 • 総括 ・専門家デモなしにもかかわらず,提案手法は SOTA と同等水準。 ・特に CloseDrawer:92.8±5.36 と SlideBlockToTarget:85.0±2.89 は全手法中ベスト。 ・PushButton:97.8±1.92 は Voxposer の 100.0 に肉薄。 ・PutRubbishInBin:88.9±3.47 は 3D Diffuser Actor(90.6±3.47)と拮抗。 • 弱い領域と考察 ・MeatOffGrill(73.3±3.33)/OpenDrawer(78.3±4.41)/PutItemInDrawer(73.9±6.31)/MultiTaskDrawer (67.2±3.47) は SOTA に劣後。 ・->ボクセル分解能による把手などの微小対象の難しさ、IK 依存で全腕姿勢が非最適になりやすい、複合タスクで誤差が伝播。
結果②:アブレーション(Ablation Study) •設定 1.3D Diffuser Actor / 3D Diffusion Policy(TARADデータで学習) 3.Ours(TARADデータ) 4.Ours(Expert Demoで学習) 5.Ours(言語条件なし) •考察 •データ品質だけでは説明できない:同じ TARAD 自動生成データで学習しても,SOTA基線 (Actor/DP)は Ours に届かない。 → アフォーダンス中心の観測+条件付け設計( 𝑐に DP3点群)が効いている。 •Expert Demo での Ours はわずかに低下: → 生成・学習の両段でアフォーダンス表現を共有した方が分布整合が良く,性能が高い。 •言語条件なし(Ours w/o Language)は多バリアント/複合タスクで顕著に低下: → タスク切り替え・対象選別にテキスト条件が重要。 → それでも単純タスクでは一定の強さを維持(アフォーダンス点群の寄与)。
実験(実機:タスク構成) • セットアップ ・UR5e ロボットアーム+Intel RealSense D435(RGB-D)。 ・各タスクにつき カメラは1台のみ使用。作業域はデスク上の赤枠エリア。 ・同一パイプライン(GroundingDINO → SAM2 → 点群 → ボクセル価値マップ → ヒューリスティック計画)。 ・感知–行動ループ ≈ 1 Hz:RGB-D/点群 ≈130 ms,マスク更新 ≈110 ms,UR5e 実行 ≈650 ms。 • タスク(図 (b)–(d)) 1. SpongeInPlate:スポンジを把持して皿に置く。 2. CloseDrawer:3つの引き出しのうち1つを閉じる。 3. ToyInDrawer:おもちゃ犬を把持して,開いた引き出しに入れる。 • データ収集 ・SpongeInPlate:30 デモ。 ・実行後,多モーダル LLM により成功試行のみを保存(言語ラベル+アフォーダンス+RGB-D+プロプリオセプション)。 16
結果③(左):実機(Success Rate, %) •総合:提案手法 が全タスクで最高。 •SpongeInPlate:96.7(Voxposer 76.7 / 3DP 83.3) •CloseDrawer:93.3(70.0 / 66.7) •ToyInDrawer:86.7(46.7 / 73.3) •差分の要点 •CloseDrawer:+23.3〜+26.6 pt(開閉の細作業で優位)。 •ToyInDrawer:+13.4〜+40.0 pt(目標選別+投入が安定)。
汎化(外観・インスタンス) • 設定:SpongeInPlate 系の一般化テスト (a) スポンジ→青皿 (b) 黄スポンジ→桃皿 (c) スポンジ→おもちゃ犬+濃青皿 • 狙い:色・見た目・物体入替(インスタンス)が変わっても,アフォーダンス中心の方策が安定 実行できるか。 • 方法: ・GroundingDINO+SAM2 で対象を同定→色に依存しない点群を抽出。 ・LLM スクリプトでボクセル価値マップ( 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 )を生成。 ・観測は対象点群に限定(背景や色の変化の影響を抑制)。 • 結果: ・(a)→(b) 色のみ変更,(c) 形状をスポンジ→おもちゃ犬に置換しても,類似のアフォーダンス点群が得られ,軌道計画が破綻しない。 ・学習は一部の外観(例:縞スポンジ+青皿)のみでも,他色/類似サイズの別物体へほぼ同等の成功率で展開。 18
汎化(シーン:雑然環境) • 設定 ・学習:簡素な環境(縞スポンジ+青皿のみ)。 ・評価:雑然シーンに変更し,指示も更新 例:「黄色のスポンジをピンクの皿に入れて」。 • 課題 ・見た目が似た物体が多数 → 対象の取り違えが起きやすい。 ・背景物・照明・部分遮蔽で検出が不安定。 • 方法(選別の流れ) 1. VLM(GroundingDINO)が「yellow sponge」「pink plate」で複数候補を検出。 2. 多モーダル LLMが言語条件(色・器)で候補を照合し,正解(box 0)を確定。 3. SAM2でその候補だけを分割・追跡 → 対象点群を抽出。 4. 点群から 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 (ボクセル 価値マップ)を生成し,計画・実行。 • 結果 ・雑然シーンでも正しいインスタンスを選択し,タスクを安定達成。 ・「対象点群に限定した観測」のため,背景クラッターの影響が小さい。 19
汎化(視点変更) • 設定 ・学習:赤丸のカメラで収集したデモのみ。 ・評価:緑/青丸の別視点で実行。俯角・距離・照明が変化。 • ねらい ・視点が変わっても,アフォーダンス中心の方策が安定動作するかを検証。 • 方法(視点に強い理由) ・RGB-D を外参でロボット基座座標に変換し,対象点群のみを観測として使用。 ・背景や視点差は点群の局所幾何にほぼ影響しないため,抽出されるアフォーダンス点群が類似。 ・以降は 𝑚𝑐 / 𝑚𝑟 / 𝑚𝑔 (ボクセル価値マップ)で計画→実行。 • 結果 ・小〜中程度の視点差では成功率はほぼ不変。 ・大きな視点シフトでも軽微な低下に留まり,タスクは安定完了。 • 失敗要因と対策 ・極端な遮蔽/視野外 → 再検出→再追跡で復帰,必要に応じて複数視点を併用。 ・深度ノイズ増大 → 外れ値除去・距離制限・点群下サンプルで緩和。 20
結果④(右):汎化(SpongeInPlate / ItemInDrawer) •外観変更(App)・インスタンス置換(Inst) •Ours:83–93% 台を維持(局所幾何で条件付け)。 •3DP:Inst で 66.7/63.3% と低下。 •雑然シーン(Clutter) •Ours:96.7 / 83.3 —— 高水準を維持。 •3DP:33.3 / 26.7 —— 大きく崩れる。 •視点変更 •View-1:Ours 96.7 / 90.0(3DP 80.0 / 66.7)。 •View-2:Ours 90.0 / 70.0 に留まり,3DP は 26.7 / 6.7 まで低下。
感想 • 専門家デモ/運動プリミティブ不要で「言語→アフォーダンス→拡散 方策」を実機まで通した点が新規かつ実用的。 • 観測をアフォーダンス点群に限定する設計が,色・背景・視点差への 頑健性を明確に担保していて納得感がある。 22
参考文献
•
S. Hu, T. Nagai and T. Horii, "TARAD: Task-Aware Robot Affordance-Centric Diffusion Policy Learned From
LLM-Generated Demonstrations," in IEEE Robotics and Automation Letters, vol. 10, no. 10, pp. 10122-10129,
Oct. 2025, doi: 10.1109/LRA.2025.3598998. keywords: {Affordances;Robots;Point cloud
compression;Training;Foundation models;Natural languages;Data collection;Grippers;Trajectory;Threedimensional displays;AI-enabled robotics;learning from demonstration;manipulation planning},
23