【DL輪読会】Real-Time Execution of Action Chunking Flow Policies

1.9K Views

June 26, 25

#Action Chunking #リアルタイム実行 #非同期推論 #inpainting #ロボット制御

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Real-Time Execution of Action Chunking Flow Policies Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル : “Real-Time Execution of Action Chunking Flow Policies” 著者 : K e v in B la c k , M a nu e l Y . G a llik e r, S e rg e y L e v ine , P h y s ic a l In te llig e n c e , U C B e rk e le y リンク : H P : h ttp s ://ww w .p h y s ic a lin te llig e n c e .c om p a n y /re s e a rc h/re a l_ tim e _ c hu n k p a p e r : h ttp s ://ww w .p h y s ic a lin te llig e n c e .c om p a n y /d ow n lo a d/re a l_ tim e _ c h 2

背景 : A c tio n C h u n k in g / V L A - A c tio n C hu n k ing - A c tio n C hu n k という単位で行動列を推論 - 一度に H s te ps の行動を出力でき高周波での制御に対応. - C h un k 内では一貫性のある行動を行うことが可能 - A C T , p i0 などv is uo m otor c on trolの模倣学習, V L A でデファクトスタンダード - V L A ( V is ion L a ng u a g e A c tio n M od e l) - V L M をb a c k b o ne とした大規模なモデル - 未知の環境に対応できるなどの汎化性能 3

課題 - Action Chunking - Long Horizon : 新たな観測に対する反応が遅くなる - Short Horizon : チャンク間の連続性が失われる. → Chunk間の連続性を保持しつつ, 新たな観測に対応した行動を行いたい. - VLA ( Vision Language Action Model) - 大規模化に伴い推論時間の増加 - Streaming Diffusion Policy や Parallell Decoding などの高速化 - ただし, 推論時間 < サンプリング時間とはならない. - Chunk 間の推論時に一時停止が発生. - → 学習時と推論時でOoDになる可能性. 4

Bidirectional Decoding: Improving Action Chunking R e la te d W o rk : B ID via Closed-Loop Resampling 通常通り学習した方策 : π+ 弱い方策 : πA : π+ からサンプリングした行動の集合 A+ = A \ {a} A- : π- からサンプリングした行動の集合 → 大量のサンプリングが必要なため計算コストが高い 5

https://arxiv.org/pdf/2408.17355v1

R e la te d W o rk : S m o lV L A RTCとほぼ同時期に出た Async Inference. 非同期推論の動きがわかりやすいので紹介. 6

https://arxiv.org/abs/2506.01844

用語 - H - s - ∆𝑡 - 𝛿 - d = ⌊ 𝛿 / ∆𝑡 ⌋ - M : P re dic tiv e ho riz o n , 推論するh oriz o の長さ : e x e c u tion h o riz o n , 実行するh oriz on の長さ : sampling period , 50Hz → 2 0 m s : a c tion c h un k を生成するのにかかる時間 : in fe re n c e d e la y , 遅延ステップ数 : dim e n s io n of e a c h a c tio n, 行動の次元 d = 0 だと s a m p ling p e rio 内で推論が終わることを意味する. 7

提案手法 : R e a l T im e C h u n k in g (R T C ) 1. Async Inference (非同期推論) による real time性の向上 - 推論をサーバで非同期に実行推論中もロボット側は動作 8

提案手法 : R e a l T im e C h u n k in g (R T C ) 遅延 d が存在し一貫性が損なわれやすい - 推論後,新しいアクションを選択 → 不規則な動作に - 推論結果と前のアクションを平均(e n s e m b le ) → 意図しない動作につながる. 9

10.

提案手法 : R e a l T im e C h u n k in g (R T C ) In p a in tin g 問題として定式化 T ra ining fre e linie a r im a g e inv e rs e V ia flo w , A s h win i, 2 0 2 3 をベースにしたtra in in g fre e のflo w b a s e のinp a in ting の手法を適用. PSEUDOINVERSE-GUIDED DIFFUSION MODELS FOR INVERSE PROBLEMS, Jiaming Song, 2023 より抜粋 10

11.

提案手法 : R e a l T im e C h u n k in g (R T C ) H Hard Masking 前のアクション Mask 前のアクションでガイダンスしたうえで, Action Chunkを推論 M d 11

12.

提案手法 : R e a l T im e C h u n k in g (R T C ) Soft Masking 遅延分の d step に加えて, 前のアクションにweightedを掛けたものを加える. → より前のアクションに従いながら新しいアクションの生成を行う d step以降の重みは指数関数的に1→0になるように設定.

13.

提案手法 : R e a l T im e C h u n k in g (R T C ) 固定変わりうる部分完全に新しい部分 13

14.

実験 : S im u la tio n セットアップ - K in e tix という環境を使用. - 1 0 個のb e n c hm a rk に新たに２個の環境を加えた1 2 個で検証 - C lo s e d loo p での性能を見るために G a us s ia n n o is e をa c tio n 加える B a s e lins - N a v ie A s y nc - B id ire c tio na l D e c od ing ( B ID ) - T e m p o ra l E n s e m b ling ( T E ) - R T C (h a rd m a s k ) - R T C (s oft m a s k ) 14

https://github.com/FlairOx/Kinetix/tree/cf7453ea103fa0b77348af1a39f689c658161613

15.

実験 : R e a l W o rld S e tu p - 6 つのタスクで検証 - 1 2 0 m s ~ ( d ~ 6 ), + 1 0 0 m s (d ~ 1 1 ), + 2 0 0 m s ( d ~ 1 6 ) の3 つの異なるla te n c y - π 0 .5 を使用して検証(H = 5 0 , 5 0 H z ) - S u bs e ts ta s k の成功数でスコアリング B a s e lins - N a v ie A s y nc - T E , s p a rs e ( s = 2 5 ) - T E , d e n s e (s = 1 ) - RCT Light candle 5 steps , 40s cutoff Plug ethernet 6 steps, 120s cutoff Make bed 3 steps, 200s cutoff Shirt folding 1 step, 300s cutoff Batch folding 4 steps, 300s cutoff Dishes in sink 8 steps, 300s cutoff 15

16.

結果 : S im u la tio n 16

17.

結果 : R e a l W o rld

18.

結果まとめ - R T C は他手法に比べて高い成功率を達成 - 似た結果となったB ID に比べて高い計算効率 - B ID は大量のサンプリングが必要なため - R T C は+ 1 0 0 m s , + 2 0 0 m s の長い遅延があった場合でもロバスト - R T C は s y n c h ro n ou s in fe re n c e に比べても早くタスクを達成 - 推論時の停止時間を除いてもR T C のほうが早かった - ミスやリトライの数が減少した 18

19.

感想 - 非同期推論は大事 - Poseが発生することで学習時と推論時の差が発生する. - モデルが大きくなって,推論 - 本質的には f( At | ot, At-1) 的なことをしている. - Temporal EnsembleなどのActionの出力は変えずにつなぐ発想とは違う. - Training freeじゃなくて直接 f(At | ot , At-1) のようなものを学習したモデルがないかが気になる - Flow base or Diffusion baseなら使用可能なので他のモデルにも適用してみたい - kinetixを用いたsimulationが公開されているので細かい実装を見て動かしたい - https://github.com/Physical-Intelligence/real-time-chunking-kinetix/tree/main 19

https://github.com/Physical-Intelligence/real-time-chunking-kinetix/tree/main

20.

参考文献 Kevin Black, Manuel Y. Galliker, and Sergey Levine. Real-Time Execution of Action Chunking Flow Policies. 2025. arXiv: 2506.07339 [cs.RO]. URL: https://arxiv.org/abs/2506.07339 Jiaming Song et al. “Pseudoinverse-Guided Diffusion Models for Inverse Problems”. In: International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=9_gsMA8MRKQ Ashwini Pokle et al. Training-free Linear Image Inverses via Flows. 2024. arXiv: 2310.04432 [cs.CV]. URL: https://arxiv.org/abs/2310.04432 Yuejiang Liu et al. Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling. 2025. arXiv: 2408.17355 [cs.RO]. URL: https://arxiv.org/abs/2408.17355. Mustafa Shukor et al. SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics. 2025. arXiv: 2506.01844 [cs.LG]. URL: https://arxiv.org/abs/2506.01844. 20