297 Views
June 26, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Real-Time Execution of Action Chunking Flow Policies Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 タイトル : “Real-Time Execution of Action Chunking Flow Policies” 著者 : K e v in B la c k , M a nu e l Y . G a llik e r, S e rg e y L e v ine , P h y s ic a l In te llig e n c e , U C B e rk e le y リンク : H P : h ttp s ://ww w .p h y s ic a lin te llig e n c e .c om p a n y /re s e a rc h/re a l_ tim e _ c hu n k p a p e r : h ttp s ://ww w .p h y s ic a lin te llig e n c e .c om p a n y /d ow n lo a d/re a l_ tim e _ c h 2
背景 : A c tio n C h u n k in g / V L A - A c tio n C hu n k ing - A c tio n C hu n k という単位で行動列を推論 - 一度に H s te ps の行動を出力でき高周波での制御に対応. - C h un k 内では一貫性のある行動を行うことが可能 - A C T , p i0 などv is uo m otor c on trolの模倣学習, V L A でデファクトスタンダード - V L A ( V is ion L a ng u a g e A c tio n M od e l) - V L M をb a c k b o ne とした大規模なモデル - 未知の環境に対応できるなどの汎化性能 3
課題 - Action Chunking - Long Horizon : 新たな観測に対する反応が遅くなる - Short Horizon : チャンク間の連続性が失われる. → Chunk間の連続性を保持しつつ, 新たな観測に対応した行動を行いたい. - VLA ( Vision Language Action Model) - 大規模化に伴い推論時間の増加 - Streaming Diffusion Policy や Parallell Decoding などの高速化 - ただし, 推論時間 < サンプリング時間 とはならない. - Chunk 間の推論時に一時停止が発生. - → 学習時と推論時でOoDになる可能性. 4
Bidirectional Decoding: Improving Action Chunking R e la te d W o rk : B ID via Closed-Loop Resampling 通常通り学習した方策 : π+ 弱い方策 : πA : π+ からサンプリングした行動の集合 A+ = A \ {a} A- : π- からサンプリングした行動の集合 → 大量のサンプリングが必要なため計算コストが高い 5
R e la te d W o rk : S m o lV L A RTCとほぼ同時期に出た Async Inference. 非同期推論の動きが わかりやすいので紹介. 6
用語 - H - s - ∆𝑡 - 𝛿 - d = ⌊ 𝛿 / ∆𝑡 ⌋ - M : P re dic tiv e ho riz o n , 推論するh oriz o の長さ : e x e c u tion h o riz o n , 実行するh oriz on の長さ : sampling period , 50Hz → 2 0 m s : a c tion c h un k を生成するのにかかる時間 : in fe re n c e d e la y , 遅延ステップ数 : dim e n s io n of e a c h a c tio n, 行動の次元 d = 0 だと s a m p ling p e rio 内で推論が終わることを意味する. 7
提案手法 : R e a l T im e C h u n k in g (R T C ) 1. Async Inference (非同期推論) による real time性の向上 - 推論をサーバで非同期に実行 推論中もロボット側は動作 8
提案手法 : R e a l T im e C h u n k in g (R T C ) 遅延 d が存在し一貫性が損なわれやすい - 推論後,新しいアクションを選択 → 不規則な動作に - 推論結果と前のアクションを平均(e n s e m b le ) → 意図しない動作につながる. 9
提案手法 : R e a l T im e C h u n k in g (R T C ) In p a in tin g 問題として定式化 T ra ining fre e linie a r im a g e inv e rs e V ia flo w , A s h win i, 2 0 2 3 をベースにしたtra in in g fre e のflo w b a s e のinp a in ting の手法を適用. PSEUDOINVERSE-GUIDED DIFFUSION MODELS FOR INVERSE PROBLEMS, Jiaming Song, 2023 より抜粋 10
提案手法 : R e a l T im e C h u n k in g (R T C ) H Hard Masking 前のアクション Mask 前のアクションで ガイダンスしたうえで, Action Chunkを推論 M d 11
提案手法 : R e a l T im e C h u n k in g (R T C ) Soft Masking 遅延分 の d step に加えて, 前のアクションにweightedを掛けたものを加える. → より前のアクションに従いながら新しいアクションの生成を行う d step以降の重みは指数関数的に1→0になるように設定.
提案手法 : R e a l T im e C h u n k in g (R T C ) 固定 変わりうる部分 完全に新しい部分 13
実験 : S im u la tio n セットアップ - K in e tix という環境を使用. - 1 0 個のb e n c hm a rk に新たに2個の環境を加えた1 2 個で検証 - C lo s e d loo p での性能を見るために G a us s ia n n o is e をa c tio n 加える B a s e lins - N a v ie A s y nc - B id ire c tio na l D e c od ing ( B ID ) - T e m p o ra l E n s e m b ling ( T E ) - R T C (h a rd m a s k ) - R T C (s oft m a s k ) 14
実験 : R e a l W o rld S e tu p - 6 つのタスクで検証 - 1 2 0 m s ~ ( d ~ 6 ), + 1 0 0 m s (d ~ 1 1 ), + 2 0 0 m s ( d ~ 1 6 ) の3 つの異なるla te n c y - π 0 .5 を使用して検証(H = 5 0 , 5 0 H z ) - S u bs e ts ta s k の成功数でスコアリング B a s e lins - N a v ie A s y nc - T E , s p a rs e ( s = 2 5 ) - T E , d e n s e (s = 1 ) - RCT Light candle 5 steps , 40s cutoff Plug ethernet 6 steps, 120s cutoff Make bed 3 steps, 200s cutoff Shirt folding 1 step, 300s cutoff Batch folding 4 steps, 300s cutoff Dishes in sink 8 steps, 300s cutoff 15
結果 : S im u la tio n 16
結果 : R e a l W o rld
結果まとめ - R T C は他手法に比べて高い成功率を達成 - 似た結果となったB ID に比べて高い計算効率 - B ID は大量のサンプリングが必要なため - R T C は+ 1 0 0 m s , + 2 0 0 m s の長い遅延があった場合でもロバスト - R T C は s y n c h ro n ou s in fe re n c e に比べても早くタスクを達成 - 推論時の停止時間を除いてもR T C のほうが早かった - ミスやリトライの数が減少した 18
感想 - 非同期推論は大事 - Poseが発生することで学習時と推論時の差が発生する. - モデルが大きくなって,推論 - 本質的には f( At | ot, At-1) 的なことをしている. - Temporal EnsembleなどのActionの出力は変えずにつなぐ発想とは違う. - Training freeじゃなくて直接 f(At | ot , At-1) のようなものを学習したモデルがないかが気になる - Flow base or Diffusion baseなら使用可能なので他のモデルにも適用してみたい - kinetixを用いたsimulationが公開されているので細かい実装を見て動かしたい - https://github.com/Physical-Intelligence/real-time-chunking-kinetix/tree/main 19
参考文献 Kevin Black, Manuel Y. Galliker, and Sergey Levine. Real-Time Execution of Action Chunking Flow Policies. 2025. arXiv: 2506.07339 [cs.RO]. URL: https://arxiv.org/abs/2506.07339 Jiaming Song et al. “Pseudoinverse-Guided Diffusion Models for Inverse Problems”. In: International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=9_gsMA8MRKQ Ashwini Pokle et al. Training-free Linear Image Inverses via Flows. 2024. arXiv: 2310.04432 [cs.CV]. URL: https://arxiv.org/abs/2310.04432 Yuejiang Liu et al. Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling. 2025. arXiv: 2408.17355 [cs.RO]. URL: https://arxiv.org/abs/2408.17355. Mustafa Shukor et al. SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics. 2025. arXiv: 2506.01844 [cs.LG]. URL: https://arxiv.org/abs/2506.01844. 20