【DL輪読会】Behavior Generation with Latent Actions

Behavior Generation with Latent Actions 2024.8.29 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

https://twitter.com/__tmats__

松尾・岩澤研ロボティクスユニットの重点テーマ [4] ロボティクス研究ミッション身体を持つシステムとしてのロボット実装やデータ収集を通じ、「かしこい」振る舞いを生み出すテーマ① テーマ② ロボット基盤モデル巧みな物体操作全身制御効率的なデータ収集を通じてロボット基盤モデルの構築し、多様なタスク・環境・ロボットへ汎化・適応する方法を確立する。現実世界で器用な動作をするために、視覚・言語だけに頼らない制御や認識モデルを学習する。ロボットが現実世界をリアルタイムに移動しながら常に環境を認識し、動作を生成する。キーワード例キーワード例キーワード例 ● ● ● ● ● ● 高速なシミュレータ遠隔操作によるデータ収集スケーラブルな強化学習・模倣学習新しい環境への適応状態表現学習，世界モデルモジュラーロボット ● ● ● ● ● ● 力触覚を考慮した物体操作双腕・多腕による物体操作柔軟物の操作・モデリング料理ロボット実験自動化ソフトロボットテーマ③ ● ● ● ● ● ● ● 環境の認識と制御の融合家庭内生活支援タスクモバイルマニピュレータ Locomanipulation・ヒューマノイド基盤モデルの非同期・分散型ロボットシステムへの統合 Task and Motion Planning (TAMP) ハードウェア設計最適化 2

3.

概要連続値の行動予測（生成）の問題において，階層的なベクトル量子化とTransformerを用いることで多峰な長期系列にも対応できる手法を提案 • 模倣学習に利用可能 • ゴール有・無両方の設定に使える 3

4.

書誌情報 Behavior Generation with Latent Actions • Seungjae Lee1, Yibin Wang2, Haritheja Etukuru3, H. Jin Kim1, Nur Muhammad Mahi Shafiullah2*, Lerrel Pinto2* • Seoul National University1, New York University2 *equal advising • https://arxiv.org/abs/2403.03181 • Website: https://sjlee.cc/vq-bet/ • Github: https://github.com/jayLEE0301/vq̲bet̲official • Hugging Face 🤗 のLeRobotの中にも入っている • https://github.com/huggingface/lerobot • OpenReview: https://openreview.net/forum?id=hoVwecMqV5 • ICML2024 Spotlight Poster ※ 断りのない限り図表は本論文より引用 4

5.

背景ロボットの軌道のモデリング（例：模倣学習）の難しい点 • 連続値の行動空間の分布が多峰性がある • 時系列的に関係しているので，生成された行動の誤差が蓄積するロボットの軌道に関する良いモデルの必要条件 • 長期・短期の依存関係をモデリングできる • 多峰の動きを捉えて生成できる • 学習した動きを正確に再現できる 5

6.

先行研究：Behavior Transformer (BeT) K-meansを使って行動を離散化し異なるモードを捉える • 連続値の行動をクラスタのIDとセントロイドとの差分（redidual）の表現に分ける • A: 事前に行動空間でk-means • B: 観測系列を入力としてクラスタid（focal loss）と対応する差分（MSE）の両方を予測するようにTransformer （MinGPT）を学習 • C: テスト時はクラスタidを分布からサンプルして対応する差分と和をとって行動を出力実装： https://github.com/notmahi/bet https://arxiv.org/pdf/2206.11251 6

7.

BeTの課題 K-means（L2 loss）でクラスタを決めるため，高次元の行動空間や長い系列にスケールが難しい • 最近ではACTのように一度に複数ステップの行動を出力すると動作の一貫性が高まることが知られている（Action Chunking） • しかし，H ステップ分Action Chunkingをすると出力次元が H 倍になってしまう https://arxiv.org/pdf/2304.13705 7

https://arxiv.org/pdf/2304.13705

8.

提案手法：Vector-Quantized Behavior Transformer (VQ-Bet) 階層的なベクトル量子化（Residual VQ）を使って連続値の行動をトークン化したBeTを提案 • ① 行動空間で階層VQ-VAEを学習コードブックを作成 • ② 観測（とゴール）を入力し MinGPTがコードの分布と対応する差分を予測するように学習 8

9.

提案手法 ① 行動空間で階層VQ-VAEを学習しコードブックを作成階層的なベクトル量子化（Residual VQ）の利用 N i q に対応する潜在変数をと定義 x z (x) = Σ z • q i=1 q 1 1 1 {e , e , …, e まずコードブック • 1 2 k } の中で x の最近傍のものを zq1 とする 1 2 2 2 • それらの差分 x − zq の最近傍をコードブック {e1 , e2 , …, ek } から探し zq2 とする • 上記を合計 Nq 回繰り返す • 本研究では基本的に Nq = 2 で実装（実験的に十分だった） 9

10.

提案手法 ① 行動空間で階層VQ-VAEを学習しコードブックを作成行動のエンコーダ ϕ とデコーダ ψ とコードブック{e1, e2, …, ek} を行動の再構成誤差で学習 1:Nq • コードブックのベクトル e1:k は勾配を直接用いるのではなくその移動平均を利用 10

11.

提案手法 ② 行動の予測の学習コードの予測モデルの学習 • 観測（とゴール）を入力として（複数階層の）コードを予測 • コードに対応する量子化された行動 ⌊at:t+n⌋ と実際の行動の値 at:t+n の差分（offset）も別のheadで予測 • それぞれの予測誤差を合算し学習 11

12.

実験：シミュレータ上での模倣学習の評価シミュレータ上の7タスクで評価（ゴールの有無両方でテスト） • 多峰性の問題に取り組む Diffusion policy系の手法に比べて平均した性能が高い＆推論が高速ゴールの条件づけ無し（unconditional）ゴールの条件づけ有り（conditional） 12

13.

実験：実機でのLong-horizonな模倣学習の性能も改善 13

14.

まとめ・感想まとめ • 連続値の行動空間の予測モデルの学習の問題において階層的なベクトル量子化（residual VQ）を用いて行動をトークン化し潜在空間上でTransformerを用いて行動を予測，デコードする手法を提案 • シミュレータ・実機の模倣学習で検証し，長期系列・行動空間の多峰性への対応を検証 • Diffusion policyよりも性能が同等以上で高速感想（松嶋） • 論文のconclusionでも議論されているが，OctoやRT-Xなどの多様なロボット・タスク・環境に関する大規模データを用いる模倣学習（ロボット基盤モデルの学習）でも利用できるのかの検証が今後重要になりそう • 上記研究ではtokenizeの方法はあまり検証されていないように感じる • TokenLearnerを使ったり，軽いdiffusion policyのheadを学習させたりしている • どれがいいのかに関してはまだあまり議論がない 14

15.

松尾・岩澤研ロボティクスユニットの重点テーマ [4] ロボティクス研究ミッション身体を持つシステムとしてのロボット実装やデータ収集を通じ、「かしこい」振る舞いを生み出すテーマ① テーマ② ロボット基盤モデル巧みな物体操作全身制御効率的なデータ収集を通じてロボット基盤モデルの構築し、多様なタスク・環境・ロボットへ汎化・適応する方法を確立する。現実世界で器用な動作をするために、視覚・言語だけに頼らない制御や認識モデルを学習する。ロボットが現実世界をリアルタイムに移動しながら常に環境を認識し、動作を生成する。キーワード例キーワード例キーワード例 ● ● ● ● ● ● 高速なシミュレータ遠隔操作によるデータ収集スケーラブルな強化学習・模倣学習新しい環境への適応状態表現学習，世界モデルモジュラーロボット ● ● ● ● ● ● 力触覚を考慮した物体操作双腕・多腕による物体操作柔軟物の操作・モデリング料理ロボット実験自動化ソフトロボットテーマ③ ● ● ● ● ● ● ● 環境の認識と制御の融合家庭内生活支援タスクモバイルマニピュレータ Locomanipulation・ヒューマノイド基盤モデルの非同期・分散型ロボットシステムへの統合 Task and Motion Planning (TAMP) ハードウェア設計最適化 15

【DL輪読会】Behavior Generation with Latent Actions

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト