700 Views
August 29, 24
スライド概要
DL輪読会資料
Behavior Generation with Latent Actions 2024.8.29 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1
松尾・岩澤研ロボティクスユニットの重点テーマ [4] ロボティクス 研究ミッション 身体を持つシステムとしてのロボット実装やデータ収集を通じ、「かしこい」振る舞いを生み出す テーマ① テーマ② ロボット 基盤モデル 巧みな 物体操作 全身制御 効率的なデータ収集を通じてロボット基盤 モデルの構築し、多様なタスク・環境・ ロボットへ汎化・適応する方法を確立する。 現実世界で器用な動作をするために、 視覚・言語だけに頼らない制御や認識 モデルを学習する。 ロボットが現実世界をリアルタイムに 移動しながら常に環境を認識し、 動作を生成する。 キーワード例 キーワード例 キーワード例 ● ● ● ● ● ● 高速なシミュレータ 遠隔操作によるデータ収集 スケーラブルな強化学習・模倣学習 新しい環境への適応 状態表現学習,世界モデル モジュラーロボット ● ● ● ● ● ● 力触覚を考慮した物体操作 双腕・多腕による物体操作 柔軟物の操作・モデリング 料理ロボット 実験自動化 ソフトロボット テーマ③ ● ● ● ● ● ● ● 環境の認識と制御の融合 家庭内生活支援タスク モバイルマニピュレータ Locomanipulation・ヒューマノイド 基盤モデルの非同期・分散型ロボットシ ステムへの統合 Task and Motion Planning (TAMP) ハードウェア設計最適化 2
概要 連続値の行動予測(生成)の問題において, 階層的なベクトル量子化とTransformerを用いることで 多峰な長期系列にも対応できる手法を提案 • 模倣学習に利用可能 • ゴール有・無両方の設定に使える 3
書誌情報 Behavior Generation with Latent Actions • Seungjae Lee1, Yibin Wang2, Haritheja Etukuru3, H. Jin Kim1, Nur Muhammad Mahi Shafiullah2*, Lerrel Pinto2* • Seoul National University1, New York University2 *equal advising • https://arxiv.org/abs/2403.03181 • Website: https://sjlee.cc/vq-bet/ • Github: https://github.com/jayLEE0301/vq̲bet̲official • Hugging Face 🤗 のLeRobotの中にも入っている • https://github.com/huggingface/lerobot • OpenReview: https://openreview.net/forum?id=hoVwecMqV5 • ICML2024 Spotlight Poster ※ 断りのない限り図表は本論文より引用 4
背景 ロボットの軌道のモデリング(例:模倣学習)の難しい点 • 連続値の行動空間の分布が多峰性がある • 時系列的に関係しているので,生成された行動の誤差が蓄積する ロボットの軌道に関する良いモデルの必要条件 • 長期・短期の依存関係をモデリングできる • 多峰の動きを捉えて生成できる • 学習した動きを正確に再現できる 5
先行研究:Behavior Transformer (BeT) K-meansを使って行動を離散化し異なるモードを捉える • 連続値の行動をクラスタのIDとセントロイドとの差分(redidual)の表現に分ける • A: 事前に行動空間でk-means • B: 観測系列を入力として クラスタid(focal loss)と 対応する差分(MSE)の両方を 予測するようにTransformer (MinGPT)を学習 • C: テスト時はクラスタidを 分布からサンプルして対応する差分と 和をとって行動を出力 実装: https://github.com/notmahi/bet https://arxiv.org/pdf/2206.11251 6
BeTの課題 K-means(L2 loss)でクラスタを決めるため, 高次元の行動空間や長い系列にスケールが難しい • 最近ではACTのように一度に複数ステップの行動を出力すると動作 の一貫性が高まることが知られている(Action Chunking) • しかし,H ステップ分Action Chunkingをすると 出力次元が H 倍になってしまう https://arxiv.org/pdf/2304.13705 7
提案手法:Vector-Quantized Behavior Transformer (VQ-Bet) 階層的なベクトル量子化(Residual VQ)を使って 連続値の行動をトークン化したBeTを提案 • ① 行動空間で階層VQ-VAEを学習 コードブックを作成 • ② 観測(とゴール)を入力し MinGPTがコードの分布と 対応する差分を予測する ように学習 8
提案手法 ① 行動空間で階層VQ-VAEを学習しコードブックを作成 階層的なベクトル量子化(Residual VQ)の利用 N i q に対応する潜在変数を と定義 x z (x) = Σ z • q i=1 q 1 1 1 {e , e , …, e まずコードブック • 1 2 k } の中で x の最近傍のものを zq1 とする 1 2 2 2 • それらの差分 x − zq の最近傍をコードブック {e1 , e2 , …, ek } から 探し zq2 とする • 上記を合計 Nq 回繰り返す • 本研究では基本的に Nq = 2 で実装(実験的に十分だった) 9
提案手法 ① 行動空間で階層VQ-VAEを学習しコードブックを作成 行動のエンコーダ ϕ とデコーダ ψ と コードブック{e1, e2, …, ek} を行動の再構成誤差で学習 1:Nq • コードブックのベクトル e1:k は勾配を直接用いるのではなく その移動平均を利用 10
提案手法 ② 行動の予測の学習 コードの予測モデルの学習 • 観測(とゴール)を入力として(複数階層の)コードを予測 • コードに対応する量子化された行動 ⌊at:t+n⌋ と 実際の行動の値 at:t+n の差分(offset)も 別のheadで予測 • それぞれの予測誤差を合算し学習 11
実験:シミュレータ上での模倣学習の評価 シミュレータ上の7タスクで評価(ゴールの有無両方でテスト) • 多峰性の問題に取り組む Diffusion policy系の手法に比べて 平均した性能が高い&推論が高速 ゴールの条件づけ無し(unconditional) ゴールの条件づけ有り(conditional) 12
実験:実機でのLong-horizonな模倣学習の性能も改善 13
まとめ・感想 まとめ • 連続値の行動空間の予測モデルの学習の問題において 階層的なベクトル量子化(residual VQ)を用いて行動をトークン化し 潜在空間上でTransformerを用いて行動を予測,デコードする手法を提案 • シミュレータ・実機の模倣学習で検証し,長期系列・行動空間の多峰性への対応を検証 • Diffusion policyよりも性能が同等以上で高速 感想(松嶋) • 論文のconclusionでも議論されているが,OctoやRT-Xなどの多様なロボット・タス ク・環境に関する大規模データを用いる模倣学習(ロボット基盤モデルの学習)でも 利用できるのかの検証が今後重要になりそう • 上記研究ではtokenizeの方法はあまり検証されていないように感じる • TokenLearnerを使ったり,軽いdiffusion policyのheadを学習させたりしている • どれがいいのかに関してはまだあまり議論がない 14
松尾・岩澤研ロボティクスユニットの重点テーマ [4] ロボティクス 研究ミッション 身体を持つシステムとしてのロボット実装やデータ収集を通じ、「かしこい」振る舞いを生み出す テーマ① テーマ② ロボット 基盤モデル 巧みな 物体操作 全身制御 効率的なデータ収集を通じてロボット基盤 モデルの構築し、多様なタスク・環境・ ロボットへ汎化・適応する方法を確立する。 現実世界で器用な動作をするために、 視覚・言語だけに頼らない制御や認識 モデルを学習する。 ロボットが現実世界をリアルタイムに 移動しながら常に環境を認識し、 動作を生成する。 キーワード例 キーワード例 キーワード例 ● ● ● ● ● ● 高速なシミュレータ 遠隔操作によるデータ収集 スケーラブルな強化学習・模倣学習 新しい環境への適応 状態表現学習,世界モデル モジュラーロボット ● ● ● ● ● ● 力触覚を考慮した物体操作 双腕・多腕による物体操作 柔軟物の操作・モデリング 料理ロボット 実験自動化 ソフトロボット テーマ③ ● ● ● ● ● ● ● 環境の認識と制御の融合 家庭内生活支援タスク モバイルマニピュレータ Locomanipulation・ヒューマノイド 基盤モデルの非同期・分散型ロボットシ ステムへの統合 Task and Motion Planning (TAMP) ハードウェア設計最適化 15