【輪読会】Improving Vision-Language-Action Model with Online Reinforcement Learning

1.8K Views

May 22, 25

#Online Reinforcement Learning #Vision-Language-Action Model #Robotics #Supervised Learning #Model Optimization

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

Improving Vision-Language-Action Model Online Reinforcement Learning (arXiv, 2025) with Tatsuya Kamijo, Matsuo-Iwasawa Lab, M1 1

書誌情報題名 Improving Vision-Language-Action Model with Online Reinforcement Learning 著者 Yanjiang Guo, Jianke Zhang, Xiaoyu Chen, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen 所属精華大学, UC Berkeley, Shanghai Qi Zhi Institute 会議 arXiv, 2025 概要 • VLAのような大きなモデルをOnline RLで学習すると不安定 • 学習の安定化とRLによる探索を両立するためiRe-VLAを提案 ※スライド中の図表は該当論文から引用 2

概要 VLAをOnline RLで性能向上させるための学習手法の提案 • 単純にVLAをOnline RLでfine-tuneすると，学習が不安定で性能はむしろ低下する． • これを解決するための学習フレームワークiRe-VLAを提案． 3

iRe-VLAモデルアーキテクチャ VLM + Action headの独自モデル • VLM (BLIP-2 3B, θ) + Action head (サイズ不明，Φ) • SFT時はθ, Φ共に更新，RL時はΦのみ更新 4

iRe-VLA学習パイプラインベースVLA学習後， RLとSLで交互にパラメータ更新 Stage 0. エキスパートデータでVLAをSL Stage 1. VLM freezeして未知タスクでOnline RL Stage 2. Online収集データとエキスパートデータで SL（どちらも使うことで忘却を防ぐ） 5

iRe-VLA学習上の工夫 • VLMバックボーンのfine-tuneにはLoRAを採用 – – 計算量の抑制少データでfine-tuneした時に起こりやすい過学習の抑制 • Online RLはローカルマシン，VLM fine-tuneはリモートサーバに計算を分散 – – – – VLAのフルfine-tuneはローカルマシンのみでは難しい 2 stageにしてOnline RLはローカルマシンのみで行うことで実現ローカル：1 RTX 4090 リモート：4 A100 • 実機RLはSACfD (SAC + Demo) を採用し少ロールアウト学習 – – オフポリシーなのでデモデータを利用でき，サンプル効率が高い（実機RLで重要）学習時は，半分デモデータから，半分replay bufferから軌跡をサンプリング 6

実験設定：データセット・タスク各学習フェーズで使う 3種類のデータセット・タスクを用意 • 3種類のデータ：Expert dataset / RL tasks / Unseen tasks • 3ドメイン：Meta-World / Franka Kitchen / Real panda • タスク：ボタン押す，ライトつける，ドア開ける，窓開ける，など – RL / Unseen tasksでは，物体の色や種類のみ変化（スキルの汎化はテストしていない） 50エピソード x 25タスク計2000 エピソード 7

実験結果：学習の安定性 VLMをfreezeしないと， Online RLを回しても性能が落ちる • VLMをfreezeしない場合（オレンジ），5タスク中4タスクで性能が低下 • 提案手法（青）は性能向上 8

実験結果： SFT vs 単純PPO vs iRe-VLA 全タスクで SFT・PPO を上回る成功率 — iRe-VLA の優位性 • PPO-Replay は各タスクをPPOで順に学習するベースライン．VLMはfreezeしない． – iRe-VLAとの公平な比較のため，PPO後Expert dataでSL 9

10.

実験結果： Ablations VLMをRL・SLどちらのフェーズでも freezeした場合（ iRe-VLA-freeze) • RL・SLどちらでもVLMをfreezeすると（青），性能低下 – SLでVLMのパラメータを更新することは成功率の向上に寄与 • 著者考察 – Action headの表現力がfull VLAと比較して低い – オンラインのロボットデータは上流VLMの潜在表現を良くし，未知タスクへの汎化性を高める 10

11.

実験結果：実機 Pandaアームでの実機評価で提案手法による性能向上を確認 • （右図）緑がRL+SL前，赤がRL+SL後 • 実機でも性能向上が確認 11

12.

まとめ • VLAを単純にOnline RLでfull fine-tuneすると，性能はむしろ低下する． • SLとRLで交互にパラメータ更新を行うiRe-VLAを提案 – SL：VLMバックボーンとAction headを両方更新 – RL：Action headのみ更新 • シミュレーション・実機実験で未知タスクに対する性能向上を確認 12

13.

感想 • 実験がかなり限定的 – 元のVLAを2000エピソードonlyで学習 – Unseen taskとしている色・位置のバリエーションは SLデータを十分に増やせば解決する – RLらしい「行動スキルの転移・創発」を示すタスク（例：窓開け→引き出し）まで踏み込んでいない • 未知スキルへの汎化が次の課題 – 実環境で全スキルを収集するのは無理 → RLで自律的に拡張する意義は大きい – SoTA VLAモデルをベースにこの手法でオンラインRLした場合に，行動スキルの汎化が見られるか，が気になる – スキルの汎化が見られるにはVLAは事前学習の規模がまだまだ小さい？ • 新規性と実験，再現性がweakだがエンジニアリングの貢献は大きい 13