267 Views
May 22, 25
スライド概要
DL輪読会資料
Improving Vision-Language-Action Model Online Reinforcement Learning (arXiv, 2025) with Tatsuya Kamijo, Matsuo-Iwasawa Lab, M1 1
書誌情報 題名 Improving Vision-Language-Action Model with Online Reinforcement Learning 著者 Yanjiang Guo, Jianke Zhang, Xiaoyu Chen, Xiang Ji, Yen-Jen Wang, Yucheng Hu, Jianyu Chen 所属 精華大学, UC Berkeley, Shanghai Qi Zhi Institute 会議 arXiv, 2025 概要 • VLAのような大きなモデルをOnline RLで学習すると不安定 • 学習の安定化とRLによる探索を両立するためiRe-VLAを提案 ※スライド中の図表は該当論文から引用 2
概要 VLAをOnline RLで性能向上させるための学習手法の提案 • 単純にVLAをOnline RLでfine-tuneすると,学習が不安定で性能はむしろ低下する. • これを解決するための学習フレームワークiRe-VLAを提案. 3
iRe-VLAモデルアーキテクチャ VLM + Action headの独自モデル • VLM (BLIP-2 3B, θ) + Action head (サイズ不明,Φ) • SFT時はθ, Φ共に更新,RL時はΦのみ更新 4
iRe-VLA学習パイプライン ベースVLA学習後, RLとSLで交互にパラメータ更新 Stage 0. エキスパートデータでVLAをSL Stage 1. VLM freezeして未知タスクでOnline RL Stage 2. Online収集データとエキスパートデータで SL(どちらも使うことで忘却を防ぐ) 5
iRe-VLA学習上の工夫 • VLMバックボーンのfine-tuneにはLoRAを採用 – – 計算量の抑制 少データでfine-tuneした時に起こりやすい過学習の抑制 • Online RLはローカルマシン,VLM fine-tuneはリモートサーバに計算を分散 – – – – VLAのフルfine-tuneはローカルマシンのみでは難しい 2 stageにしてOnline RLはローカルマシンのみで行うことで実現 ローカル:1 RTX 4090 リモート:4 A100 • 実機RLはSACfD (SAC + Demo) を採用し少ロールアウト学習 – – オフポリシーなのでデモデータを利用でき,サンプル効率が高い(実機RLで重要) 学習時は,半分デモデータから,半分replay bufferから軌跡をサンプリング 6
実験設定:データセット・タスク 各学習フェーズで使う 3種類のデータセット・タスクを用意 • 3種類のデータ:Expert dataset / RL tasks / Unseen tasks • 3ドメイン:Meta-World / Franka Kitchen / Real panda • タスク:ボタン押す,ライトつける,ドア開ける,窓開ける,など – RL / Unseen tasksでは,物体の色や種類のみ変化(スキルの汎化はテストしていない) 50エピソード x 25タスク 計2000 エピソード 7
実験結果:学習の安定性 VLMをfreezeしないと, Online RLを回しても性能が落ちる • VLMをfreezeしない場合(オレンジ),5タスク中4タスクで性能が低下 • 提案手法(青)は性能向上 8
実験結果: SFT vs 単純PPO vs iRe-VLA 全タスクで SFT・PPO を上回る成功率 — iRe-VLA の優位性 • PPO-Replay は各タスクをPPOで順に学習するベースライン.VLMはfreezeしない. – iRe-VLAとの公平な比較のため,PPO後Expert dataでSL 9
実験結果: Ablations VLMをRL・SLどちらのフェーズでも freezeした場合( iRe-VLA-freeze) • RL・SLどちらでもVLMをfreezeす ると(青),性能低下 – SLでVLMのパラメータを更新 することは成功率の向上に寄 与 • 著者考察 – Action headの表現力がfull VLAと比較して低い – オンラインのロボットデータは 上流VLMの潜在表現を良くし, 未知タスクへの汎化性を高め る 10
実験結果:実機 Pandaアームでの実機評価で提案手法による性能向上を確認 • (右図)緑がRL+SL前,赤がRL+SL後 • 実機でも性能向上が確認 11
まとめ • VLAを単純にOnline RLでfull fine-tuneすると,性能はむしろ低下する. • SLとRLで交互にパラメータ更新を行うiRe-VLAを提案 – SL:VLMバックボーンとAction headを両方更新 – RL:Action headのみ更新 • シミュレーション・実機実験で未知タスクに対する性能向上を確認 12
感想 • 実験がかなり限定的 – 元のVLAを2000エピソードonlyで学習 – Unseen taskとしている色・位置のバリエーションは SLデータを十分に増やせば解決する – RLらしい「行動スキルの転移・創発」を示すタスク(例:窓開け→引き出し)まで踏み込んで いない • 未知スキルへの汎化が次の課題 – 実環境で全スキルを収集するのは無理 → RLで自律的に拡張する意義は大きい – SoTA VLAモデルをベースにこの手法でオンラインRLした場合に,行動スキルの汎化が見 られるか,が気になる – スキルの汎化が見られるにはVLAは事前学習の規模がまだまだ小さい? • 新規性と実験,再現性がweakだがエンジニアリングの貢献は大きい 13