【DL輪読会】 Training Strategies for Efficient Embodied Reasoning

1.2K Views

May 22, 25

#Embodied Chain of Thought #ECoT #Vision and Language Model #VLM #Efficient Reasoning

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Training Strategies for Efficient Embodied Reasoning Koya Sakamoto, Matsuo Iwasawa Lab D1 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 ➢ タイトル Training Strategies for Efficient Embodied Reasoning ➢ 著者 William Chen, Suneel Belkhale, Suvir Mirchandani, Oier Mees, Danny Driess, Karl Pertsch, Sergey Levine (UC Berkeley, Stanford University, Physical Intelligence) ➢ リンク ➢ arXiv: https://arxiv.org/abs/2505.08243 ➢ Project site: https://ecot-lite.github.io/ ※このスライドの図表は元論文から引用しています. 2

https://ecot-lite.github.io/

概要 Chain of Thought (CoT) が Vision and Language Models (VLA)の汎化性能と性能を高めることは知られている. 「なぜCoTが性能を高めるのか」について本論文では, 複数の学習方法でのCoTによる以下の3つの仮説を検証している. • Better representation learning • Improved learning curricularization • Increased expressivity 3

導入: ロボットは多種多様な環境で動作することが求められる近年の潮流として, 多様な大規模データセットで学習することがgeneralizationに繋がる. Transformerのスケーリング則と, VLMの知識から, ロボットの多様なデータでVLMをfine-tuningすることで, 汎用的なVLAを作ろうという動きがあるが, 多様なデータをテレオペで収集するのにはコストがかかる. (Open X-Embodiment Collaboration, ICRA 2024 ) RoboticsでもChain of Tought (CoT)が注目され始めている (Open X-Embodiment Collaboration, ICRA 2024 ) Open X-Embodiment Collaboration, Open X-Embodiment: Robotic Learning Datasets and RT-X Models, ICRA 2024 4

導入: Chain of Thought (CoT)とは Chain of Thought とは, • 複雑な推論タスクの精度を向上させるための手法の1つ • いきなり答えを出させるのではなく, 「なぜその答えに至ったのか」という途中の考え方や手順を明示的に生成させる技術 (Michał +,CoRL 2024) Embodied Chain of Thought (ECoT)によって汎化性や性能は向上するが, 以下の問題点がある. • 学習データにはCoT用の詳細なアノテーションが必要 • 推論が遅い (従来VLA: 3.5+ Hz, ECoT: 1-1.2Hz) => 本論文ではより早い推論を可能としたECoT-Liteを提案 (Michał +,CoRL 2024) Michał Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine, Robotic Control via Embodied Chain-of-Thought Reasoning, CoRL 2024 5

仮説検証 Why Does Embodied Chain-of-Thought Reasoning Improve Performance? この問いに答えるために, この論文では3つの仮説を検証している. 仮説1: Embodied reasoning improves representation learning CoTで学習することで, タスク遂行のための推論知識を追加できている可能性がある仮説2: Embodied reasoning provides learning curriculum 言語指示と観測からロボットの行動への関数を直接学習するのではなく, 実行手順も入力されることで, 行動手順をより明確に学習できていく可能性がある仮説3: Embodied reasoning increases effective model expressivity tokenのシーケンス長を伸ばすだけでも性能が向上する可能性がある. もしこれが成り立つなら, 追加のアノテーションすらいらないということになる. それぞれの仮説検証に用いる提案手法については, 推論時の速度が遅くならないように設計. 推論時にCoTをしないようにしている. 6

提案手法先の仮説を検証するために, モデルの複数の学習方法を考案. 既存のECoTの汎化性を可能な限り損なわず, 更には, • 追加のデータアノテーション • 推論時のroll outの遅さを目指す. (b), (c)は仮説1に従っており, (d)は仮説2, (e)は仮説3に従っている. 7

実験設定 MiniVLA (Suneel+, 2024) をLIBERO (Bo+, NeurIPS 2023)とBridgeData V2 (Homer+, CoRL 2023) で学習・推論する. ECoTの具体例 (Suneel+, 2024) Suneel Belkhale, Dorsa Sadigh, Minivla: A better vla with a smaller footprint, 2024 (Bo+, NeurIPS 2023 ) Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone, LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning, NeurIPS 2023 (Homer+, CoRL 2023) Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine, BridgeData V2: A Dataset for Robot Learning at Scale, CoRL 2023 8

実験結果: LIBERO-90 ➢ LIBERO-90において, 推論が早いReasoning DropoutがFull ECoTと同程度で最も性能が高い ➢ Co-trainingよりもPre-trainingの方が性能が高い ➢ ロボットのタスクにおいては段階的な学習が重要 ➢ ただし, データセットの量が多くなったりより多様になれば, Co-trainingでも良いかも ➢ Thinking Tokensは性能に影響がほぼない ➢ 仮説3 (effective model expressivity) をsupportしない ➢ Reasoning Scaffoldingの効果は限定的 ➢ 仮説2 (learning curriculum) はweakly support ➢ Co-training の効果も限定的 9

10.

実験結果: Bridge VLA, ECoTの他に, LIBERO-90で性能が高かったReasoning Dropoutと Pre-training を実世界でBridgeで評価. ➢ 提案手法の方がVLAよりも性能が良い ➢ 仮説1 (better representation learning)をsupport ➢ Full ECoTの方が性能は良いが, 推論速度という点では提案手法の方が3倍程度早い ➢ Reasoning DropoutがPre-trainingよりも性能が下がっている (LIBERO-90と逆の結果) ➢ データセットの多様性が影響している. ➢ LIBERO-90は90 tasksなのに対して, Bridgeとかのタスク数は数千 10

11.

考察 VLAよりもReasoning pre-trainingが優れている ➢ LLMの推論能力を重視した事前学習によって, モデルがロバストな行動予測に役立つ特徴を内部表現として獲得できている Reasoning co-trainingがpretrainingよりも性能が悪い ➢ Pretrainingのように推論能力を学習しているのと同時に, 画像とactionの対応をCoTなしで学習しているために, すでに行動予測のための不適切な対応関係が学習されてしまっている可能性がある推論時のCoTが重要な時はいつか. ➢ Bridgeのような多様なタスクで推論を行う際には, 推論時でもCoTを有効にした方が良い. 11

12.

考察推論時のCoTが重要な時はいつか. ➢ Bridgeのような多様なタスクで推論を行う際には, 推論時もCoTを有効にした方がタスク成功率が高い 12

13.

まとめ ECoTは性能が高いが推論時に時間がかかるという問題があった. 本論文で提案されたECoT-LiteではECoTに近い性能を, 通常のVLAと同程度の推論時間で達成できる. 多様性が少ないタスク設定(e.g. LIBERO-90)では, Reasoning dropoutが良い 13