【DL輪読会】SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

274 Views

April 23, 26

#ロボット工学 #強化学習 #模倣学習 #報酬モデル #長期間タスク

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 69.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 48.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル : S A R M : S ta g e -A w a re R e w a rd M o d e lin g fo r L o n g H o riz o n R o b o t M IC L R 2 0 2 6 (P o s te r) 著者 : Q ia n z h o n g C h e n , J u s tin Y u , M a c S c h w a g e r, P ie te r A b b e e l, Y id e S h e n リンク : a rX iv : h ttp s ://a rx iv .o rg /a b s /2 5 0 9 .2 5 3 5 8 le ro b o t : h ttp s ://h u g g in g fa c e .c o /d o c s /le ro b o t/s a rm 2

概要 • ロボティクス向けの報酬モデル, S A R M の提案 • S u b ta s k に分割することでlo n g h o riz o n なタスクにも対応可能に. • 報酬モデルを使用した, R A -B C (R e w a rd -A lig n e d B e h a v io r C lo n in g )の提案 • そのままのB C だとそれぞれ 8 % , 0 % だった成功率が 8 2 , 6 7 % に上昇 • H u g g in g fa c e によるF o ld in g の実験においても有効性が検証. 3

背景・課題 • R o b o t B e h a v io r M o d e l(V L A ,模倣学習などを想定) • L o n g h o riz io n , c o n ta c t-ric h m a n ip u la tio が依然として難しい • 多くの研究ではd a ta のs c a lin g に着目. d a ta の質にはあまり関心が向いていない • E x p e rt d a ta の取得はコスト/時間がかかる • L a rg e d a ta s e tになるほどs u b o p tim a lなd a ta が存在する可能性が高くなる • D e m o n s tra tio n のd a ta q u a litの評価そのものが難しい. • T a s k の継続時間といった計測可能なものばかりではない • 行動の一貫性や, 安定性といったものを考慮に入れる必要がある 4

関連研究 • G o a l状態の特徴ベクトルとの距離を報酬として利用. [1 ] • L o n g h o riz io n ta s k ではいくつかのs u b ta s k に分かれる → 距離だけでは計測しづらい https://arxiv.org/abs/2210.00030 • V L M を使用してim a g e /te x tから直接予測 [3 ][4 ] • L o n g h o riz io n やc o n ta c t ric h ta s k でまだ弱い • 起動全体をまとめて処理 • 必要なデータ量が多い • 必要な計算量も多い 5

https://arxiv.org/abs/2210.00030

関連研究 ReWinD 言語と画像を使用した報酬モデル. だんだん報酬が上がっていくことを学習してしまう問題に対して, Data augumentationで対応したことが特徴の一つこのdata augumentation自体は本研究でも使用されている. 6

提案手法 : S A R M S u b ta s k p re d ic tio n のためのa n n o ta tio n を実施 2 種類の方法でs u b ta s k に分解. S p a rs e a n n o ta tio n : 粗い分割. ( 右上) D e n s e a n n o ta tio n : より細かい分割 (右下) 両方とも使用してR e w a rd m o d e lを学習ここでのa n n o ta tio n は手動で実施. (le ro b o tでの実装ではQ w e n 3 -V L を使用) 7

提案手法 : S A R M データセット全体から「各サブタスクの平均長さ」を計算 : 軌跡 i の長さ : サブタスクk の長さ各サブタスクに progress の区間を割り当てる. サブタスク k は [Pk-1 , Pk]を担うサブタスク内は線形補間でフレームごとの progress を作る t : フレーム : 開始フレーム : 終了フレーム以上からサブタスクkに含まれるフレームtの報酬は右のように計算される. 8

提案手法 : S A R M [5] Stage Transformer : どのsubtaskに分解されるかを予測. Dense/sparseの予測のために最終MLP layerが2つに分かれている. Subtask Transformer : 予測されたsubtaskの進捗を [0,1] で出力する. 9

10.

提案手法 : R A -B C (R e w a rd A lin g e d B C ) B C O b je c tiv e R A -B C O b je c tiv e Φ : reward model • progress が増える行動チャンクほど強く模倣し、停滞や後退を含むチャンクは弱める／捨てる • Reward modelがあれば様々な手法に適用可能 10

11.

実験s e tu p H a rd w a re • Y A M 7 -D o F b im a n u a l ro b o tic a rm • T h re e R e a ls e n s e D 4 0 5 c a m ra s • rig h t_ w ris t, le ft_ w ris t, to p D a ta C o lle c tio n • GE LLO • 3 0 fp s

12.

結果1 re w a rd m o d e l D e m o : V a lid a tio n d a ta L o s s S E (S u c c e s s E p is o d e s ) P S E (P a rtia lly s u c c e s s E p is o d e s ) F E (F a ile d E p is o d e s ) S E ,P S E ,F E w a s c o lle c te d b y tra in e d p o lic y (p i0 ) 12

13.

結果2 p o lic y e v a lua tio n H a rd w a re B a s e Mode l D a ta s e t E n v iro n m e n t Task Level : Y A M 7 -D o F b im a n u a l ro b o tic a rm Easy : pick shirt and place it center : P i0 flattened T-shirt : 2 0 h c o lle c te d b y G E L L O te le o p e ra tioMedium n s y s te :mfolding . : ra n d o m iz e , T -s h irt c o lo r, te x tu re a n d b a c k g roHard u n .: folding from crumpled init state 13

14.

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R ) 14

15.

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R ) Full Data : ~131h HQ Data: ~30h 15

16.

まとめ/感想 • R o b o t学習向けのre w a rd モデルは • タスク性能の向上 • データの品質の評価/フィルタリングに有効. • 明確にs ta g e を分離することで長期タスクにおける性能向上に貢献. • R e w a rd モデルの学習が必要であり,そのためのアノテーションが必要 • T ra in in g fre e で使用できるわけではない • R A -B C はどのようなre w a rd m o d e lでも利用できる手法 • 正確なre w a rd s ig n a lがあればs u b o p tim a lなデータが存在しても大幅に性能を向上させることが可能 • この論文以降に出てきているR o b o m e te r, T o p R e w a rd 等報酬モデルの研究は盛んに行われており, 難易度の高いタスクの学習に必要な要素の一つとなってきている. 16

17.

参考文献 [1] VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training https://arxiv.org/abs/2210.00030 [2] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation https://arxiv.org/abs/2509.25358 [3] Vision Language Models are In-Context Value Learners https://arxiv.org/abs/2411.04549 [4] ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations https://arxiv.org/abs/2505.10911 [5] https://huggingface.co/spaces/lerobot/robot-folding [6] RoboMeter : https://arxiv.org/abs/2603.02115 [7] TopReward : https://arxiv.org/abs/2602.19313 17