【DL輪読会】SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

>100 Views

April 23, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation Kohei Sendai, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 タイトル : S A R M : S ta g e -A w a re R e w a rd M o d e lin g fo r L o n g H o riz o n R o b o t M IC L R 2 0 2 6 (P o s te r) 著者 : Q ia n z h o n g C h e n , J u s tin Y u , M a c S c h w a g e r, P ie te r A b b e e l, Y id e S h e n リンク : a rX iv : h ttp s ://a rx iv .o rg /a b s /2 5 0 9 .2 5 3 5 8 le ro b o t : h ttp s ://h u g g in g fa c e .c o /d o c s /le ro b o t/s a rm 2

3.

概要 • ロボティクス向けの報酬モデル, S A R M の提案 • S u b ta s k に分割することでlo n g h o riz o n なタスクにも対応可能に. • 報酬モデルを使用した, R A -B C (R e w a rd -A lig n e d B e h a v io r C lo n in g )の提案 • そのままのB C だと それぞれ 8 % , 0 % だった成功率が 8 2 , 6 7 % に上昇 • H u g g in g fa c e によるF o ld in g の実験においても有効性が検証. 3

4.

背景・課題 • R o b o t B e h a v io r M o d e l(V L A ,模倣学習などを想定) • L o n g h o riz io n , c o n ta c t-ric h m a n ip u la tio が依然として難しい • 多くの研究ではd a ta のs c a lin g に着目. d a ta の質にはあまり関心が向いていない • E x p e rt d a ta の取得はコスト/時間 がかかる • L a rg e d a ta s e tになるほどs u b o p tim a lなd a ta が存在する可能性が高くなる • D e m o n s tra tio n のd a ta q u a litの評価そのものが難しい. • T a s k の継続時間といった計測可能なものばかりではない • 行動の一貫性や, 安定性といったものを考慮に入れる必要がある 4

5.

関連研究 • G o a l状態の特徴ベクトルとの距離 を報酬として利用. [1 ] • L o n g h o riz io n ta s k ではいくつか のs u b ta s k に分かれる → 距離だけでは計測しづらい https://arxiv.org/abs/2210.00030 • V L M を使用してim a g e /te x tから直接予測 [3 ][4 ] • L o n g h o riz io n やc o n ta c t ric h ta s k でまだ弱い • 起動全体をまとめて処理 • 必要なデータ量が多い • 必要な計算量も多い 5

6.

関連研究 ReWinD 言語と画像を使用した報酬モデル. だんだん報酬が上がっていくことを学習してしまう問題 に対して, Data augumentationで対応したことが特徴の一つ このdata augumentation自体は本研究でも使用されている. 6

7.

提案手法 : S A R M S u b ta s k p re d ic tio n のためのa n n o ta tio n を実施 2 種類の方法でs u b ta s k に分解. S p a rs e a n n o ta tio n : 粗い分割. ( 右上) D e n s e a n n o ta tio n : より細かい分割 (右下) 両方とも使用してR e w a rd m o d e lを学習 ここでのa n n o ta tio n は手動で実施. (le ro b o tでの実装ではQ w e n 3 -V L を使用) 7

8.

提案手法 : S A R M データセット全体から「各サブタスクの平均長さ」を計算 : 軌跡 i の長さ : サブタスクk の長さ 各サブタスクに progress の区間を割り当てる. サブタスク k は [Pk-1 , Pk]を担う サブタスク内は線形補間でフレームごとの progress を作る t : フレーム : 開始フレーム : 終了フレーム 以上からサブタスクkに含まれるフレームtの報酬は 右のように計算される. 8

9.

提案手法 : S A R M [5] Stage Transformer : どのsubtaskに分解されるかを予測. Dense/sparseの予測のために最終MLP layerが2つに分かれている. Subtask Transformer : 予測されたsubtaskの進捗を [0,1] で出力する. 9

10.

提案手法 : R A -B C (R e w a rd A lin g e d B C ) B C O b je c tiv e R A -B C O b je c tiv e Φ : reward model • progress が増える行動チャンクほど強く模倣し、停滞や後退を含むチャンクは弱める/捨てる • Reward modelがあれば様々な手法に適用可能 10

11.

実験s e tu p H a rd w a re • Y A M 7 -D o F b im a n u a l ro b o tic a rm • T h re e R e a ls e n s e D 4 0 5 c a m ra s • rig h t_ w ris t, le ft_ w ris t, to p D a ta C o lle c tio n • GE LLO • 3 0 fp s

12.

結果1 re w a rd m o d e l D e m o : V a lid a tio n d a ta L o s s S E (S u c c e s s E p is o d e s ) P S E (P a rtia lly s u c c e s s E p is o d e s ) F E (F a ile d E p is o d e s ) S E ,P S E ,F E w a s c o lle c te d b y tra in e d p o lic y (p i0 ) 12

13.

結果2 p o lic y e v a lua tio n H a rd w a re B a s e Mode l D a ta s e t E n v iro n m e n t Task Level : Y A M 7 -D o F b im a n u a l ro b o tic a rm Easy : pick shirt and place it center : P i0 flattened T-shirt : 2 0 h c o lle c te d b y G E L L O te le o p e ra tioMedium n s y s te :mfolding . : ra n d o m iz e , T -s h irt c o lo r, te x tu re a n d b a c k g roHard u n .: folding from crumpled init state 13

14.

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R ) 14

15.

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R ) Full Data : ~131h HQ Data: ~30h 15

16.

まとめ/感想 • R o b o t学習向けのre w a rd モデルは • タスク性能の向上 • データの品質の評価/フィルタリングに有効. • 明確にs ta g e を分離することで長期タスクにおける性能向上に貢献. • R e w a rd モデルの学習が必要であり,そのためのアノテーションが必要 • T ra in in g fre e で使用できるわけではない • R A -B C はどのようなre w a rd m o d e lでも利用できる手法 • 正確なre w a rd s ig n a lがあればs u b o p tim a lなデータが存在しても 大幅に性能を向上させることが可能 • この論文以降に出てきているR o b o m e te r, T o p R e w a rd 等報酬モデルの 研究は盛んに行われており, 難易度の高いタスクの学習に必要な要素の 一つとなってきている. 16

17.

参考文献 [1] VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training https://arxiv.org/abs/2210.00030 [2] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation https://arxiv.org/abs/2509.25358 [3] Vision Language Models are In-Context Value Learners https://arxiv.org/abs/2411.04549 [4] ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations https://arxiv.org/abs/2505.10911 [5] https://huggingface.co/spaces/lerobot/robot-folding [6] RoboMeter : https://arxiv.org/abs/2603.02115 [7] TopReward : https://arxiv.org/abs/2602.19313 17