---
title: 【DL輪読会】SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation
tags: 
author: [Deep Learning JP](https://image.docswell.com/user/DeepLearning2023)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/PJR9GDPZ79.jpg?width=480
description: 【DL輪読会】SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation by Deep Learning JP
published: April 23, 26
canonical: https://image.docswell.com/s/DeepLearning2023/KR8QM4-2026-04-24-134259
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/PJR9GDPZ79.jpg)

DEEP LEARNING JP
[DL Papers]
SARM: Stage-Aware Reward Modeling for
Long Horizon Robot Manipulation
Kohei Sendai, Matsuo Lab
http://deeplearning.jp/
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/PEXQX131JX.jpg)

書誌情報
タイトル : S A R M : S ta g e -A w a re R e w a rd M o d e lin g fo r L o n g H o riz o n R o b o t M
IC L R 2 0 2 6 (P o s te r)
著者 : Q ia n z h o n g C h e n , J u s tin Y u , M a c S c h w a g e r, P ie te r A b b e e l, Y id e S h e n
リンク :
a rX iv : h ttp s ://a rx iv .o rg /a b s /2 5 0 9 .2 5 3 5 8
le ro b o t : h ttp s ://h u g g in g fa c e .c o /d o c s /le ro b o t/s a rm
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/3EK9W2YMED.jpg)

概要
• ロボティクス向けの報酬モデル, S A R M の提案
• S u b ta s k に分割することでlo n g h o riz o n なタスクにも対応可能に.
• 報酬モデルを使用した, R A -B C (R e w a rd -A lig n e d B e h a v io r C lo n in g )の提案
• そのままのB C だと それぞれ 8 % , 0 % だった成功率が 8 2 , 6 7 % に上昇
• H u g g in g fa c e によるF o ld in g の実験においても有効性が検証.
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/L73W149275.jpg)

背景・課題
• R o b o t B e h a v io r M o d e l(V L A ,模倣学習などを想定)
• L o n g h o riz io n , c o n ta c t-ric h m a n ip u la tio が依然として難しい
• 多くの研究ではd a ta のs c a lin g に着目. d a ta の質にはあまり関心が向いていない
• E x p e rt d a ta の取得はコスト/時間 がかかる
• L a rg e d a ta s e tになるほどs u b o p tim a lなd a ta が存在する可能性が高くなる
• D e m o n s tra tio n のd a ta q u a litの評価そのものが難しい.
• T a s k の継続時間といった計測可能なものばかりではない
• 行動の一貫性や, 安定性といったものを考慮に入れる必要がある
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/87DKXQG6JG.jpg)

関連研究
• G o a l状態の特徴ベクトルとの距離
を報酬として利用. [1 ]
• L o n g h o riz io n ta s k ではいくつか
のs u b ta s k に分かれる
→ 距離だけでは計測しづらい
https://arxiv.org/abs/2210.00030
• V L M を使用してim a g e /te x tから直接予測 [3 ][4 ]
• L o n g h o riz io n やc o n ta c t ric h ta s k でまだ弱い
• 起動全体をまとめて処理
• 必要なデータ量が多い
• 必要な計算量も多い
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/VJPKPL8ZE8.jpg)

関連研究
ReWinD
言語と画像を使用した報酬モデル.
だんだん報酬が上がっていくことを学習してしまう問題
に対して,
Data augumentationで対応したことが特徴の一つ
このdata augumentation自体は本研究でも使用されている.
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/2EVV2QNMEQ.jpg)

提案手法 : S A R M
S u b ta s k p re d ic tio n のためのa n n o ta tio n を実施
2 種類の方法でs u b ta s k に分解.
S p a rs e a n n o ta tio n : 粗い分割. ( 右上)
D e n s e a n n o ta tio n : より細かい分割 (右下)
両方とも使用してR e w a rd m o d e lを学習
ここでのa n n o ta tio n は手動で実施.
(le ro b o tでの実装ではQ w e n 3 -V L を使用)
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/57GLRWKXEL.jpg)

提案手法 : S A R M
データセット全体から「各サブタスクの平均長さ」を計算
: 軌跡 i の長さ
: サブタスクk の長さ
各サブタスクに progress の区間を割り当てる.
サブタスク k は [Pk-1 , Pk]を担う
サブタスク内は線形補間でフレームごとの progress を作る
t
: フレーム
: 開始フレーム
: 終了フレーム
以上からサブタスクkに含まれるフレームtの報酬は
右のように計算される.
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/4EQYV3N5JP.jpg)

提案手法 : S A R M
[5]
Stage Transformer
: どのsubtaskに分解されるかを予測.
Dense/sparseの予測のために最終MLP layerが2つに分かれている.
Subtask Transformer : 予測されたsubtaskの進捗を [0,1] で出力する.
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/KJ4WM1GV71.jpg)

提案手法 : R A -B C (R e w a rd A lin g e d B C )
B C O b je c tiv e
R A -B C O b je c tiv e
Φ : reward model
• progress が増える行動チャンクほど強く模倣し、停滞や後退を含むチャンクは弱める／捨てる
• Reward modelがあれば様々な手法に適用可能
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LE1Y8GD47G.jpg)

実験s e tu p
H a rd w a re
• Y A M 7 -D o F b im a n u a l ro b o tic a rm
• T h re e R e a ls e n s e D 4 0 5 c a m ra s
• rig h t_ w ris t, le ft_ w ris t, to p
D a ta C o lle c tio n
• GE LLO
• 3 0 fp s


# Page. 12

![Page Image](https://bcdn.docswell.com/page/GEWGZKYZJ2.jpg)

結果1 re w a rd m o d e l
D e m o : V a lid a tio n d a ta L o s s
S E (S u c c e s s E p is o d e s )
P S E (P a rtia lly s u c c e s s E p is o d e s )
F E (F a ile d E p is o d e s )
S E ,P S E ,F E w a s c o lle c te d b y tra in e d p o lic y (p i0 )
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/47ZL1ZXLJ3.jpg)

結果2 p o lic y e v a lua tio n
H a rd w a re
B a s e Mode l
D a ta s e t
E n v iro n m e n t
Task Level
: Y A M 7 -D o F b im a n u a l ro b o tic a rm
Easy : pick shirt and place it center
: P i0
flattened T-shirt
: 2 0 h c o lle c te d b y G E L L O te le o p e ra tioMedium
n s y s te :mfolding
.
: ra n d o m iz e , T -s h irt c o lo r, te x tu re a n d b a c k g roHard
u n .: folding from crumpled init state
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/YJ6WLZ4MJV.jpg)

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R )
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GJ5M1WQQJ4.jpg)

A d d ito n a l : L e ro bo t fo ld in g d e m o (9 0 % S R )
Full Data : ~131h
HQ Data: ~30h
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/LE3W14VZE5.jpg)

まとめ/感想
• R o b o t学習向けのre w a rd モデルは
• タスク性能の向上
• データの品質の評価/フィルタリングに有効.
• 明確にs ta g e を分離することで長期タスクにおける性能向上に貢献.
• R e w a rd モデルの学習が必要であり,そのためのアノテーションが必要
• T ra in in g fre e で使用できるわけではない
• R A -B C はどのようなre w a rd m o d e lでも利用できる手法
• 正確なre w a rd s ig n a lがあればs u b o p tim a lなデータが存在しても
大幅に性能を向上させることが可能
• この論文以降に出てきているR o b o m e te r, T o p R e w a rd 等報酬モデルの
研究は盛んに行われており, 難易度の高いタスクの学習に必要な要素の
一つとなってきている.
16


# Page. 17

![Page Image](https://bcdn.docswell.com/page/8EDKXQ847G.jpg)

参考文献
[1] VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training
https://arxiv.org/abs/2210.00030
[2] SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation
https://arxiv.org/abs/2509.25358
[3] Vision Language Models are In-Context Value Learners
https://arxiv.org/abs/2411.04549
[4] ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations
https://arxiv.org/abs/2505.10911
[5] https://huggingface.co/spaces/lerobot/robot-folding
[6] RoboMeter : https://arxiv.org/abs/2603.02115
[7] TopReward : https://arxiv.org/abs/2602.19313
17