551 Views
March 11, 22
スライド概要
2022/03/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP A System for General In-Hand Object Re-Orientation [DL Papers] Hiroki Furuta http://deeplearning.jp/
書誌情報 • タイトル: A System for General In-Hand Object Re-Orientation • 著者: Tao Chen1, Jie Xu1, Pulkit Agrawal1 ➢ 所属: 1MIT • URL: https://arxiv.org/abs/2111.03043 • 概要: Shadow-handで一般の物体の再配置タスクを解くRLのシステム を構築。シミュレータから取得可能な物体の姿勢情報で学習した方策 を少ない情報で蒸留し、実環境で適用可能にする。CoRL2021でBest Paper。 2
物体のRe-Orientationタスク • Shadow-hand内を初期位置とする物体を、指定された3次元の姿勢 (右端)と一致するように再配置する 3
In-hand Re-Orientationを解く従来手法 1. 解析的なモデルとtrajectory optimizationを組み合わせた手法 ➢ Mordatch et al. 2012, Bai and Liu 2014, Kumar et al. 2014 ➢ 課題: 単純な形状の物体でシミュレーション上のみ, 物体のモデルに関する子細な情 報と物理パラメータが必要 2. モデルベース強化学習 ➢ Kumar et al. 2016, Nagabandi et al. 2020 3. エキスパートのデモを活用したモデルフリー強化学習 ➢ Guputa et al. 2016, Open AI 2019, 2020, etc… ➢ 課題: 実環境での実験を考えると, 物体の状態を推定するためにモーションキャプ チャなどの追加のセンサー情報を必要とする, 多様な物体に汎化しない, shadowhandが上向きの場合に限定される 4
提案手法のポイント 目標: Shadow-handを用いた物体のRe-Orientationタスクをできるだけ 一般的な形(以下の4つをすべて満たす)で検証する 1. 上向き・下向き両方のshadow-handで物体の操作を行う 2. 物体の操作の補助として地表面を使える 3. 新規の形状の物体を任意の向きに再配置できる 4. Handの関節の位置やRGBD画像などといった比較的容易に入手でき る情報のみで機能する 5
提案手法のポイント モデルフリー強化学習に基づいた提案手法は, 次の3つの要素で完結: 1. Teacher-Student Learning (方策の蒸留) 2. Gravity Curriculum (重力パラメータによるカリキュラム学習) 3. 物体位置の安定した初期化 ➢ 物体やロボットのモデルに関する情報や接触のダイナミクス, セン サーからの観測に関する特別な前処理などは一切必要ない 6
画像による形状の推定は不要? • 実験を通して, 物体の形状に関する情報にアクセスできなくても, 多く の未知物体を操作可能な方策が学習可能であることを示し, in-hand manipulationにおいて画像認識が以前から考えられていたほど重要で はないことが示唆された • 画像から推定される形状の情報を組み合わせることで性能は向上する かもしれないが, 組み合わせなくても様々な汎化が可能 7
Teacher-Student Learning • まずteacher policy をシミュレータ上では容易に取得可能な真の 状態を利用して, 強化学習(今回はPPO)で学習する • 次にteacher policyを補助として利用して, student policy を実環 境で利用可能な入力のみを利用して学習する ➢ shadow-handの関節位置, 物体の位置, 目標の姿勢との差 ➢ RGBD画像から取得できる点群, shadow-handの関節位置 • 基本的にteacher policyとstudent policyの状態空間は異なる( ) 8
Teacher方策の学習 • 物体 を初期姿勢 から目標姿勢 に再配置す る方策をモデルフリー強化学習で学習する • 方策の出力を滑らかにするために, 1ステップ前のactionも入力とする ➢ • MLPの方策とRNNの方策を両方試した • 実環境への適用可能性を見るために, 物体の質量, 摩擦係数, 減衰係数 をランダムに変更し, stateとactionにノイズを加える, ダイナミクスの randomizationを試した 9
Teacher方策の状態・行動空間 • 状態 (134次元) ➢ シミュレータから取得できる物体/shadow-handの真の状態 • 行動 (20次元), 報酬関数 ➢ actionは関節角の相対的な変位 ➢ 10
Student方策の学習 • Teacher方策とStudent方策の間のKL divergenceが最小となるように Dagger[Ross et al. 2011]によって, Teacher方策をStudent方策へ蒸留する ➢ • Reduced Stateの場合 ➢ 関節の位置(24次元), 物体の位置(3次元), 現在の物体の姿勢と目標の姿勢の差を表す クォータニオン(4次元)のみを使って学習 ➢ 手法の有効性の検証としての実験 • RGBD画像の場合 ➢ 関節の位置(24次元) ➢ , RGBD画像から取得できる点群 を利用 11
Student方策の学習 物体の対称性に起因する課題への対処 • 真の状態を用いる場合, タスクの成功判定は, 物体の姿勢と目標状態の姿勢 間の角度が一定の値以下であるかどうかで判断 ➢ • 一方, RGBD画像の場合は物体の姿勢に関する情報は一切利用せず, 物体の 点群から姿勢の推定を行う ➢ 対称性のある物体の場合, 異なる2つの姿勢が同じ点群に対応してしまう場合がある • 次のChamfer distanceを追加的な成功判定の基準として用いることでこの 問題の影響を緩和する ➢ 12
Student方策のネットワーク構造 • 2次元のRGBD画像を入力とするIMPALA [Espeholt et. al. 2018]で提案された ネットワーク構造を, 点群を入力とできるように, Sparse 3D Convで 置き換えるなどして改良 13
実験設定 • 環境: NVIDIA Isaac GymのShadow Hand (24自由度) • データセット: ➢ EGAD datasetから2282種類のテクスチャの無い物体 ➢ YCB datasetから78種類の日用品 (5つの異なる大きさで量増し) 14
Shadow-Hand 上向きの場合 • 垂直方向上向きをz軸正の向き, 水平面をxy平面とする • 物体の初期位置について, 中心位置を中指と掌の交差点を中心にした 0.09m × 0.09mの正方形の中からランダムサンプル(xy座標), z座標は 0.13mで固定 • 物体の初期姿勢と目標姿勢はSO(3)空間からランダムサンプルされる 15
Shadow-Hand 下向きの場合 • (b)のようにShadow-Handを下向きにした場合, ランダムに物体の位 置と姿勢をサンプルすると, Shadow-Handで掴めずに学習が進まない • テーブルによる補助(c)とGravity Curriculum + 物体位置の安定した初 期化(d)で下向きの場合も学習できるようになった 16
Teacherの学習とReduced Stateを用いたStudentへの蒸留 Full Stateを用いたTeacherの学習 ➢ 方策にRNNを用いた方がMLPを用いるより性能がよく, EGADでおよそ95% (B1), YCBでおよそ80% (G1) ➢ 状態に物体の形状情報を含めなくても高い成功率だった ➢ 物体を回転させながら上に放り投げてちょうど目標状態と重なった瞬間に キャッチする動作を学習 17
Teacherの学習とReduced Stateを用いたStudentへの蒸留 Reduced Stateを用いたStudentへの蒸留 ➢ 状態の次元を少なくした場合でも成功率をほとんど落とさない ➢ Dynamics Randomizationを加えた場合(with DR)でも高い成功率 ➢ 失敗の分析を行うと, 長くて, 小さくて, 細い物体に起因するものが60%, 目標姿 勢の手前で止まってしまうのが19%程度 18
Shadow-hand 下向きの場合 • テーブルの利用 ➢ モデルフリーRLなら外界の補助を利用するのも簡単で, EGADで95%, YCBで81%程度の成功率 • Gravity Curriculum ➢ 重力加速度 g = 1.0 m/s2から初めて, 成功率に応じて段階的にg = -9.8 m/s2まで下げる • 物体位置の安定した初期化 ➢ 物体位置をランダムに初期化するのではなく, 物体を掴んで持ち上げる方策を学習し, その終端 状態を初期位置として利用する ➢ 間違った行動を取ると物体は即座に落下してしまうので, 問題としては依然として難しい 19
Shadow-hand 下向きの場合: 例 • 左から右, 上から下にかけて物体の姿勢を変更している 20
データセット間のzero-shot転移 EGADで学習した方策をYCBでテスト, またYCBで学習した方策をEGAD でテストするzero-shot転移の実験を行った ➢ Shadow-hand上向き(U), 下向き(D)どちらの場合も高い成功率 ➢ Reduced-stateの場合(RS)もFull-stateの場合(FS)と比べてそれほど大きな性 能の低下は見られない 21
RGBD画像を入力とした場合 • 学習する方策をロバストにするために点群にデータ拡張を行った ➢ ランダムな平行移動, 位置へのノイズ, 欠損, 色など • 非対称な物体ほど簡単で, 対称な物体ほど難しい傾向にある 22
まとめと課題 • Shadow-handで一般の物体のReorientationを解くシステ ムを構築 • 物体の形状に関する情報なしでも十分に学習できること は, 予想外の発見 ➢ 人間も目を瞑っていても新しい物体のReorientationが可能(?) • Domain Randomizationの実験から実環境でも同様に動作 すると考えられる • 物体の形状(特に対称性)に依存して成功率が大きく変わる ➢ 物体の形状についてカリキュラム学習をすると良いかもしれない • また, RGBD画像を用いる場合は計算量のボトルネックが 大きい 23