3.8K Views
October 23, 23
スライド概要
人間は環境の構造を理解し,複数モダリティからなる感覚器官からの情報を処理することで実世界で様々なスキルを獲得できる.人間のように多様なスキルを自律的に獲得できる知能ロボットの実現を目指す上で,複数モダリティからなるセンサ情報から世界モデルを学習し,モデルベース強化学習を行う手法は,自然なアプローチである.本稿では,ロボットアームのPick and Placeタスクにおいて,世界モデルに基づくモデルベース強化学習手法であるDreamerアルゴリズムを用いて,実ロボットアームの手先に触覚センサを取り付け,観測に用いることで,学習にかかる時間が短縮されることを検証する.また,実ロボットを用いて深層強化学習によりマニピュレーションタスクを学習させる際の学習環境について考察を行う.
世界モデルを用いた画像・深度・ 触覚のマルチモーダル学習 東京大学工学部機械工学科4年 上條達也 1
背景と目的 2
背景 ❑ 強化学習によるマニピュレーションタスクの学習は難しい ❑ スパースな報酬 ❑ 画像入力の変化が小さい ❑ 2つのアプローチ: ❑ Sim2Real ❑ simと現実のギャップ ❑ 実世界で直接学習 ❑ 遅い 3
背景 ❑ モデルベース強化学習アルゴリズムDreamer[Hafner+ 19] ❑ 学習した世界モデル上で並列して方策学習でき,サンプル効率が高い 'Dream to Control: Learning Behaviors by Latent Imagination' (Hafner et al.)より引用 4
背景 ❑ DayDreamer[Wu+ 22]は実世界のみでの学習に成功 ❑ Dreamerアルゴリズムの実機でのロボット学習における有効性 'DayDreamer: World Models for Physical Robot Learning' (Wu et al.)より引用 5
背景 ❑ しかし,Pick and Placeタスク学習に長時間必要 ❑ Input: 正面からのRGB + Depth + Proprio 'DayDreamer: World Models for Physical Robot Learning' (Wu et al.)より引用 6
目的 ❑ Pick and Placeタスクの学習時間短縮 ❑ 触覚情報をエージェントに与えて追加の教師信号とする ❑ Dreamerにおける環境のダイナミクス学習が効率的に行われ学習時間が 短縮する ❑ 実機ロボットアームを使った実験による検証 7
方法 8
方法 1. 手先に光学式触覚センサDIGIT取り付け 接触なし 接触あり DIGITから得られるRGB画像 9
方法 2. 接触判定識別器を作成 ❑ 訓練データ2400, テストデータ600 ❑ 多様な面・角・強さで接触データセット作成 ❑ 3層MLPの2クラス分類教師あり学習 10
方法 3. 接触判定の結果(0/1)をエージェントの観測に加える 0/1 接触判定 'DayDreamer: World Models for Physical Robot Learning' (Wu et al.)より引用 11
方法 4. 実験の詳細 ❑ Pick and Placeタスク ❑ 片方の容器から隣の容器へ移す ❑ 報酬: ❑ 物体を掴む :+1 ❑ 同じ容器で離す:-1 ❑ 成功 :+10 ❑ 触覚センサあり/なしの比較 12
結果と考察 13
結果と考察 ❑ DayDreamerの性能再現に失敗 ❑ 左:DayDreamer,右:再現 ❑ 右はreward(成功で+10, 掴むと+1, 離すと-1) DayDreamer[Wu+ 22] 触覚センサなしの場合の学習曲線 14
結果と考察 ❑ DayDreamerの性能再現に失敗 ❑ 実験環境(容器,スポンジの大きさ,タコ糸の長さ)の違い DayDreamer[Wu+ 22]の 実験環境 本実験環境 15
結果と考察 ❑ 報酬獲得数(学習曲線のスパイク)の比較 ❑ 触覚なし:13 ❑ 触覚あり:30 触覚センサなしの場合の学習曲線 触覚センサありの場合の学習曲線 16
結果と考察 ❑ 報酬獲得数(学習曲線のスパイク)の比較 ❑ 結果からは接触情報が補助的に学習を促進させたと言える ❑ 触覚情報を0/1まで落としているため,ほぼ無視されている可能性 ❑ ノイズの影響が大きく,複数回実験が必要 触覚センサなしの場合の学習曲線 触覚センサありの場合の学習曲線 17
結果と考察 ❑ 35kエピソード以降で性能が落ちている ❑ 一度容器の端に詰まると抜け出すのに時間がかかる ❑ 実験環境の工夫が必要 触覚センサなしの場合の学習曲線 触覚センサありの場合の学習曲線 18
まとめ 19
まとめ ❑ DayDreamerの性能再現には失敗 ❑ 実験環境の差異が原因として考えられる ❑ 実世界での実験環境を統一(必要な情報を公開)する必要性 ❑ 接触情報の追加により報酬獲得に至るアクションが増えた ❑ 本当に接触情報の追加に起因する結果なのか ❑ 0/1まで触覚情報を落としているので,無視されている可能性 20
今後の課題 ❑ Pick and Placeタスクが最適ではない ❑ DayDreamer[Wu+ 22]をベースに実験を行ったが,触覚を活かすためよ りcontact-richなタスクを選択すべき ❑ マルチモダリティを活かす問題設定への変更 ❑ 問題:Dreamerは日光などに起因するRGBの変化に対して弱い ❑ 方法:画像や触覚のマルチモーダルデータを用いて,ある一つのモダリ ティが欠損しても他のモダリティで補えるようにする ❑ 特にcontact-richなタスクでは,RGBに変化が生じても触覚で補いたい 21
参考文献 1. Hafner, D., Lillicrap, T., Ba, J., and Norouzi, M.: Dream to Control: Learning Behaviors by Latent Imagination, in ICLR (2020) 2. Wu, P., Escontrela, A., Hafner, D., Abbeel, P., and Goldberg, K.: DayDreamer: World Models for Physical Robot Learning, in CoRL (2022) 22