>100 Views
December 09, 22
スライド概要
2022/12/9
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Emergence of maps in the memories of blind navigation agents Presenter: Manato Yaguchi Hokkaido university, B3 http://deeplearning.jp/ 1
書誌情報 • タイトル: Emergence of maps in the memories of blind navigation agents (ICLR 2023 Under review) • 著者:不明 • 論文: Emergence of Maps in the Memories of Blind Navigation Agents | OpenReview) • 選定理由:Openreviewでの評価が高い, 生物など他分野との関連を意識した もので興味深かった. ※出典記載のない図は本論文から引用 2
概要 • 1人称視点しかも目が見えない設定のagentが、未知の環境の探索を達成で きるのか?=> Yes • 目の見えないagentは何故こんなに良いパフォーマンスを出せるのか=>記 憶、もっと言えば記憶を空間認知や衝突検知に生かすことによる • 環境についてどのような情報を記憶しているのか? => 暗黙的なマップ • マップの生成はタスクに依存するのか? => Yes, マップは探索タスクを解 くために生成される これら4つの質問に対する答えを裏付ける 形で、複数の実験が行われている 3
背景:生物のもつ学習能力 • 過去の研究からハムスターや狼、チンパンジーやバッタ等の生物は、過去 の経験から、自身のいる環境の空間表現を獲得するといわれている. • 目の見えない環境のmole-rat も同様に空間表現を獲得し、近道をすると いった行動をみせる AIによるagentも同様に、空間表現(地図のようなもの)を獲得する ことで、探索タスクを解いているのだろうか??
背景:PPO 図出典:Federated Reinforcement Learning for Training Control Policies on Multiple IoT Devices • 方策勾配法は、パラメータの更新時に更新しすぎてしまう場合がある. 𝐿𝑃𝐺 𝜃 = 𝐸𝑡 [𝑙𝑜𝑔𝜋𝜃 (𝑎𝑡 |𝑠𝑡 )𝐴መ𝑡 ] • PPOは更新の度合いをclipにより調整する 𝐿𝐶𝐿𝐼𝑃 𝜃 = 𝐸𝑡 [min(𝑟𝑡 𝜃 𝐴መ𝑡 , 𝑐𝑙𝑖𝑝(𝑟𝑡 𝜃 , 1 − 𝜖, 1 + 𝜖)𝐴መ𝑡 )] 5
本研究:タスクの概要 • PointGoal Navigation:agentが未知の環境におい て、与えられた相対位置をゴールとするタスク • Agentの得られる情報は、自身のいる座標と方向 のみ(rgb画像やdepth画像は与えられない) • 𝑜𝑡 = 𝑥𝑔 , 𝑦𝑔 , 𝑧𝑔 , 𝑥𝑡 , 𝑦𝑡 , 𝑧𝑡 , 𝜃𝑡 , ℎ𝑡 , 𝑐𝑡 = 𝐿𝑆𝑇𝑀(𝑜𝑡 , (ℎ𝑡−1 , 𝑐𝑡−1 )) 6
本研究:モデルの構造 • Agentが時刻tに観測した情報𝑜𝑡 と過去の情報を圧縮したℎ𝑡−1から、行動aを出力. • agentの行動に応じて報酬𝑟𝑡 が与えられるので、これが最大となるような方策を学習する • 512次元, 3層のLSTMで構成されている. • 各timestep毎に、lstmのoutputは全結合層を介して、agentの行動と価値関数を出力する 7
本研究:タスクの実験結果 • タスクの難易度について、「Success」と「SPL」の2つの評価軸で調査 • SPLは最短ルートと比較して、どれくらい効率的にゴールに到達できたか を表す 8
未知の環境でagentが辿るルート • 結果:Agentが壁沿いに進む様子が観 測された • agentは視覚に関する情報を持ってい ない設定のため、障害物を見つけるに は壁にぶつかるしかない • 唯一与えられる自身の位置に関する情 報は、goalとの相対位置しか与えられ ていない 9
Agentは衝突に関する記憶を学習するのか • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡 ) から、一つ前のtimestepで取った行動𝑎𝑡−1 によって、衝突したかどうかを予測 • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡 ) を線形分類器に通して分類⇒98%の精度 • 次にl1正則化を加えて、線形分類器を再学習したのち、次元を削除したところ、上図のような4つのク ラスターがみられた(衝突、前進、右回転、左回転に対応) 10
過去何ステップの情報を記憶するのか • 各時刻tについて、 [𝑜𝑡−𝑘+1, … , 𝑜𝑡 ] の観測情報を基に、 LSTMの内部状態を構築 • ℎ𝑖 , 𝑐𝑖 = LSTM 𝑜𝑖 , ℎ𝑖−1, 𝑐𝑖−1 , ℎ𝑡−𝑘 , 𝑐𝑡−𝑘 = (0,0) で与えられる. • 横軸は過去何ステップの情報を見たか(k)を表す. • もし、短いタイムステップしか記憶しないのであ れば、成功率はすぐに収束するはず(だけどしない) 11
記憶が近道に影響を及ぼす • S→Tのタスクを達成後、最終タイムステップの隠れ層を用いて、再度同じタスクを行う • Agentが壁沿いを動く(青線)のに対し、probeはより効率的な動き(紫線)をする • Agentの行動により、空間的表現を獲得しているのではないか(それが近道につながる) 12
地図の生成 • LSTMの最終層(ℎ 𝑇 , 𝑐𝑇 )を使って、探索タスクに用いた環境のマップを予測 • 事前学習を行ったagentと行っていないagentの予測精度を比較 • 探索時に通っていない場所を、壁が平行であるといった仮定のもと予測している とみられる 13
記憶しやすい情報としにくい情報 • ある時刻tの隠れ状態(ℎ𝑡 , 𝑐𝑡 )を用いて、k step前のagentの位置を予測する • 𝑠Ƹ𝑡−𝑘 = 𝑓𝑘 ℎ𝑡 , 𝑐𝑡 + 𝑠𝑡 , 𝑠Ƹ𝑡+𝑘 − 𝑠𝑡+𝑘 / 𝑠𝑡+𝑘 − 𝑠𝑡 を最小化するようなfを学習する • 回り道をした分の情報(Excursion)は、予測しずらい(忘れやすい)ことがいえる 14
まとめと感想 • 目の見えないagentは、未知の環境において、壁沿いを動くという行動をみせた • また、agentが未知の環境において、直接探索していない地点を予測したり、同じタスク を行うと近道をすることができることから、地図に相当するものを形成していると考え られる • 今回のモデルに限らず、得られたモデルの解析方法として、参考になるところが多いと 思った • 特定の生物とより似た条件をagentに付与して、学習過程の解析を見るという方向性で もっと色々できるようになったら面白そう 15