【DL輪読会】Emergence of maps in the memories of blind navigation agents

>100 Views

December 09, 22

#@deep learning jp #Deep Learning #Memory Generation #Agent Navigation #Spatial Recognition #Blind Navigation

スライド概要

2022/12/9
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Emergence of maps in the memories of blind navigation agents Presenter: Manato Yaguchi Hokkaido university, B3 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル： Emergence of maps in the memories of blind navigation agents (ICLR 2023 Under review) • 著者：不明 • 論文： Emergence of Maps in the Memories of Blind Navigation Agents | OpenReview) • 選定理由：Openreviewでの評価が高い, 生物など他分野との関連を意識したもので興味深かった. ※出典記載のない図は本論文から引用 2

https://openreview.net/forum?id=lTt4KjHSsyl

概要 • 1人称視点しかも目が見えない設定のagentが、未知の環境の探索を達成できるのか？=> Yes • 目の見えないagentは何故こんなに良いパフォーマンスを出せるのか=>記憶、もっと言えば記憶を空間認知や衝突検知に生かすことによる • 環境についてどのような情報を記憶しているのか？ => 暗黙的なマップ • マップの生成はタスクに依存するのか？ => Yes, マップは探索タスクを解くために生成されるこれら4つの質問に対する答えを裏付ける形で、複数の実験が行われている 3

背景：生物のもつ学習能力 • 過去の研究からハムスターや狼、チンパンジーやバッタ等の生物は、過去の経験から、自身のいる環境の空間表現を獲得するといわれている. • 目の見えない環境のmole-rat も同様に空間表現を獲得し、近道をするといった行動をみせる AIによるagentも同様に、空間表現(地図のようなもの)を獲得することで、探索タスクを解いているのだろうか？？

背景：PPO 図出典：Federated Reinforcement Learning for Training Control Policies on Multiple IoT Devices • 方策勾配法は、パラメータの更新時に更新しすぎてしまう場合がある. 𝐿𝑃𝐺 𝜃 = 𝐸෠𝑡 [𝑙𝑜𝑔𝜋𝜃 (𝑎𝑡 |𝑠𝑡 )𝐴መ𝑡 ] • PPOは更新の度合いをclipにより調整する 𝐿𝐶𝐿𝐼𝑃 𝜃 = 𝐸෠𝑡 [min(𝑟𝑡 𝜃 𝐴መ𝑡 , 𝑐𝑙𝑖𝑝(𝑟𝑡 𝜃 , 1 − 𝜖, 1 + 𝜖)𝐴መ𝑡 )] 5

https://www.researchgate.net/publication/339651408_Federated_Reinforcement_Learning_for_Training_Control_Policies_on_Multiple_IoT_Devices

本研究：タスクの概要 • PointGoal Navigation：agentが未知の環境において、与えられた相対位置をゴールとするタスク • Agentの得られる情報は、自身のいる座標と方向のみ(rgb画像やdepth画像は与えられない) • 𝑜𝑡 = 𝑥𝑔 , 𝑦𝑔 , 𝑧𝑔 , 𝑥𝑡 , 𝑦𝑡 , 𝑧𝑡 , 𝜃𝑡 , ℎ𝑡 , 𝑐𝑡 = 𝐿𝑆𝑇𝑀(𝑜𝑡 , (ℎ𝑡−1 , 𝑐𝑡−1 )) 6

本研究：モデルの構造 • Agentが時刻tに観測した情報𝑜𝑡 と過去の情報を圧縮したℎ𝑡−1から、行動aを出力. • agentの行動に応じて報酬𝑟𝑡 が与えられるので、これが最大となるような方策を学習する • 512次元, 3層のLSTMで構成されている. • 各timestep毎に、lstmのoutputは全結合層を介して、agentの行動と価値関数を出力する 7

本研究：タスクの実験結果 • タスクの難易度について、「Success」と「SPL」の2つの評価軸で調査 • SPLは最短ルートと比較して、どれくらい効率的にゴールに到達できたかを表す 8

未知の環境でagentが辿るルート • 結果：Agentが壁沿いに進む様子が観測された • agentは視覚に関する情報を持っていない設定のため、障害物を見つけるには壁にぶつかるしかない • 唯一与えられる自身の位置に関する情報は、goalとの相対位置しか与えられていない 9

10.

Agentは衝突に関する記憶を学習するのか • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡 ) から、一つ前のtimestepで取った行動𝑎𝑡−1 によって、衝突したかどうかを予測 • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡 ) を線形分類器に通して分類⇒98%の精度 • 次にl1正則化を加えて、線形分類器を再学習したのち、次元を削除したところ、上図のような4つのクラスターがみられた（衝突、前進、右回転、左回転に対応） 10

11.

過去何ステップの情報を記憶するのか • 各時刻tについて、 [𝑜𝑡−𝑘+1, … , 𝑜𝑡 ] の観測情報を基に、 LSTMの内部状態を構築 • ℎ𝑖 , 𝑐𝑖 = LSTM 𝑜𝑖 , ℎ𝑖−1, 𝑐𝑖−1 , ℎ𝑡−𝑘 , 𝑐𝑡−𝑘 = (0,0) で与えられる. • 横軸は過去何ステップの情報を見たか(k)を表す. • もし、短いタイムステップしか記憶しないのであれば、成功率はすぐに収束するはず(だけどしない) 11

12.

記憶が近道に影響を及ぼす • S→Tのタスクを達成後、最終タイムステップの隠れ層を用いて、再度同じタスクを行う • Agentが壁沿いを動く(青線)のに対し、probeはより効率的な動き(紫線)をする • Agentの行動により、空間的表現を獲得しているのではないか(それが近道につながる) 12

13.

地図の生成 • LSTMの最終層(ℎ 𝑇 , 𝑐𝑇 )を使って、探索タスクに用いた環境のマップを予測 • 事前学習を行ったagentと行っていないagentの予測精度を比較 • 探索時に通っていない場所を、壁が平行であるといった仮定のもと予測しているとみられる 13

14.

記憶しやすい情報としにくい情報 • ある時刻tの隠れ状態(ℎ𝑡 , 𝑐𝑡 )を用いて、k step前のagentの位置を予測する • 𝑠Ƹ𝑡−𝑘 = 𝑓𝑘 ℎ𝑡 , 𝑐𝑡 + 𝑠𝑡 , 𝑠Ƹ𝑡+𝑘 − 𝑠𝑡+𝑘 / 𝑠𝑡+𝑘 − 𝑠𝑡 を最小化するようなfを学習する • 回り道をした分の情報(Excursion)は、予測しずらい(忘れやすい)ことがいえる 14

15.

まとめと感想 • 目の見えないagentは、未知の環境において、壁沿いを動くという行動をみせた • また、agentが未知の環境において、直接探索していない地点を予測したり、同じタスクを行うと近道をすることができることから、地図に相当するものを形成していると考えられる • 今回のモデルに限らず、得られたモデルの解析方法として、参考になるところが多いと思った • 特定の生物とより似た条件をagentに付与して、学習過程の解析を見るという方向性でもっと色々できるようになったら面白そう 15