382 Views
April 21, 17
スライド概要
2017/4/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Model-Free Episodic Control Neural Episodic Control M2 塩谷碩彬 2017/4/21
強化学習の進歩により色々凄いことができそう ● ● ● ● Atari Alpha Go hand eye cordination guided policy search
強化学習は進歩したけど、まだ人間に及ばない点も 進歩したところ 人間に及ばないところ 学習の早さ 効率化する手法が数多く提 案されている one shotをうたう手法も とはいえ時間かかりすぎ atariで人間と同等の性能に なるのに924時間(38日) 成功確率、性能 ATARI、Goなど、一部のゲー ムではsuper human level manipulation taskなど、基本 100%はない ゲームでもダメなやつも タスクの種類 ゲームからロボットまで プランニング、階層的なプラ ンニングは得意でない 汎化性能(未知の環境、似た ような別タスク ) 転移学習、一つのネットワー クで複数のタスク、未知環境 への適応にむけた手法 忘れる、未知環境には基本 弱い
今回は学習の遅さを克服する論文の話です 進歩したところ 人間に及ばないところ 学習の早さ 効率化する手法が数多く提 案されている one shotをうたう手法も とはいえ時間かかりすぎ、人 間だと20時間、DQNは200時 間 成功確率、性能 ATARI、Goなど、一部のゲー ムではsuper human level manipulation taskなど、基本 100%はない ゲームでもダメなやつも タスクの種類 ゲームからロボットまで プランニング、階層的なプラ ンニングは得意でない 汎化性能(未知の環境、似た ような別タスク ) 転移学習、一つのネットワー クで複数のタスク、未知環境 への適応にむけた手法 忘れる、未知環境には基本 弱い
Model-Free Episodic Control
書誌情報 ● ● DeepMindの論文 2016/6/14 arXiv
背景 ● Hippocampal Contributions to Control: The Third way ○ ○ ○ NIPS 2007の論文 エピソード記憶が人間の行動に使われているのでは?と いう仮説から出発 簡単な問題設定で過去の経験をそのままつかった方法 の効率性を検証
従来の強化学習における記憶の役割 ● 記憶する構造をもったRLはあることはある ○ ● LSTM,DNC, Memory Networkなど ただし、エピソード記憶というよりワーキングメモリであるものが多い ○ ○ 行動を参照するのではなく、あるエピソードにおいて過去たどってきた状態を記憶 解いてる問題が違う
提案手法:Model Free Episodic Control ● 学習(価値関数の更新) ○ ● 行動選択 ○ ● テーブルを持っておき、すでにテーブルにあれば更新、なければ追加 テーブルに値があればそれを、なければ最近傍方法で推定 状態表現の工夫 ○ ○ 必要性:メモリを削減したい、元の表現のままでとる距離が適切でないかも 対策:この論文では random projectionとVAEによる変換を提案
実験1:Atari ● 設定 ○ ○ ○ Atariのゲーム5つでスコア比較 変換にはrandom projectionとVAEを 試す DQN,DQN with prioritised replay,AC3と比較 ● 結果 ○ ○ ○ 素早く良い行動にたどり着き、学習初 期においては比較手法より優秀 学習が進むと DQN系の方が良いスコ アを得られる(グラフにはのってない) VAEはあまり効果がないようだ ...
実験2:Labyrinth ● ● 設定 ○ 3D迷路ゲームで3つのレベルの 異なるタスク ○ 検証した手法は実験1と同じ 結果 ○ ○ Atariと同様に素早く学習する Double T-mazeのような報酬が 疎なタスクでもうまくいく( A3Cだ と全く学習が進まない)
限界と今後の展望 ● 限界 ○ ○ ● ある程度時間かけて訓練すれば DQN系の方が強い 行動が連続値の場合に用いることができない 今後の展望 ○ 精度があがりきらなくても使える実用的な応用が見つかると良い ■ データがたくさんつかえない場合とか
Neural Episodic Control
書誌情報 ● DeepMindの論文 ○ ○ ● Model-Free Episodic Controlの著者が何人か Matching Network for One Shot Learningの筆頭著者である Oriol Vinyals さんが加わる 2017/3/6 arXiv
課題意識 ● DRLの学習が遅い原因のうち、以下の3点に焦点を当てる ○ ○ ○ ● 確率的勾配降下法における小さい学習率。大きな学習率を用いると最適化がうまくいかない。 報酬がスパースである場合、少数事例である報酬の獲得をうまく予測できない。 ■ 比率の不明なクラス不均衡問題と考えられる DQNのように時系列と関係ない順番での価値関数のブートストラップによる報酬の伝搬 学習を早くするには、他にも探索を工夫するとか、試行錯誤以外の知識を用いる (転移学習)とかも考えられるが、この論文では扱わない
提案手法:Neural Episodic Control ● 素早い学習を実現するためのコンセプトはModel-Free Episodic Controlと同じ ○ ● 価値関数の推定をメモリに記憶した事例を用いた最近傍法による non parametricな形で行う 状態の写像→メモリ→価値関数の推定までをend to endで微分可能になった点が 異なる
Neural Episodic Control:行動選択時 選択した事例と距離 に基づく重みの線形 和によりQを推定 Qが最大となる a を選択 CNNでs→hに変換 k(h, hi)に基づき、hに 近いhiをp個選択
Neural Episodic Control:学習時 メモリ追加 更新 replay bufferから取り出した batchをつかい、Q値のL2 loss による更新 N-step Q-learningで 推定 replay buffer
実験:Atari ● 設定 ○ ○ ● Atariの57のゲームでスコア比較 比較対象はDQN,Prioritized Replay, A3Cに加え、Q lambda, Retrace,Model Free Episodic Control 結果 ○ ○ ○ 学習初期において、 NECがもっともスコアが良い 学習が進むと、やはり他の学習方法が良い Model Free Episodic Control と比較してスコアが良い ■ 状態sの写像までend to endで学習できている点が効いているのでは
実験結果:スコア比較
実験結果:学習曲線
限界と今後の展望 ● 限界 ○ ○ ● ある程度時間かけて訓練すれば DQN系の方が強い 行動が連続値の場合に用いることができない 今後の展望 ○ ○ 長期的な性能を犠牲にしなくても済むような方法の発見 3Dや実世界でのタスクなど、幅広いタスクへの適用と検証
まとめ ● ● ● ● 強化学習は進歩したけど、まだ人間と比べてできないことがたくさんある 人間とのギャップを埋めるのに、人間の学習システムからヒントを得ようというアプ ローチがある 実際に、人間のように学習に記憶を利用すると、強化学習も学習効率を高めること ができる場合がある 人間の学習システムから学ぶ余地はまだ残っており、今後も同様のアプローチから 新しい手法が生まれるかもしれない