[DL輪読会]Understanding and Controlling Memory in Recurrent Neural Networks (ICML2019)

>100 Views

August 08, 19

スライド概要

2019/07/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Understanding and Controlling Memory in Recurrent Neural Networks (ICML2019)” Naoki Nonaka http://deeplearning.jp/ 1

2.

目次 •  •  •      •  •   2

3.

書誌情報 • OR���������� • ��������������������������������������� ����� �������������������������������� ������������������  3

4.

背景 RNNの隠れ状態とメモリの関係 明らかでない点 n 動的な観測値が精度にどのように影響するか n メモリがどのように形成されるか n メモリを操作できるのか => 分析用のタスクを用いて,隠れ状態とメモリの関係を分析  4

5.

分析用タスク概要 タスク:ノイズと画像が含まれる系列データから任意のタイミングでクラスラベルを出力する 時刻taおよびts n ts: 指定の画像を入れる n ta: 入力された画像に対応するクラスラベルを出力する n ts, ta ~ U[1, Tmax] s.t. ta ‒ ts > 4の制約 入力(画像とトリガーのペア) n ts(画像, off) n ta(ノイズ, on) n その他(ノイズ, off)  5

6.

学習手順 そのままでは学習がうまくいかない => カリキュラム学習(簡単な問題から始め徐々に難しく) VoCu Vocabulary curriculum クラス数を2から始め,徐々に増やす  DeCu Delay curriculum Delayを徐々に増やす 6

7.

分析 Delayを大きくした場合の挙動の観察 Hidden stateの変化の観察 Slow pointと精度の関係 (Slow pointを考慮した)長期記憶の改善  7

8.

Delay増大 仮説 - 記憶が頑健 (= 固定の点が存在) => 精度は落ちず - 記憶が一時的 => Delayの増大とともに精度低下 1. Delayを大きくすると精度は低下 2. Delayが大でもランダムより良い精度 3. 精度は常に DeCu > VoCu a Delayを大きくしても,ランダムより精度が高いこと => (少なくとも一部では)入力に対応する頑健な点が存在するはず  8

9.

分析 Delayを大きくした場合の挙動の観察 入力に対応する頑健な点の存在を示唆 Hidden stateの変化の観察 Slow pointと精度の関係 (Slow pointを考慮した)長期記憶の改善  9

10.

Hidden stateの変化の観察 (主成分分析で)ネットワークの活性を可視化 ΔT = 20 p クラスごとにある程度まとまっている DeCu ΔT = 1000 p クラスごとに1点に収束している VoCu p 点の分散は VoCu > DeCu 可視化された点を定量的に評価  10

11.

Slow point Speed:現在の隠れ状態と次の時刻の隠れ状態の差の2乗ノルム n ξ:GRUまたはLSTMの隠れ状態 n F(ξ, I):入力Iを受け取ったときに計算される次の時刻における隠れ状態 Slow point: SpeedのLocal minimum  11

12.

分析 Delayを大きくした場合の挙動の観察 入力に対応する頑健な点の存在を示唆 Hidden stateの変化の観察 Slow pointの導出(Speedのlocal minimum) Slow pointと精度の関係 (Slow pointを考慮した)長期記憶の改善  12

13.

Slow pointと精度の関係 1. クラス毎のSlow pointを算出 2. Speedと予測精度をPlot Speedが小さいほど,予測精度が高い  13

14.

分析 Delayを大きくした場合の挙動の観察 入力に対応する頑健な点の存在を示唆 Hidden stateの変化の観察 クラスごとに対応する点が存在 Slow pointと精度の関係 Speedが小さいほど,精度が良い (Slow pointを考慮した)長期記憶の改善  14

15.

Slow point 学習過程とSpeedの変遷 n VoCu: 新しいクラスが追加されるとspeedが大きく変化 n DeCu: 徐々にspeedが遅くなる => DeCuでは徐々にspeedが遅くなる = DeCuの方が良い結果となる  15

16.

Slow point n [8]を追加すると,[5]のslow pointから派生(Figure 5C) n [8]の導入により、5の分類精度が悪化する(Figure 5D) n クラスラベル[5]の精度低下が有意であることを確認(Figure 5E)  16

17.

分析 Delayを大きくした場合の挙動の観察 入力に対応する頑健な点の存在を示唆 Hidden stateの変化の観察 クラスごとに対応する点が存在 Slow pointと精度の関係 Speedが小さいほど,精度が良い (Slow pointを考慮した)長期記憶の改善  17

18.

(slow pointを考慮した)長期記憶の改善 n ここまでの知見を学習に活かすことを考える n 学習時よりも長いdelayでも対応できるメモリを獲得できるか => 隠れ状態のspeedを制約として導入した損失関数を用いて追加的に学習 Lxent: 通常のクロスエントロピー誤差  18

19.

(slow pointを考慮した)長期記憶の改善 Bar(ξ)としては、各クラスに対応するslow pointが理想的 => 制約項の導入で精度の悪化が劇的に抑えられる slow pointの使用はコストが大きい Þ 質量の中心を用いる Þ 精度悪化の抑制は有効  19

20.

分析 Delayを大きくした場合の挙動の観察 入力に対応する頑健な点の存在を示唆 Hidden stateの変化の観察 クラスごとに対応する点が存在 Slow pointと精度の関係 Speedが小さいほど,精度が良い (Slow pointを考慮した)長期記憶の改善 制約項の導入で精度改善  20

21.
[beta]
まとめ
n;35#=   6+
&
n   6+%2! ,98'%2
1.
n 0:*(<4$")/>7



21