778 Views
June 30, 17
スライド概要
2017/6/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
2017/6/30輪読会 工学部システム創成学科 4年 松嶋 達也 1
Learning binary or real-valued time-series via spike-timing dependent plasticity 2
書誌情報 Learning binary or real-valued time-series via spike-timing dependent plasticity 著者: T. Osogami (IBM Reserch Tokyo) ・NIPS 2016 workshop https://arxiv.org/abs/1612.04897 3
概要 筆者らが提案していた,スパイクタイミング依存 可塑性(STDP)を持つボルツマンマシンを改良 ・時系列のロジスティック回帰 ・時系列の実数値多変量自己回帰モデル を提案 4
筆者らが提案していたモデル Dynamic Bolzmann Machine ・Nature系列Scientific Reportsで発表 Seven neurons memorizing sequences of alphabetical images via spike-timing dependent plasticity (T. Osogami and M. Otsuka, 2015) https://www.nature.com/articles/srep14149 ・2015/10/8の輪読会(鈴木さん) http://deeplearning.jp/wp-content/uploads/2015/10/DL_hacks_20151011. pdf 5
(再)Hebb則 「ニューロンAの発火がニューロンBを発火させ ると2つのニューロンの結合が強まる」 ・カナダの心理学者Hebbが唱えた仮説(1949) ・パーセプトロン・BMの学習則と考えられる https://bsd.neuroinf.jp/wiki/%E3%83%98%E3%83%96%E5%89%87 6
(再)ボルツマンマシン ・複数のユニット(ノード)が 向きを持たない結合によって結びついたグラフ(無向グラフ) ・ユニットは0 or 1の状態を確率的にとる 1 0 1 1 0 7
(再)ボルツマンマシン エネルギー関数 ボルツマン分布 http://aidiary.hatenablog.com/entry/20160311/1457700220 8
(再)STDP ・スパイクタイミング依存可塑性 ・発火の順番によって重みが強まるor弱まる LDP LTP The Synaptic Organization of the Brain, Ed: Gordon M. Shepherd, Oxford University Press (2003) 9
(再)Dynamic Boltzmann Machine 通常のBMとの違いは, 伝導遅延とメモリユニットのモデル化 伝導遅延 (conduction delay) ・過去の発火が軸索を通して伝わる(FIFO) メモリユニット (eligibility trace) ・各ニューロンとニューロン間に存在 10
(再)Dynamic Boltzmann Machine synaptic eligibility trace neural eligibility trace 伝導遅延 11
(再)Dynamic Boltzmann Machine 学習パラメータ ・各ニューロンのバイアス ・LTPの重み ・LTDの重み 12
(再)Dynamic Boltzmann Machine 時間tのニューロンjのエネルギー関数 ・1項目はバイアス ・2項目はLTP 但し, synaptic eligibility trace 13
(再)Dynamic Boltzmann Machine 時間tのニューロンjのエネルギー関数 ・3項目はLTD 但し, キュー neural eligibility trace 14
(再)Dynamic Boltzmann Machine 確率分布 これから全ニューロンの確率を計算 対数尤度をとってSGAで最適化 15
(再)Dynamic Boltzmann Machine パラメータの更新則 16
(再)Dynamic Boltzmann Machine 実験 シークエンスを学習 17
DyBMでロジスティック回帰 ・LTDのエネルギーを変更 →キューの順番に関する仮定を緩和 (入ってくるキューの減衰μを取り除く) つまり, の μの指数乗の項を取り除く ・行列計算できるようになる 18
DyBMでロジスティック回帰 とおくと, エネルギーは 発火確率は, となり,t-1までの情報とαを説明変数とするロ ジットモデルの一種であると示せた. 19
Gaussian DyBM ・DyBMで実数値の予測をしたい ・時刻tにおけるニューロンjがxj[t]を取る確率が ガウス分布に従うと仮定 同様に全ニューロンの確率を計算し, 対数尤度をとってSGAで最適化 20
Gaussian DyBM パラメータの更新則 21
実験 ノイズ入り正弦波の値をオンライン学習 ・ノイズはガウス分布(分散1) ・neural eligibility traceの減衰率μと 伝導遅延の数dを変更 ・独立に100試行 ・MSEで評価 (なので一番良くて期待値は1) 22
実験結果 ・eligibility traceを考慮するとき 最大20%誤差が減少した d=1でも比較的精度がよい ・dを増やすと実行時間は線形に増加 23
結論 ・DyBMは過去の発火パターンを利用したロジス ティック回帰とみなせる ・Gaussian DyBMで実数値の回帰ができた →eligibility traceを説明変数にしたVAR ・非線形の隠れ層を持つように拡張できるかも しれない(次の論文) 24
Nonlinear Dynamic Boltzmann Machines for Time-Series Prediction 25
書誌情報 Nonlinear Dynamic Boltzmann Machines for Time-Series Prediction 著者: S. Dasgupta and T. Osogami ・AAAI 2017 https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14350 26
概要 ・Gaussian DyBMの提案 (ここでは説明を省略) ・RNN-Gaussian DyBMの提案 ・Gaussian DyBMのバイアスをRNNで学習 ・非線形の隠れ層の役割をする 27
RNN-Gaussian DyBM Gaussian DyBMのバイアスをRNNで学習 28
RNN-Gaussian DyBM Gaussian DyBMと同様に,全てのニューロンの 確率を計算し,対数尤度をとってSGAで最適化 29
実験① ノイズ入り正弦波の値をオンライン学習 ・N=5, M=10 ・ノイズはガウス分布(分散1) ・独立に100試行 ・MSEで評価(一番良くて期待値は1) 30
実験①結果 eligibility traceを考慮したとき, 誤差が30%以上軽減した 31
実験② NARMA 30th order nonliner autoregressive moveing average ・N=1, M=5 ・uは平均0, 分散0.5のガウス分布 ・独立に100試行 ・MSEで評価 32
実験②結果 eligibility traceが有効なとき, μの変化に対してロバストに誤差が小さかった 33
実験③④ 実データに対して実験 (ともに20epoch) ③ガソリンとディーゼル燃料の価格予測 ・N=8, M=20 ・1223stepをtrain:test=2:1に分割 ④黒点数の予測 ・N=1, M=50 ・2080stepをtrain:test=2:1に分割 34
実験③結果 ・eligibility traceが有効なとき, 約30%以上精度が高い ・d=3のときは, Gaussian DyDMより21%精度が高い ・μが大きいと過学習 35
実験④結果 ・d=3のときGaussian DyBMは RNN-Gaussian DyBMより40%精度が低い →データ固有の非線形性によるものか ・LSTM(隠れ層50)のほうが僅かに精度が高い 36
実験④結果 ・1エポックの実行時間は, RNN-Gaussian DyBMがLSTMより16倍早い 37
結論 ・Gaussian DyBMは多変量自己回帰モデルの拡張 ・時系列の固有の非線形性をモデル化するために RNN-Gaussian DyBMが有効 ・LSTMより計算コストの面で優れる ・逆伝播が必要なモデルとは異なり, RNN-Gaussian DyBMはパラメータを分散して 計算できる →ロバストで計算コストの低い 高次元の時系列予測ができる 38
感想 ・神経科学の知見を取り入れたモデル →個人的には興味があり,研究に応用したい ・RNNを使ったらそれは時系列を学習できる感 ・式が多くて大変 ・面白いモデルだと思うので実装したい 39