>100 Views
February 04, 20
スライド概要
2020/01/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Mogrifier LSTM (ICLR2020)” Naoki Nonaka http://deeplearning.jp/ 1
目次 • • • • • 2
書誌情報 • M / • c M , :B ,: • bM CC B :C D 0 L : :B K . : B:CG D B O : 2 a Rd PT U O 3
背景 Recurrent netの汎化能力の向上に取り組んだ研究 Mogrifier (通常の)LSTM Mogrifier Mogrifier 提案手法: Mogrifier LSTM https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変) 4
提案手法: Mogrifier LSTM p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用 pr回繰り返した後,LSTMに入力する: pxおよびhprevは以下の更新式にしたがって交互に更新 (iが奇数のとき) (iが偶数のとき) 5
実験: 2 p : O: S = p : = 単純に規模を拡大するだけでは汎化に関しての問題を解決できない 小さなデータセットでの性能を評価 (大きいデータセットでも実験は行う) 6
実験 pWord level language modelling n Penn Tree Bank (PTB) n Wikitext-2 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n Multilingual Wikipedia Corpus (MWC) Ø 英語 Ø フィンランド語 7
実験 pWord level language modelling n Penn Tree Bank (PTB) Ø 約1,000,000件のデータ Ø 10,000語彙 n Wikitext-2 Ø PTBの約2倍 Ø 語彙もPTBより多い ともに「小さい」データセット 8
実験 pWord level language modelling p提案手法は,SOTA(AWD-LSTM / FRANGE)を上回るperplexity 9
実験 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n 90,000,000文字で学習,10,000,000文字で評価 n Multilingual Wikipedia Corpus (MWC) n (詳細の記述はないが)Large settingの例 10
実験 p 先行研究のLSTMを(LSTMで)大きく上回る p mLSTMとAWD-LSTMを上回る p Transformerとの比較:Dynamic evaluationでは同等 11
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 12
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task r = 4でPerplexityが最も低くなる(PTBデータセットにおける結果) 13
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task ゲートをZig-zag構造にすることでPerplexityが向上 14
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task Q = Qleft Qright R = Rleft Rright 提案手法では低ランク近似 低ランク近似によりPerplexityがわずかに改善 15
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task mLSTM: LSTM入力前にxとhを掛け合わせる(提案手法と類似) mLSTMはLSTMと同程度 16
分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 系列長が長くなってもCross entropyが低い -> 入力のembeddingの表現力がMogrifierにより増す 17
分析 p M TR n ne n n , n v n xE n E QE i L L E m h i Egd h i xr Lh Eh h n n h TR Q L b S h i 18
まとめ p T p S p e A O A A A h 19