[DL輪読会]MogrifierLSTM (ICLR2020)

>100 Views

February 04, 20

#deep learning #Deep Learning #Mogrifier LSTM #ICLR2020 #Neural Networks #Language Modelling

スライド概要

2020/01/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Mogrifier LSTM (ICLR2020)” Naoki Nonaka http://deeplearning.jp/ 1

http://deeplearning.jp/

目次 • • • • • 2

書誌情報 • M / • c M , :B ,: • bM CC B :C D 0 L : :B K . : B:CG D B O : 2 a Rd PT U O 3

https://github.com/deepmind/lamb

背景 Recurrent netの汎化能力の向上に取り組んだ研究 Mogrifier （通常の）LSTM Mogrifier Mogrifier 提案手法: Mogrifier LSTM https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (一部改変) 4

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

提案手法: Mogrifier LSTM p一つ前の隠れ状態hprevと入力xに対して交互にゲートを適用 pr回繰り返した後，LSTMに入力する: pxおよびhprevは以下の更新式にしたがって交互に更新（iが奇数のとき）（iが偶数のとき） 5

実験: 2 p : O: S = p : = 単純に規模を拡大するだけでは汎化に関しての問題を解決できない小さなデータセットでの性能を評価（大きいデータセットでも実験は行う） 6

実験 pWord level language modelling n Penn Tree Bank (PTB) n Wikitext-2 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n Multilingual Wikipedia Corpus (MWC) Ø 英語 Ø フィンランド語 7

実験 pWord level language modelling n Penn Tree Bank (PTB) Ø 約1,000,000件のデータ Ø 10,000語彙 n Wikitext-2 Ø PTBの約2倍 Ø 語彙もPTBより多いともに「小さい」データセット 8

実験 pWord level language modelling p提案手法は，SOTA(AWD-LSTM / FRANGE)を上回るperplexity 9

10.

実験 pCharacter level language modelling n Enwiki-8 (Hutter Prize dataset) n 90,000,000文字で学習，10,000,000文字で評価 n Multilingual Wikipedia Corpus (MWC) n （詳細の記述はないが）Large settingの例 10

11.

実験 p 先行研究のLSTMを（LSTMで）大きく上回る p mLSTMとAWD-LSTMを上回る p Transformerとの比較：Dynamic evaluationでは同等 11

12.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 12

13.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task r = 4でPerplexityが最も低くなる（PTBデータセットにおける結果） 13

14.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task ゲートをZig-zag構造にすることでPerplexityが向上 14

15.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task Q = Qleft Qright R = Rleft Rright 提案手法では低ランク近似低ランク近似によりPerplexityがわずかに改善 15

16.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task mLSTM: LSTM入力前にxとhを掛け合わせる（提案手法と類似） mLSTMはLSTMと同程度 16

17.

分析 p rによる精度の変化を分析 p ゲート構造をzig-zagする効果 p 低ランク近似を行う影響 p mLSTMとの比較 p Reverse copy task 系列長が長くなってもCross entropyが低い -> 入力のembeddingの表現力がMogrifierにより増す 17

18.

分析 p M TR n ne n n , n v n xE n E QE i L L E m h i Egd h i xr Lh Eh h n n h TR Q L b S h i 18

19.

まとめ p T p S p e A O A A A h 19