108 Views
May 15, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
生成Deep Learning 5章後半 RNNの拡張、Pixel CNN 京都大学工学部情報学科3回 野村隆晃 0
アジェンダ ◼ 多重RNN ◼ Gated RNN ◼ Bidirectional RNN 1
1.1.1 多層RNN LSTMセルが多重に重なったアーキテクチャ 2
1.1.2 多重RNNの実装 LSTMの層を一つ増やすだけでいい! 3
1.2.1 Gated RNN LSTMセルの内部が変更 Gated LSTM Gated RNNの特徴 LSTMを簡略化したものになっている 1. Cell状態がない 2. ゲートの数が更新ゲートとリセットゲートの2つに減っ ている 通常のLSTM 4
1.3 Bidirectional LSTM 穴埋め問題などの場合は、その後ろの文章も使える! 5
アジェンダ ◼ マスク付き畳み込み層 ◼ 残差ブロック 6
2.1.1 マスク付き畳み込み層 左上から1pixelづつ予想していく! マスクについて、中央のピクセルを用いるかで2タイプに分かれる。 A: 中央のピクセルは0 B: 同上が1 7
2.1.2 マスク付き畳み込み層の実装 マスク付き畳混み層は意外と単純で、A,Bの2タイプに注意を払う 8
2.2 残差ブロック 恒等写像を入力とする層を追加する 9
2.3 Pixel CNN全体のアーキテクチャ 入力から 1. マスク付き畳み込み 2. 残差接続ブロック 3. マスク付き畳み込み 4. 畳み込み層 最後の畳み込み層(softmax関数の畳み込み層)で、出力はチャンネルの分類問題 10
2.4 本書での実験 訓練画像はFasion MNISTのモノクロを4レベルのみにしたもの 元論文では256個のフィルターだが、簡略化のため4色で学習している。 そのため、4種類しか色がない… 訓練画像 11
2.4 画像生成 生成コードからの重要そうな抜粋 Tempratureは温度 各pixelごと予測 12
混合分布を用いたPixel CNN 従来手法の問題点: ピクセル値の100と101の関係が未学習&畳み込み層のチャンネル数が大きい 混合ロジスティック分布からサンプリングすることで解決(図ではパラメータが14個) 13
学習曲線 ロジステック分布vsソフトマックス 14
混合ガウス分布 多様な値はとっている..? 15