[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions

861 Views

July 23, 18

#deep learning #Deep Learning #Generative Models #Glow #Convolution #Diederik P. Kingma #Prafulla Dhariwal

スライド概要

2018/07/20
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Glow: Generative Flow with Invertible 1⨯1 Convolutions Makoto Kawano, Keio Univ. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 2 タイトル：Glow: 著者：Diederik Generative Flow with Invertible 1x1 Convolutions P. Kingma, Prafulla Dhariwal OpenAI, San Francisco -> 投稿日：2018/7/9 選定理由：VAE・Adamの提案者であるD.P.Kingmaの論文 Flow-basedの生成モデルは読んだことがなかった • 一応NICE,realNVPも読んだので紹介します画像生成することを合成って呼びます ※某ars-pytorchで実装され始めてるのを見てやる気無くした ※間違ってたら指摘よろしくお願いします

概要厳密な潜在空間の推論および尤度評価が可能な可逆変換を持つ生成モデルを提案従来のRealNVPに1x1の畳み込みとactnormを導入高解像度で鮮明な画像生成が可能 3

はじめに機械学習分野における2つの課題データ効率性：人間のように少ないデータで学習が可能汎化：タスクかそのコンテクストの変化に強い生成モデルはこれらの課題に強い現実世界モデルを学習可能 • エージェントが実際に行動する前に世界の変化を予見できる入力の重要な特徴を学習可能 • 人間による教師やラベルがほぼなくても可能様々な中間アプリケーションに応用可能音声合成，テキスト分析，半教師あり学習，モデルベース制御？ 4

生成モデル多くの生成モデルは，尤度ベースかGANで提案されている GAN：大きく，realisticな画像の合成が可能潜在空間へのエンコーダがない最適化が難しい過剰適合なのか汎化なのか判断できない尤度ベース：3種類に分類可能自己回帰モデル：PixelCNN・PixelRNNなど変分オートエンコーダ (VAE) Flo w- based生成モデル（この論文） 5

自己回帰モデル RNNが一般的に使われる PixelRNN，Parallel wavenetなど Pros. 単純であること今まで生成したピクセルをもとに次のピクセルを合成 Cons. 合成の並列化ができないデータの次元に比例して合成するデータの長さが増える大きい画像や映像に対応するのが難しい 6

変分オートエンコーダ Variational Autoencoder, VAE 対数尤度の変分下界を最適化する Pros: 学習と生成を並列化できる Cons: 最適化が難しい（Kingma本人曰く） 7

Flow-based生成モデル厳密な潜在変数の推論と対数尤度評価が可能 VAE：データ点に対応する潜在変数のみを近似的に推論 GAN：エンコーダがないため，推論不可能効率の良い推論と合成が可能自己回帰モデル：逆関数化は可能だが，並列化はできない使いやすい潜在空間自己回帰モデル：隠れ層が不明な周辺分布であるため，データ操作が困難 GAN：データ点を直接潜在空間で表現できず，分布全てを網羅できないメモリ使用量を抑えられる Glowモデル：勾配計算に必要なメモリは層の深さに対して線形ではなく一定 8

変数変換（change of variables）生成モデルに対して，変数変換を適用する g：可逆変換な関数（全単射，bijective）最尤推定にも適用 9

10.

(Normalizing) flow｜NICE 10 関数fの分解：対数尤度 Non-linear Independent Components Estimation criterion NICE, realNVP, Glowいずれも尤度最大化によるfの最適化を行う fが可逆関数であるためには，ヤコビ行列式が存在するようにする

11.

ヤコビ行列式の計算 11 hiの次元数が大きいと，ヤコビ行列式の計算が大変ヤコビ行列＝対角行列や三角行列行列式の計算が対角成分の和になる多くの正方行列は，LU分解が可能｜ • P：置換行列，L：対角成分1の下三角行列，U：対角成分0の上三角行列，s：ベクトル

12.

General Coupling Layer General coupling layer 入力xをチャンネル方向で2つに分ける：x = [x1:d; xd+1:D]=[xI1; xI2] ニューラルネットワーク可逆可能写像この関数のヤコビ行列 12

13.

Coupling Layerの亜種 Additive 13 coupling layer： Volume preserving Affine coupling layer(realNVP, Glow) None- V olume Preservi ng

14.

複数のcoupling layer 単純にcoupling 14 layerを繰り返してもdimensionが変わらない並び替え(permutation)が必要 NICE, realNVP：チャンネルの順番を逆転させる Glow: 1x1畳み込み（入出力チャンネルは一緒） • 入力： • 重み：

15.

Actnorm realRVP：BatchNormalizationを使っているミニバッチ数に反比例して，ノイズバリアンスが増えて性能悪化入力画像が大きいと必然的にバッチサイズは1になってしまう Glow: Activation Normalizationを提案基本的にはBatchNormと一緒初期値が，データ依存初期化で決定される • 最初のミニバッチがactnorm後に平均ゼロ，分散1になるようにする初期化後は，パラメータが学習される 15

16.

1flowステップ Actnorm -> 1x1畳み込み -> affine coupling layer 16

17.

Multi-scaleアーキテクチャ 17 realNVPで提案された構造 Squeeze：2x2xc -> 1x1x4c K：Flowの繰返回数 L：階層 L=3

18.

定量的評価 GlowとrealNVPの比較ベンチマークデータセットをGlowに適用して，対数尤度比較 NN：畳み込み3つ，チャンネル512 Adam(lr: 0.001) 18

19.

定量的評価各Coupling layerにおける各並び替えの効果検証複数ベンチマークにおけるNLL比較 19

20.

定性的評価 20 CelebA-HQデータセットを使った顔合成 30000の高解像度(256x256)画像→K=32, L=6 ミニバッチサイズ：1 画像の色を忠実にするため，5-bit画像で学習（わからない）高品質画像合成のため，換算温度モデル？からサンプリング温度がTの時，からサンプル

21.

顔合成 21

22.

内挿 22

23.

セマンティックな合成 23

24.

温度変化 0, 0.25, 24 0.6, 0.7, 0.8, 0.9, 1.0

25.

まとめ 25 新しいFlow-based生成モデルGlowを提案可逆変換なモデルを構築複数のベンチマークにおいて対数尤度で性能を発揮尤度ベースモデルにおいて，最も効率的で高解像度な自然画像を合成 ※残りの合成画像は，論文を見てください ※某ars-pytorchで実装され始めてるのを見てやる気無くした

26.

!!!!!! 26