[DL輪読会]Energy-based generative adversarial networks

>100 Views

October 30, 17

#deep learning #Deep Learning #EBGAN #GAN #Japan #Machine Learning

スライド概要

2017/10/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.8K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Energy-based generative adversarial networks” (ICLR2017)” Haruka Murakami, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • Junbo Zhao, Michael Mathieu and Yann LeCun • Department of Computer Science, New York University Facebook Artificial Intelligence Research • Published as a conference paper at ICLR 2017 • Citation: 118 • GANのバリエーションかつEnergy-based model(LeCun 2006)の進歩版 • “A Tutorial on Energy-based learning(59ページ！)↑”と”SemiSupervised Learning with Ladder Networks”を理解しないと分からない 2

• Discriminator → energy function high energy • Generator → low energy • Energy-based model(LeCun 2006) • 一つのエネルギースカラーに写像する関数を見つける • 正解→低エネルギー、誤り→高エネルギー • 教師なし学習は低エネルギーになりがち 3

論文概要 • EBGAN（エネルギーベースのGAN) • GANの目的関数を変えたもの • 識別器をエネルギー関数と見なす • 確率的GANと同様、生成器はエネルギーが最小となるサンプルを生成するように訓練されていると見なされ、識別器は、生成されたサンプルに高エネルギーを割り当てるように訓練される。 • 識別器をエネルギー関数と見なすことで、ロジスティック出力を備えた通常のバイナリ分類器に加えて、多種多様なアーキテクチャと損失関数を使うことができる。 • オートエンコーダを構成したEBGANは学習中に通常のGANよりも安定した動作を示した • 高解像度の画像を生成するために、単一スケールアーキテクチャを訓練できる可能性 4

Energy-based modelとは • LeCunが2006年に発表 • 入力のそれぞれをエネルギーと呼ばれる１つのスカラーに写像する関数を組み上げる • →変数間の依存関係を取得できる • 目的のもの（観測された変数）が得られたら低エネルギー、それ以外の時（観測されていない変数）には高エネルギーとなるようなエネルギー面を形成する • 教師あり学習では(X:入力,Y:ラベル)としてYが正解ラベルの場合、教師なし学習ではデータ多様体に低エネルギーが割り当てられる • 適切な正規化をする必要がないため、確率的アプローチよりも柔軟な設計ができる • “contrastive sample”という用語はエネルギープルアップを引き起こしている点の参照として使われている 5

EBGAN概要 • 識別器を明確な確率解釈なしでエネルギー関数と見なす • エネルギー関数は生成器のための訓練可能な目的関数として見られる • データ密度が高い領域には低エネルギー値を、それ以外には高エネルギーを割り当てる • →生成器は低エネルギーが割り当てられた領域にサンプルを生成する関数と見なせる • EBGANに正規化を行わなければ識別器の構造と訓練手順の選択肢が広まる • 識別器がオートエンコーダーの構造を持ち、エネルギーが再構成誤差であるとして概念を実験的に実証 6

EBGANの貢献 • GANをエネルギーベースにした際の定式化 • 単純なヒンジ損失の下で、システムが収束に達すると、EBGANの生成器は、基礎となるデータ分布に従うポイントを生成することを証明。 • エネルギーが再構成誤差であるオートエンコーダアーキテクチャを使用する識別器を備えたEBGANフレームワーク。 • EBGANと確率的GAN両方で良い結果を出すハイパーパラメータとアーキテクチャの探索実験を行なったこと • マルチスケールを使わずに256×256ピクセルのImageNetデータセットからそれっぽい高解像画像を生成した 7

GAN(Goodfellow et al.(2014))について • 識別器は生成器が生み出した偽のサンプルを本物と見分けるように訓練され、生成器はランダム値を用いて識別器に見破られないようにサンプルを生成する • 識別器は D(x)=1（D(G(z))=0）となるように学習する（x～pdata(x)） • 生成器は D(G(z))=1となるように学習する (z~pz) • 生成器は識別器の出力の勾配を受け取る • 生成器の作製した分布が実データの分布に一致すると収束（ナッシュへい均衡） pdata: データセットを形成する確率分布 pz: 事前分布（ガウス分布など） 8

EBGANのモデリング • 実データ→低エネルギー、生成データ→高エネルギーとするために • 目的関数を以下で定義する LGの最小化と同義 G(z): 生成されたサンプル、pG: G(z)の密度分布 (z~pz) • と定義したとき、 • Vを最小化させるためにDを訓練し、 • Uを最小化させるためにGを訓練する 9

10.

EBGANの目的関数 • Vを最小化させるためには • pdataがpGと一致する必要がある • （通常のGANではpzが一致） 10

11.

オートエンコーダーを利用オートエンコーダー識別器を使ったEBGAN • ゼロエネルギーを空間全体に渡って配分しやすい • 従来は潜在表現を正則化することによって対処（Vincent 2010など） • →オートエンコーダの再構成力を制限 • 本論文では生成器がcontrastive samplesを吐くことによって識別器は正規化されているものと考えることにより、より柔軟なモデル選択を可能にする • 1)正規化器である生成器が訓練可能 2)対照サンプル生成とエネルギー関数の学習に相互作用を持たせる 11

12.

小技：Repelling Regularizer • pdataの外れ値をはじく • Pulling-away Term(PT) S: エンコーダの出力層から取られたサンプル表現のバッチ • 生成器の損失では利用されるが、識別器損失では使わない • 以降、これを利用したEBGANをEBGAN-PTとする 12

13.

実験：MNISTでの徹底的なグリッドサーチ • MNISTで学習の安定性を測る • グリッドサーチ：ハイパーパラメータの探索空間を格子状に区切り、交点の全組み合わせを調べる方法。ハイパーパラメータの全組み合わせでモデルを作り、最も良いものを選択する。性能評価はinception score↓（Salimans et al. 2016） I’ =ExKL(p(y)||p(y|x))2 x: 生成されたサンプル、y:MNIST分類器に予測されたラベル 13

14.

MNIST結果 • EBGANの方がinception scoreが高い分布にある EBGANとGANの比較 nLayer<=4で制限された場合 nLayer<=3で制限された場合 14

15.

MNIST結果詳細 optimD-adam _optimG-adam optimD-sgd _optimG-adam optimD-adam _optimG-sgd optimD-sgd _optimG-sgd Ir1.00e-02 Ir1.00e-03 Ir1.00e-04 15

16.

半教師あり学習MNISTでの性能評価 • 順列不動のMNISTで100,200,1000ラベルを用いて半教師あり学習 GANの最良モデル EBGANの最良モデル nLayerG=5, nLayerD=2, sizeG=1600, nLayerG=5, nLayerD=2, sizeG=800, sizeD=1024, dropoutD=0, sizeD=1024, dropoutD=0, optimD=ADAM, optimD=SGD, optimG=SGD, lr=0.01. optimG=ADAM, lr=0.001, margin=10. EBGAN-PTの最良モデル左に同じ＋ with P T = 0.1. • mの値を徐々に減衰させるのが肝 • pGがデータ多様体に近づいた時に識別器にペナルティを与える 16

17.

LSUNとCelebAでの生成結果 LSUN 左：DCGAN 右：EBGAN-PT CelebA 17

18.

EBGAN-PTでのImageNetからの生成結果 128×128 256×256 18