GANの簡単な理解から正しい理解まで

1.4K Views

March 16, 23

#深層学習 #生成モデル #gan #GAN #敵対的生成ネットワーク #DCGAN #CGAN

スライド概要

学内勉強会で使用したGANについての資料。初心者向けの噛み砕いた説明、GANの色々な発展系、分かる人向けの少し難しい解釈をまとめた。

*slideshare（https://www.slideshare.net/ssuser4c06f8/gan-256527097）からの移植

Komiya

@misya11p

スライド一覧

主に深層学習に興味があります

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

混合ガウスモデルの理論と実装

機械学習混合ガウスモデル emアルゴリズム

Komiya 36.5K

GPT-1の論文を読もう

言語モデル gpt transformer

Komiya 11.7K

強化学習の基本と簡単な実装

強化学習機械学習

Komiya 3.6K

ライトモードvsダークモード～目にいいのはどっち？～

ライトモードダークモード外観モード

Komiya 2.8K

主成分分析

機械学習主成分分析次元削減

Komiya 2.5K

言語モデルの音楽生成への活用

深層学習音楽生成言語モデル transformer

Komiya 1.1K

各ページのテキスト

2023/3/15 DDoS2023春 GAN (敵対的⽣成ネットワーク) 武蔵野⼤学 DDoS(脱初⼼者データサイエンスオンラインセミナー) 2023春⼩宮和真 misya11p 武蔵野⼤学データサイエンス学部 2年 @ds33miya

2023/3/15 DDoS2023春⽬次 1. GANとは 2. GANの仕組み 3. GANの実装 4. ⾊々なGAN 5. GANの正しい理解 1

2023/3/15 DDoS2023春⽬次 1. GANとは 2. GANの仕組み簡略化した説明（ちょいちょい嘘が混じってる） 3. GANの実装 4. ⾊々なGAN 5. GANの正しい理解正しい説明 2

2023/3/15 DDoS2023春 1. GANとは 3

2023/3/15 DDoS2023春 1. GANとは GAN 敵対的⽣成ネットワーク1 (Generative Adversarial Networks) ⼆つのニューラルネットワークを敵対させて学習させる仕組み 1. I. J. Goodfellow, et al., “Generative Adversarial Nets”, NIPS, 2014. 4

2023/3/15 1. GANとは DDoS2023春 GANの発想 GANの発想を考える．なおこの発想は私が捏造したもので本来の背景とは異なるので注意．まずニューラルネットワークを考える．これは⼈間の脳の神経回路を模した機械学習モデル．入力出力 5

2023/3/15 DDoS2023春 1. GANとは GANの発想 NNは損失（正解との差）を⼩さくする様に学習を進める．しかし，正解として⼀つのデータを定められない場合が存在する．例）⽂章 → 画像ある⽂章表現に沿った画像を正解とする場合，正解が⼤量に存在する例）“かわいい猫” 6

2023/3/15 DDoS2023春 1. GANとは GANの発想 NNの評価指標が必ずしも損失である必要はないため，他の指標を考えるここで，⼈間の主観による評価を考える．NNの出⼒結果を⼈間が⾒て点数をつけるということ．これなら正解を⽤意する必要がない．しかし以下の様な問題が⽣じる • 微分ができない • 時間がかかる 7

2023/3/15 1. GANとは DDoS2023春 GANの発想うーん…⼈間の様にNNの出⼒を評価できて，評価結果を微分できるような都合のいいモデルとかないかなぁ… → NNがあるじゃんといった発想で，NNの評価を別のNNに任せる仕組みが⽣まれた．これがGAN．入力 NN 出力評価用 NN 評価 8

10.

2023/3/15 1. GANとは DDoS2023春 GAN GANは⽣成モデルを得るための⼿法として使われる⽣成モデルあるデータ集合の特徴を捉え，似たデータの⽣成が可能になったモデル生成モデル学習生成 9

11.

2023/3/15 1. GANとは DDoS2023春 GAN GANで学習させるNNへの⼊⼒は乱数とする．これはノイズと呼ぶ．ノイズ NN 出力「テキスト → 画像」の様に何らかの⼊⼒を考えたい場合，それは「条件」として⼊⼒とは異なる形で与える（詳細は4章） 10

12.

2023/3/15 1. GANとは DDoS2023春 GAN ⽣成したいデータの例を事前に集めておき，それを学習させることで，ノイズから似たデータを⽣成できる様になる 1. 学習フェーズ 2. 生成フェーズ NN ノイズ NN 11

13.

2023/3/15 DDoS2023春 2. GANの仕組み 12

14.

2023/3/15 2. GANの仕組み DDoS2023春 GANの仕組みまず⽤語を整理する • ⽣成器：ノイズからデータを⽣成するNN • 本物：⽣成したいデータ（予め集めておくデータ） • 偽物：⽣成器が⽣成したデータ • 識別器：データが偽物である確率を予測するNN ノイズ生成器偽物識別器確率 13

15.

2023/3/15 2. GANの仕組み DDoS2023春識別器の学習識別器：データが偽物である確率を予測するNN 本物に0，偽物に1のラベルを割り当てたデータで学習させる．偽物のデータは⽣成器から得る．ノイズ生成器偽物 =1 識別器本物 =0 学習 14

16.

2023/3/15 2. GANの仕組み DDoS2023春⽣成器の学習⽣成器：ノイズからデータを⽣成するNN 識別器が出⼒した確率を元に逆伝播を⾏うことで，識別器に偽物と判断されなくなるデータ=本物に近いデータを⽣成するための勾配を得る．それを元に勾配降下法でパラメータを更新する．逆伝播ノイズ生成器偽物識別器確率 15

17.

2023/3/15 2. GANの仕組み DDoS2023春敵対的学習⽣成器と識別器を交互に何回も学習させること識別器の学習→⽣成器の学習という2ステップで⽣成器の学習が完了しそうだが，これだと上⼿くいかない．初めに強い識別器を作ってしまうと良い勾配が得られない為，⽣成器と並⾏して学習させる必要がある．識別器の学習生成器の学習 16

18.

2023/3/15 DDoS2023春 3. GANの実装 17

19.

2023/3/15 DDoS2023春 3. GANの実装ノートブック参照 https://github.com/misya11p/GAN/blob/main/GAN_simple.ipynb 18

https://github.com/misya11p/GAN/blob/main/GAN_simple.ipynb

20.

2023/3/15 DDoS2023春 4. ⾊々なGAN 19

21.

2023/3/15 DDoS2023春 4. ⾊々なGAN ⾊々なGAN GANの発展系は⼤量に存在するここに⾊々まとまっている： https://github.com/hindupuravinash/the-gan-zoo 2018時点で500以上のGANが提案されている主要なものをいくつか紹介する 20

https://github.com/hindupuravinash/the-gan-zoo

22.

2023/3/15 DDoS2023春 4. ⾊々なGAN DCGAN1 Deep Convolutional GAN 畳み込み層を⽤いたGAN．それだけ．「普通のGAN」がDCGANも含めることもある．畳み込みを使わないGANに⽐べて画像が綺麗になる．識別器には普通の畳み込み層，⽣成器には転置畳み込み層というものを⽤いる． 1. A. Redford, et al., “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”, ICLR, 2016. 21

23.

2023/3/15 DDoS2023春 4. ⾊々なGAN CGAN1 Conditional GAN 条件付きGAN．⽣成するデータに制限をかける．例）任意の数字の⼿書き画像⽣成普通のGANと異なる点が3つ存在する 1. M. Mirza, et al., “Conditional Generative Adversarial Nets”, arXiv: 1411.1784, 2014. 22

24.

2023/3/15 4. ⾊々なGAN DDoS2023春 CGAN 1. ⽣成器と識別器が条件を考慮できる様にする条件はone-hotベクトルとか⽂章ベクトルとかが考えられる．このベクトルを⽣成器・識別器のどこかから⼊⼒できる様にする．ノイズ生成器データ条件 23

25.

2023/3/15 4. ⾊々なGAN DDoS2023春 CGAN 2. 学習データに適切な条件を割り当てておく例） 5 ↓ 0 ↓ 4 ↓ 1 ↓ 9 ↓ 2 ↓ 24

26.

2023/3/15 DDoS2023春 4. ⾊々なGAN CGAN 3. 識別器が「本物で且つ条件が正しい場合」を識別できる様にする（学習時に）識別器に与えるデータと条件の組として以下を考える 1. 本物 & 正しい条件 2. 本物 & 間違った条件 3. 偽物 & （⽣成時に）⽣成器に与えた条件識別器は，1かそれ以外かを識別できる様に学習する．こうすることで，⽣成器が条件に沿ったデータを⽣成する様になる． 25

27.

2023/3/15 DDoS2023春 4. ⾊々なGAN pix2pix1 CGANの条件を画像にしたもの．ただノイズを⼊⼒しないのでただの画像変換モデルという感じ（⼀応ドロップアウトでランダム性は持たせているらしい）．変換前と変換後の画像のペアを学習させることで以下の様な画像変換が⾏える．デモが試せるサイト： https://affinelayer.com/pixsrv/ 1. P. Isola, et al., “Image-to-Image Translation with Conditional Adversarial Nets”, CVPR, 2017 26

https://affinelayer.com/pixsrv/

28.

2023/3/15 DDoS2023春 4. ⾊々なGAN CycleGAN1 「あるドメイン（ある特徴を持ったデータ集合）から別のドメインへの変換を⾏うモデル」を得るための⼿法．画像のスタイル変換などが可能になる． 1. J. Y. Zhu, et al., “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”, ICCV, 2017. 27

29.

2023/3/15 4. ⾊々なGAN DDoS2023春 CycleGAN pix2pixとは違い，画像のペアを⽤意しなくていい．これが⼤きな利点．以下の4つを定義する．また扱う⼆つのドメインをドメインA, ドメインBとする． • ドメインAからドメインBへの変換を⾏うモデル • ドメインBからドメインAへの変換を⾏うモデル生成器 • データがドメインAに属するかを判定するモデル • データがドメインBに属するかを判定するモデル識別器 28

30.

2023/3/15 4. ⾊々なGAN DDoS2023春 CycleGAN ⼆つの⽣成器は以下の2種類の損失を元に学習を進める敵対的損失：変換後のデータを対象の識別器に⼊れた時の出⼒値サイクル⼀貫性損失：「変換後のデータをもう⽚⽅の⽣成器に⼊れた時のデータ」と「変換前のデータ」の差⽣成器（A→B）の学習の場合データ（A）生成器（A→B）サイクル一貫性損失偽物偽物識別器（B）敵対的損失生成器（B→A） 29

31.

2023/3/15 DDoS2023春 4. ⾊々なGAN StackGAN1 ⽂章から画像を⽣成するモデル．⽂章ベクトルを条件としたCGAN．⽣成器はまず⼩さめの画像を⽣成し，それを元に本来のサイズの画像を⽣成する．学習時は，その⼆つのサイズの画像を別々の識別器に⼊れて敵対的損失を求める． 1. H. Zhang, et al., “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”, ICCV, 2017 30

32.

2023/3/15 DDoS2023春 4. ⾊々なGAN StackGAN ⽣成例入力テキスト小さめの画像 64x64 完成した画像 256x256 31

33.

2023/3/15 4. ⾊々なGAN DDoS2023春 MelGAN1 ⾳響特徴量（スペクトログラム）を⼊⼒して⾳声を⽣成するGAN ⽣成器の構成→ ⾳声合成（text-to-speech）のタスクでは，⼀度スペクトログラムを⽣成し，それを元に⾳声波形を⽣成するといった⼿法をとることが多い．MelGANはそこで使える．⽣成結果： https://melgan-neurips.github.io/ 1. K. Kumar, et al., “MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis”, NIPS, 2019. 32

https://melgan-neurips.github.io/

34.

2023/3/15 DDoS2023春 5. GANの正しい理解 33

35.

2023/3/15 DDoS2023春 5. GANの正しい理解 GANの正しい理解 1~3章は「簡単な理解」を⽬標に書いたため，正しい解釈とは異なる部分が存在する．本章ではGANを正しく理解する．なお，この「正しい理解」は，「論⽂に沿った理解」を指す 34

36.

2023/3/15 DDoS2023春 5. GANの正しい理解 Generative Adversarial Nets 2014年にNIPSで発表された論⽂1．GANの原論⽂．この論⽂は，「⽣成モデルを得るための⼿法」として敵対的⽣成ネットワークを提案している 1. I. J. Goodfellow, et al., “Generative Adversarial Nets”, NIPS, 2014. 35

37.

2023/3/15 5. GANの正しい理解 DDoS2023春⽣成モデルデータの分布を捉えたモデルここで，あるデータ集合と，そのデータを表せるデータ空間を考える．無限に広がるデータ空間内に，データが存在する範囲は限られている．例えば28×28=784次元のベクトルで表せる画像を考えた時，MNISTの様な⼿書き数字と呼べるデータ（ベクトル）は，784次元空間の中の限られた範囲にしか存在しないよねという話． ℝ!"# (784次元空間) 36

38.

2023/3/15 DDoS2023春 5. GANの正しい理解⽣成モデル⽣成モデルの⽬的は，このデータが存在する範囲=分布を捉えることである分布が得られれば，その分布からサンプリングを⾏うことで，元のデータと同じ特徴を持ったデータが得られる 37

39.

2023/3/15 DDoS2023春 5. GANの正しい理解分布の推定データから分布を求める⼿法やアルゴリズムは⾊々と存在する • 最尤推定 • EMアルゴリズム • ベイズ推定 • MCMC法 • 変分推論ただ画像や⾳声といったデータは⾼次元で且つ複雑であるため，これらの⼿法が素直に適応できない場⾯が多い 38

40.

2023/3/15 DDoS2023春 5. GANの正しい理解潜在変数あるデータの裏に潜む，そのデータの特徴を表す変数例えば⼿書き数字の画像だったら，「数字（0~9）」と「書体」という⼆つの潜在変数を仮定できる「現実世界で観測できる画像や⾳声などのデータは，潜在変数からなる低次元のベクトルで表せる」という仮説を多様体仮説と呼ぶことがある潜在変数を考えることで，分布の推定がやりやすくなる 39

41.

2023/3/15 5. GANの正しい理解 DDoS2023春 GANの発想まず，あるデータ𝑥に，何らかの分布に従う潜在変数𝑧が存在すると仮定する．次に，データ𝑥の⽣成モデルとして，潜在変数𝑧からデータ𝑥への写像関数を考える．この写像関数をニューラルネットワーク𝐺(𝑧)と置いたものがGANで，これがGANの⼀つの発想である．また𝐺は⽣成器と呼ぶ． 𝑧 𝐺(𝑧) 𝑥 潜在変数生成器データ 40

42.

2023/3/15 DDoS2023春 5. GANの正しい理解 GANの発想 𝐺(𝑧)は，𝐺(𝑧)から得られるデータ𝑥の分布を暗黙的に定義している → 具体的な分布はないけど𝑥は何らかの分布に従うよね，という感じここで以下の様に定義する • 𝐺(𝑧) から得られる𝑥の分布：𝑝! • 𝑥の真の分布（推定したい分布）： 𝑝"#$# すると， 𝑝! = 𝑝"#$# となる𝐺を求めることがGANの⽬的となる 41

43.

2023/3/15 DDoS2023春 5. GANの正しい理解 GANの発想 𝑝! = 𝑝"#$# が唯⼀の最適解となる⽬的関数として，以下の関数を考える 𝑉 𝐺, 𝐷 = 𝔼!∼#!"#" log 𝐷 𝑥 + 𝔼!∼#$ log(1 − 𝐷 𝑥 ) ここで， 𝐷 は 𝑥 が真の分布 𝑝"#$# から得られた確率を出⼒するNN．識別器と呼ぶ．まず𝐺を固定した状態で𝑉(𝐺, 𝐷)を最⼤にする𝐷を求める．そしてそれを𝐷 ∗ とするとき， C G = 𝑉(𝐺, 𝐷 ∗ )は𝑝! = 𝑝"#$# （となるような𝐺）で唯⼀の最適解（最⼩値） −log 4をとる． 42

44.

2023/3/15 5. GANの正しい理解 DDoS2023春 GANの発想ざっくりと証明する．詳しく⾒たかったら論⽂へ． 𝐷の最適解（ 𝑉(𝐺, 𝐷)を最⼤にする𝐷）は𝐷 ∗ = 代⼊して⾊々いじると以下の様になる． &!"#" である．これを𝑉(𝐺, 𝐷)に &!"#" '&$ 𝑉 𝐺, 𝐷 ∗ = − log 4 + 2 ⋅ 𝐽𝑆[𝑝"#$# ||𝑝! ] 𝐽𝑆はJSダイバージェンス（jensen-shannon divergence）といい，⼆つの確率分布の距離を表す．常に⾮負の値をとり，⼆つの確率分布が等しい場合にのみ0 をとる．よって𝑉(𝐺, 𝐷)は𝑝! = 𝑝"#$# すなわち⽣成器𝐺が真の分布を完全に再現している場合にのみ最適解となる．証明オワリ． 43

45.

2023/3/15 5. GANの正しい理解 DDoS2023春アルゴリズム先程の発想に従ってアルゴリズムを組むとステップ1. ステップ2. 𝐺を固定し，𝑉(𝐺, 𝐷)を𝐷で最適化（最⼤化） 𝐷を固定し，𝑉(𝐺, 𝐷)を𝐺で最適化（最⼩化）となる．しかし実際のところ，ステップ1で 𝐷 を最適化することは不可能であり， 𝐷が最適化されていないとステップ2も成り⽴たない．そこで，1・2を繰り返すことで𝑝! を𝑝"#$# に近づける（これが成り⽴つ証明も論⽂にあるが，理解できなかった）． 44

46.

2023/3/15 5. GANの正しい理解 DDoS2023春アルゴリズム各ステップでは𝑉(𝐺, 𝐷)の勾配を求めて勾配法で𝐺, 𝐷を更新するバッチサイズ： m，ノイズ：𝑧 = 𝑧(, 𝑧), ⋯ , 𝑧* ，データ：𝑥 = 𝑥(, 𝑥), ⋯ , 𝑥* ステップ1. 勾配上昇法で𝐷を更新 1 ∇" ?[log 𝐷 𝑥+ + log(1 − 𝐷(𝐺(𝑧+ )))] 𝑚 * ステップ2. 勾配降下法で𝐺を更新 1 ∇! ? log(1 − 𝐷(𝐺(𝑧+ ))) 𝑚 * 45

47.

DDoS2023春オワリおつ