[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Networks

215 Views

April 17, 18

#deep learning #Deep Learning #GAN #VAE #Alpha-GAN #Machine Learning

スライド概要

2018/04/16
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL HACKS] Variational Approaches For Auto-Encoding Generative Adversarial Networks Shintaro Murakami, Dentsu Inc.

書誌情報論⽂名 Variational Approaches For Auto-Encoding Generative Adversarial Networks. 著者 Mihaela Rosca, Balaji Lakshminarayanan, David Warde-Farley, Shakir Mohamed (DeepMind社) 論⽂URL https://arxiv.org/pdf/1706.04987.pdf Point alpha-GANという新しいGANの⼿法を提唱している。 GANとVAEを組み合わせることで、両⽅の良いところを組み合わせ、より良い特徴表現を学習できる選定理由・実装を通して、GANの学習のための最適化の書き⽅など、今後役に⽴ちそうなノウハウが⾝につく・近年盛り上がっているGANの事例として興味深い

https://arxiv.org/pdf/1706.04987.pdf

アジェンダ・alpha-GANとは・GANの概要と⽋点・VAEの概要と⽋点・alpha-GANの仕組み・実装に向けて・実装解説・実験結果・所感

Alpha-GANとは

alpha-GANとは alpha-GANはGenerative Adversarial NetsとVariational Auto Encoderを組み合わせた⼿法。お互いの⻑所を組み合わせることで、より良い特徴表現を学習できる。 alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

Generative Adversarial Nets(GAN)

Generative Adversarial Netsの概要 GeneratorとDiscriminatorが敵対的学習をする。・Generatorは特徴空間Zからサンプリングし、画像を⽣成・DiscriminatorはGeneratorから来た画像と本物の画像を⾒分けるように学習・GeneratorはDiscriminatorを騙すように学習。お互いに競うように学習させることで全体の性能が向上。 Generative Adversarial Nets 教師画像 (real) Discriminator 潜在空間 Z Generator ⽣成画像 (fake) Real or Fake?

Generative Adversarial Netsの概要特にRadford et al. (2015)によって提案されたDC-GANは、⾼精細な画像⽣成によって世間を驚かせた。 BatchNormalizationの導⼊など、⾰新的な⼿法も提案された。 Math on Face

Generative Adversarial Netsの弱点・学習が安定せずパラメータチューニングが必要となる。・Generatorが偏ったデータしか⽣成しなくなる”Mode Collapse”が起きる

10.

Generative Adversarial Netsの弱点 Mode Collapseの分かりやすい例例えばMNISTを学習するときに、「1」だけ異常にうまく⽣成できるようになってしまった場合。全⼒で「1」さえ⽣成すれば、Discriminatorを騙し続けることができるので、そっちに偏って学習してしまう。このような問題を回避するためにW-GANや VEEGANなどの⼿法が開発されている。alphaGANと⽐べてどっちがいいということではなく、alpha-GANにもW-GANの仕組みを取り⼊れた実装がある。

11.

Generative Adversarial Netsの弱点おまけ：「いらすとや」の潜在空間を学習をしようとして失敗した例

12.

Variational Auto Encoder(VAE)

13.

まずAuto Encoderについて普通のAuto Encoder ⼀番基本的な構造。次元圧縮などに⽤いられる。 Auto Encoder データ X Encoder 潜在空間 Z Decoder ⽣成データ X’

14.

Auto Encoderの弱点学習データのAutoEncodeにしか対応しないため、未知の潜在変数のDecodeは苦⼿。「潜在空間がスカスカになっている」とも表現できる。テストデータの Encode-Decode ランダムな潜在変数の Decode 潜在空間内のモーフィング

15.

Variational Auto Encoderの概要⼊⼒から直接潜在空間にEncodeするのではなく、⼀旦(μ, σ)にEncodeする。 (μ, σ)をガウス分布のパラメータとして、サンプルしたものを潜在空間Zの変数とする。これは、Encoderの結果にガウシアンノイズをいれているようなものともとることができる。さらに、⽬的関数でKL距離を最⼩化することでZ全体の分布を正規分布に近づける。 Variational Auto Encoder 平均 μ データ X 潜在空間 Z Encoder 分散 σ Decoder ⽣成データ X’

16.

Variational Auto Encoderの概要普通のAutoEncoderよりも「スカスカ」していない潜在空間を学習できるため、ランダムな潜在変数もうまくDecodeできる。テストデータの Encode-Decode ランダムな潜在変数の Decode 潜在空間内のモーフィング

17.

⽐較すると⼀⽬瞭然 AutoEncoder Variational Auto Encoder テストデータの Encode-Decode ランダムな潜在変数の Decode 潜在空間内のモーフィング

18.

① 得られる特徴空間Zを望みの分布に近づくように学習させることができる。⽬的関数にKL-divergenceという指標を⽤いることで、学習された特徴空間Zの特徴分布が望みの分布、ここでは平均0、分散1のガウシアン分布になるように学習することができる望みの分布データから⽣成された特徴量Zのzの分布

19.

② Encodeされたzをブレさせることで、学習データを⽔増ししたような効果が得られる。データxを⼀度(μ, σ)にし、そこからガウス分布に従ってサンプリングすることによりzを得る。この間に⼊ったガウス分布が、AutoEncoderの中間値にノイズを⼊れるような働きをする。 Variational Auto Encoder 平均 μ データ X 潜在空間 Z Encoder 分散 σ Decoder ⽣成データ X’

20.

感覚的な理解ガウス分布でノイズが乗ることにより、潜在空間上で「ブレる」ので、データが⽔増しされたような状態になり、より「隙間なく」学習できる。 Auto Encoder Variational Auto Encoder

21.

潜在空間内でのモーフィング「数字らしさ」を保ちながらモーフィングすることに成功している。

22.

Variationarl Auto Encoderの弱点複雑なデータセットを学習しようとすると、若⼲画像がぼやける傾向にある。 VAE DCGAN

23.

alpha-GAN

24.

alpha-GANの概要 GAN 鮮明な画像を⽣成できる VAE 特徴空間の分布を制御できる 2つの⻑所を組み合わせることで、より良い特徴表現を学習できないか？

25.

alpha-GANの概要この2つを合体させると…

26.

alpha-GANの概要 VAEとGANの良さを組み合わせたのがalpha-GAN alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

27.

alpha-GANの概要 VAEの役割をする部分と、GANの役割をする部分があります。 alpha-GAN Real Data X VAEな部分 Encoder Encoded Z’ Code Discriminator Encoded or Random? GANな部分 Random Z Generator Generated X’ Discriminator Real or Fake?

28.

alpha-GANの4つの登場⼈物（独⽴したネットワーク） Encoder Code Discriminator Generator Discriminator サンプルXを特徴空間Zにエンコードする⽣成された特徴空間Zの分布が正規分布になるようにする特徴空間Zからサンプルを⽣成する特徴空間Zから⽣成されたサンプルと実際のデータを識別する

29.

alpha-GANの4つの登場⼈物（独⽴したネットワーク） Encoder サンプルXを特徴空間Zにエンコードする VAE Code Discriminator Generator ⽣成された特徴空間Zの分布が望み通りの分布になるようにする特徴空間Zからサンプルを⽣成する GAN Discriminator 特徴空間Zから⽣成されたサンプルと実際のデータを識別する

30.

alpha-GANの損失関数 4つの損失関数を組み合わせて最適化している。 Code Discriminator Loss alpha-GAN Real Data X Encoder Reconstruction loss Encoded Z’ Random Z Code Discriminator Generator Generator Loss Encoded or Random? Generated X’ Discriminator Loss Discriminator Real or Fake?

31.

alpha-GANの損失関数 Reconstruction loss Encode-Decodeして画像を元通りに復元できるか Code Discriminator Loss 得られたZの分布が望み通りの形になっているか Generator Loss Discriminator Loss GeneratorがDiscriminatorを騙されているか DiscriminatorがGeneratorを騙せているか

32.

Reconstruction Loss ⼊⼒画像と、AutoEncoderの出⼒のL1ノルムで表される。ちゃんと⼊⼒画像が復元されているかをチェックする。 AutoEncoderとしての性能をはかる損失関数。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

33.

Code Discriminator Loss ⽣成された特徴空間Zの分布がきちんと望み通りのものになっているかチェックする。VAE由来の損失関数。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

34.

Code Discriminator Loss ⽣成された特徴空間Zの分布がきちんと望み通りのものになっているかチェックする。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

35.

Density ratio trick | Code Discriminator Loss ここで、元となったVAEはKL-divergenceを使って得られたZの分布が望み通りになっていることをチェックしていた。しかしながら、KL-divergenceはガウス分布を仮定しているため、それよりも複雑な分布を仮定できないという⽋点があった。そこで、density ratio trickという⼿法を使い、KL-divergenceを以下のように近似した。 GANのLoss関数と同じ

36.

Density ratio trick | Code Discriminator Loss この近似により、 Encoderにより⽣成された特徴量とZからランダムにサンプルされた特徴量を識別する識別器Cω をつくり、訓練することで特徴空間Zの分布を望みの分布に寄せることができる。そのため、この識別器をCode Discriminatorと⾔う。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

37.

Generator Loss おなじみのGANの損失関数。GeneratorがうまくDiscriminatorを騙せているか評価する。 GANとの相違点は、AutoEncoderによってAutoEncodeされたXもGenerated Xとして扱う点。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

38.

Discriminator Loss こちらもGANの損失関数。DiscriminatorがGeneratorにより⽣成されたものとそれ意外を⾒分けられているか評価する。こちらもAutoEncoderの出⼒を併⽤。 Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

39.

Hybrid Loss Functions これらの4つの損失関数をまとめることで、ネットワーク全体を最適化する。論⽂中ではHybrid loss functionsと呼ばれている。

40.

Hybrid Loss Functions これらの4つの損失関数をまとめることで、ネットワーク全体を最適化する。論⽂中ではHybrid loss functionsと呼ばれている。 Code discriminator loss Reconstruction loss Discriminator loss Generator loss

41.

Hybrid Loss Functions これらの4つの損失関数をまとめることで、ネットワーク全体を最適化する。論⽂中ではHybrid loss functionsと呼ばれている。 VAE VAE Reconstruction loss Code discriminator loss GAN Discriminator loss Generator loss GAN

42.

alpha-GANによる顔画像の⽣成結果⽣成結果は以下のようになる。 VAEの仕組みを⽤いているにもかかわらず、GANに劣らない鮮明な画像を⽣成することができている。 Negative Wasserstein distance DCGAN WGAN-GP AGE alpha-GAN

43.

alpha-GANによる学習結果 Wasserstein distanceによる定量的な評価。定量的にも、GANに劣らない性能が出ていると⾔える。

44.

alpha-GANによる学習結果まとめ他のGANとくらべて画質が良くなったり数値的な向上が得られているわけではないが、・GANの学習と同時にAutoEncoderも学習することができる・VAEのように⽣成される特徴量の分布を制御することができる・Mode collapseを防ぐことができる・VAEよりも鮮明な画像を⽣成することができるという嬉しいポイントがたくさんついているというのがalpha-GANの利点。

45.

実装に向けて

46.

利⽤するデータセット GoogleによるQuickdrawDatasetを取り上げる。

47.

QuickDrawDatasetとは Googleが作っている「落書き」のデータセット。・5000万のサンプル数・100以上のクラス数と、かなり⼤きなデータセットとなっている。

48.

Quick, Draw webで動くゲームを通して、データ収集をしているのが⾯⽩い点。 https://quickdraw.withgoogle.com/

https://quickdraw.withgoogle.com/

49.

⽬標：アニメーションの⾃動⽣成システムの構築 QuickDraw DatasetをAlpha-GANで学習することで、「落書きの特徴表現」を学習。適当に書いた2つの落書き間をモーフィングすることで「落書きが勝⼿に踊り出す」システムの構築を⽬指す。

50.

参考：motions.cat http://motions.cat/

http://motions.cat/

51.

結果をチラ⾒せ

52.

実装

53.

今回はTensorFlowを利⽤村上は普段はkeras愛好家ですが、この機会にTensorﬂowに慣れ親しもうという考えです。また、⼀度kerasによるalpha-GANに挑戦したものの、loss関数の設計が複雑なため⾃由度の低いkerasでは失敗したという苦い経験もあります。

54.

今回はTensorFlowを利⽤クライアントサイドでWebGLを介してディープラーニング実⾏可能なTensorFlow.jsが発表され、またtensorﬂowが盛り上がるのでは…という展望もあります。

55.

TensorFlowはコード量が増える？⾯倒くさい？そんな⾵に考えていた時期が、私にもありました。

56.

tf.layersが素晴らしい tf.layersはTensorFlowの⾼レベルなAPI。まるでKerasのように簡潔にネットワーク構造を記述できる。重み・バイアスを保存するW, bの初期化、保存などを内部的に⾏ってくれるので楽！今回はこれをふんだんに使って実装していきます。 tf.layers

57.

alpha-GAN全体像全体像は複雑だが、個々のパーツは意外と単純。 alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

58.

alpha-GAN全体像まず⼀番簡単なEncoderから⾒ていく。 alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

59.

Encoderの構造 Encoderの構造はこのような感じ Encoder Conv2d Input X Reshape ResBlock ResBlock Dense BatchNorm ReLU ResBlock Avg Pooling Avg Pooling Latent Z

60.

Encoderの構造⼀つだけ⾒慣れないパーツが。 Encoder Conv2d Input X Avg Pooling ReLU Reshape ResBlock ResBlock ResBlock Dense Avg Pooling Avg Pooling Latent Z

61.

ResBlock 2015年にMicrosoft Researchが発表したDeep Residual Learning(ResNet)で提案された⼿法。⾮常に深く層を重ねることが可能で、ResNetでは154層で画像を学習し、⼈間を超える精度を記録した。⼊⼒が出⼒に直接Addされているのが特徴。 ResBlock Conv2d Input X BatchNorm Activation Conv2d BatchNorm ADD Activation Output Y

62.

感覚的な理解バイパス構造があるために、Back Propagationする時に中間をスキップして誤差が伝搬するので、勾配消失が少なく層を深くすることが可能となっているのでは、と村上は考えています。 ResBlock Conv2d Input X BatchNorm Activation Conv2d BatchNorm ADD Activation Output Y

63.

ResBlockの実装以上をコードに落とし込むとこのようになります。

64.

Encoderの構造このResBlockを使ってEncoderを構成していく。 Encoder Conv2d Input X Avg Pooling ReLU Reshape ResBlock ResBlock ResBlock Dense Avg Pooling Avg Pooling Latent Z

65.

Encoderの実装 Encoderの実装はこのような感じ。

66.

alpha-GAN全体像次はGenerator alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

67.

Generatorの構造 Generatorはこのような感じ。だいたいEncoderの逆の構造になってる。 Generator Dense Generator X Tanh ResBlock ResBlock ResBlock ResBlock Reshape ReLU UpSampling UpSampling UpSampling Conv2D Latent Z

68.

Generatorの構造ここで、UpSamplingに注意。 Generator Dense Generator X Tanh ResBlock ResBlock ResBlock ResBlock Reshape ReLU UpSampling UpSampling UpSampling Conv2D Latent Z

69.

TensorFlowでのUpSampling TensorFlowにはkeras.layers.UpSampling2Dやtorch.nn.UpsampleにあたるAPIが存在しない。世の中のQiitaの記事にはConvolutional2D() + UpSampling2D() の機能を持つ tf.nn.conv2d_transposeを使うものが多いが、これではResNetを構成できない。 ResBlock Conv2d Input X BatchNorm Activation Conv2d BatchNorm ADD Activation Output Y

70.

TensorFlowでのUpSampling そこでtf.image.resize_nearest_neighborを使う。実はkerasのUpSample2Dの実装の中でもこのAPIが使われているらしい。⾃由度が⾼いので、他の実装でも汎⽤的に使うことができる。

71.

TensorFlowでのUpSampling 以上をふまえて、Generatorの実装はこのような感じになる。

72.

Discriminatorの実装次はDiscriminator alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

73.

Discriminatorの構造活性化関数がLeakyReLUになっている以外はほとんどEncoderと同じ。 Discriminator Conv2d Input X Avg Pooling Leaky ReLU Reshape ResBlock ResBlock ResBlock Dense Avg Pooling Avg Pooling sigmoid Real or Fake?

74.

Discriminatorの実装 tf.layersのおかげで本当にスッキリ実装できます。

75.

CodeDiscriminator 最後にCodeDiscriminator これは特徴空間を望みの分布にする⼤事なパーツ。 alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

76.

CodeDiscriminatorの構造ここはかなり単純。 CodeDiscriminator Input Z Dense Dense Dense Leaky ReLU Leaky ReLU Sigmoid Encoded or Decoded?

77.

CodeDiscriminatorの実装 tf.layersのおかげで⾮常にスッキリ実装できます。

78.

alpha-GAN完成以上でalpha-GANに必要なパーツが全部揃いました。 alpha-GAN Real Data X Encoder Encoded Z’ Random Z Code Discriminator Generator Encoded or Random? Generated X’ Discriminator Real or Fake?

79.

Train alpha-GAN

80.

1-15⾏⽬: 下準備

81.

17-62⾏⽬: 計算グラフの構築

82.

17-62⾏⽬: 計算グラフの構築

83.

68-75⾏⽬: ⽬的関数の定義

84.

81-112⾏⽬: Optimizerの構築 GANの学習のために、各ネットワークの変数を収集しておく。 train_modeの概念が無いTensorﬂow独⾃の下処理。

85.

86.

実装してわかったこと：Adamのパラメータは⾮常に重要今回唯⼀つまづいたところ。この数値が⾮常に重要で、適当に設定すると全く学習しない。 DCGANの論⽂の成果は、このパラメータをみつけたことであるとも⾔われている。

87.

114-130⾏⽬: ⽣成結果確認のための簡単な関数結果の可視化はデバッグにおいて⾮常に重要。

88.

132⾏⽬ - : 学習処理ポイント：AutoEncoderは他の部分の2倍学習させている。Discriminator陣がはやく賢くなりすぎるため。

89.

実験結果

90.

実験内容 Auto AutoEncoder AlphaGAN

91.

実験内容モーフィングこの⼆つの絵の間をモーフィング

92.

モーフィング AutoEncoder AlphaGAN

93.

モーフィング

94.

AutoEncode AutoEncoder AlphaGAN

95.

所感

96.

Keras使いからみたTensorFlow やはりKerasよりも頭を使ってプログラミングをすることになるが、昔よりもだいぶ使いやすくなった。 tf.layersが素晴らしい。 Keras = ブロックを組み⽴てるイメージ TensorFlow = ブレッドボード上で配線するイメージ

97.

Keras使いからみたTensorFlow コード上で、演算の定義部分とデータをfeedする部分に距離があるのが若⼲複雑。教師画像をAutoEncodeする場合と乱数からGenerateする場合でそれぞれグラフを作っておかないといけなかったりするのも難しい。この点はChainerやPyTorchのほうが直感的で良いと感じた。Deﬁne by Runは良い。

98.

アプリケーション開発との相性はやはりTensorFlowとKeras とはいえ、今クライアントサイドのGPUを活⽤したDeepLearning実⾏ではTensorFlow/Kerasが進んでいる印象。Kerasよりも⾃由度の⾼いクライアントサイドDeepLearningツールとしては TensorFlowは良い選択肢かもと感じました。

99.

今後やりたいこと TensorFlowを⽤いたクライアントサイドでの実⾏。 Wasserstein distanceの勉強。