【生成Deap Learning 第2版】10.1~10.3

168 Views

June 12, 25

#gan #stylegan #progan #生成Deep Learning #GAN #ProGAN #StyleGAN #画像生成

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22.5K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.4K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 13K

各ページのテキスト

2025年度前期輪読会生成Deep Learning #8 (6/12) 10章高度なGAN 京都大学理学部数理科学系千葉一世 0

アジェンダ ◼ ProGAN ◼ StyleGAN 1

ProGAN ProGAN(PGGAN) : 低解像度から徐々に解像度を上げていく学習手法によって、学習速度と安定性を高めたモデル学習の初期段階でいきなり解像度の高い画像を上手く生成するのは難しい解像度の低い生成しやすい物から初めて、学習の過程で解像度を上げていこう 2

ProGAN • Progressive Growing 学習中にどのようにモデルを変更するのか? 解像度の「移行フェーズ」と「安定フェーズ」 • 移行フェーズいきなり未学習の高解像度の層を追加してしまうと学習が上手くいかない学習済みの低解像度な出力を残差接続で残しつつ、その割合を徐々に減らして慣らしていく • 安定フェーズ低解像度の割合が０になったら、高解像度の層のみを学習させていく。 3

ProGAN Progressive学習 4

ProGAN • ミニバッチ標準偏差識別器内で、ミニバッチ内のピクセル全体の特徴量の標準偏差を新しい特徴量として追加する本物の教師データは画像に多様性があるので、偽物のデータが同じような画像ばかり生成する様になると、簡単に区別できるようになってしまう。生成器が多様な画像を生成する方向に学習が進む 5

ProGAN • 等化学習率重みの初期値は通常「Heの初期値」などの標準偏差を入力の数に依存して決める AdamやRMSPropなどのoptimizerと組み合わせると、各層でのパラメータの更新量が入力の数に依存する形となり、層毎に学習率が異なる状態になっているとみなせる。初期化は標準正規分布で行い、動的に重みを正規化して、各層で同じ学習率となる、 6

ProGAN • ピクセル正規化ピクセル毎に特徴量が単位ベクトルになるように正規化を行う ProGANではバッチ正規化の代わりにピクセル正規化を用いる 7

ProGAN 学習結果 8

10.

アジェンダ ◼ ProGAN ◼ StyleGAN 9

11.

StyleGAN StyleGAN : 画像の低レベル~高レベルまでのスタイル・属性を潜在空間内で上手く分離させ、制御することが出来るモデル StyleGANはProGANをもとに構成される ProGANからの変更点 • 潜在ベクトルを非線型変換により、新たな潜在空間へ写す • 生成器の初期値は定数 • 生成時の各解像度で変換した潜在ベクトルとノイズを付与する • スタイルミキシング 10

12.

StyleGAN • 写像ネットワーク(Mapping NetWork) ただ正規分布に従うだけの潜在ベクトルを、非線型変換によってスタイルの情報を持つ新たな潜在空間へと写し、スタイルを制御しやすくする。 11

13.

StyleGAN • 合成ネットワーク(Synthesis network) ProGANの段階的に解像度を上げていく生成器固定された初期値から生成され、各解像度の段階で、適応型インスタンス正規化によるスタイル情報の注入と、ノイズの付与が行われる。スタイル情報・ノイズを各段階で注入していくことで十分なランダム性が得られ、初期値は定数にできる。さらに、注入する情報のみがランダム性を持ち制御しやすくなる。スタイル・ノイズを解像度ごとに入れることにより、低解像度では大域的な・高解像度では局所的な情報を指定することが出来る。適応型インスタンス正規化インスタンス正規化によって各チャンネルで正規化する際に、平均と分散をスタイル情報を線形変換して得られる値になるように正規化する。これによって、各解像度段階でスタイル情報を取り入れる。 12

14.

StyleGAN 適応型インスタンス正規化合成ネットワークの各解像度のブロックインスタンス正規化と合わせて使用 13

15.

StyleGAN • Style Mixing 潜在ベクトルを一つではなく二つ使用し、各層でランダムにどちらかの潜在ベクトルからのスタイル情報を使用する。これにより、各層に異なるスタイルが入り隣接したスタイル潜在ベクトルの独立性につながる。 14

16.

StyleGAN 途中の解像度から異なる潜在ベクトルを使用した時の画像の変化低解像度の段階からBのスタイルを入れると顔の形・表情・構図など大きな部分が Bの画像による高解像度の段階でBのスタイルを入れると画像は大きくは変わらず、肌・髪色など細部のみがBに近づく低各解像度の段階で潜在ベクトルがきちんと中画像のスタイルを指定できている高 15

17.

ProGAN実装コード https://colab.research.google.com/github/kerasteam/kerasio/blob/master/examples/generative/ipynb/stylegan.ipynb# scrollTo=xH8czS5LR01R 16