[DL輪読会]Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

316 Views

April 28, 17

#deep learning #CycleGAN #Image Translation #Adversarial Networks #Implementation #Experimental Results

スライド概要

2017/4/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

Unpaired Image-to-Image Translation Using Adversarial Networks 2017/4/28担当慶應義塾大学河野慎

書誌情報 ▸ 2017年3月30日arXiv投稿 ▸ Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A.Efros ▸ UC Berkely ▸ GoodfellowさんとかがTwitterで言ってた ▸ GAN大喜利の一つ ▸ CycleGAN ▸ 実装も公開（Pytorch）

Introduction 教師なしで画像の変換を行いたい ▸ 変換前と変換後の画像ペアがあれば上手く行く ▸ なかなかペアは手に入らないのが問題 ▸ Semantic Segmentation用のは種類も量も少ない ▸ 画風変換は画家のクセなどが複雑すぎてもっと難しい ▸ 物体変形はたくさんのアプリケーションがあるが，あまり良く定義されていない ▸ 教師なしで画像生成：GANの登場 ▸ ドメインXとYがあって，写像G: X -> Yを考える ▸ xと生成されたyが意味的に一致している保証はない ▸ Yを満たすyは無限にあるかっこいい語りかけ

提案手法 Cycle-Consistency Lossを導入したCycleGAN ▸ 2種類の写像G:X→YとF:Y→Xを考える ▸ まずは，普通のGANのadversarial lossを定義 ▸ Xから生成されたYをもう一度X’に戻してもXに一致するようにする ▸ 一種のAutoencoderとみなすことができる ▸ 得られる表現が少し特殊 ▸ ドメインXから得られた表現＝ドメインY Forward Cycle Loss Backward Cycle Loss

提案手法実際の実装について ▸ 学習を安定させるための2つの工夫 ▸ 負の対数尤度を最少二乗誤差に変える→学習を安定させ，生成画像のクオリティをあげる ▸ モデルのoscillation(振動？)を防ぐため，Dの更新を最新のGから生成された画像ではなく，過去に生成された画像の履歴を使う（実験ではバッファを50に設定） ▸ 最終的な目的関数：

提案手法 CycleGANのアーキテクチャ ▸ Generator ▸ 7x7,s1のConv(32)→3x3,s2のConv(64→128)→ ▸ 入力画像が128x128の場合：Resblock6個(3x3のConv(128)) ▸ 入力画像が256x256の場合：Resblock9個(3x3のConv(128)) ▸ 3x3, s1/2のFractional strides Conv(64→32)→7x7,s1のConv(3) ▸ Discriminator ▸ 70x70のPatchGAN ▸ 4x4,s2のConv→BN→LeakyReLU(0.02) ▸ 64→128→256→512→最後画像サイズのフィルタの畳み込みを使う ▸ λ=10，学習率は0.0002で100エポックごとに0に向かって縮小

実験定量的評価 ▸ Pix2Pixと同じ指標を使う ▸ Amazon Mechanical Terk（AMT） ▸ 2枚の画像（うち1枚が本物，もう一枚は生成されたもの）のうち，本物を選ぶ ▸ FCNスコア ▸ 生成した写真画像をFCNが正しく認識できるか ▸ Semantic Segmentation指標 ▸ 生成したラベル画像の精度とIoU(Intersection-over-Union) ▸ boxに対して, 目的となる領域(ground truth box)がどれだけ含まれている

定量的評価ベースライン手法 ▸ CoGAN ▸ 2種類のドメインを生成する2つのGを学習，最初の数レイヤーを共有 ▸ Xを生成する共有の表現を獲得して，それでYを生成する ▸ Pixel loss + GAN ▸ Cycle-Consistencyの代わりにL1ノルムを追加，||X - Y||1 ▸ Feature loss + GAN ▸ 画像のL1ロスではなく，FeatureのL1ロスを採用 ▸ BiGAN ▸ ランダムノイズZからXを生成すると同時にF:X→Zを可能にする逆写像関数Fを学習する ▸ 同じ目的関数でX→Yを写像するものを学習させる ▸ pix2pix ▸ 教師あり学習の結果を教師なし学習の上限として使う

結果 ▸ CycleGANの圧勝 ▸ 生成結果も明らか ▸ ベースラインは全く人を騙せない

10.

結果 ▸ 損失関数の分析 ▸ 各項を含めたり含めなかったり

11.

結果 ▸ 再構成した結果 ▸ 教師ありデータセットでの結果

12.

画風変換

13.

物体変形と季節変換

14.

絵から写真を生成 ▸ 絵の色構図を保持するために損失関数を新たに追加

15.

写真のぼかし

16.

画風変換その2 ▸ Gatysらのと比較 ▸ 2種類の画風とそれらを平均した画風

17.

失敗例

18.

まとめと感想 ▸ 色やテクスチャの変化を含む変換は成功している ▸ 一方で幾何学的な変換（犬→猫）などはあまりうまくいってない ▸ 今後改良していく余地あり ▸ 教師あり学習にはやはり及ばない ▸ 写真→ラベルタスクで，ツリー構造？の順序を変えて生成してしまう ▸ この曖昧さを解決するには，semantic supervisonか半教師あり学習がいいのではないか？ ▸ 生成されてる画像綺麗だなぁ．かわの． ▸ 特にヨセミテの季節変換に感動した