[DL輪読会]Freehand-Sketch to Image Synthesis 2018

>100 Views

November 09, 18

#deep learning #Deep Learning #Sketch to Image Synthesis #SketchyGAN #Image Generation #Contextual GAN

スライド概要

2018/11/09
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Freehand-Sketch to Image Synthesis 2018 "SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis" & "Image Generation from Sketch Constraint Using Contextual GAN" Jun Hozumi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

紹介内容 • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 タスクの説明と、上記研究のポイントを紹介します • 提案手法の詳しい説明や実装は各論文をご参照ください 2

Freehand-Sketchとは • （厳密な定義はないが）ある物を想定して描かれた手書きイラストのこと • 美術家が本気出して写実的に描いたようなものは想定していない • 現状では用語の定義もしっかりなされていない例: QuickDrawのCat （10秒で描かれたスケッチ） https://www.stringandloop.com/shop/quickdraw1 例: The Sketchy DatabaseのCat （ある写真を模写して描いたスケッチ） http://sketchy.eye.gatech.edu/explore/cat.html 3

Freehand-Sketch to Image Synthesisとは • Freehand-Sketchから、その元の（写真）画像を生成すること例: SketchyGAN（上から下） • 異なる研究の例: Scribbler 似て異なるタスクの研究は数多い • 線画着色 • 画像スタイル変換 • イラストをクエリとした画像検索 4

Freehand-Sketchの前提知識 • • スケッチ: 人間なら誰でも簡単にできる表現方法 • 非常に単純で不完全 • でも人間なら頭の中で補完してその対象を容易に想像できるスケッチがあてにならない • いわゆる画像の「エッジ」とは異なる（右下参照） • 必ずしもスケッチどおりに復元すればいいという話でもない • スケッチから「その人が本来描きたかったスケッチ」への内部変換が必要 • でもそのためには事前知識が必要 5

従来手法の問題点 • たとえばStyle Transfer手法を使うと、出力をエッジにマッピングさせようとしてしまう CE: Context Encoder Ours: [Lu 18]（後述） • このタスクにどのように取り組むか、以後研究を２つ紹介する 6

紹介内容１ • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 これまでの画像変換の流れに沿ってがんばるタイプの研究 7

1-1. 手法概要 • 50種類の物体におけるFreehand-Sketch to Image Synthesis手法 • • ImageNetとMSCOCOにあるラベルから50種類従来の画像変換手法に大きく2つの工夫を加えた手法(SketchyGAN)を提案 • データセットの増加方法 • • Flickrから取得して作成ネットワークの工夫 • Masked Residual Unit (MRU) 8

1-2. データセットの拡張 • • The Sketchy Databaseのスケッチ画像を使用する • スケッチとその元となった写真の組のデータセット • そういう組になっているデータセットがもっとほしい ImageNetとMSCOCOので検出できる物体について、Flickr APIを叩いて画像を取得 • • ImageNetは画像が少なすぎ、MSCOCOの画像は乱雑でこのタスクには不向き Resnet-v2とSingle Shot MultiBox Detectorでその物体を検出させてフィルタリング • • The Sketchy DatabaseのCat（一部）それが画像内の5%以下しか占めていない場合は除外 50カテゴリについて約50000程度の画像を収集した 9

10.

1-3. エッジデータセットの作成 • Holistically-nested Edge Detection(HED)を行う(b) • さらに様々な処理（c→f）を重ねて、エッジデータにする • Distance Mapを（The Sketchy Database側も）計算しておく • 学習時にはこのエッジデータセットを多く用いて学習を始め、徐々にスケッチデータセットの比率を高めていくことで、スケッチデータで学習させていく 10

11.

1-4. Masked Residual Unit (MRU) • GRUに似ているが、出力が次のブロックに行く点や、重みを共有しない点が異なるネットワーク構造 MRUブロック 11

12.

1-5. その他(損失関数など) • 損失関数にも様々な項を加える • Auxiliary Classification Loss やPerceptual Lossなど、巨人の肩にどんどん乗る • 詳しくは元論文参照（各項の中身） 12

13.

1-6. 実験 • 提案手法(MRU)はスケッチ対象を明確に生成できている CRN: Cascaded Refinement Network 13

14.

1-7. 評価 • Inception Scoreは既存手法を上回るが、損失関数を工夫しないとより高くなる • 定性評価では忠実度（正しい入力データ当て正答率）は下がるが、現実感は高い 14

15.

紹介内容２ • 今回紹介する論文 • • • SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis • Wengling Chen and James Hays • in CVPR 2018 Image Generation from Sketch Constraint Using Contextual GAN • Yongyi Lu, Shangzhe Wu, Yu-Wing Tai and Chi-Keung Tang • in ECCV 2018 画像変換とはみなさず、少し視点を変えて取り組んだタイプの研究 15

16.

2-1. 着眼点 • 本タスクを、スケッチを条件とした画像補完問題と捉える • 本研究タスクの位置付け 16

17.

2-2. 手法概要 • 「イラストとその写真が結合された画像」の潜在空間を考える • (a): zの初期値候補を10個取り、一番KL距離が小さいzを初期値とする • (b): 潜在空間での入力(Context)AにG(z)が近づくz^を探索する 17

18.

2-3. 訓練段階 • 訓練段階と完了段階の2段階に分ける • 訓練段階では、普通にGANを訓練させる基本のネットワーク構造 18

19.

2-4. 完了段階（1） • G(z) がyに最も近づくz^を求める（各項の中身）（Mはマスクバイナリ行列） 19

20.

2-5. 完了段階（2） • z^を誤差逆伝播法で求める • その際にGやDは更新しない • 最終的な出力xgeneratedは以下の式で表される 20

21.

2-6. データセット作成 • スケッチデータはXDoG, Photocopy, FDoGの複数種のエッジ抽出処理で作成する • それらはLearning to Simplify[Simo-Serra 16]で整える • • イラストの下絵からペン入れへの変換手法学習時はXDoGによるデータで学習してから、他のデータでfine-tuningさせる Learning to Simplifyの例（左から右） 21

22.

2-7. 実験 • 提案手法を各エッジ画像に適用する • • CelebA 他手法とスケッチにおいて比較 • CelebA • CUB-200-2011 • Stanford’s Cars 22

23.

2-8. 評価 • CelebAの場合でSSIMと同一人物判定精度（LightCNN）を評価 • 逆方向（写真からイラスト）の生成も可能 • 欠点: 特定の属性を見失いがち(CelebAでのひげやメガネなど) 23

24.

最後に • • • Freehand-Sketch to Image Synthesisという新たな性質のタスクに対しても、捉え方を変えて、これまで提案された画像変換手法や複数種類のエッジデータを用いることでアプローチすることはできる • ロバストさを意識したエッジto写真画像変換手法の問題とみなす • 画像の変換元ではなく条件とみなして一から生成するだが、現状のエッジデータの種類を増やすアプローチには限界がありそう • 人間が特徴とみなすものがエッジとして残らない可能性（記号化されたものなど） • スケッチデータが集められれば、ある程度は克服できそうだが研究論文が出はじめたばかりなので、やりたい人は今がチャンス？ 24