【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations

511 Views

October 29, 22

#@deep learning jp #Deep Learning #BlobGAN #Yuki Kondo #Spatially Disentangled #Scenes Representation

スライド概要

2022/10/21
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] BlobGAN: Spatially Disentangled Scene Representations Presenter: Yuki Kondo 2022.10.21 (Toyota Motor Corporation, Research Frontier Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 3

書誌情報 • 論文名 BlobGAN: Spatially Disentangled Scene Representations (ECCV2022) Keywords: scenes, generative models, mid-level representations • 著者 Dave Epstein1, Taesung Park2, Richard Zhang2, Eli Shechtman2, Alexei Efros1 1UC Berkeley, 2Adobe Research • URL 論文※：https://arxiv.org/abs/2205.02837 プロジェクトページ：https://dave.ml/Blobgan/ コード：https://github.com/dave-epstein/Blobgan Demo : https://colab.research.google.com/drive/1NnMe6pmsKxaDCWdFcFTDdjIUdZUKmfAL?usp=sharing ※出典が明記されていない図表は当論文より引用 4

論文概要 [ タスク ] - Move - • 画像生成・編集 • オブジェクトの概念をBlobで表現． Blob: 斑点，染み https://dave.ml/Blobgan/static/vids/move_beds/final/5.mp4 (最終閲覧：2022/10/12) - Clone - https://dave.ml/Blobgan/sta tic/vids/clone/final/1.mp4 (最終閲覧：2022/10/12) https://dave.ml/Blobgan/st atic/vids/clone/final/3.mp4 (最終閲覧：2022/10/12) - Resize - https://dave.ml/Blobgan/static/vids/shrink_beds/final/5.mp4 (最終閲覧：2022/10/12) 5

論文概要 [ 問題提起 ] • 解析と合成タスクのためのシーンモデリング • ClassifierやDiscriminator：「台所」などのシーンクラスと「椅子」などのオブジェクトクラスを同列に扱っている． • Semantic segmentation, pix2pix など：各画素に対応する教師データが必要であり，ボトムアップ的． • 条件つき画像生成 • 教示された特定のクラスのための中間表現にとどまっている • Disentanglement • シーンとオブジェクトを分離した形でそれぞれを独立に編集する多くの研究は教師データが必要． [ 提案 ] • 教師無しの中間レベル表現 (中間レベル：画像単位でもピクセル単位でもないその間の表現) • オブジェクトの位置や大きさなどが表現された中間表現を操作する高品質かつ直感的なインターフェース 6

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 7

中間レベルのシーン表現 • シーン表現の様々な検討 • Top-down : 画像全体を表現する • Bottom-up : ピクセル単位で表現する • Mid-level : 双方のシーン表現を用いたり，その中間的な粒度で表現する https://youtu.be/KpUv82VsU5k (最終閲覧：2022/10/12) 8

https://youtu.be/KpUv82VsU5k

Blobでのシーン表現 • BlobWorld [C. Carson+ VISUAL1999] • シーン表現をガウス型Blobで表現 • 領域ベースの画像検索システムとして活用 BlobWorld [C. Carson+ VISUAL1999] このBlobのアイデアに「深度順序の符号化」を加えた表現を生成モデルに適応 9

10.

条件付き画像生成 • StyleGAN [ T. Karras+ CVPR2019] • 生成画像の品質向上のために • スタイル情報の加え方 • Generator, Discriminator内の拡大・縮小機構などを再考． Discriminator Generator • 潜在空間𝒁をマッピングネットワークで中間潜在空間𝑾に変換． ⇒ 表現のDisentanglementを実現 • 階層ごとにwをスタイル情報として加える． • StyleGAN2 [ T. Karras+ CVPR2020] StyleGAN [T. Karras+ CVPR2019] StyleGAN [T. Karras+ CVPR2020] StyleGAN2をベースモデルとし，Blobをスタイル表現wとして活用する 10

11.

Disentanglement • Disentanglementとは？ • 生成モデルで獲得される多様体表現によって，形状や色などの様々な属性のもつれをほどくこと • 教師あり，教師なしの双方で研究されている． - 教師ありの先行研究例 - - 教師なしの先行研究例- GAN Dissection [D. Bau+ ICLR2019] https://gandissect.csail.mit.edu/img/demo_short3.gif (最終参照日2022/10/12) Hessian Penalty [T. Karras+ ECCV2020] 複雑なシーンにおいても意味的な教示なしに，これらの要素が自然に表れる表現を提案する 11

https://gandissect.csail.mit.edu/img/demo_short3.gif

12.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 12

13.

提案手法概要 [ 提案手法 ] • 中間シーンを空間的深度順序が考慮されたガウス型「Blob」の集合体としてモデリング • 教師無しでBlob表現を獲得 • Blob集合をエンコード情報とし，画像をデコーディング • デコーダのベースモデルはStyleGAN2 [ T.Karras+ CVPR2020] 13

14.

Layout network FとBlob表現 • 以下のパラメータでBlobを表現 • • • • • • 中心座標スケールアスペクト比回転角構造特徴量スタイル特徴量として一つのBlobを表現空間解像度は生成画像と同じ Blob集合がFより出力 k : Blobの数 (ハイパーパラメータ) Blobを表現するパラメータ 14

15.

Blobのアルファ合成による不透明度表現 1. 各Blobの不透明度oを表現するために，Blob中心からの各グリッドのマハラノビス距離dを計算 c = 0.02 controls Blob edge sharpness 2. スケールと距離から，位置の不透明度を計算 d xgrid • シグモイドを適用しているため，sを−∞に近づけることで，Blobの削除が可能 3. アルファ合成により，それぞれのBlobの不透明度マップを計算いわゆる画像のアルファチャネルと同じ働き 4. 背景特徴量𝜙0, 𝜓0 に対し， 𝑜0 = 1とし各グリッドの特徴量は 𝑘 + 1 チャネルの𝛼𝑖 の凸結合で表現される． Blobの占有率を表現できるため，z方向の前後関係の表現が可能 ⇒ オクルージョンとオブジェクトの関係を自然に表現 15

16.

生成器GへのBlob表現の入力 • 16 x 16にダウンスケールした構造ベクトルで構成されるマップΦを Gの初期層への入力とする＊解像度増加の関係を合わせるために，ベースモデルから畳み込み2層を削除 • スタイルベクトルで構成されるマップΨ𝑙×𝑙 (𝑙 ∈ {16,32, … , 256})をそれぞれの対応する畳み込み層に入力 Φ Ψ16×16 … Ψ256×256 16

17.

Disentanglementの促進 • Blob表現によるDisentanglement • あるBlobが活性化している領域は同じ特徴量ベクトルが支配的であり，その領域は自己類似性をもつ画像領域⇒シーン内のオブジェクト表現を促進 • Gの畳み込みの局所性により，Blobとオブジェクトの位置関係に強い影響を与える． • レイアウト(Blobの位置，形状，サイズ)と外観(Blobの特徴)を分離 • 学習中のβへのノイズ付与によるDisentanglementの促進 • Blobのパラメータに独立なノイズ𝛿𝑥 , 𝛿𝑠 , 𝛿𝜃 を加える ⇒ Blobの正確な配置や形状に依存した解への収束を防ぎ，本質的なオブジェクト発見を促進 • その他の以下のような外乱条件の付与は実験的に検証 • Blobのスタイルベクトルの並べ替え • Blobの削除 17

18.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 18

19.

オブジェクトの移動 • LSUN シーンデータセット [F. Yu+ arXiv2015]で検証 • 移動に伴うオクルージョン関係の変更が適用されている - Movie - https://dave.ml/Blobgan/static/vids/move_ beds/final/5.mp4 (最終閲覧：2022/10/12) ：オクルージョン消失領域：オクルージョン発生領域 19

https://dave.ml/blobgan/static/vids/move_beds/final/5.mp4

20.

リサイズ，移動，削除，追加，スタイル変換 • オブジェクトのリサイズ，移動，削除，追加，スタイル変換を独立に表現 20

21.

マルチカテゴリデータセットへの適応 • 挑戦的なシーンに対しても，テーブルの削除に成功 21

22.

その他の操作 • オブジェクト複製や入れ替えに成功 22

23.

Blobとオブジェクトクラスの関連性解析 • Blobを削除し，既存のセグメンテーションモデルで消失したクラスを評価 • 特にtableやpainting, lightなどが独立な表現を獲得できている • 各Blobの局在化⇒各オブジェクトの局在化を考察できるクラスとBlobの相関 Blobの中心点の分布 23

24.

提案手法によるシーンオートコンプリートの解析 • シーンオートコンプリート：オブジェクトのレイアウトに関して，存在する同時分布の制約を満たすシーンのサンプリングを実現する機能 • 例：ある家具が存在するとき，その家具に対応してレイアウトが制限される • 特定の背景とあるオブジェクトの特徴量に固定し，初期化．その他のBlobを最適化させることで＊最適化はRTX3090で約1秒で完了オートコンプリートを実施． • 定量的にも知覚的品質の優れた自然な画像の生成に成功． 24

25.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 25

26.

結論・所感 [ 結論 ] • シーンの空間的に分離された対象の効率的なBlob表現を提案 • Blobの位置，大きさ，形状等がDisentanglementに大きく寄与 • ナイーブな表現にもかかわらず，ロバストな表現を獲得 [ 所感 ] • 教師無しで，Blob操作とオブジェクトの対応が，人間が直感的に想像する状態に最適化されることに驚いた． • シンプルなアイデアであるため，多くの発展が考えられる • Blob生成のためのベクトルに学習済みのCLIP[A. Radford+ PMLR2021]で自然言語空間と対応づける． • Neural Fields を適用させ，Blob表現を3次元化 (ObjectNeRF[B. Yang+ ICCV2021]と相性が良い？) • Blob表現の改善の余地 • 背景にも意味的なセグメントがあるはず(壁と床など)で，これらの分離もできるとさらに良い • 減衰する楕円が最適か？⇒モデルの複雑性とDisentanglementの関係 • Blobの数は固定せず，Bottom-upとTop-downを行き来することが人間の理解に近い？ • Bottom-upとTop-downの双方利用は[Ohta+ IJCPR1978]などでも有効であると言及されている． 26

27.

補足資料 27

28.

実験結果：オブジェクトの削除 • ベットとベット以外を削除 • ベットがある部屋のデータセットで学習させたが，ベットの削除に成功． 28

29.

実験結果：実画像からのBlob最適化と編集可能性 • 実画像に近づけるようにBlobを最適化⇒そのBlobの操作性を評価 • [D.Roich+ ACM2022]では多様体空間が適切に表現されず，編集が制限されると元論文で言及 • 提案手法は編集が正しく行え，ロバストな表現であることが確認された 29