【Diffusion勉強会】Guiding a Diffusion Model with a Bad Version of Itself

6.2K Views

September 03, 24

#拡散モデル #オートガイダンス #Classifier-Free Guidance #画像生成 #画質向上

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.8K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 45.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.8K

各ページのテキスト

DLGuiding Hacks 2021 Introductory a Diffusion Model Session with a Bad Version of Itself 竹田悠哉, 工学系研究科修士2年 Alfredo Solano, Matsuo Laboratory

• 著者 Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine（主にNVIDIA） • 概要 – CFGのように条件なしモデルではなく、学習が少なくより小さなモデルによるガイドによって、変動の量を損なうことなく、画質に対する分離されたコントロールを得られる手法を提案 – ImageNetの大幅な改善 – 無条件拡散モデルにも適用可能であり、品質を飛躍的に向上させる • 出典 – https://arxiv.org/abs/2406.02507 （2024/06/04, preprint） 2

イントロ • CFG(Classifier-Free Guidance) [Ho+ 21] – 条件付き、条件なしの両方で動作するように学習することで、サンプリングプロセスを条件なしの結果から遠ざけることができる – サンプリング温度を下げる、すなわち、よく学習された高確率領域に生成を集中させる標準的な方法 J. Ho and T. Salimans. Classifier-free diffusion guidance. In Proc. NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021 3

イントロ • CFGを低温サンプリング法として利用する際の制限 – 条件付き生成のみ – サンプリング軌道が所望の条件付き分布をオーバーシュートする可能性 [Kynkäänniemi+ 24] • • 無条件ノイズ除去器と条件付きノイズ除去器は異なるタスクを解決するために訓練されるため歪みや過度に単純化された画像合成につながる • CFGがなぜ画質を向上させるのかを調査し、効果をオートガイダンスという新手法に分離 – 劣ったバージョンをガイドモデルとして使用し、条件付けを変更しないため、タスクの不一致の問題を解消 T. Kynkäänniemi, M. Aittala, T. Karras, S. Laine, T. Aila, and J. Lehtinen. Applying guidance in a limited interval improves sample and distribution quality in diffusion models. CoRR, abs/2404.07724, 2024 4

CFGについて 5

CFGとは • 分類器ガイダンス[Dhariwal & Nichol 21] – 画像分類器からの勾配を使用して、多様性と忠実性をトレードオフするためのシンプルで計算効率の良い方法 • CFG[Ho+ 21] – 分類器を持たない純粋な生成モデルによってガイダンスが実際に実行できることを示した – 条件付きと無条なしの拡散モデルを共同で訓練し、得られたスコア推定値を組み合わせて、分類器ガイダンスを用いて得られたものと同様のサンプル品質と多様性のトレードオフを達成 Prafulla Dhariwal and Alex Nichol. Diffusion models beat GANs on image synthesis. arXiv preprint arXiv:2105.05233, 2021 6

生成におけるCFG • プロンプトをどれだけ反映させるかを決めるパラメータ – 高過ぎると絵の質に悪影響 – 低過ぎると条件付けがうまくいかない • 仕組みこの差が重要（2ピクセル、モノクロ、VAEなし、条件なしの場合） https://hoshikat.hatenablog.com/entry/2023/06/17/021610 Diffusion models explained. How does OpenAI's GLIDE work? - YouTube 9

10.

なぜCFGが画質を改善するのか 10

11.

検証データ • 2Dトイデータを作成し検証 – ノイズ除去時に、低い局所次元(高度に異方的で狭いサポート)と局所的な詳細の階層的な出現を示すように設計 • いずれも現実的な画像の実際の多様体から予想される性質[Brown+ 23][Pope+ 21] – データの構築方法はAppendix Cで詳解 B. C. A. Brown, A. L. Caterini, B. L. Ross, J. C. Cresswell, and G. Loaiza-Ganem. Verifying the union ofmanifolds hypothesis for image data. In Proc. ICLR, 2023. P. Pope, C. Zhu, A. Abdelkader, M. Goldblum, and T. Goldstein. The intrinsic dimension of images and its impact on learning. In Proc. ICLR, 2021. 11

12.

• スコアマッチングは外れ値のもとになる – (a)の基礎となる分布から直接サンプリングする場合と比較して、 (b)のガイドなし拡散は、分布の大部分の外に極端にサンプルを大量に生成 →非現実的で壊れた画像に対応 12

13.

• 外れ値は、スコアネットワークの限定された能力に起因すると主張 • 最尤推定 – モデルがすべての学習サンプルをカバーしようとするという意味で、データ分布の「保守的な」適合をもたらす（尤度を著しく過小評価する場合、KLが極端なペナルティを受けるため） • スコアマッチング – 一般に最尤推定と等しくないが、大まかに似た挙動を示す • 例えば、多変量ガウスモデルの場合、最適なスコアマッチングは最尤推定と一致することが知られている 13

14.

• 外れ値は、スコアネットワークの限定された能力に起因すると主張 – a、bは、中間ノイズレベルにおいて、容量の異なる2つのモデルについて、学習されたスコアフィールドと暗黙の密度を示したもの – 強いモデルはデータをより強固に包含し、弱いモデルの密度はより広がっている 14

15.

• 画像生成では学習データ全体をカバーする傾向が問題に – 高いペナルティを避けるためだけに含まれる、データ分布の両端から奇妙でありそうもない画像を生成 – トレーニング中はノイズの多い画像しか入力として見ていないため、サンプリング中に、より高いノイズレベルから引き渡される可能性の低いサンプルに対処できていない可能性もある 15

16.

• CFG(w = 4)は、外れ値を除去するが、クラスを過度に強調することで多様性を減少させる – クラス境界を避け(グレーの近傍にサンプルがない)、分布の枝が削除される – 多様体のコアに向かって引き込まれ、低確率の中間領域から遠ざかっている • 画質の向上は、このサンプルによるものと考えられる 16

17.

• スコアベクトルを長く(w>1)することによるナイーブな切り捨て – サンプルは高確率領域に集中するが、等方的な方法で外側の枝は空のまま – 生成された画像は、ばらつきが少なく、細部が単純化されすぎた、単調なテクスチャを示す傾向がある 19

18.

• 提案手法は、多様性を低減することなく、高確率領域にサンプルを集中させる 20

19.

オートガイダンス 21

20.

提案手法 • 貧弱なモデルD0で高品質なモデルD1を直接ガイドすることで、画質改善効果を分離することを提案 – いずれも同じタスク、条件付け、データ分布で学習 • 自身の劣ったバージョンのモデルにガイドされるため、オートガイダンスと命名 22

21.

動作機序 • 限られたモデル容量の下では、スコアマッチングはデータ分布の低確率領域を強調しすぎる傾向がある – ネットワークアーキテクチャ、データセット、トレーニングの詳細など、様々な要因に左右されるため、具体的な問題を先験的に特定はできない • 同じモデルの弱いバージョンは、同じ領域でほぼ同様の誤差を生じ、強いだけであることが予想される • 弱いモデルの予測との差を測定し、それをブーストすることで、強いモデルのエラーを特定し、減らす 23

22.

結果 • 512×512、64×64のImageNetで評価 24

23.

結果 • ガイドモデルには、学習時間が短いか、容量が少ない2つの劣化モデルを使用 – これらの両方を有効にすることで、最良の結果 – 例えばEDM2-Sでは、学習が1/16のXSサイズのモデル • EDM2はガイダンスの重みとEMA長に敏感であるため、グリッドサーチを用いて各ケースの最適値を探索 25

24.

結果 • 現状良いスコアが得られていない条件なしでも大幅に改善 26

25.

アブレーションスタディ • 学習データ量の削減 – ベースラインより結果は改善されなかった • 合成劣化（ドロップアウト、入力にノイズ） – メインモデルが苦しんでいるのと同じ種類の劣化を示す必要がありそう（FID 2.55ぐらいでやや劣る） • 量子化 – さらに低い精度に量子化しても、有用なガイドモデルが得られない 27

26.

定性評価（EDM2-S） CFGでwが増加するにつれて、やや理想化された描写に変換される典型例 Tree frog Palace Mushroom Castle classes CFGでは、無関係なスタイルの城が2つか 3つあり、何をすべきかを決定するのに苦労しているように見える提案手法はまず大きな赤い要素を城に組み込み、ガイダンスを増やすことで赤い前景オブジェクトに焦点を当てている 28

27.

定性評価（DeepFloyd IF） blue jay standing on a large basket of rainbow macarons wが大きくても正準画像に向かわない 29

28.

定性評価（DeepFloyd IF） 30

29.

定性評価（DeepFloyd IF） 31

30.

議論 • 異なる視点と単純な実用的変化が、全く新しい設計空間を開くことを示した • 今後 – オートガイダンスが有益であることを正式に証明すること、最適なガイドモデルを選択するための良い経験則を導き出すことなどが考えられる • 制限 – 現在の大規模な画像生成器では実際には利用できない • 学習データがある時点で変化する連続したステージで学習されることが多く、スナップショット間の分布シフトを引き起こす可能性があるため 32