【Diffusion勉強会】“Classifier-FreeGuidance is a Predictor-Corrector”

764 Views

September 17, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

“Classifier-Free Guidance is a Predictor-Corrector” Daiki Miyake, Matsuo Lab, M1 1

2.

書誌情報 • タイトル Classifier-Free Guidance is a Predictor-Corrector • 著者 Arwen Bradley, Preetum Nakkiran (Apple) • リンク – arXiv https://www.arxiv.org/abs/2408.09000 – プロジェクトページ https://machinelearning.apple.com/research/predictor-corrector 2

3.

概要 • Classifier-free guidance (CFG)がどのような分布を生成するのかが未 解明 • 新たにPredictor-Corrector guidance (PCG)を提案し,PCGがCFGと 理論的に等価になることを示す • PCGによってCFGの解釈の幅が広がる 3

4.

確率微分方程式 • Diffusion Modelに対応する確率微分方程式 Forward Backward (DDPM) Backward (DDIM) 4

5.

Classifier-free guidance • Classifier-free guidance (CFG) – Gamma-powered分布 5

6.

CFGの問題点 • CFGを使って逆拡散過程を計算した時に得られる分布はどんな分布か – ではない ( 𝛾𝛾 ≠ 1 ) – Gamma-powered分布 でもない 6

7.

DDPM/DDIM with CFG • ある分布 に対して,逆拡散過程でCFGを使ってDDPMまたは DDIMで生成される分布が以下のようになる • 本来はDDPMとDDIMで生成される分布は一致するが,CFGを使うと 異なる場合がある • 特に,DDIMの方が分散が遥かに小さくなる 7

8.

反例1 • 仮定 • 生成される分布は解析的に求まる • 生成される分布はgamma-powered分布とは分散が全く異なる 8

9.

反例2 • 分散が異なるだけならサンプルを定数倍すれば良いだけ? • 仮定 • 生成される分布はgamma-powered分布と平均も分散も異なり, DDIMでは対称性も失われる 9

10.

Predictor-Corrector guidance • Predictor-Corrector guidanceでは,1ステップでPredictorと Correctorのそれぞれで更新を行う – Predictor (DDIMに従って1回更新) – Corrector (Langevin dynamicsに従ってK回更新) 10

11.

Predictor-Corrector guidance • Langevin Dynamics 以下の微分方程式の解は で に収束する • PCGは各ステップで生成しようとする分布が異なる – Predictor: Diffusion Modelの枠組みで – Corrector: Langevin Dynamicsの枠組みで を生成しようとする を生成しようとする 11

12.

CFGとPCGの等価性 • DDPM+CFGの微分方程式とDDIM+PCGの微分方程式は一致する • 理想的には,DDIM+PCGはDDPM+CFGと等価とみなせる 12

13.

CFGとPCGの等価性 13

14.

CFGの働きの定式化 • PerceivedQuality[*]…人にとっての生成画像品質 • …理想的なCFGによって得られる分布 (スコアが正確に計算できた上でのSDEの厳密解) • …実際のCFGによって得られる分布 (推定されたスコアを用いて,SDEを離散的に解いて得られる解) 14

15.

CFGの働きの定式化 • γを1から大きくしていくとReal CFGの項が良くなるが,これは2つ の要素に分解できる 1. Ideal CFGの項が良くなる (分布そのものを改善する) 2. Generalization Gapの項が小さくなる (正則化,分布の単純化) 15

16.

Questions and Limitations • DDIM+CFGとPCGはどう対応するのか? – データ分布が混合正規分布の場合,分散が大きければ(山の重なりが大き い)DDPMとDDIMの生成分布は類似する • Guidanceとしての性能が優れているわけではない – DenoisingやLangevin Dynamicsの性能を向上させる研究は色々あるので,そ れらと組み合わせると性能向上が期待できる 16

17.

実験結果 • Stable Diffusion XL を用いた結果 17

18.

Appendix • 𝛾𝛾 = 1 (増幅なし)でもLangevin Dynamicsのステップを増やせば画像 品質は向上する 18

19.

まとめ • まとめ – CFGと等価なPredictor-Corrector guidanceを提案した • 所感 – γ=1でもCorrector項の働きを強めることで綺麗な画像が生成できる ⇒CFGやPCGを使わないとGeneralization Gapが大きいまま ⇒そもそもスコアを正確に学習できていない 19