【拡散モデル勉強会】Improved Denoising Diffusion Probabilistic Models

9.3K Views

March 26, 24

#DDPM #Denoising Diffusion Probabilistic Models #画像生成 #深層学習 #機械学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 36.8K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Improved Denoising Diffusion Probabilistic Models [1] Itsunori Watanabe, Waseda University http://deeplearning.jp/ 1

http://deeplearning.jp/

サマリー • DDPMを少し修正するだけでGANやVAEに匹敵する分布の再現性を持つ • 拡散過程のステップ数を減らしても精度の良い画像の⽣成を可能にした。 2

⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 3

⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 4

DDPMの弱点:対数尤度が低い • 対数尤度が低い = 「再現できるデータ分布のバリエーションが少ない」？ • FIDとInception scoreは⾼いが、対数尤度は低い。[2] • FID: ⽣成画像の質 • 対数尤度: ⽣成画像の多様性 • Inception score: ⽣成画像の質と多様性の両⾯ 5

⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 6

通常分散は𝜷𝒕 で固定される 𝛽! ガウス分布の分散を𝛽! として固定しようがなんらかの形で𝛽"! と推定しようが精度はあまり変わらない 7

" 𝒕 の前半の差異が対数尤度に⼤きく関わっている可能性 𝜷𝒕 と𝜷 拡散過程の後半では𝛽! は大して変わらない Lossの減少に寄与するのは拡散過程の前半 8

各次元の分散を制御するベクトル𝒗をモデルが出⼒ (𝜆 = 0.001) ∑"(𝑥! , 𝑡)に依存しない ∑"(𝑥! , 𝑡)に依存する 9

10.

特に低解像度の画像ではlinear shedularではノイズが⼤きすぎる Linear schedule Cosine schedule Linear schedulの20%のdiffusion過程をskipしてもlossは大して変わらない 10

11.

Cosine scheduleでt=0, t=T近くでのノイズを抑制 • Linear scheduleに比べて、より緩やかに拡散 • 初期と後期のノイズを抑制 • (実用上は)t = 0近傍で𝛽! が小さくなりすぎないようオフセットを追加 11

12.

tの重要度によって𝑳𝒗𝒍𝒃 を再定義 • 当初は𝐿#$% を直接最適化する方針だったが予想以上に難しく、ノイズが非常に多いことが判明 • tによって一様に𝐿! を足し合わせているのが原因と考えて、tによる重要度を定義 12

13.

⽬次 • DDPMの弱点 • DDPMの改良 – 分散の学習 – スケジューラーの変更 – Lossの改良 • 結果 13

14.

Cosine scheduleと𝑳𝒗𝒍𝒃 で⾼い対数尤度を実現 • 𝐿#$% はNLLは低いもののFIDを犠牲しているので、実用上は𝐿&'%()* がFIDをそこまで犠牲にせずNLL を下げられており、生成画像も 𝐿&'%()* が最もきれい 14

15.

そのほかのモデルと⽐較しても低いNLLを実現 15

16.

CIFAR-10, ImageNetいずれにおいても収束速度が向上 16

17.

参考⽂献 [1] Alex Nichol, Prafulla Dhariwal: “Improved Denoising Diffusion Probabilistic Models”, 2021; arXiv:2102.09672. [2] Jonathan Ho, Ajay Jain, Pieter Abbeel: “Denoising Diffusion Probabilistic Models”, 2020; arXiv:2006.11239. 17