Diffusion Models

30.5K Views

September 03, 22

#deep learning #ベイズ #生成モデル #Diffusion Model #Denoising Diffusion Probabilistic Models #Variational Inference #VAE #Generative Model

スライド概要

Kento Sugimoto

@kento_sugimoto

スライド一覧

大阪大学医学系研究科特任助教

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

変分ベイズを理解する

ベイズ機械学習

Kento Sugimoto 64.8K

Privacy-Preserving Deep Learning

deep learning

Kento Sugimoto 145

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

Diffusion Model 1

Intro Diffusion Modelを詳しく知りたい（数ヶ月前の自分） ● 少し前からDiffusion Modelという言葉をよく耳にする ● 詳しくはわからんが、ノイズを加えてゴニョゴニョしているらしい ● VAEは前に勉強したことあるけど、それの進化系？ ● 論文は読んだけど、数式だらけでよく分からなかった ● 噂によると、GANを超えたらしい ● 右下のアインシュタインのイラストを見たことがある ● 話題のDALL·Eを詳しく知りたい今回はDiffusion Modelの説明・数式の導出にフォーカスします ● 時間の都合上、GANとの比較・アインシュタインの話、DALL·E 2の話は今回はしません ● DALL·EなどのText to Imageについては希望があれば、またの機会にお話しようと思います。 3

Generative model (Statistical modeling) ● ● 手元の観測データxから隠れ変数zを推論する（pθ(z|x)） pθ(z|x)を事後分布（Posterior）とすると、ベイズルールから以下のように書ける ○ ○ ○ ● pθ(x|z)は尤度（Likelihood） pθ(z|x)は事前分布（Prior） pθ(x)は周辺尤度（Marginal likelihood）ただし、実際には分母の積分計算は解析的に解けない（intractable） 4

Variational Inference ● 分布qφ(z)でpθ(z|x)を近似させる（2つの分布のKLダイバージェンスを最小化する） ● pθ(z|x)を含むKLダイバージェンスの計算は解析的に解けないので、 ELBO(Evidence Lower Bound) 代わりにELBOを最大化することで、qφ(z)を近似させる 5

VAE（Variational Autoencoder） ● Variational Inferenceの近似を深層学習に拡張させた手法 ● qφ(z|x)の確率分布を関数で表現し、逆伝播を可能とした（Reparametrization trick） From Autoencoder to Beta-VAE | Lil'Log 6

https://lilianweng.github.io/posts/2018-08-12-vae/

Diffusion (Probabilistic) Model ● VAEはx→z→xのシンプルなモデル（Encoder・Decoder）で構成される ● Diffusion Modelでは、x→z→xのモデル（Encoder・Decoder）を時系列に拡張 Diffusion Models as a kind of VAE | Angus Turner 7

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

Diffusion (Probabilistic) Model ● 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程をモデリング ● 隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 forward process reverse process ○ foward process .. 観測データにノイズを加えるプロセス（ noising） ○ reverse process .. ノイズからデータを復元するプロセス（ denoising） Improving Diffusion Models as an Alternative To GANs, Part 2 | NVIDIA Technical Blog 8

https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-2/

Diffusion (Probabilistic) Model Diffusion (Probabilistic) Modelの論文として有名なものは以下の２本 1. Deep Unsupervised Learning using Nonequilibrium Thermodynamics → Diffusion Modelのオリジナルの論文 2. Denoising Diffusion Probabilistic Models → 1.を発展させた論文（モデルをシンプルにして実装を容易にし、性能向上を実現） ○ 2.が最近のDiffusion Modelの進化を押さえる上で重要となる論文 ○ 2.の論文を理解することで Diffusion Modelの基本的なアイデアを押さえることができる（本スライドも2.の内容の説明を中心に書かれている） ○ Backgroundなどより深く理解したい場合は 1.も読むべき 9

10.

Diffusion (Probabilistic) Model ● ● 観測データx0と「同次元」の隠れ変数x1:Tにより、x0の生成過程を定義するモデル隠れ変数の遷移はマルコフ連鎖（今の状態は直前の状態にのみ依存）を仮定 reverse process ● reverse processを通じて、観測データの尤度を最大化するような遷移過程を学習する 10

11.

Foward process ● 観測データにノイズを加えるプロセス ○ β1…βtはステップ毎のバリアンスのスケジュール ○ βを調整して徐々にノイズを加える ○ xtはパラメータβtと前の状態xt-1をパラメータとしたガウス分布 11

12.

Reverse process ● ノイズからデータを復元するプロセス ○ ○ ○ foward processで生成されたノイズ xTから元の観測データ x0を復元する xt-1はパラメータμθ・Σθと前の状態xtをパラメータとしたガウス分布観測データx0の尤度を最大化するような遷移過程を学習する（オリジナルの観測データに近づけることを目的として学習を行う） 12

13.

Short summary ● ● foward process ○ 観測データにノイズを加えるプロセス ○ パラメータβをステップ毎に与えていき、完全なノイズデータを生成する reverse process ○ ノイズからデータを復元するプロセス ○ 観測データに近づけることを目的として学習を行う [2006.11239] Denoising Diffusion Probabilistic Models 13

https://arxiv.org/abs/2006.11239

14.

Training ● Generative modelの目的は観測データxに近いデータを生成（復元）すること ● （大雑把に言えば）観測データxと生成データx’の違いを最小化することを目指す From Autoencoder to Beta-VAE | Lil'Log 14

https://lilianweng.github.io/posts/2018-08-12-vae/

15.

Training ● Diffusion Modelもそのモチベーションは同様 ● 観測データx0の生成過程（reverse process）の尤度を最大化したい（pθ(x0)） →Negative log-likelihood（-logpθ(x0)）を損失関数とすれば良い ● ただ、周辺化すると分かるが、この積分計算は解析的に解けない（intractable） 15

16.

Training ● 損失関数として以下の関数を定義（Negative log-likelihood） ● 直接は解析的に解けないので、代わりに右式を最小化することを考える ○ KLダイバージェンスは常に非負なので上式が必ず成立する →どのような分布のKLダイバージェンスを計算するか 16

17.

Training ● foward processはオリジナルの観測データにステップ毎にノイズを加える ● reverse processはノイズから元の観測データに近づけることを目指す foward processのノイズ過程を反転させるようなデノイジング（ノイズ除去）処理を行えば reverse processを通じて元のデータに近いデータを生成できそう reverse processをfoward processを反転させた確率分布を近づける 17

18.

Training ● forward processはq(xt-1|xt)なので、反転させた分布はq(xt-1|xt) ● これはforward processの事後分布 ● reverse processのpθ(xt-1|xt)をforward processの事後分布q(xt-1|xt)に近づける ● 実際は特定の観測データx0で条件付けた場合のforward processの事後分布に近似させたいの foward process で、以下の最小化を目指す 18

19.

Derivation ● (3)に(4)のKLダイバージェンスを代入 ● KLダイバージェンスを以下のように書き換える ● ベイズルールを利用してKLダイバージェンスのforward processを変形する 19

20.

Derivation ● (6)に(7)を代入 20

21.

Derivation ● (5)に(8)を代入 variational lower bound ● (9)のvariational lower boundの最小化問題に変形できた 21

22.

Derivation ● variational lower boundの分子はforward process、分母はreverse process ● (1), (2)を(9)に代入して以下のように変形する後の式変形のため、分母の p(xT)を外に出しておく 22

23.

Derivation ● 続けてvariational lower boundの式変形を行う 23

24.

Derivation ● 二番目のq(xt|xt-1)をベイズルールを用いて変形する ● (12)を(11)に代入する 24

25.

Derivation ● 二番目の式のfoward processは任意の観測データのノイズ生成過程を示している ● 特定の観測データに対するノイズ生成過程としないと非常にhigh varianceになる →観測データx0で条件付ける 25

26.

Derivation ● (14)を式変形する 26

27.

Derivation ● (15)を式変形する Lt Lt-1 L0 27

28.

Derivation ● 第一項（LT） ○ 論文ではforward processのパラメータβは固定[Ho. et al. 2020] ○ p(xT)はN（0,I）のガウス分布 →learnableなパラメータを含まないので定数として扱う [2006.11239] Denoising Diffusion Probabilistic Models 28

https://arxiv.org/abs/2006.11239

29.

Derivation ● 第二項（Lt-1） 29

30.

Derivation ● 第二項（Lt-1） ○ varianceはステップ毎の定数（βt）で固定 [Ho et al. 2020] [2006.11239] Denoising Diffusion Probabilistic Models 30

https://arxiv.org/abs/2006.11239

31.

Derivation ● 第二項（Lt-1） ○ Lt-1は２つの分布（ forward processの事後分布と reverse process）の違いそのもの ○ ２つの分布はいずれもガウス分布であり、 KLダイバージェンスは解析的に計算できる ○ reverse processのvarianceを固定する場合、 varianceの違いはuncontrollable （learnableなパラメータを持たないので、 lossとして考慮しても意味はない） ○ reverse processのmeanが唯一のlearnableなパラメータであり、分布間の KLダイバージェンスの計算ではなく、reverse processのmeanを最適化するよう lossを設計すれば良い（reverse processのmeanをforward processの事後分布の meanに近づける） Deriving KL Divergence for Gaussians 31

https://leenashekhar.github.io/2019-01-30-KL-Divergence/#:~:text=KL Divergence for Gaussian distributions? We know that,− (z − μ) 2 2 σ 2

32.

Derivation ● meanは離散値なので、lossにはMSE（Mean Square Error）を使用 actual mean ○ predicted mean (17)を(18)に代入して変形しておく 32

33.

Derivation ● reparametrizationにより、meanの計算を拡張 ○ foward processの分布からx0を定式化 reparametrization 33

34.

Derivation ● (20)を(18)のactual meanに代入して以下のように変形する xtからノイズを引いている Diffusion Models as a kind of VAE | Angus Turner 34

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

35.

Derivation ● (21)を(18)に代入する ○ train時にxtは与えられているので、 lossとして考慮する必要はない ○ reverse processではノイズεさえ予測できれば良い reparameterization Diffusion Models as a kind of VAE | Angus Turner 35

https://angusturner.github.io/generative_models/2021/06/29/diffusion-probabilistic-models-I.html

36.

Derivation ● (22)を変形する .. forward process(encoder)で生成されるノイズ .. reverse process(decoder)で予測するノイズ生成されたノイズを除去（最小化）するように学習 36

37.

Derivation ● (23)のεθに(19)を代入 ○ tステップ（1 ≦ t ≦ T-1）毎の上式のlossを加算する 37

38.

Derivation ● 第三項（L0） ○ 最後のreverse processのステップからデータを復元する過程 ○ 論文では画像を想定して以下のスケーリング処理を定義 38

39.

Derivation ● 実験では簡素化した損失関数を使用 ○ Lt-1のスケーリングを無視 ○ L0を損失関数から除外 ○ この損失関数の方が実装が容易＆元の関数と同様の性能だったため最終的にはこちらを採用 39

40.

Training ● 訓練データからデータx0をサンプリング ● 一様分布からステップtをサンプリング ● ノイズεをサンプリング ● Gradient descentを用いて最適化 40

41.

Summary Diffusion Model ● 生成過程の隠れ変数をマルコフ連鎖で繋いだグラフィカルモデル ● forward processを通じて、元のデータを徐々に「破壊」する（ノイズを加える） ● reverse processを通じて、破壊されたデータを復元する工程を「学習」する ● 復元工程を深層学習で正確に実現することで、生成モデルとしての高い性能を示した Ayan Das · An introduction to Diffusion Probabilistic Models 41

https://ayandas.me/blog-tut/2021/12/04/diffusion-prob-models.html

42.

参考 [Blog] ● Diffusion Models as a kind of VAE | Angus Turner ● What are Diffusion Models? | Lil'Log ● The Annotated Diffusion Model [YouTube] ● Diffusion Models | Paper Explanation | Math Explained ● What are Diffusion Models? どれも分かりやすかったので、これらを参考に自身で式を追ってみることをオススメします 42