【DL輪読会】Denoising Diffusion Bridge Models

2K Views

September 19, 24

#拡散モデル #Denoising Diffusion Bridge Models #Image to Image変換 #深層学習 #ICLR2024

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Denoising Diffusion Bridge Models” (ICLR2024) 2024/09/19 Sodtavilan Odonchimed, M1, Matsuo-Iwasawa Lab http://deeplearning.jp/ ©MATSUO LAB, THE UNIVERSITY OF TOKYO

http://deeplearning.jp/

Introduction 書誌情報 1. Denoising Diﬀusion Bridge Models - Arxiv submi8ed on Fri, 29 Sep 2023 03:24:24 UTC - Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon (Department of Computer Science, Stanford University) - ICLR 2024 2. Overview - Standard Gaussian Noiseから生成する従来の拡散モデルの拡張 - ML task： Image to Image ©MATSUO LAB, THE UNIVERSITY OF TOKYO 2

Diﬀusion Processes Stochastic Generative Models: Forward process: 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! Reverse process: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 3

Score-based Diﬀusion Models VP-SDE: DDPM-like diffusion models 1 𝐹 𝑥! , 𝜎! = − 𝛽 𝜎! 𝑥! 2 𝐺 𝜎! = 𝛽(𝜎! ) 確率微分方程式の解 : 𝑥! = 𝛼! 𝑥% + 𝜎! 𝑧! 𝑤ℎ𝑒𝑟𝑒 𝑧! ~𝒩(0, 𝐼) VE-SDE: Variance Exploding 𝐹 𝑥! , 𝜎! = 0 𝐺 𝜎! = 2𝜎! 確率微分方程式の解 : 𝑥! = 𝑥% + 𝜎! 𝑧! 𝑤ℎ𝑒𝑟𝑒 𝑧! ~𝒩(0, 𝐼) ©MATSUO LAB, THE UNIVERSITY OF TOKYO 4

Score-based Diffusion Models Score-matching 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 Train this parameter ℒ 𝜃 = 𝔼!! ~# 𝑥$ 𝑥% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝜎$ − ∇!! log 𝑝, 𝑥$ |𝑥% - Sampling = Solving ODE: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "𝑠& (𝑥! , 𝜎! ) 𝑑𝜎! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 5

Limitations of Diﬀusion Processes Stochastic Generative Models: Forward process: 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! Reverse process: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 × Only transfers data to standard Gaussian ©MATSUO LAB, THE UNIVERSITY OF TOKYO 6

Denoising Diffusion Bridge Models overview 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 任意のデータ分布から生成可能なメカニズムを提唱 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 7

Denoising Diﬀusion Bridge Models overview • VP, VEのどちらにも適応可能 • Noise schedulerはVP, VEによって異なる。 • 𝛼! : scheduler function ©MATSUO LAB, THE UNIVERSITY OF TOKYO 8

Expansions Transfer direc<on : Y to X Score function direction ∇"! log 𝑞 (𝑥! |𝑥# ) Forward direc<on ∇"! log 𝑝 (𝑥# |𝑥! ) ©MATSUO LAB, THE UNIVERSITY OF TOKYO 9

10.

Expansions Forward processの拡張 𝑥! ∼ 𝑝 𝑥! 𝑥" = 𝒩(𝛼! 𝑥" , 𝜎!# 𝑰) Using Bayesian Rule 𝑥! ∼ 𝑝 𝑥! 𝑥$ , 𝑥" • • 𝑝 𝑥$ 𝑥! , 𝑥" 𝑝(𝑥! |𝑥" ) = 𝑝(𝑥$ |𝑥" ) 𝑝 𝑥! 𝑥% = 𝒩(𝛼! 𝑥%, 𝜎!"𝑰) 𝑝 𝑥; 𝑥! = 𝒩 <" 𝑥, <! ! # <" " 𝜎; − <# 𝜎!" ! 𝑰 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 10

11.

Expansions Forward processの拡張 𝑥! ∼ 𝑝 𝑥! 𝑥$ , 𝑥" 𝜇-! = %&'! (" 𝑥 + 𝛼! %&'" (! $ %&'! # # 𝜎-! = 𝜎! 1 − %&' 1− 𝑝 𝑥$ 𝑥! , 𝑥" 𝑝 𝑥! 𝑥" = = 𝒩(𝜇-! , 𝜎-!# 𝑰) 𝑝 𝑥$ 𝑥" %&'! %&'" 𝑥" 混合比率の表示 Reverse processのパラメータ (Same Gaussian kernels) 𝑞(𝑥! |𝑥# , 𝑥$ ) = 𝑝 𝑥! 𝑥# , 𝑥$ " ©MATSUO LAB, THE UNIVERSITY OF TOKYO 11

12.

Expansions Score func<onの拡張 𝑠) 𝑥! , 𝜎! = ∇*" log 𝑞) 𝑥! , 𝜎! ∇*" log 𝑞) 𝑥! , 𝑥$ , 𝜎! 𝑥! − 𝐷) (𝑥! , 𝜎! ) =− 𝜎!# SNR $ 𝛼! SNR $ 𝑥! − SNR 𝛼 𝑥$ + 𝛼! 1 − SNR 𝐷) (𝑥! , 𝜎! ) ! $ ! =− SNR $ # 𝜎! 1 − SNR ! ©MATSUO LAB, THE UNIVERSITY OF TOKYO 12

13.

Expansions Score matchingの拡張 ℒ 𝜃 = 𝔼!! ~# 𝑥$ 𝑥% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝜎$ − ∇!! log 𝑝, 𝑥$ |𝑥% ℒ 𝜃 = 𝔼!! ,!% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝑥) , 𝜎$ − ∇!! log 𝑞, 𝑥$ |𝑥% , 𝑥) ©MATSUO LAB, THE UNIVERSITY OF TOKYO - - 13

14.

Expansions Deriva<on of SDE (Appendix A.3) 導出： Bayesian Rule より、 𝑝 𝑥! 𝑥# , 𝑥$ に対するFokker-Plank equa<onを計算する。 𝑝 𝑥! 𝑥% , 𝑥& = 𝑝 𝑥% 𝑥! , 𝑥& 𝑝(𝑥! |𝑥&) 𝑝(𝑥% |𝑥&) 途中で、 𝑝 𝑥! 𝑥# , 𝑥$ = 𝑞(𝑥! |𝑥# , 𝑥$ )を代入すると上記の式が得られる。 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 14

15.

16.

17.

18.

Benchmarks Image 2 Image transla<on - 事前調整を活用した場合 → CFGではなく直接Bridgeとしてサンプルする。 - Hybrid Samplerを活用した場合 - EDMそのままの場合（CFGで変換） ©MATSUO LAB, THE UNIVERSITY OF TOKYO 18

19.

20.

Conclusion まとめ - Diﬀusion ModelをGaussian分布の入力から、一般的なデータ分布の入力へ一般化した手法DDBMを提案 - Image to Image変換では、既存のベースラインで良い精度に達した。 - 潜在空間では、他の手法より性能が劣ってしまう。感想 - データの構造を変換せずに生成できる仕組みが興味深い。 - Diffusion Modelと同様に高速化手法(Diffusion Bridge Implicit Models)、In-Paintingなどの手法の研究にそのままつながりそう。簡略化実装[WIP]： h[ps://github.com/galaxygliese/Latent-DDBM ©MATSUO LAB, THE UNIVERSITY OF TOKYO 20

https://github.com/galaxygliese/Latent-DDBM