754 Views
September 19, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] “Denoising Diffusion Bridge Models” (ICLR2024) 2024/09/19 Sodtavilan Odonchimed, M1, Matsuo-Iwasawa Lab http://deeplearning.jp/ ©MATSUO LAB, THE UNIVERSITY OF TOKYO
Introduction 書誌情報 1. Denoising Diffusion Bridge Models - Arxiv submi8ed on Fri, 29 Sep 2023 03:24:24 UTC - Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon (Department of Computer Science, Stanford University) - ICLR 2024 2. Overview - Standard Gaussian Noiseから生成する従来の拡散モデルの拡張 - ML task: Image to Image ©MATSUO LAB, THE UNIVERSITY OF TOKYO 2
Diffusion Processes Stochastic Generative Models: Forward process: 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! Reverse process: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 3
Score-based Diffusion Models VP-SDE: DDPM-like diffusion models 1 𝐹 𝑥! , 𝜎! = − 𝛽 𝜎! 𝑥! 2 𝐺 𝜎! = 𝛽(𝜎! ) 確率微分方程式の解 : 𝑥! = 𝛼! 𝑥% + 𝜎! 𝑧! 𝑤ℎ𝑒𝑟𝑒 𝑧! ~𝒩(0, 𝐼) VE-SDE: Variance Exploding 𝐹 𝑥! , 𝜎! = 0 𝐺 𝜎! = 2𝜎! 確率微分方程式の解 : 𝑥! = 𝑥% + 𝜎! 𝑧! 𝑤ℎ𝑒𝑟𝑒 𝑧! ~𝒩(0, 𝐼) ©MATSUO LAB, THE UNIVERSITY OF TOKYO 4
Score-based Diffusion Models Score-matching 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 Train this parameter ℒ 𝜃 = 𝔼!! ~# 𝑥$ 𝑥% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝜎$ − ∇!! log 𝑝, 𝑥$ |𝑥% - Sampling = Solving ODE: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "𝑠& (𝑥! , 𝜎! ) 𝑑𝜎! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 5
Limitations of Diffusion Processes Stochastic Generative Models: Forward process: 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! Reverse process: 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 × Only transfers data to standard Gaussian ©MATSUO LAB, THE UNIVERSITY OF TOKYO 6
Denoising Diffusion Bridge Models overview 𝑑𝑥! = 𝐹 𝑥! , 𝜎! 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 任意のデータ分布から生成可能な メカニズムを提唱 1 𝑑𝑥! = 𝐹 𝑥! , 𝜎! − 𝐺 𝜎! "∇#! log 𝑝$ (𝑥! ) 𝑑𝜎! + 𝐺 𝜎! 𝑑𝜔! 2 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 7
Denoising Diffusion Bridge Models overview • VP, VEのどちらにも適応可能 • Noise schedulerはVP, VEによって異なる。 • 𝛼! : scheduler function ©MATSUO LAB, THE UNIVERSITY OF TOKYO 8
Expansions Transfer direc<on : Y to X Score function direction ∇"! log 𝑞 (𝑥! |𝑥# ) Forward direc<on ∇"! log 𝑝 (𝑥# |𝑥! ) ©MATSUO LAB, THE UNIVERSITY OF TOKYO 9
Expansions Forward processの拡張 𝑥! ∼ 𝑝 𝑥! 𝑥" = 𝒩(𝛼! 𝑥" , 𝜎!# 𝑰) Using Bayesian Rule 𝑥! ∼ 𝑝 𝑥! 𝑥$ , 𝑥" • • 𝑝 𝑥$ 𝑥! , 𝑥" 𝑝(𝑥! |𝑥" ) = 𝑝(𝑥$ |𝑥" ) 𝑝 𝑥! 𝑥% = 𝒩(𝛼! 𝑥%, 𝜎!"𝑰) 𝑝 𝑥; 𝑥! = 𝒩 <" 𝑥, <! ! # <" " 𝜎; − <# 𝜎!" ! 𝑰 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 10
Expansions Forward processの拡張 𝑥! ∼ 𝑝 𝑥! 𝑥$ , 𝑥" 𝜇-! = %&'! (" 𝑥 + 𝛼! %&'" (! $ %&'! # # 𝜎-! = 𝜎! 1 − %&' 1− 𝑝 𝑥$ 𝑥! , 𝑥" 𝑝 𝑥! 𝑥" = = 𝒩(𝜇-! , 𝜎-!# 𝑰) 𝑝 𝑥$ 𝑥" %&'! %&'" 𝑥" 混合比率の表示 Reverse processのパラメータ (Same Gaussian kernels) 𝑞(𝑥! |𝑥# , 𝑥$ ) = 𝑝 𝑥! 𝑥# , 𝑥$ " ©MATSUO LAB, THE UNIVERSITY OF TOKYO 11
Expansions Score func<onの拡張 𝑠) 𝑥! , 𝜎! = ∇*" log 𝑞) 𝑥! , 𝜎! ∇*" log 𝑞) 𝑥! , 𝑥$ , 𝜎! 𝑥! − 𝐷) (𝑥! , 𝜎! ) =− 𝜎!# SNR $ 𝛼! SNR $ 𝑥! − SNR 𝛼 𝑥$ + 𝛼! 1 − SNR 𝐷) (𝑥! , 𝜎! ) ! $ ! =− SNR $ # 𝜎! 1 − SNR ! ©MATSUO LAB, THE UNIVERSITY OF TOKYO 12
Expansions Score matchingの拡張 ℒ 𝜃 = 𝔼!! ~# 𝑥$ 𝑥% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝜎$ − ∇!! log 𝑝, 𝑥$ |𝑥% ℒ 𝜃 = 𝔼!! ,!% ,!" ~##$!$ ,$~'(%,)) 𝑠+ 𝑥$ , 𝑥) , 𝜎$ − ∇!! log 𝑞, 𝑥$ |𝑥% , 𝑥) ©MATSUO LAB, THE UNIVERSITY OF TOKYO - - 13
Expansions Deriva<on of SDE (Appendix A.3) 導出: Bayesian Rule より、 𝑝 𝑥! 𝑥# , 𝑥$ に対するFokker-Plank equa<onを計算する。 𝑝 𝑥! 𝑥% , 𝑥& = 𝑝 𝑥% 𝑥! , 𝑥& 𝑝(𝑥! |𝑥&) 𝑝(𝑥% |𝑥&) 途中で、 𝑝 𝑥! 𝑥# , 𝑥$ = 𝑞(𝑥! |𝑥# , 𝑥$ )を代入すると上記の式が得られる。 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 14
Sampling methods Hybrid Sampler:SDEを数値解法するアルゴリズムを提案 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 15
Benchmarks Image 2 Image transla<on ©MATSUO LAB, THE UNIVERSITY OF TOKYO 16
Benchmarks Image 2 Image translation : in Latent Space 潜在空間では、あまりうまく動作しない。 ©MATSUO LAB, THE UNIVERSITY OF TOKYO 17
Benchmarks Image 2 Image transla<on - 事前調整を活用した場合 → CFGではなく直接Bridgeとしてサンプルする。 - Hybrid Samplerを活用した場合 - EDMそのままの場合(CFGで変換) ©MATSUO LAB, THE UNIVERSITY OF TOKYO 18
Experiment ノイズスケジューラーの可視化 𝜎 𝑡 : (𝜎%&" = 10) VE-SDE sampling ©MATSUO LAB, THE UNIVERSITY OF TOKYO 19
Conclusion まとめ - Diffusion ModelをGaussian分布の入力から、一般的なデータ分布の入力へ一般化した手法DDBMを提案 - Image to Image変換では、既存のベースラインで良い精度に達した。 - 潜在空間では、他の手法より性能が劣ってしまう。 感想 - データの構造を変換せずに生成できる仕組みが興味深い。 - Diffusion Modelと同様に高速化手法(Diffusion Bridge Implicit Models)、In-Paintingなどの手法の研究に そのままつながりそう。 簡略化実装[WIP]: h[ps://github.com/galaxygliese/Latent-DDBM ©MATSUO LAB, THE UNIVERSITY OF TOKYO 20