【DL輪読会】Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance

2K Views

December 12, 24

#拡散モデル #Wasserstein距離 #NeurIPS2022 #深層学習 #機械学習

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance Miyake Daiki, Matsuo Lab, M1 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報著者: Dohyun Kwon, Ying Fan, Kangwook Lee (University of Wisconsin-Madison) NeurIPS2022に採択 arXiv: https://arxiv.org/abs/2212.06359 NeurIPS2022: https://neurips.cc/virtual/2022/poster/53873 2

背景: Diffusion Models • Diffusion Modelは，データにノイズをかける拡散過程(0→T)と，ノイズを外していく逆拡散過程(T→0)をもつ • モデルは以下の損失関数により画像にかけられたノイズを予測する [Ho et al. 2020] 3

背景: Diffusion Models • ノイズの予測は，スコア関数を予測していることに対応する • この損失関数の最小化は，データ分布とモデル分布とのKL divergenceの上限の最小化に対応する [Ho et al. 2020] 4

背景: Diffusion Models • 拡散過程，逆拡散過程は以下の確率微分方程式で表せる拡散過程逆拡散過程 5

背景: Wasserstein距離 • KL divergenceを最小化するためには，2つの分布のサポート(確率が0でない領域) が被っている必要がある q(x)が0ならp(x)は無視される p(x)が0なら発散する • Wasserstein距離は以下の最小化問題の解として定義される周辺分布がp, q • Wasserstein距離は2つの分布のサポートが被っていなくても距離として機能する (一般にf-divergenceとIntegral Probability Metricについても同じことがいえる) 6

導入 • Diffusion modelの学習はKLの上限の最小化に対応することが知られていた • 実験をしてみると，学習が進むにつれてWasserstein距離も小さくなっていることが分かった →Diffusion modelは実はWasserstein距離も最小化しているのでは？ 7

準備 • 8個の仮定をおく (詳細は論文の 3.1 Assumptions を参照) • (A1) がに対して -リプシッツ連続，すなわち，任意のがに対して -片側リプシッツ連続，すなわち，任意のでを満たす • (A2) でを満たす 8

主要な定理 • データ分布とモデル分布(t=0)でのWasserstein距離の上限を，Diffusion modelの損失関数を含む形で導出できる学習によって最小化される 9

10.

異なる損失関数による上限 • 以下の関係式が成り立つ計算できない計算できる • 左辺は実際には計算できないため，代わりに右辺を最小化する • 前述の上限は左辺を使ったものだったが，右辺を使った別の上限を求めることができる 10

11.

実験 • 2次元データを4層MLPで学習 • 学習が進む(=損失が小さくなる)につれて，実際のWasserstein距離(青点)も小さくなっている学習初期学習後学習データ損失 11

12.

実験2 • の値を小さくすることで，Wasserstein距離の値と上限の値とのギャップを小さくできる • Spectral NormalizationやWeight clippingによって，モデルのリプシッツ定数を小さく抑えられる • 実際にはギャップは小さくなるものの，損失が小さくなりきらず，Wasserstein 距離も大きくなってしまう 12

13.

実験3 • DDPMの設定のもとでは，せる • は t が大きくなるにつれて-1に収束することが示が大きくなるにつれて，も小さくなる – が標準正規分布に近づくため – 上の話と合わせると，を被積分関数に含むバイアスも小さくなっていくも小さくなるため，上限の 13

14.

議論 • この上限のもとでは，たとえ損失が0になったとしても，Wasserstein距離が0になることは保証されない – どんな分布に収束するのかわからない • 一般的なモデルで片側リプシッツ定数を推定するのはNP困難 – 正確な上限を求めることは一般的には不可能 – (両側)リプシッツ定数であれば求められるが，より緩い上限になってしまう 14

15.

結論 • Diffusion modelの損失の最小化がWasserstein距離の上限の最小化に対応する • リプシッツ定数を小さくするような工夫を加えることで，上限と実際の値とのギャップを小さくすることができる 15