【DL輪読会】Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance

1.3K Views

December 12, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance Miyake Daiki, Matsuo Lab, M1 http://deeplearning.jp/ 1

2.

書誌情報 著者: Dohyun Kwon, Ying Fan, Kangwook Lee (University of Wisconsin-Madison) NeurIPS2022に採択 arXiv: https://arxiv.org/abs/2212.06359 NeurIPS2022: https://neurips.cc/virtual/2022/poster/53873 2

3.

背景: Diffusion Models • Diffusion Modelは,データにノイズをかける拡散過程(0→T)と,ノイズを外して いく逆拡散過程(T→0)をもつ • モデルは以下の損失関数により画像にかけられたノイズを予測する [Ho et al. 2020] 3

4.

背景: Diffusion Models • ノイズの予測は,スコア関数を予測していることに対応する • この損失関数の最小化は,データ分布とモデル分布とのKL divergenceの上限の 最小化に対応する [Ho et al. 2020] 4

5.

背景: Diffusion Models • 拡散過程,逆拡散過程は以下の確率微分方程式で表せる 拡散過程 逆拡散過程 5

6.

背景: Wasserstein距離 • KL divergenceを最小化するためには,2つの分布のサポート(確率が0でない領域) が被っている必要がある q(x)が0ならp(x)は 無視される p(x)が0なら発散する • Wasserstein距離は以下の最小化問題の解として定義される 周辺分布がp, q • Wasserstein距離は2つの分布のサポートが被っていなくても距離として機能する (一般にf-divergenceとIntegral Probability Metricについても同じことがいえる) 6

7.

導入 • Diffusion modelの学習はKLの上限の最小化に対応することが知られていた • 実験をしてみると,学習が進むにつれてWasserstein距離も小さくなっているこ とが分かった →Diffusion modelは実はWasserstein距離も最小化しているのでは? 7

8.

準備 • 8個の仮定をおく (詳細は論文の 3.1 Assumptions を参照) • (A1) が に対して -リプシッツ連続,すなわち,任意の が に対して -片側リプシッツ連続,すなわち,任意の で を満たす • (A2) で を満たす 8

9.

主要な定理 • データ分布とモデル分布(t=0)でのWasserstein距離の上限を,Diffusion modelの 損失関数を含む形で導出できる 学習によって最小化される 9

10.

異なる損失関数による上限 • 以下の関係式が成り立つ 計算できない 計算できる • 左辺は実際には計算できないため,代わりに右辺を最小化する • 前述の上限は左辺を使ったものだったが,右辺を使った別の上限を求めることが できる 10

11.

実験 • 2次元データを4層MLPで学習 • 学習が進む(=損失が小さくなる)につれて,実際のWasserstein距離(青点)も小さ くなっている 学習初期 学習後 学習データ 損失 11

12.

実験2 • の値を小さくすることで,Wasserstein距離の値と上限の値とのギャップ を小さくできる • Spectral NormalizationやWeight clippingによって,モデルのリプシッツ定数を 小さく抑えられる • 実際にはギャップは小さくなるものの,損失が小さくなりきらず,Wasserstein 距離も大きくなってしまう 12

13.

実験3 • DDPMの設定のもとでは, せる • は t が大きくなるにつれて-1に収束することが示 が大きくなるにつれて, も小さくなる – が標準正規分布に近づくため – 上の話と合わせると, を被積分関数に含む バイアスも小さくなっていく も小さくなるため,上限の 13

14.

議論 • この上限のもとでは,たとえ損失が0になったとしても,Wasserstein距離が0に なることは保証されない – どんな分布に収束するのかわからない • 一般的なモデルで片側リプシッツ定数 を推定するのはNP困難 – 正確な上限を求めることは一般的には不可能 – (両側)リプシッツ定数であれば求められるが,より緩い上限になってしまう 14

15.

結論 • Diffusion modelの損失の最小化がWasserstein距離の上限の最小化に対応する • リプシッツ定数を小さくするような工夫を加えることで,上限と実際の値との ギャップを小さくすることができる 15