【DL輪読会】 Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

2.4K Views

October 30, 25

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Why Di'usion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training Hiroto Osaka, Matsuo Iwasawa Lab, M1 http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ▍ 論⽂タイトル Why Diﬀusion Models Don't Memorize: The Role of Implicit Dynamical RegularizaQon in Training ▍ 会議 Neural InformaQon Processing Systems (NeurIPS 2025 oral) ▍ 著者 Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard ▍ 概要拡散モデルの学習には「汎化」する速い時間スケール（𝝉𝒈𝒆𝒏 ）と「暗記」する遅い時間スケール（𝝉𝒎𝒆𝒎 ）が存在することを示し、モデルが暗記を避け汎化するための条件を解析。 ▍ リンク • h9ps://arxiv.org/abs/2505.17638 2

https://arxiv.org/abs/2505.17638

背景拡散モデルのパラドックス ▍ 拡散モデルの現状 § Stable Diffusion, DALL-E, Midjourney 等が高い画像生成性能を発揮し、多様で高品質なサンプル生成に成功 § 訓練データの「コピー」ではない画像を生成 ▍ パラドックス § モデルパラメータ数 𝒑 >> 訓練データ数 𝒏 § 通常の ML 理論なら過学習してデータを暗記するはず § 実際大規模データでは暗記が起こっていない § 小規模なデータでは暗記が起こる § 𝒏 が小さい → 訓練データを生成（memorization） § 𝒏 が大きい → 新規データを生成（generalization） Q Stable Diffision 3 が多様な画像を生成する様子 [2] Scaling Rec-ﬁed Flow Transformers for High-Resolu-on Image Synthesis 1. 過パラメータモデルが暗記を避けるメカニズムは何か？ 2. データサイズ 𝒏 がどう影響しているのか？ 3

本研究の貢献訓練ダイナミクス自体が暗黙的正則化として機能 ▍ 2つの時間スケールの発⾒ § 汎化時間（ 𝝉𝒈𝒆𝒏 ） § 高品質サンプル生成が始まる § データ数 𝒏 に依存しない（ = const ） § 暗記時間（ 𝝉𝒎𝒆𝒎 ） § 訓練データの暗記が始まる § データ数 𝒏 に線形比例する ▍ 汎化ウィンドウ § 時間区間 [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎 ] が汎化ウィンドウ § この区間で学習を止めれば高品質で暗記をしない § ウィンドウ幅は 𝒏 に⽐例するため⼤規模データほど安全 ▍ 暗黙的動的正則化 § 訓練ダイナミクス自体が正則化として機能している § 明示的な正則化項なしで汎化しており、Early Stopping の理論的根拠となる 4

本研究の貢献正則化の3つのレジーム ▍ ⾚領域（Memorization） § データ数 𝒏 が小さすぎる場合、どんなに早く止めても暗記 § モデルが訓練データを「覚え切れる」状況 ▍ ⻘⽂字領域（Architectural Regularization） § 臨界データサイズを超えている：𝒏 > 𝒏∗ (𝒑) § モデルの表現力不足で暗記できないため、無限時間訓練（𝝉 → ∞）しても過学習（暗記）しない § 従来研究の焦点はここが中心だった ▍ 緑⽂字領域（Dynamical Regularization） § 本研究の発見領域 § 𝒏 < 𝒏∗ 𝒑 だが、𝝉 ∈ [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎] で学習を止める § モデルは表現力があるが、動的に正則化されるため暗記しない 5

背景拡散モデルとスコア関数 ▍ Forward / Backward Process ▍ スコアマッチング損失 § Forward Process § 理想的な学習 § 𝒕 → ∞ で標準ガウス分布に収束 𝑑𝒙 = -𝒙(𝑡)𝑑𝑡 + 𝑑𝑩(𝑡) § Backward Process § ガウスノイズからデータを復元する過程 § 真の分布 𝑷𝟎 に対して期待値を計算する § 実際には計算不可能 § 実際の学習 § 訓練データ 𝒏 個で近似する -𝑑𝒙 = [𝒙(𝑡) + 2𝒔(𝒙, 𝑡)]𝑑𝑡 + 𝑑𝑩(𝑡) § スコア関数 § 確率密度の勾配を計算し、データの方向を指示する 𝒔(𝒙, 𝑡) = ∇𝒙 𝑙𝑜𝑔 𝑃"(𝒙) [3] Flow matching guide and code 完全に最小化経験スコアに収束 6

背景従来の理解と本研究の位置付け ▍ 従来の説明 ① 構造的正則化（Architectural RegularizaFon） § モデル容量 𝒑 が不足していることが問題 § 𝒏 > 𝒏∗ (𝒑) なら経験スコアを表現できないため、滑らかな補間を学習する ➡ 𝒏 < 𝒏∗ 𝒑 には適用できない ② 学習率による正則化 § 有限学習率が細かい構造を学べない ➡ 学習率を⼩さくすれば暗記できてしまう ③ Spectral Bias § NN は低周波数を優先的に学習する ➡ 観察されてはいたものの、暗記との関連が未解明 ▍ 本研究の視点 § 訓練のダイナミクスに着目 § 時間スケール（𝝉）を明示的に追跡 § どの時点で暗記が始まるかを特定 ▍ 従来研究との関係性 § Spectral Bias を定量化 § 𝝉𝒎𝒆𝒎 ∝ 𝒏 のスケーリング則を導出 § 構造的・動的正則化を統一的に理解 7

実験実験セットアップ ▍ データセット ▍ 評価指標 § CelebA：顔画像データセット § FID（Fréchet-Inception Distance） § グレースケール変換、32x32 へのダウンサンプルで前処理 𝒏（ § 訓練データ数は 𝟐 § 低いほど良い、最小値を達成する時間を 𝝉𝒈𝒆𝒏 と定義 128 〜 32,768）で比較 ▍ モデルアーキテクチャ § 暗記率（𝐟𝐦𝐞𝐦 ） § 生成画像が暗記されているかを判定する § U-Net（DDPM ベース） § ベース幅とチャネル倍率をいくつか用意することでパラメータ数の選択肢を表現 • • • • [4] Large-scale celebfaces attributes (celeba) dataset 𝐚𝛍𝟏 ：訓練セット内の最近傍 𝐚𝛍𝟐 ：訓練セット内の第二近傍 𝒌 （ = 𝟏/𝟑）：閾値 0% → 上昇し始める時間を 𝝉𝒎𝒆𝒎 と定義 8

実験結果 1：暗記時間はデータ数に比例する ▍ FID と暗記率 § 全ての 𝒏 で急速に低下 § 最小の位置が 𝒏 に依存していない § ある時点から急上昇 § 上昇開始時刻は 𝒏 で⼤きく変化 § 横軸を 𝒏 でスケールさせると、縦軸が正規化暗記率になり、全ての曲線が重なる ➡ 𝝉𝒎𝒆𝒎 ∝ 𝒏 のスケールを実証 ▍ 過学習の時間発展 § 学習初期は両方の Loss が急速に落下 § 学習後期になると汎化ギャップが増大 § スケーリングを確認すると、正規化点は一致するが、 𝝉𝒎𝒆𝒎 よりは小さい時間でギャップが生まれる ➡ 経験スコアを⼗分に学習するまでの時間差左：生成画像と最近傍が明確に異なり、新規サンプルを生成していると言える（汎化）右：生成画像と最近傍が酷似しており、訓練データを再生している（暗記） 9

10.

実験結果 2：モデル容量の効果 ▍ ネットワーク幅の影響 ▍ 訓練時間で変わる安全領域 § ベース幅は 𝑾 ∈ {𝟖, 𝟏𝟔, 𝟑𝟐, 𝟒𝟖, 𝟔𝟒} § パラメータ数は概算 𝑾𝟐 に比例 § 複数の 𝒏 でテストしている § 𝝉 = 𝝉𝒈𝒆𝒏 の線は 𝒑 を増やしても一定値（n = 300 くらい） § 𝝉 が増加すると境界も上昇する § 𝝉 による境界の動きが本研究の核心である § W が⼤きいと学習が⾼速だが暗記も早い § 𝒏 が⼤きいと暗記を⼤幅に遅延できる 𝝉 を長くすると境界が上に上がっていくが、 DR 領域は広く取れる方が嬉しい 10

11.

実験実験結果のまとめ ▍ 発⾒したスケーリング則 § 𝝉𝒈𝒆𝒏 ≈ 定数（データ数への依存なし） § 𝝉𝒎𝒆𝒎 ∝ 𝒏 （線形比例） § 汎化ウィンドウもデータ数に比例 ▍ 3つのレジームの確認 § 𝝉 < 𝝉𝒈𝒆𝒏 ：訓練不足（FID が高い） § 𝝉𝒈𝒆𝒏 ≤ 𝝉 < 𝝉𝒎𝒆𝒎 ：汎化（FID が低く、 𝐟𝐦𝐞𝐦 = 𝟎） § 𝝉 ≥ 𝝉𝒎𝒆𝒎 ：暗記（FID が低いが、 𝐟𝐦𝐞𝐦 > 𝟎 ）なぜ 𝝉𝒎𝒆𝒎 ∝ 𝒏 なのか？そのメカニズムは何か？ ➡ 理論的解析へ ▍ モデルサイズの影響 § W（ネットワーク幅）の効果 § 大きいと学習が高速で、 𝝉𝒈𝒆𝒏 が短縮される 11

12.

理論解析理論解析の戦略 ▍ 課題 § U-Net は複雑すぎて解析が困難 § 非線形、高次元、深い構造 § ダイナミクスの厳密解が求められないランダムサンプリングのあと固定この A を学習する ▍ 解決策：単純化モデル § ランダム特徴ネットワーク（RFNN） § 本質を保ちつつ解析ができる § 1層目が固定で、A に関して線形なネットワーク § ダイナミクスが完全に解ける § 固有値問題に帰着 ▍ RFNN の利点 § 解析的に扱える § 時間的発展を完全に追跡可能 § 一般性がある § 過パラメータ状態でも普遍的性質 12

13.

理論解析ダイナミクスと固有値の関係 ▍ 勾配流 ▍ なぜ固有値が重要か § 𝑼 の固有値 𝝀𝒊 が学習速度を決める § § 𝝀 が大きい → そのモードを速く学習 𝝀 が小さい → そのモードを遅く学習 § 固有値の分布が時間スケールの分布にあたる § 行列 A の時間変化を記述する式 § −𝑨𝑼 ：現在の推定を引き戻す力 § 𝑽𝑻：訓練データに向かう力 § 行列 𝑼 の意味 § p x p の相関行列（p: 隠れ層の次元数） § 特徴同士の相関で訓練データから計算される § この固有値が全てを決めている 𝑼 のスペクトル（固有値の分布） 𝝆(𝝀) を計算すれば、全ての時間スケールがわかるもし 𝝆(𝝀) が2つの山に分かれていれば、 2つの時間スケール（ 𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎 ）が出現することが説明できる § 行列 𝑽 の意味 § 特徴とノイズ 𝝃 の相関で、目標方向を指示 13

14.

理論解析スペクトルは2つの分布の山に分離する ▍ 定理の意味過パラメータ状態でスペクトルが2つのバルクに分離 § 𝝆( ：大きい個有値 § スケール 𝚿𝒑（データの次元に対して、どれだけモデルが大きいか） § 母集団統計を反映（ 𝒏 に依存しない） § 𝝆𝟏 ：小さい個有値 § スケール 𝚿𝒑/𝚿𝒏 （データの次元に対して、どれだけ多くのデータがあるか） § 個別データを反映（ 𝒏 に強く依存） ▍ スペクトルの分離単一ガウス分布ガウス分布 § 第2バルク（オレンジ） § 𝝀 ~ 𝚿𝒑 → 𝝉𝒈𝒆𝒏 ~ 定数 § データ全体の構造（ 𝒏 独立）→ 速く学習 § 第1バルク（青） 𝚿𝒑 § 𝝀 ~ 𝚿 → 𝝉𝒎𝒆𝒎 ~ 𝚿𝒏 ∝ 𝒏 𝒏 § 個別データの構造（ 𝒏 依存）→ 遅く学習 14

15.

理論解析物理的メカニズム：低周波→高周波の学習 ▍ Neural Network の特性：Spectral Bias ▍ 訓練データ数 𝒏 の効果 § NN は低周波関数を優先的に学習する § 理由 § 𝒏 が大きいと谷が密になるためより高周波 § 学習がより遅くなるため、 𝝉𝒎𝒆𝒎 が 𝒏 に比例して増加する § 初期化がランダム → 高周波成分が小さい § 勾配が低周波で大きい ▍ 学習の時間発展 § 初期 § 低周波成分を速く学習 § FID が急速に改善していく § 中期（汎化レジーム） § 低周波は収束済みで高周波はまだ未学習 § 高品質 ✅ 暗記なし ✅ § 後期（暗記レジーム） § 高周波成分を遅く学習 § 訓練データの谷を学習して、暗記が始まる 15

16.

理論解析理論の検証結果（RFNN で単純なガウス分布データを学習） ▍ スコア誤差 ▍ 訓練/テスト Loss ▍ （n, p）相図 § U 字型で U-Net の時と同じ結果 § 𝚿𝒏 に依存しない § その後上昇するが、 𝚿𝒏 で遅延 § 分岐点が 𝚿𝒏 で遅延 § これも U-Net と同じ結果 § スケーリング則も確認できる § 𝝉 が小さい（上図） § 広い緑領域 → 早期停止で安全 § 𝝉 が大きい（下図） § 緑領域縮小 → 長時間訓練で危険 § U-Net 実験と同じ構造赤色の領域（暗記）が早期停止 → 長期訓練で広がっていく 16

17.

理論解析理論的洞察のまとめ ▍ 理論の階層 ▍ 物理的メカニズム § ダイナミクス → 固有値 § 訓練は p x p 行列 U の固有値で決まる § 時間スケール = 1 / 固有値 § スペクトル計算経験スコアの不規則性（高周波） Spectral Bias （NN は低周波優先） § U のスペクトル 𝝆 𝝀 を導出 § 過パラメータ極限低周波 → ⾼周波の学習順序 § 𝚿𝒑 > 𝚿𝒏 ≫ 𝟏 で分離 § 2つの分布の山ができるスペクトル分離 § 時間スケール導出 𝟏 § 𝝆𝟐 （𝑶(𝜳𝒑)）→ 𝝉𝒈𝒆𝒏~ ∆ 𝒕 𝜳 § 𝝆𝟏 （𝑶(𝜳𝒑/𝜳𝒏)）→ 𝝉𝒎𝒆𝒎~ ∆ 𝒏 ∝ 𝒏 𝒕 2つの時間スケール 17

18.

本研究の貢献とまとめ ▍ 主要な貢献 ▍ 今後の展望 § 新発見： 𝝉𝒎𝒆𝒎 ∝ 𝒏 § 早期停止（Early Stopping）の理論的指針 § 暗記時間がデータ数に線形比例 § 実験的証拠：U-Net on CelebA § 理論的証明：RFNN + ランダム行列理論 § (n, p)相図の拡張 § 従来：2領域（暗記 vs 構造的正則化） § 本研究： + 動的正則化領域 § 実用上最も重要な領域を発見 § 統一的理解の提供 § 構造的・動的正則化を統合 § Spectral bias を定量化 § Score-based 生成モデル全般に適用可能 § 𝝉 ∈ [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎] で停止 § データ不足分野での活用 § 条件付き生成への拡張 § CFG の効果 § より広範な実験 § (n, p)相図の完全マッピング § 理論の一般化 § GMM（混合ガウスモデル）や多様体などのリッチなデータ § AMenNon などの構造化アーキテクチャ 18

19.

参考文献 1. 2. 3. 4. Bonnaire, T., Urﬁn, R., Biroli, G., & Mézard, M. (2025). Why Diﬀusion Models Don’t Memorize: The Role of Implicit Dynamical RegularizaQon in Training. arXiv preprint arXiv:2505.17638. Esser, P., Kulal, S., Bla9mann, A., Entezari, R., Müller, J., Saini, H., ... & Rombach, R. (2024, July). Scaling recQﬁed ﬂow transformers for high-resoluQon image synthesis. In Forty-ﬁrst internaQonal conference on machine learning. Lipman, Y., Havasi, M., Holderrieth, P., Shaul, N., Le, M., Karrer, B., ... & Gat, I. (2024). Flow matching guide and code. arXiv preprint arXiv:2412.06264. Liu, Z., Luo, P., Wang, X., & Tang, X. (2018). Large-scale celebfaces a9ributes (celeba) dataset. Retrieved August, 15(2018), 11. 19