1.6K Views
October 30, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Why Di'usion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training Hiroto Osaka, Matsuo Iwasawa Lab, M1 http://deeplearning.jp/
書誌情報 ▍ 論⽂タイトル Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical RegularizaQon in Training ▍ 会議 Neural InformaQon Processing Systems (NeurIPS 2025 oral) ▍ 著者 Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard ▍ 概要 拡散モデルの学習には「汎化」する速い時間スケール(𝝉𝒈𝒆𝒏 )と「暗記」する遅い時間スケール (𝝉𝒎𝒆𝒎 )が存在することを示し、モデルが暗記を避け汎化するための条件を解析。 ▍ リンク • h9ps://arxiv.org/abs/2505.17638 2
背景 拡散モデルのパラドックス ▍ 拡散モデルの現状 § Stable Diffusion, DALL-E, Midjourney 等が高い画像生成 性能を発揮し、多様で高品質なサンプル生成に成功 § 訓練データの「コピー」ではない画像を生成 ▍ パラドックス § モデルパラメータ数 𝒑 >> 訓練データ数 𝒏 § 通常の ML 理論なら過学習してデータを暗記するはず § 実際大規模データでは暗記が起こっていない § 小規模なデータでは暗記が起こる § 𝒏 が小さい → 訓練データを生成(memorization) § 𝒏 が大きい → 新規データを生成(generalization) Q Stable Diffision 3 が多様な画像を生成する様子 [2] Scaling Rec-fied Flow Transformers for High-Resolu-on Image Synthesis 1. 過パラメータモデルが暗記を避けるメカニズムは何か? 2. データサイズ 𝒏 がどう影響しているのか? 3
本研究の貢献 訓練ダイナミクス自体が暗黙的正則化として機能 ▍ 2つの時間スケールの発⾒ § 汎化時間( 𝝉𝒈𝒆𝒏 ) § 高品質サンプル生成が始まる § データ数 𝒏 に依存しない( = const ) § 暗記時間( 𝝉𝒎𝒆𝒎 ) § 訓練データの暗記が始まる § データ数 𝒏 に線形比例する ▍ 汎化ウィンドウ § 時間区間 [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎 ] が汎化ウィンドウ § この区間で学習を止めれば高品質で暗記をしない § ウィンドウ幅は 𝒏 に⽐例するため⼤規模データほど安全 ▍ 暗黙的動的正則化 § 訓練ダイナミクス自体が正則化として機能している § 明示的な正則化項なしで汎化しており、Early Stopping の 理論的根拠となる 4
本研究の貢献 正則化の3つのレジーム ▍ ⾚領域(Memorization) § データ数 𝒏 が小さすぎる場合、どんなに早く止めても暗記 § モデルが訓練データを「覚え切れる」状況 ▍ ⻘⽂字領域(Architectural Regularization) § 臨界データサイズを超えている:𝒏 > 𝒏∗ (𝒑) § モデルの表現力不足で暗記できないため、無限時間訓練 (𝝉 → ∞)しても過学習(暗記)しない § 従来研究の焦点はここが中心だった ▍ 緑⽂字領域(Dynamical Regularization) § 本研究の発見領域 § 𝒏 < 𝒏∗ 𝒑 だが、𝝉 ∈ [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎] で学習を止める § モデルは表現力があるが、動的に正則化されるため暗記しない 5
背景 拡散モデルとスコア関数 ▍ Forward / Backward Process ▍ スコアマッチング損失 § Forward Process § 理想的な学習 § 𝒕 → ∞ で標準ガウス分布に収束 𝑑𝒙 = -𝒙(𝑡)𝑑𝑡 + 𝑑𝑩(𝑡) § Backward Process § ガウスノイズからデータを復元する過程 § 真の分布 𝑷𝟎 に対して期待値を計算する § 実際には計算不可能 § 実際の学習 § 訓練データ 𝒏 個で近似する -𝑑𝒙 = [𝒙(𝑡) + 2𝒔(𝒙, 𝑡)]𝑑𝑡 + 𝑑𝑩(𝑡) § スコア関数 § 確率密度の勾配を計算し、データの方向を指示する 𝒔(𝒙, 𝑡) = ∇𝒙 𝑙𝑜𝑔 𝑃"(𝒙) [3] Flow matching guide and code 完全に最小化 経験スコアに 収束 6
背景 従来の理解と本研究の位置付け ▍ 従来の説明 ① 構造的正則化(Architectural RegularizaFon) § モデル容量 𝒑 が不足していることが問題 § 𝒏 > 𝒏∗ (𝒑) なら経験スコアを表現できないため、 滑らかな補間を学習する ➡ 𝒏 < 𝒏∗ 𝒑 には適用できない ② 学習率による正則化 § 有限学習率が細かい構造を学べない ➡ 学習率を⼩さくすれば暗記できてしまう ③ Spectral Bias § NN は低周波数を優先的に学習する ➡ 観察されてはいたものの、暗記との関連が未解明 ▍ 本研究の視点 § 訓練のダイナミクスに着目 § 時間スケール(𝝉)を明示的に追跡 § どの時点で暗記が始まるかを特定 ▍ 従来研究との関係性 § Spectral Bias を定量化 § 𝝉𝒎𝒆𝒎 ∝ 𝒏 のスケーリング則を導出 § 構造的・動的正則化を統一的に理解 7
実験 実験セットアップ ▍ データセット ▍ 評価指標 § CelebA:顔画像データセット § FID(Fréchet-Inception Distance) § グレースケール変換、32x32 へのダウンサンプルで前処理 𝒏( § 訓練データ数は 𝟐 § 低いほど良い、最小値を達成する時間を 𝝉𝒈𝒆𝒏 と定義 128 〜 32,768)で比較 ▍ モデルアーキテクチャ § 暗記率(𝐟𝐦𝐞𝐦 ) § 生成画像が暗記されているかを判定する § U-Net(DDPM ベース) § ベース幅とチャネル倍率をいくつか用意することで パラメータ数の選択肢を表現 • • • • [4] Large-scale celebfaces attributes (celeba) dataset 𝐚𝛍𝟏 :訓練セット内の最近傍 𝐚𝛍𝟐 :訓練セット内の第二近傍 𝒌 ( = 𝟏/𝟑):閾値 0% → 上昇し始める時間を 𝝉𝒎𝒆𝒎 と定義 8
実験 結果 1:暗記時間はデータ数に比例する ▍ FID と暗記率 § 全ての 𝒏 で急速に低下 § 最小の位置が 𝒏 に依存していない § ある時点から急上昇 § 上昇開始時刻は 𝒏 で⼤きく変化 § 横軸を 𝒏 でスケールさせると、縦軸 が正規化暗記率になり、全ての曲線 が重なる ➡ 𝝉𝒎𝒆𝒎 ∝ 𝒏 のスケールを実証 ▍ 過学習の時間発展 § 学習初期は両方の Loss が急速に落下 § 学習後期になると汎化ギャップが増大 § スケーリングを確認すると、正規化点は一致 するが、 𝝉𝒎𝒆𝒎 よりは小さい時間でギャップ が生まれる ➡ 経験スコアを⼗分に学習するまでの時間差 左:生成画像と最近傍が明確に異なり、新規 サンプルを生成していると言える(汎化) 右:生成画像と最近傍が酷似しており、訓練 データを再生している(暗記) 9
実験 結果 2:モデル容量の効果 ▍ ネットワーク幅の影響 ▍ 訓練時間で変わる安全領域 § ベース幅は 𝑾 ∈ {𝟖, 𝟏𝟔, 𝟑𝟐, 𝟒𝟖, 𝟔𝟒} § パラメータ数は概算 𝑾𝟐 に比例 § 複数の 𝒏 でテストしている § 𝝉 = 𝝉𝒈𝒆𝒏 の線は 𝒑 を増やしても一定値(n = 300 くらい) § 𝝉 が増加すると境界も上昇する § 𝝉 による境界の動きが本研究の核心である § W が⼤きいと学習が⾼速だが暗記も早い § 𝒏 が⼤きいと暗記を⼤幅に遅延できる 𝝉 を長くすると境界が 上に上がっていくが、 DR 領域は広く取れる方 が嬉しい 10
実験 実験結果のまとめ ▍ 発⾒したスケーリング則 § 𝝉𝒈𝒆𝒏 ≈ 定数(データ数への依存なし) § 𝝉𝒎𝒆𝒎 ∝ 𝒏 (線形比例) § 汎化ウィンドウもデータ数に比例 ▍ 3つのレジームの確認 § 𝝉 < 𝝉𝒈𝒆𝒏 :訓練不足(FID が高い) § 𝝉𝒈𝒆𝒏 ≤ 𝝉 < 𝝉𝒎𝒆𝒎 :汎化(FID が低く、 𝐟𝐦𝐞𝐦 = 𝟎) § 𝝉 ≥ 𝝉𝒎𝒆𝒎 :暗記(FID が低いが、 𝐟𝐦𝐞𝐦 > 𝟎 ) なぜ 𝝉𝒎𝒆𝒎 ∝ 𝒏 なのか? そのメカニズムは何か? ➡ 理論的解析へ ▍ モデルサイズの影響 § W(ネットワーク幅)の効果 § 大きいと学習が高速で、 𝝉𝒈𝒆𝒏 が短縮される 11
理論解析 理論解析の戦略 ▍ 課題 § U-Net は複雑すぎて解析が困難 § 非線形、高次元、深い構造 § ダイナミクスの厳密解が求められない ランダムサンプリング のあと固定 この A を学習する ▍ 解決策:単純化モデル § ランダム特徴ネットワーク(RFNN) § 本質を保ちつつ解析ができる § 1層目が固定で、A に関して線形なネットワーク § ダイナミクスが完全に解ける § 固有値問題に帰着 ▍ RFNN の利点 § 解析的に扱える § 時間的発展を完全に追跡可能 § 一般性がある § 過パラメータ状態でも普遍的性質 12
理論解析 ダイナミクスと固有値の関係 ▍ 勾配流 ▍ なぜ固有値が重要か § 𝑼 の固有値 𝝀𝒊 が学習速度を決める § § 𝝀 が大きい → そのモードを速く学習 𝝀 が小さい → そのモードを遅く学習 § 固有値の分布が時間スケールの分布にあたる § 行列 A の時間変化を記述する式 § −𝑨𝑼 :現在の推定を引き戻す力 § 𝑽𝑻:訓練データに向かう力 § 行列 𝑼 の意味 § p x p の相関行列(p: 隠れ層の次元数) § 特徴同士の相関で訓練データから計算される § この固有値が全てを決めている 𝑼 のスペクトル(固有値の分布) 𝝆(𝝀) を計算すれば、 全ての時間スケールがわかる もし 𝝆(𝝀) が2つの山に分かれていれば、 2つの時間スケール( 𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎 )が出現することが 説明できる § 行列 𝑽 の意味 § 特徴とノイズ 𝝃 の相関で、目標方向を指示 13
理論解析 スペクトルは2つの分布の山に分離する ▍ 定理の意味 過パラメータ状態でスペクトルが2つのバルクに分離 § 𝝆( :大きい個有値 § スケール 𝚿𝒑(データの次元に対して、どれだけモデルが大きいか) § 母集団統計を反映( 𝒏 に依存しない) § 𝝆𝟏 :小さい個有値 § スケール 𝚿𝒑/𝚿𝒏 (データの次元に対して、どれだけ多くのデータがあるか) § 個別データを反映( 𝒏 に強く依存) ▍ スペクトルの分離 単一ガウス分布 ガウス分布 § 第2バルク(オレンジ) § 𝝀 ~ 𝚿𝒑 → 𝝉𝒈𝒆𝒏 ~ 定数 § データ全体の構造( 𝒏 独立)→ 速く学習 § 第1バルク(青) 𝚿𝒑 § 𝝀 ~ 𝚿 → 𝝉𝒎𝒆𝒎 ~ 𝚿𝒏 ∝ 𝒏 𝒏 § 個別データの構造( 𝒏 依存)→ 遅く学習 14
理論解析 物理的メカニズム:低周波→高周波の学習 ▍ Neural Network の特性:Spectral Bias ▍ 訓練データ数 𝒏 の効果 § NN は低周波関数を優先的に学習する § 理由 § 𝒏 が大きいと谷が密になるためより高周波 § 学習がより遅くなるため、 𝝉𝒎𝒆𝒎 が 𝒏 に比例し て増加する § 初期化がランダム → 高周波成分が小さい § 勾配が低周波で大きい ▍ 学習の時間発展 § 初期 § 低周波成分を速く学習 § FID が急速に改善していく § 中期(汎化レジーム) § 低周波は収束済みで高周波はまだ未学習 § 高品質 ✅ 暗記なし ✅ § 後期(暗記レジーム) § 高周波成分を遅く学習 § 訓練データの谷を学習して、暗記が始まる 15
理論解析 理論の検証結果(RFNN で単純なガウス分布データを学習) ▍ スコア誤差 ▍ 訓練/テスト Loss ▍ (n, p)相図 § U 字型で U-Net の時と同じ結果 § 𝚿𝒏 に依存しない § その後上昇するが、 𝚿𝒏 で遅延 § 分岐点が 𝚿𝒏 で遅延 § これも U-Net と同じ結果 § スケーリング則も確認できる § 𝝉 が小さい(上図) § 広い緑領域 → 早期停止で安全 § 𝝉 が大きい(下図) § 緑領域縮小 → 長時間訓練で危険 § U-Net 実験と同じ構造 赤色の領域(暗記) が早期停止 → 長期訓 練で広がっていく 16
理論解析 理論的洞察のまとめ ▍ 理論の階層 ▍ 物理的メカニズム § ダイナミクス → 固有値 § 訓練は p x p 行列 U の固有値で決まる § 時間スケール = 1 / 固有値 § スペクトル計算 経験スコアの不規則性(高周波) Spectral Bias (NN は低周波優先) § U のスペクトル 𝝆 𝝀 を導出 § 過パラメータ極限 低周波 → ⾼周波の学習順序 § 𝚿𝒑 > 𝚿𝒏 ≫ 𝟏 で分離 § 2つの分布の山ができる スペクトル分離 § 時間スケール導出 𝟏 § 𝝆𝟐 (𝑶(𝜳𝒑))→ 𝝉𝒈𝒆𝒏~ ∆ 𝒕 𝜳 § 𝝆𝟏 (𝑶(𝜳𝒑/𝜳𝒏))→ 𝝉𝒎𝒆𝒎~ ∆ 𝒏 ∝ 𝒏 𝒕 2つの時間スケール 17
本研究の貢献とまとめ ▍ 主要な貢献 ▍ 今後の展望 § 新発見: 𝝉𝒎𝒆𝒎 ∝ 𝒏 § 早期停止(Early Stopping)の理論的指針 § 暗記時間がデータ数に線形比例 § 実験的証拠:U-Net on CelebA § 理論的証明:RFNN + ランダム行列理論 § (n, p)相図の拡張 § 従来:2領域(暗記 vs 構造的正則化) § 本研究: + 動的正則化領域 § 実用上最も重要な領域を発見 § 統一的理解の提供 § 構造的・動的正則化を統合 § Spectral bias を定量化 § Score-based 生成モデル全般に適用可能 § 𝝉 ∈ [𝝉𝒈𝒆𝒏 , 𝝉𝒎𝒆𝒎] で停止 § データ不足分野での活用 § 条件付き生成への拡張 § CFG の効果 § より広範な実験 § (n, p)相図の完全マッピング § 理論の一般化 § GMM(混合ガウスモデル)や多様体などの リッチなデータ § AMenNon などの構造化アーキテクチャ 18
参考文献 1. 2. 3. 4. Bonnaire, T., Urfin, R., Biroli, G., & Mézard, M. (2025). Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical RegularizaQon in Training. arXiv preprint arXiv:2505.17638. Esser, P., Kulal, S., Bla9mann, A., Entezari, R., Müller, J., Saini, H., ... & Rombach, R. (2024, July). Scaling recQfied flow transformers for high-resoluQon image synthesis. In Forty-first internaQonal conference on machine learning. Lipman, Y., Havasi, M., Holderrieth, P., Shaul, N., Le, M., Karrer, B., ... & Gat, I. (2024). Flow matching guide and code. arXiv preprint arXiv:2412.06264. Liu, Z., Luo, P., Wang, X., & Tang, X. (2018). Large-scale celebfaces a9ributes (celeba) dataset. Retrieved August, 15(2018), 11. 19