>100 Views
May 15, 25
スライド概要
モルフォTech Blogにて詳細をご覧ください。
https://techblog.morphoinc.com/
A Brief Survey of Schrödinger Bridge (Part II) Advanced Methods and Applications in Generative Modeling 株式会社モルフォ リサーチャー 長山知司
目次 はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 𝛼-IMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 𝛼-DSBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Part I のおさらい . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 おわりに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 手法① Iterative Proportional Fitting (IPF) . . . . . . . . . . 11 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Iterative Proportional Fitting (IPF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Diffusion Schrödinger Bridge (DSB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 SB-FBSDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 手法②: Flow Matching with Minibatch Optimal Transport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Normalizing Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Continuous Normalizing Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Flow Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Generalized Conditional Flow Matching . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Simulation-Free Score and Flow Matching ([SF]²M) . . . . . . . . . . . . . . 62 手法③: Iterative Markovian Fitting (IMF) . . . . . . . . . . . 69 Iterative Markovian Fitting (IMF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Diffusion Schrödinger Bridge Matching (DSBM) . . . . . . . . . . . . . . . . . . 80 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 1 / 112
はじめに Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 2 / 112
はじめに はじめに Schrödinger Bridge (SB) 問題の概要 背景 • E. Schrödinger によって 1931 年および 1932 年に発表された論文 [1], [2] を基礎とする分野 ‣ この問題を取り扱った基本的な文献としては[3], [4], [5] などがある • 測度の KL ダイバージェンス最小化問題として定式化され、2 つの確率分布間の「最適な」変換経路を提供 • SB 問題の特徴: ‣ 最適輸送理論と確率過程を融合したアプローチ ‣ 理論的な美しさと実用的な性能を両立 (1) (2) (3) source target 図 1: Schrödinger Bridge モデル (DSB) に基づくデータセット補間 (引用: [6, Figure 18]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 3 / 112
はじめに はじめに Schrödinger Bridge (SB) 問題の概要 問題設定の分類 • 静的 (static) アプローチ ‣ エントロピックな最適輸送としても知られている [7], [8], [9] ‣ 始点と終点の分布間の最適なマッピングに着目 • 動的 (dynamic) アプローチ ‣ 静的な問題設定の拡張であり ‣ 最適なマッチングだけではなく、変換過程も最適化 ‣ 時間発展する確率過程として解釈可能 ‣ 単に “SB 問題” と述べた場合は、通常こちらを指す 機械学習との関連性 • 近年、生成モデル研究において注目を集め始めている • 事前分布の制約条件を緩和した拡散モデル (e.g. DDPM [10]) として解釈できる static SB 初期分布 𝜇0 と最終分布 𝜇1 の 最適なマッピング (最適輸送計画) 𝜇0 𝜇1 dynamic SB 時間経過に伴う分布の変化と 確率過程の軌道を考慮 𝜇0 𝜇t 𝜇1 𝑡 図 2: static SB vs dynamic SB Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 4 / 112
はじめに はじめに 本資料で紹介するアプローチ • 本スライドでは、以下 3 種類の主要アプローチを紹介する Iterative Proportional Fitting (IPF) • 前進・後退過程をそれぞれモデル化し、交互に学習する手法 ‣ 手法①: Diffusion Schrödinger Bridge (DSB) [6] ‣ 手法②: Schrödinger Bridge Forward-Backward Stochastic Differential Equations (FB-SDEs) [11] Flow Matching with Minibatch Optimal Transport • Flow Matching: 拡散モデルにおける確率フロー ODE のベクトル場を直接学習する効率的手法 • Minibatch Optimal Transport ‣ 手法①: Schrödinger Bridge Conditional Flow Matching (OT-CFM) [12] ‣ 手法②: Simulation Free Score and Flow Matching ([SF]²M) [13] Iterative Markovian Fitting (IMF) • SB 問題の解は、Markov 性と Reciprocal 性を両立する確率過程として特徴付けられる • Markov 空間と Reciprocal 空間への交互射影に基づく、比較的新しい手法 ‣ 手法: Diffusion Schrödinger Bridge Matching (DSBM) [14], [15] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 5 / 112
はじめに Part I のおさらい 定式化 1/3 • 最も抽象的には、確率測度の reverse KL ダイバージェンス最小化問題として定式化される ℙ ⋆ = argmin 𝐷KL (ℙ‖ℚ) (1) ℙ∈Π(𝜇0 ,𝜇𝑇 ) ‣ ℙ, ℚ: それぞれ近似測度と参照測度 ‣ Π(𝜇0 , 𝜇𝑇 ): 始端及び終端測度がそれぞれ 𝜇0 , 𝜇𝑇 である確率測度全体の集合。 すなわち、 ℙ0 = 𝜇0 かつ ℙ𝑇 = 𝜇𝑇 を満たす確率測度 ‣ 始点と終点の分布が固定された確率過程の中で、最も参照測度に近いものを探す問題 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 6 / 112
はじめに Part I のおさらい 定式化 2/3 • Dynamic SB 問題は、拡散過程を用いて表現できることが知られている [16], [17], [18] • T. Chen, G.-H. Liu, and E. A. Theodorou [11] によって、次のような SDE を用いた定式化が与えられている [前進過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) + 𝑔2 (𝑡)∇ log Ψ(𝐗𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖𝑡 , 𝐗0 ∼ 𝜇0 ̂ 𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖̄ 𝑡 , [後退過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑔2 (𝑡)∇ log Ψ(𝐗 𝐗𝑇 ∼ 𝜇𝑇 (2) ̂ where Ψ(𝑥, 𝑡)Ψ(𝑥, 𝑡) = 𝑝𝑡F (𝑥) = 𝑝𝑡B (𝑥) = 𝑝𝑡SB (𝑥) ‣ 𝑝𝑡 (𝑥) は時刻 𝑡 における周辺密度関数 – 𝑝𝑡F , 𝑝𝑡B , 𝑝𝑡SB はそれぞれ前進過程・後退過程・SB 解の周辺密度に対応 ̂ は Schrödinger potential と呼ばれるパラメータ ‣ Ψ, Ψ ‣ 上述の前進・後退過程のように、一端が固定された確率過程を half bridge と呼ぶ [19] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 7 / 112
はじめに Part I のおさらい 定式化 3/3 • 式 2 の模式図は以下のとおり (図 3) ‣ Ψ(𝑥, 𝑡) ≡ 1 かつ 𝑝𝑇 (𝑥𝑇 ) = 𝒩(𝑥𝑇 ; 𝜇, 𝜎2 𝐼) かつ 𝑝𝑇SB|0 (𝑥𝑇 |𝑥0 ) ≈ 𝑝𝑇 (𝑥𝑇 ) ならば、 典型的な拡散モデルの問題設定に一致する ̂ 𝑡 , 𝑡) = ∇ log 𝑝𝑡 (𝐗𝑡 ) が成り立つ – このとき、∇ log Ψ(𝐗𝑡 , 𝑡) ≡ 0 かつ ∇ log Ψ(𝐗 前進過程: [𝑓(𝐗𝑡 ) + 𝑔2 (𝑡)∇ log Ψ(𝐗𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖𝑡 𝐗0 𝐗𝑇 ̂ 𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖̄ 𝑡 後退過程: [𝑓(𝐗𝑡 ) − 𝑔2 (𝑡)∇ log Ψ(𝐗 図 3: 前進・後退過程の模式図 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 8 / 112
はじめに Part I のおさらい 機械学習における課題 ̂ の最適化に還元されることがわかった • 式 2 の定式化であれば、SB 問題はポテンシャル Ψ, Ψ • しかし、次のような課題が残っている 目的関数をどのように設計すべきか? • 拡散モデルにおいては、スコアマッチングロスを損失関数として利用することが可能であった • しかし、スコアマッチングの計算可能性は、事前分布の正規性に依存している • 事前分布の制約が無い一般の SB の場合はどうなる? 前進・後退過程の同時最適化における課題 • 式 2 において、前進・過程のポテンシャルには相互依存関係があるため、単純な独立最適化は適用できない Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 9 / 112
はじめに Part I のおさらい 機械学習における課題 潜在変数とデータのカップリングも最適化が必要 • 例えば、典型的な I2I モデルでは入出力画像ペアを 訓練データとして用いることが一般的 • SB 問題の場合、ペアを最適化すること自体が タスクの一部となっている ‣ 図 4 は、古典的なペアなし学習生成モデルである CycleGAN [20] の原著論文における説明図 – 左側: sketch-to-image タスク (ペアあり学習) – 右側: style transfer (ペアなし学習) ‣ ペアあり学習では、入力データ 𝑥𝑖 ∈ 𝑋 と、対応する 出力 (教師データ) 𝑦𝑖 ∈ 𝑌 のペア (𝑥𝑖 , 𝑦𝑖 ) が与えられる ‣ 一方、ペアなし学習では入力データセット 𝑋 と 出力データセット 𝑌 がそれぞれ独立に与えられる だけである 図 4: ペアあり学習とペアなし学習 引用: [20, Figure 1] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 10 / 112
手法① Iterative Proportional Fitting (IPF) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 11 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) 概要 • Half bridge の交互最適化によって SB 解を求める手法 • 機械学習の分野では、Sinkhorn(-Knopp) アルゴリズムという名称でも知られている (cf. [7], [8]) • 拡散モデルにインスパイアされた動的な定式化は 2021 年頃に発展 [6], [21] 余談 • IPF アルゴリズム初出の経緯はやや複雑 • 最古の文献は 1930 年代 [22] • [19] によると、複数の研究者によってたびたび独立 に再発見されている (e.g. [23], [24], [25], [26]) • 連続分布かつ static なケースについては、L. Ruschendorf [27] によって収束性が示されている • 機械学習分野には 2013 年頃持ち込まれた [7] 図 5: IPF による交互最適化の模式図 (引用: [6, Figure 1]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 12 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) 導入 • 動的な Schrödinger Bridge 問題は前進・後退過程の同時最適化問題として表現可能 (Part I) ‣ 前進過程は制約条件より 𝑝0F = 𝜇0 なので、この更新によって後退過程の終端分布 𝑝0B は 𝜇0 (= 𝑝0SB ) に近づくことが 期待される [前進過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) + 𝑔2 (𝑡)∇ log Ψ(𝐗𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖𝑡 , 𝐗0 ∼ 𝜇0 ̂ 𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖̄ 𝑡 , [後退過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑔2 (𝑡)∇ log Ψ(𝐗 𝐗𝑇 ∼ 𝜇𝑇 (3) ̂ where Ψ(𝑥, 𝑡)Ψ(𝑥, 𝑡) = 𝑝𝑡F (𝑥) = 𝑝𝑡B (𝑥) = 𝑝𝑡SB (𝑥) • 仮に前進過程が固定されたものとすると、ドリフト係数の違いはあれど典型的な拡散モデルのようにみなせる → 損失関数を導出することができる ‣ 後退過程を固定した場合も同様 (時間の向きは逆となる) • 前進・後退過程それぞれに対応する損失関数を交互に最適化 → IPF の基本的なアイディア Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 13 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) 一般の確率測度に対する定式化 • [27] や [6] によると、 IPF は次のような KL ダイバージェンス交互最小化問題として定式化できる 一般の確率測度に対する IPF の更新式 定義 1 ℙ 2𝑛+1 = argminℙ∈Π(⋅,𝜇𝑇 ) 𝐷KL (ℙ‖ℙ 2𝑛 ) { 2𝑛+2 , ℙ = argminℙ∈Π(𝜇0 ,⋅) 𝐷KL (ℙ‖ℙ 2𝑛+1 ) ℙ0 = ℚ (4) ‣ 片側の分布を固定した条件での reverse KL ダイバージェンス最小化問題 ‣ ただし通常は、数学的に等価である期待対数尤度最大化問題として扱うことが多い [6, Appendix D.4] ℙ 2𝑛+1 = argmaxℙ∈Π(⋅,𝜇𝑇 ) 𝔼𝜇0 [log ℙ0 ] { 2𝑛+2 ℙ = argmaxℙ∈Π(𝜇0 ,⋅) 𝔼𝜇𝑇 [log ℙ𝑇 ] (5) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 14 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) 収束性 • KL ダイバージェンス最小化に基づく IPF アルゴリズムは、いくつかの条件のもとで SB の最適解 ℙ SB へ 収束することが示されている IPF の収束性 [6, Proposition 5]¹ 命題 2 ある種の緩い条件を満たすとき、 SB 問題の解 ℙ SB が存在し、IPF アルゴリズム (定義 1) によって得られる確率測 度列 {ℙ 𝑛 }𝑛∈ℕ は全変動 (TV) ノルムの意味で収束する。すなわち、ℙ ∞ が存在して以下が成り立つ: lim ‖ℙ 𝑛 − ℙ ∞ ‖TV = 0. 𝑛→+∞ (6) 0 また、ℙ 0 ≪ ℙ ∞ かつ、カップリング ℙ0,𝑇 がある種の上限を持つとき、ℙ ∞ = ℙ SB が成り立つ ¹離散時間 SB 問題に対する結果である。原著論文に「連続時間に拡張できる」との記載があるものの、厳密な証明は与えられていない Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 15 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) IPF 更新の模式図 アルゴリズム 1: IPF アルゴリズム 1 ℙ0 ← ℚ 2 for 𝑛 in 0, 1, …, 𝐿 − 1 3 4 ℙ 2𝑛+1 ← argminℙ∈Π(⋅,𝜇𝑇 ) 𝐷KL (ℙ‖ℙ 2𝑛 ) ℙ 2𝑛+2 ← argminℙ∈Π(𝜇0 ,⋅) 𝐷KL (ℙ‖ℙ 2𝑛+1 ) 5 end 6 return ℙ 2𝐿 図 6: IPF による測度更新の模式図² (引用: [19, Figure 1]) ²本スライドと表記が異なる。𝖲 は ℙ SB 、𝖯(𝗂) 及び 𝖰(𝗂) は ℙ 𝑛 に対応する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 16 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) スコアマッチングロスによる構成の検討 • 損失関数として スコアマッチングロス を選んだ場合の IPF について考察する • 前進・後退過程 (式 3) それぞれに対応するスコアマッチングロスは次のように得られる ̂ によってパラメータ化している ‣ ここでは、スコア関数をそれぞれ 𝑧𝜃 ≝ 𝑔∇ log Ψ, 𝑧̂𝜑 ≝ 𝑔∇ log Ψ 式 3 に対応するスコアマッチングロス 命題 3 1 𝑇 2 ℒ (𝜃; 𝜑) ≝ ∫ 𝔼𝐗𝑡 ∼𝑝B𝑡 ‖𝑔(𝑡) ∇ log 𝑝𝑡B (𝐗𝑡 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑡 2 0 F 𝑇 ℒB (𝜑; 𝜃) ≝ 1 2 ∫ 𝔼𝐗𝑡 ∼𝑝F𝑡 ‖𝑔(𝑡) ∇ log 𝑝𝑡F (𝐗𝑡 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑡 2 0 (7) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 17 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) 対数尤度とスコアマッチ • 命題 2 より、前進・後退過程に対応する損失関数 ℒF , ℒB がそれぞれ KL ダイバージェンス (または対数尤度) に対応するならば、SB 解への収束が保証されることがわかった • スコアマッチングロスは負の対数尤度の上限を与える [11, eq. 3], [28, Corollary 1] ‣ 以下は後退過程に関する命題である。前進過程についても同様の性質が導ける 負の対数尤度とスコアマッチングロスの不等式 (後退過程) 命題 4 式 3 で定義される前進・後退 SDE について、前進過程の周辺分布が 𝑝𝑡F で与えられるとする。 このとき、いくつかの緩い条件の元で、負の対数尤度に関する以下の不等式が成立する: −𝔼𝜇0 [log ℙ0 ] ≤ ℒB (𝜑; 𝜃) + 𝐶. (8) ここで、ℒB は 命題 3 で定義されるスコアマッチングロス、𝐶 ≥ 0 は 𝜑 と独立な定数。 • IPF の問題設定ならば 命題 4 の等号が成立³ → スコアマッチングロスの交互最適化は SB 解に収束 0 𝑛 ³IPF 測度列 {ℙ 𝑛 }𝑛∈ℕ における bridge 測度の保存 (ℙ|0,𝑇 = ℙ|0,𝑇 = ℚ|0,𝑇 ) と等号成立条件 [28, Theorem 2] から導かれる Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 18 / 112
手法① Iterative Proportional Fitting (IPF) Iterative Proportional Fitting (IPF) スコアマッチングロスの課題 • 前述の通り、IPF を用いた確率測度の更新は理論的には収束性が保証されている • しかし実装上、以下の課題が残る: 1. 中間時刻の訓練データサンプル {𝐗𝑡 }𝑡 ∈ (0, 𝑇 ) を得るためのシミュレーションが必要 2. スコア関数 ∇ log 𝑝𝑡 の計算が必要だが、一般の分布では解析解が得られない • これらの課題を解決するための方法として、拡散過程の局所的な性質を利用する手法が提案されている → Diffusion Schrödinger Bridge (DSB) 1. シミュレーションの課題 2. スコア関数の課題 1 𝑇 2 ℒ (𝜃; 𝜑) ≝ ∫ 𝔼𝐗𝑡 ∼𝑝B𝑡 ‖𝑔(𝑡) ∇ log 𝑝𝑡B (𝐗𝑡 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑡 2 0 F 𝑇 ℒB (𝜑; 𝜃) ≝ 1 2 ∫ 𝔼𝐗𝑡 ∼𝑝F𝑡 ‖𝑔(𝑡) ∇ log 𝑝𝑡F (𝐗𝑡 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑡 2 0 (9) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 19 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 概要 • IPF の実装における課題を解決するために提案された手法 [6] • 拡散過程の局所正規性 (確率過程が局所的にはガウス分布で近似可能) を利用 • 主な特徴: 1. 離散時間近似によって、スコア関数を解析的に計算可能にする 2. この近似により、前進・後退過程の条件付き分布を明示的に扱える 3. 実用的な計算コストで、SB 問題の解を近似的に求められる 図 7: IPF による交互最適化 (引用: [6, Figure 1]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 20 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 損失関数の導出 • まずは、後退過程に関する DSB の損失関数の導出を行う • Denoising Score Matching [29] を応用することで、命題 3 の損失関数 ℒB (𝜑) は、サンプルパス {𝐗𝑡 }0≤𝑡≤𝑇 の 2 点 F 間の遷移確率 𝑝𝑡|𝑠 に基づく損失関数に置き換えることができる 1 𝑇 2 ℒ (𝜑, 𝜃) = ∫ 𝔼𝐗𝑡 ∼𝑝F𝑡 ‖𝑔(𝑡)∇ log 𝑝𝑡F (𝐗𝑡 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑡 2 0 B 𝑇 = (10) 2 1 F ∫ 𝔼𝐗𝑠 ∼𝑝F𝑠 ,𝐗𝑡 ∼𝑝F𝑡|𝑠 ‖𝑔(𝑡)∇ log 𝑝𝑡|𝑠 (𝐗𝑡 |𝐗𝑠 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑠 + const 2 0 F • ‖𝑡 − 𝑠‖ が十分に小さいとき、遷移確率 𝑝𝑡|𝑠 (𝑥𝑡 |𝑥𝑠 ) はガウス分布で近似できる (局所正規性) ‣ 前進 SDE に対する Euler-丸山近似によって、以下のように与えられる F 𝑝𝑡|𝑠 (𝑥𝑡 |𝑥𝑠 ) = 𝒩(𝑥𝑡 ; 𝑥𝑠 + (𝑓(𝑥𝑠 , 𝑠) + 𝑔(𝑠)𝑧𝜃 (𝑥𝑠 , 𝑠))(𝑡 − 𝑠), 𝑔2 (𝑠)(𝑡 − 𝑠)𝐼) (11) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 21 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 損失関数の導出 • 得られた遷移確率を二乗損失に代入 ‣ ここで、 ℎ ≝ 𝑡 − 𝑠 と定義した 2 F ‖𝑔(𝑡)∇ log 𝑝𝑡|𝑠 (𝐗𝑡 |𝐗𝑠 ) − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ 2 −2 (12) = (ℎ𝑔(𝑡)) ‖(𝐗𝑡 − 𝐗𝑠 ) − (𝑓(𝐗𝑠 , 𝑠) + 𝑔(𝑠)𝑧𝜃 (𝐗𝑠 , 𝑠) + 𝑔(𝑠)𝑧𝜃 (𝐗𝑡 , 𝑡) + 𝑔(𝑠)̂ 𝑧𝜑 (𝐗𝑡 , 𝑡))ℎ‖ √ • 更に、遷移確率の定義から 𝐗𝑡 = 𝐗𝑠 + [𝑓(𝐗𝑠 , 𝑠) + 𝑔(𝑠)𝑧𝜃 (𝐗𝑠 , 𝑠)]ℎ + 𝑔(𝑠) ℎ𝛆𝑠 整理することで、以下のような損失関数を導出できる⁴ (𝛆𝑠 ∼ 𝒩(0, 𝐼)) の関係を用いて 2 1 𝑇 𝛆 ℒ (𝜑; 𝜃) ≈ ∫ 𝔼𝐗𝑠 ∼𝑝F𝑠 ,𝐗𝑡 ∼𝑝F𝑡|𝑠 ‖ √𝑠 − 𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡)‖ d𝑠 + const 2 0 ℎ B (13) ⁴原著論文とはパラメータ化の方法が異なるため、数式の見かけ上の差異が大きい Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 22 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 損失関数の導出 • 損失関数を時間離散化して以下の形式が得られる ‣ 区間 [0, 𝑇 ] を 𝐾 + 1 個の標本点に等間隔でサンプル ‣ ここで、ℎ = 𝑇 /𝐾 とする DSB の損失関数 (離散時間形式) 命題 5 𝐾 1 𝛆 F ℒDSB (𝜃; 𝜑) = ∑ 𝔼𝐗𝑘 ∼𝑝B𝑘 ,𝐗𝑘−1 ∼𝑝B𝑘−1|𝑘 ‖ √𝑘 − 𝑧𝜃 (𝐗𝑘−1 , 𝑘 − 1) − 𝑧̂𝜑 (𝐗𝑘−1 , 𝑘 − 1)‖ 2 𝑘=0 ℎ 𝐾 B ℒDSB (𝜑; 𝜃) = 2 1 𝛆 ∑ 𝔼𝐗𝑘 ∼𝑝F𝑘 ,𝐗𝑘+1 ∼𝑝F𝑘+1|𝑘 ‖ √𝑘 − 𝑧𝜃 (𝐗𝑘+1 , 𝑘 + 1) − 𝑧̂𝜑 (𝐗𝑘+1 , 𝑘 + 1)‖ 2 𝑘=0 ℎ 2 (14) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 23 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 学習アルゴリズム • DSB アルゴリズムの疑似コードは次の通り (アルゴリズ ム 2) • 中間時刻 𝑡 におけるサンプル 𝐗𝑡 について、シミュレー ションフリーなサンプリングが一般に不可能な特徴 ‣ 典型的な拡散モデル (e.g. DDPM [10]) と異なる性質 ‣ 𝐗0 ∼ 𝜇data または 𝐗𝑇 ∼ 𝜇prior を初期値として SDE の 数値解を求める必要がある ‣ そのため学習時は、一度のシミュレーションで 全区間のパス {𝐗𝑘 }𝑘∈[0,𝐾] をサンプルし、キャッシュ しておくことが一般的 アルゴリズム 2: DSB アルゴリズム 1 for 𝑛 ∈ {0, …, 𝐿 − 1} do 2 while 損失関数が収束するまで do // 後退過程の更新 𝑁,𝑀 𝑗 3 4 𝑗 パス {𝐗𝑘 } をサンプル。 ここで 𝐗0 ∼ 𝑝data , 𝑘,𝑗=0 √ 𝑗 𝑗 𝑗 𝑗 𝐗𝑘+1 = 𝐗𝑘 + [𝑓(𝐗𝑘 , 𝑘) + 𝑔(𝑘)𝑧𝜃𝑛 (𝐗𝑘 , 𝑘)]ℎ + 𝑔(𝑘) ℎ𝛆𝑘 𝜑𝑛+1 を以下の損失関数で更新: 𝛆 ‖ √𝑘ℎ − 𝑧𝜃𝑛 (𝐗𝑘+1 , 𝑘 + 1) − 𝑧̂𝜑 (𝐗𝑘+1 , 𝑘 + 1)‖ 2 5 end while 6 while 損失関数が収束するまで do // 前進過程の後進 𝑗 7 8 9 𝑁,𝑀 パス {𝐗𝑘 } 𝑗 をサンプル。 ここで 𝑋𝑁 ∼ 𝑝prior , √ 𝑗 𝑗 𝑗 𝑗 𝐗𝑘−1 = 𝐗𝑘 + [−𝑓(𝐗𝑘 , 𝑘) + 𝑔(𝑘)̂ 𝑧𝜑𝑛+1 (𝐗𝑘 , 𝑘)]ℎ + 𝑔(𝑘) ℎ𝛆𝑘 𝑘,𝑗=0 𝜃𝑛+1 を以下の損失関数で更新: 𝛆 ‖ √𝑘ℎ − 𝑧𝜃 (𝐗𝑘−1 , 𝑘 − 1) − 𝑧̂𝜑𝑛+1 (𝐗𝑘−1 , 𝑘 − 1)‖ 2 end while 10 end for 11 return (𝜃𝐿 , 𝜑𝐿 ) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 24 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 実験結果 低次元 (2D) データセット • 二次元ガウス分布を事前分布としたときの生成例 ‣ 生成対象のデータ分布は 4 種 (図 8; 上段) ‣ ステップ数 𝑁 = 20 ‣ 前進過程は Ornstein-Uhlenbeck 過程に設定 (𝑓(𝑥, 𝑡) = −𝛼𝑥, 𝛼 > 0) • 典型的な拡散モデルと異なり、少ないステップ数でも 十分な生成品質を実現可能 ‣ 低ステップ数では 𝑝𝑁 ≈ 𝑝proir が高精度で成立しない ので、拡散モデルは生成品質が落ちやすい (“DSB Iteration 1” に相当) ‣ 反復を重ねることで、徐々に生成品質が向上 (“Iteration 20”) 図 8: DSB による生成例 (引用: [6, Figure 3]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 25 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 実験結果 Domain Adaptation • ガウス分布以外の事前分布を用いて DSB を学習 (図 9) ‣ 上段: Swiss-roll 分布と S-curve 分布の相互変換 (2-D) ‣ 下段: EMNIST-Letters/-Digits [30] の相互変換 • EMNIST のように比較的高次元なデータに対しても適用可能なことが確認できる 図 9: DSB による Domain Adaptation (引用: [6, Figure 7]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 26 / 112
手法① Iterative Proportional Fitting (IPF) Diffusion Schrödinger Bridge (DSB) 実験結果 ガウス分布シミュレーション • 𝜇prior = 𝒩(−𝑎, 𝐼)、 𝜇data = 𝒩(𝑎, 𝐼) の設定で学習し、平均・分散・共分散を評価 ‣ データの次元は 𝑑 = 5, 50 の 2 パターンで実施 ‣ この問題設定の場合、SB 解は閉形式で与えられる • 低次元 (𝑑 = 5) において、平均・分散・共分散はいずれも理論値 (点線) 付近に収束 • しかし、高次元 (𝑑 = 50) では反復を重ねても分散・共分散にバイアスが残る ‣ 以降のページで紹介する手法群は、このバイアスを取り除くことが目的の一つとなっている 図 10: DSB の収束性 (引用: [6, Figure 2]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 27 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE 概要 • IPF に基づく DSB では、SDE の時間離散化による近似を用いて損失関数を導出している • この離散化アプローチでは、生成ステップサイズが小さい場合に近似精度の低下が懸念される • 最適制御における Forward-Backward SDE (FBSDE) 理論を用いることで、離散化に依存せずスコア関数の明示的 な計算を不要にした対数尤度の導出を実現 → SB-FBSDE 図 11: SB-FBSDE の概念図 (引用: [11, Figure 2]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 28 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE SB 問題の FBSDE 表現 ̂ から構成できる • Part I で述べたように、SB 解は次の coupled PDE の解 Ψ, Ψ 𝜕Ψ 1 { ̂ 0) = 𝑝data Ψ(⋅, 0)Ψ(⋅, { 𝜕𝑡 = −⟨∇Ψ, 𝑓⟩ − 2 𝑔2 ∇Ψ s.t. { ̂ 𝜕Ψ 1 2 ̂ ̂ 𝑇 ) = 𝑝prior { Ψ(⋅, 𝑇 )Ψ(⋅, = −∇ ⋅ [Ψ𝑓] + 𝑔 ∇ Ψ { 2 { 𝜕𝑡 (15) ̂ を用いて、SB 解は次の前進・後退方程式として表現できる • これらの Schrödinger potential Ψ, Ψ [前進過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) + 𝑔2 (𝑡)∇ log Ψ(𝐗𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖𝑡 , 𝐗0 ∼ 𝜇0 ̂ 𝑡 , 𝑡)] d𝑡 + 𝑔(𝑡) d𝐖̄ 𝑡 , [後退過程] d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑔2 (𝑡)∇ log Ψ(𝐗 𝐗𝑇 ∼ 𝜇𝑇 (16) • これらの式は SB 問題の解を表現する重要な基礎となるが、PDE の直接解法は計算コストが高く実用的ではない • そこで、 FBSDE 理論を用いて、より効率的な解法を導入する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 29 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE FBSDE による SB 問題の確率的表現 • PDE (式 15) の解は、非線形 Feynman-Kac の関係式 [31] を用いることで、FBSDE の解として確率的に表現できる FBSDE に基づく SB の最適性 (非線形 Feynman-Kac 表現) [11, Theorem 3] 定理 6 次の結合 SDE を考える: {d𝐗𝑡 = (𝑓 + 𝑔𝐙𝑡 ) d𝑡 + 𝑔 d𝐖𝑡 { { ⊤ d𝐘𝑡 = 12 𝐙⊤ 𝑡 𝐙𝑡 d𝑡 + 𝐙𝑡 d𝐖𝑡 { { ̂ 𝑡 = (1𝐙 ̂⊤ ̂ ̂ ̂⊤ ̂⊤ {d𝐘 𝑡 𝐙𝑡 + ∇ ⋅ (𝑔 𝐙𝑡 − 𝑓) + 𝐙𝑡 𝐙𝑡 ) d𝑡 + 𝐙𝑡 d𝐖𝑡 2 { (17) ̂ 𝑇 = log 𝑝prior (𝐗𝑇 ) のもとで、式 17 の解は結合 PDE (式 15) の解と対応付けられる: 境界条件 𝐗0 = 𝑥0 , 𝐘𝑇 + 𝐘 ̂ 𝑡 = log Ψ, ̂ 𝑡 = 𝑔∇ log Ψ ̂ 𝐙𝑡 = 𝑔∇ log Ψ, 𝐙 ̂ 𝐘𝑡 = log Ψ, 𝐘 (18) • この FBSDE 表現により、PDE を直接解く代わりに確率過程の枠組みで問題を扱うことが可能となる Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 30 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE FBSDE に基づく対数尤度計算 ̂ 0 |𝐗0 = 𝑥0 ] で与えられる • FBSDE の解を用いると、対数尤度関数は条件付き期待値として log 𝑝0 (𝑥0 ) = 𝔼[𝐘0 + 𝐘 • この表現の重要な利点は、DSB と異なりスコア関数 ∇ log 𝑝𝑡 を直接計算する必要がないことである FBSDE に基づく SB 問題の対数尤度 [11, Theorem 4] 命題 7 𝑇 2 1 1 ̂ 1 2 SB log 𝑝0 (𝑥0 ) = 𝔼[log 𝑝𝑇 (𝐗𝑇 )] − ∫ 𝔼[ ‖𝐙𝑡 ‖2 + ‖𝐙 − − 𝑔∇ log 𝑝 + 𝐙 ‖ ‖𝑔∇ log 𝑝𝑡SB − 𝐙𝑡 ‖ ] d𝑡 𝑡 𝑡 𝑡 2 2 2 0 (19) 𝑇 2 1 1 ̂ 𝑡 ‖ + ∇ ⋅ (𝑔𝐙 ̂ 𝑡 − 𝑓) + 𝐙 ̂⊤ = 𝔼[log 𝑝𝑇 (𝐗𝑇 )] − ∫ 𝔼[ ‖𝐙𝑡 ‖2 + ‖𝐙 𝑡 𝐙𝑡 ] d𝑡 2 2 0 • スコア関数の明示的な計算を回避しながら対数尤度を評価できる重要な利点 • DSB で必要だった離散化近似による誤差を低減することが可能に ‣ これは IPF の枠組みに沿った手法であり、DSB に対する拡張として捉えることができる Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 31 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE SB-FBSDE の訓練方法 • 原著論文 [11] では、2 種類の訓練方法が提案されている 1. Joint (diffusion flow-based) training ‣ 命題 7 の対数尤度について、前進・後退過程のパラメータ (𝜃, 𝜑) を同時に最適化する手法 ‣ 収束が早いことが経験的に知られる ‣ 事前分布 𝜇𝑇 の明示的な密度関数が必要なため、適用対象が限定される欠点を持つ 2. Alternate (IPF-based) training ‣ 前進・後退過程のパラメータ (𝜃, 𝜑) を交互に最適化する手法 ‣ IPF アルゴリズムの損失関数を 命題 7 の NLL に置き換えたものとみなせる ‣ 収束速度は Joint training に劣るものの、明示的な密度関数は不要な利点を持つ • 本スライドでは、後者の Alternate training のみを説明する ‣ これは IPF の枠組みに沿った手法であり、DSB に対する拡張として捉えることができる Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 32 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE Alternate (IPF-based) training • SB-FBSDE の Alternate training は、IPF の枠組みに基づく交互最適化手法である ‣ DSB が前進・後退過程のスコアマッチングロスを交互に最適化するのに対し、SB-FBSDE は FBSDE 理論に基づく対数尤度を交互に最適化 • 基本的な訓練方法は DSB (アルゴリズム 2) に準ずるが、損失関数 (NLL) を以下のように置き換える ‣ 第 2 項は ∇ ⋅ 𝑧 = tr(𝜕𝑧/𝜕𝑥) の関係を用いて、自動微分の結果から Hutchinson’s trace estimate [32] で計算可能 𝑇 1 2 𝑧𝜑 (𝐗𝑡 , 𝑡)‖ + 𝑔(𝑡)∇ ⋅ 𝑧̂𝜑 (𝐗𝑡 , 𝑡) + 𝑧𝜃⊤ (𝐗𝑡 , 𝑡)̂ ℒ (𝜑) = ∫ 𝔼𝐗0 ∼𝜇0 ,𝐗𝑡 ∼𝑝F𝑡|0 [ ‖̂ 𝑧𝜑 (𝐗𝑡 , 𝑡)] d𝑡 2 0 B 𝑇 1 ℒF (𝜃) = ∫ 𝔼𝐗𝑇 ∼𝜇𝑇 ,𝐗𝑡 ∼𝑝B𝑡|𝑇 [ ‖𝑧𝜃 (𝐗𝑡 , 𝑡)‖2 + 𝑔(𝑡)∇ ⋅ 𝑧𝜃 (𝐗𝑡 , 𝑡) + 𝑧̂𝜑⊤ (𝐗𝑡 , 𝑡)𝑧𝜃 (𝐗𝑡 , 𝑡)] d𝑡 2 0 (20) • これらの損失関数は命題 7 より導出されており、以下の特徴を持つ: ‣ パスシミュレーションは依然として必要だが、離散化近似による誤差を軽減 ‣ DSB よりも安定した学習が可能 • (疑似コードはアルゴリズム 2 とほぼ同じなので省略) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 33 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE 確率フロー ODE • SB-FBSDE で学習した前進・後退過程から、同じ周辺密度を持つ決定論的な生成過程を導出することができる ‣ 拡散モデルと同様に、確率フロー ODE によって効率的な生成が可能 ‣ これは SB 解に対応するドリフト項のみを使用した ODE であり、ノイズ項を含まない • SB-FBSDE の確率フロー ODE は以下のように表現される SB モデルの確率フロー ODE [11, Corollary 5] 命題 8 1 d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑔(𝑡)(𝑧𝜃 (𝐗𝑡 , 𝑡) − 𝑧̂𝜑 (𝐗𝑡 , 𝑡))] d𝑡 2 (21) • 実用的なメリット: ‣ サンプリング時に確率的なノイズが不要で決定論的 ‣ 少ないステップ数でも高品質なサンプルを生成可能 ‣ 生成経路が安定しているため、中間状態の解釈が容易 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 34 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE 実験結果 低次元 (2D) データ • データ分布 𝜇0 として、それぞれ混合ガウスモデル (GMM) とチェッカーボードを利用したケース ‣ 事前分布 𝜇𝑇 は標準ガウス分布 ‣ 上段 (青) が後退過程 (生成)、下段 (赤) が前進過程に対応 • 多峰性の強いデータに対しても適用可能 ‣ ただし、この結果だけではデータ次元に対するスケーラビリティを判断できない 図 12: SB-FBSDE による生成例 (引用: [11, Figure 3]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 35 / 112
手法① Iterative Proportional Fitting (IPF) SB-FBSDE 実験結果 画像生成 • CelebA データセットを SB-FBSDE で学習し、無作為に生成 ‣ ステップサイズ: 𝑁 = 50 ‣ 画像サイズ: 32 × 32 • 原著論文 [11] では、高い多様性と良好な視覚的品質を持つと報告している Ground Truth 生成結果 図 13: SB-FBSDE による CelebA データセット生成例 (引用: [11, Figure 10]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 36 / 112
手法②: Flow Matching with Minibatch Optimal Transport Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 37 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching with Minibatch Optimal Transport 概要 • Flow Matching (FM) [12], [33] は、確率的生成モデルの一種で、確率フロー ODE の考え方を拡張した手法である ‣ 微分方程式に基づく生成モデルとして、以下の特徴を持つ: – 拡散過程を経由せず、ベクトル場を直接学習することで確率データの生成を実現 – シミュレーションフリー (学習時に微分方程式の数値解を求める必要がない) な性質を持つ ‣ 画像生成モデルの Stable Diffusion 3 [34] や Flux.1 [35] などで近年採用されている • SB 問題との関連性: ‣ FM は生成過程のベクトル場を直接学習する手法であるが、これを SB 問題に拡張するため、 訓練時のミニバッチにおけるソースとターゲットのカップリングを最適化する手法が提案されている ‣ Minibatch Optimal Transport (Minibatch OT) と組み合わせることで、SB 問題の効率的な解法となる • この章では、まず基礎となる(Continuous) Normalizing Flow について説明し、次に FM の概念と SB 問題への応用について解説する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 38 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching with Minibatch Optimal Transport Flow Matching 画像生成モデルのサンプル Prompt s hybrid donut jesu reature c l a c i h t y m 図 14: 画像生成 AI「Flux.1」による生成例 (左) とプロンプト (右) 引用: [35] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 39 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching with Minibatch Optimal Transport 概要 (拡散モデルに慣れた人向けの説明) • 拡散モデルの生成過程は、理論的枠組みにおいて逆拡散過程として定式化される • 一方、実用的な拡散モデルでは、計算効率と安定性の観点から、確率フロー ODE [36] を利用することが一般的 ‣ 逆拡散過程と同じ周辺密度を持つ決定的な過程を構成する • 確率フロー ODE による生成は、次の非自励系常微分方程式を解くことに相当する d𝐗𝑡 = 𝑣𝑡 (𝐗𝑡 ) d𝑡 (22) ‣ 𝑣𝑡 はニューラルネットワークでパラメータ化されたベクトル場 • 生成時に確率フロー ODE のみを利用するのであれば、拡散過程を経由せずにベクトル場を 直接モデル化する方が自然ではないか? → Flow Matching 導入のモチベーション Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 40 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching with Minibatch Optimal Transport 概要 (拡散モデルに慣れた人向けの説明) • SDE d𝐗𝑡 = 𝑓 d𝑡 + 𝑔 d𝐖𝑡 で表現される拡散モデルの確率フロー ODE は、一般に以下のように表すことができる 1 d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑔2 (𝑡)𝐬𝜃 (𝐗𝑡 , 𝑡)] d𝑡 2 (23) ‣ 𝐬𝜃 はパラメータ化されたスコア関数 (∇ log 𝑝𝑡 をモデル化) ‣ 𝑓, 𝑔 はハイパーパラメータ • 確率フロー ODE のベクトル場を直接パラメータ化したモデル (𝑣𝑡 ≝ 𝑓 − 12 𝑔2 𝐬𝜃 ) → Flow Matching (FM) • ベクトル場 𝑣𝑡 の学習には、スコアマッチングロスに類似した Flow Matching loss (FM loss) が用いられる ‣ 手法ごとに与えられる Ground Truth のベクトル場 𝑢𝑡 との二乗損失 ‣ ベクトル場 𝑢𝑡 の定め方が肝要 パラメータ化されたベクトル場 ℒFM = 𝔼𝑡∼𝒰(0,1),𝐗𝑡 ∼𝑞𝑡 ‖𝑣𝑡 (𝐗𝑡 ) − 𝑢𝑡 (𝐗𝑡 )‖2 (24) Ground Truth Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 41 / 112
手法②: Flow Matching with Minibatch Optimal Transport Normalizing Flow 数理モデル • 次に、より理論的な側面から FM の解説を行う • まずは、基礎知識として必要な (Continuous) Normalizing Flow [37], [38] から説明を始める • Normalizing Flow (NF) とは、単純な分布に従う初期確率変数に対して非線形変換を繰り返し適用することで、 複雑な分布に従う確率変数を得ることが目的の手法 • 中間確率変数の分布を工夫し、シミュレーションフリーな学習を可能にした NF の一種が FM といえる ‣ シミュレーションフリー: モデルの学習時に微分方程式の数値解を求める必要がない性質 図 15: Normalizing Flow の模式図 引用: [39, Fig. 2] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 42 / 112
手法②: Flow Matching with Minibatch Optimal Transport Normalizing Flow 数理モデル • (離散時間) NF の変換式は次のような式で定義される Normalizing Flow 生成モデル 定義 9 𝐗𝑘 = 𝑣𝑘 (𝐗𝑘−1 ), 𝐗0 ∼ 𝑝0 , 𝑘 ∈ [1, 𝐾] (25) • 𝑣𝑘 は 𝑘 番目の決定論的な非線形変換 (パラメータ) • 損失関数は通常負の対数尤度 (NLL) の期待値 𝔼𝐗𝐾 [− log 𝑝𝐾 (𝐗𝐾 )] が採用される → 密度関数 𝑝𝐾 (𝑥𝐾 ) の計算が必要 • 確率変数の変数変換公式より、𝑘 番目の確率変数 𝐗𝑘 の分布 𝑝𝑘 (𝑥𝑘 ) は以下のように求められる 離散時間 Normalizing Flow の変数変換公式 命題 10 𝑘 𝜕𝑣𝑘−1 (𝑥𝑘 ) 𝜕𝑣ℓ−1 (𝑥ℓ ) −1 𝑝𝑘 (𝑥𝑘 ) = 𝑝𝑘−1 (𝑣𝑘 (𝑥𝑘 ))|det | = 𝑝0 (𝑥0 ) ∏|det | 𝜕𝑥𝑘 𝜕𝑥 ℓ ℓ=1 (26) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 43 / 112
手法②: Flow Matching with Minibatch Optimal Transport Normalizing Flow 損失関数 • 変数変換の公式 (命題 10) を適用することで、NLL の期待値は次のように与えられる → Normalizing Flow の損失関数 Normalizing Flow の損失関数 (NLL の期待値) 定義 11 𝐾 ℒ = 𝔼𝐗𝐾 ∼𝑝𝐾 [− log 𝑝𝐾 (𝐗𝐾 )] = 𝔼𝐗0 ∼𝑝0 [− log 𝑝0 (𝐗0 ) + ∑ log|det 𝑘=1 𝜕𝑣𝑘 (𝐗𝑘 ) |] 𝜕𝐗𝑘 (27) ‣ 典型的な生成モデルの問題設定の場合、事前分布 (𝑝0 ) として通常はガウス分布が選ばれるので、 第一項 (− log 𝑝0 (𝐗0 )) は解析的に求められる ‣ 一方、第二項の tractability については、ベクトル場 𝑣𝑘 の性質に強く依存する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 44 / 112
手法②: Flow Matching with Minibatch Optimal Transport Normalizing Flow アーキテクチャの制約 • 損失関数 (定義 11) を効率よく計算するためには、ベクトル場 𝑣𝑘 に対して幾つかの制約が必要となる ‣ つまり、NF には設計の自由度が低い欠点がある ‣ 機械学習においては、アーキテクチャに含まれる各レイヤーがベクトル場 𝑣𝑘 に対応する 可逆性 • 任意の 𝑘 ∈ ℕ について、𝑣𝑘 の逆変換 𝑣𝑘−1 が一意に存在しなければならない ‣ したがって、少なくとも 𝑣𝑘 の入出力テンソルサイズは一致する必要がある ‣ 有名な活性化関数 (e.g. ReLU, シグモイド) はほとんどが非可逆なので、工夫なしに採用することはできない Jacobian の計算効率 • 確率変数の変換に伴う Jacobian (𝜕𝑣𝑘 /𝜕𝑥𝑘 ) が簡単に計算できる必要がある • 通常のニューラルネットアーキテクチャで用いられるレイヤーは、 Jacobian の計算が複雑になることが多い Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 45 / 112
手法②: Flow Matching with Minibatch Optimal Transport Continuous Normalizing Flow 概要 • 離散時間 NF において、非線形変換に残差接続を追加して連続極限を取ると、 生成過程は常微分方程式として表せる → Continuous Normalizing Flow (CNF) [38] ‣ ベクトル場に関する可逆性の制約が緩和されるため、設計の自由度が高い 𝐗𝑘 = 𝑣𝑘 (𝐗𝑘−1 ) 残差接続を追加 𝐗𝑘 = 𝐗𝑘−1 + 𝜀𝑣𝑘 (𝐗𝑘−1 ) 連続極限 d𝐗𝑡 = 𝑣𝑡 (𝐗𝑡 ) d𝑡 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 46 / 112
手法②: Flow Matching with Minibatch Optimal Transport Continuous Normalizing Flow 損失関数 • CNF d𝐗𝑡 / d𝑡 = 𝑣𝑡 (𝐗𝑡 ) について、 時刻 𝑡 における周辺密度 𝑝𝑡 は連続の方程式の解として与えられる ‣ 以下は実質微分による表現 (D ≝ (𝜕/𝜕𝑡) + 𝑣𝑡 (𝑥𝑡 ) ⋅ ∇) ‣ 原著論文 [38] の Theorem 1 に対応 D𝑝𝑡 (𝑥𝑡 ) = −∇ ⋅ 𝑣𝑡 (𝑥𝑡 ) D𝑡 (28) • NLL の期待値より、損失関数は以下のように与えられる ‣ 通常は ODE ソルバによる数値シミュレーションによって解を求める ‣ 原著論文 [38] においては、随伴法を用いてパラメータ勾配 𝜕ℒ/𝜕𝜃 を効率的に計算する方法が提案されている Continuous Normalizing Flow の損失関数 定義 12 𝑇 ℒ = 𝔼𝐗𝑇 ∼𝑝𝑇 [− log 𝑝𝑇 (𝐗𝑇 )] = 𝔼𝐗0 ∼𝑝0 [− log 𝑝0 (𝐗0 ) + ∫ ∇ ⋅ 𝑣𝑡 (𝐗𝑡 ) d𝑡] (29) 0 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 47 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching 概要 • 通常の CNF では、𝐗𝑡 の計算に ODE ソルバを使用する必要があり、訓練時の計算コストが高いという欠点が存在 • 周辺密度関数がガウス分布となるような制約条件を非線形関数に加えることで、シミュレーションを不要にした CNF のことを Flow Matching (FM) と呼ぶ ‣ FM では、損失関数を時刻 𝑡 ∈ [0, 𝑇 ] ごと独立に評価できるように拡張 ‣ さらに、時刻 𝑡 におけるデータ 𝐗𝑡 をシミュレーションフリーでサンプル可能な方法を提供 • FM の学習には、損失関数として NLL の代わりに Flow Matching loss が利用される Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 48 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching Flow Matching Loss • 参照パス測度 ℚ 及び対応するベクトル場 𝑢𝑡 が与えられた条件を考える • 𝑣𝑡 をパラメータ化されたベクトル場とした時、FM loss は次のような期待損失として表される ℒFM = 𝔼𝑡∼𝒰(0,1),𝐗𝑡 ∼𝑞𝑡 ‖𝑣𝑡 (𝐗𝑡 ) − 𝑢𝑡 (𝐗𝑡 )‖2 (30) ‣ ただし、一般に 𝑢𝑡 (𝑥𝑡 ) を ℚ から直接計算することは容易ではない • 他方、 Conditional Flow Matching (CFM) というのもの考えることができる Conditional Flow Matching Loss 定義 13 ℒCFM = 𝔼𝑡∼𝒰(0,1),𝐗1 ∼𝑞1 ,𝐗𝑡 |𝐗1 ∼𝑞𝑡|1 ‖𝑣𝑡 (𝐗𝑡 ) − 𝑢𝑡 (𝐗𝑡 |𝐗1 )‖2 (31) • 特定の参照パス測度ならば、𝑢𝑡 (𝑥𝑡 |𝑥0 ) は解析的に求めることが可能 (後述) • 上述の損失関数は、パラメータに関する勾配が等しいことが示されている (∇ℒFM = ∇ℒCFM ) [33, Theorem 2] ‣ つまり、勾配降下法で学習する場合は、どちらも同じ解が得られるので、扱いやすい CFM ロスを使えば良い Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 49 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching 条件付きベクトル場 • 参照パス測度 ℚ と条件付きベクトル場 𝑢𝑡 (𝑥𝑡 |𝑥1 ) の関係について、以下のような事実が知られている Flow Matching の条件付きベクトル場 (ガウス分布のケース)5 定理 14 パス測度 ℚ に関連する ODE d𝐗𝑡 / d𝑡 = 𝑢𝑡 (𝐗𝑡 ) について、時刻 𝑡 における周辺密度関数 𝑞𝑡 が平均 𝜇𝑡 (𝑥)、分散 𝜎𝑡2 (𝑥) のガウス分布で与えられるとき、条件付きベクトル場は以下のように与えられる: 𝑢𝑡 (𝑥𝑡 |𝑥1 ) = 𝜎̇𝑡 (𝑥1 ) (𝑥 − 𝜇𝑡 (𝑥1 )) + 𝜇𝑡̇ (𝑥1 ) 𝜎𝑡 (𝑥1 ) 𝑡 (32) ‣ ここで、上付きのドットは時間 𝑡 に関する微分を表す ‣ なお、一般に密度関数はガウス分布と限らない。こういったケースには 定理 14 を適用できない 5 本定理における記号 𝜇 は、確率測度ではなくガウス分布の平均パラメータを表す。混同しないよう注意 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 50 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching 条件付きベクトル場 • FM では、参照パス測度として 最適輸送パスを利用することが一般的 ‣ 最適カップリングのサンプルを結ぶ最短経路のこと ‣ このとき、 𝐗𝑡 |𝑥1 は tractable にサンプル可能 𝜇𝑡 (𝑥𝑡 ) = 𝑡𝑥1 𝜎𝑡 = 1 − (1 − 𝜎min )𝑡 (33) ‣ ここで 𝜎min > 0 は、ベクトル場 𝑢𝑡 の発散を防ぐ ための微小定数 • このときのベクトル場は、定理 14 より以下となる: 𝑢𝑡 (𝑥𝑡 |𝑥1 ) = 𝑥1 − (1 − 𝜎min )𝑥𝑡 1 − (1 − 𝜎min )𝑡 図 16: 拡散モデルと最適輸送 (OT) パスの比較 引用: [33, Figure 3] (34) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 51 / 112
手法②: Flow Matching with Minibatch Optimal Transport Flow Matching 学習方法 • 疑似コードは右 (アルゴリズム 3) の通り • 重要なポイント: 1. 中間時刻 t での条件付きサンプリング ‣ 式(33)で定義される平均 𝜇𝑡 (𝑥1 ) = 𝑡𝑥1 と分散 σₜ を 用いて 𝐗𝑡 ∼ 𝒩(𝑡𝐗1 , (1 − (1 − 𝜎min )𝑡)𝐼) から サンプリングする ‣ これによりパスのシミュレーションなしで直接中 間点 𝐗𝑡 を生成できる 2. 損失関数の実装 ‣ 式(31)の CFM 損失を最小化 ‣ 最適化は通常のミニバッチ勾配降下法で行う 3. 生成時には、学習したベクトル場を用いて常微分方 程式を数値的に解く ‣ 初期値 𝐗0 をソース分布からサンプリングし、 𝑡 = 0 から 𝑡 = 1 まで積分してサンプルを生成 アルゴリズム 3: Flow Matching の訓練 1 while 損失関数が収束するまで do 2 データ分布からサンプル 𝐗1 ∼ 𝜇1 3 時刻 𝑡 をサンプル 𝑡 ∼ 𝒰(0, 1) 4 𝐗𝑡 をサンプル (𝐗𝑡 ∼ 𝒩(𝑡𝐗1 , 1 − (1 − 𝜎min )𝑡𝐼)) 5 CFM ロス ℒ (定義 13) を計算 6 ベクトル場 𝑣𝑡 を更新 7 end while Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 52 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching 概要 • FM の初出論文では、潜在分布としてガウシアンが想定されていた • これをより一般的な分布を扱えるようにしたのが Generalized Conditional Flow Matching (Generalized CFM) 図 17: Independent Conditional Flow Matching 引用: [12, Figure 1] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 53 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching (Generalized) Conditional Flow Matching Loss • Generalized CFM では、source/target のカップリングで条件付けられたベクトル場 𝑢𝑡 (𝑥𝑡 |𝑥0 , 𝑥𝑇 ) を考える ‣「ある一点から出発したときのベクトル場」から「始点と終点の中間にあるベクトル場」に置き換えるイメージ • 損失関数は以下の通り 6 ℒCFM (𝜃) = 𝔼𝑡,𝑞0,1 (𝐗0 ,𝐗1 ),𝑝𝑡 (𝐗𝑡 |𝐗0 ,𝐗1 ) ‖𝑣𝜃 (𝐗𝑡 , 𝑡) − 𝑢𝑡 (𝐗𝑡 |𝐗0 , 𝐗1 )‖2 (35) ‣ この損失関数も、通常の FM loss と勾配に関して一致することが示されている [12, Theorem 3.2] 𝐗1 𝐗𝑡 𝐗0 𝐗1 𝐗𝑡 𝐗0 通常の CFM Generalized CFM 図 18: 中間データ 𝐗𝑡 のサンプル方法の比較 6 原著論文 [12] では、式 35 と 定義 13 を区別せずに Conditional Flow Matching と呼称しているので注意 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 54 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching 参照 Bridge 測度の選択 • 通常の FM (vanilla FM) と同様に、条件付きベクトル場 𝑢𝑡 (𝑥𝑡 |𝑥0 , 𝑥1 ) の求め方が重要 • 原著論文においては、参照 bridge 測度として次の 2 種類が新たに提案されている Independent CFM (I-CFM) パス & Optimal Transport CFM (OT-CFM) パス 𝑝𝑡 (𝑥𝑡 |𝑥0 , 𝑥1 ) = 𝒩(𝑥𝑡 ; 𝑡𝑥1 + (1 − 𝑡)𝑥0 , 𝜎2 𝐼), 𝑢𝑡 (𝑥𝑡 |𝑥0 , 𝑥1 ) = 𝑥1 − 𝑥0 (36) • 上述のパス測度の設定で、カップリングとして積測度 ℚ0,𝑇 = ℚ0 × ℚ𝑇 を採用した CFM を I-CFM と呼ぶ • 一方、既知のカップリング ℚ0,𝑇 と Minibatch OT (後述) を組み合わせた手法が OT-CFM Schrödinger Bridge CFM (SB-CFM) パス 𝑝𝑡 (𝑥𝑡 |𝑥0 , 𝑥1 ) = 𝒩(𝑥𝑡 ; 𝑡𝑥1 + (1 − 𝑡)𝑥0 , 𝑡(1 − 𝑡)𝜎2 𝐼) 𝑢𝑡 (𝑥𝑡 |𝑥0 , 𝑥1 ) = 1 − 2𝑡 (𝑥 − (𝑡𝑥1 + (1 − 𝑡)𝑥0 )) + (𝑥1 − 𝑥0 ) 2𝑡(1 − 𝑡) (37) • ベクトル場 𝑢𝑡 によって誘導されるパス測度 ℚ|0,1 が Brownian bridge と一致することが名称の由来 • 既知のカップリング ℚ0,𝑇 と Minibatch OT を組み合わせた手法が SB-CFM Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 55 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching Minibatch Optimal Transport • SB-CFM パスの最適化問題は、カップリング ℙ0,𝑇 として EROT の最適解を選んだ場合、 dynamic SB と等価になることが示されている [12, Proposition 3.5] ‣ ただし、CFM は生成時の確率項が存在しないので、確率フロー ODE しか再現できないという limitation がある ‣ 同様に、OT-CFM パスについても、動的な最適輸送問題との等価性が示されている [12, Proposition 3.4] カップリング計算の課題 • 事前に最適カップリングを求めておけば、CFM によって dynamic SB 解を得られることがわかる → しかし、計算コストが高い課題 ‣ 誤解を恐れずに言えば、すべてのデータ並びに潜在変数に対して、最適な組み合わせを見つける必要がある ‣ 訓練データの規模が大きいと、厳密な最適解を得るのは現実的ではない Minibatch OT による効率的解法 • FM loss のミニバッチ最小化ステップにおいて、ミニバッチ内サンプル間で毎回最適輸送を求める手法が知られる • この手法を Minibatch Optimal Transport (Minibatch OT) と呼ぶ [40], [41], [42] ‣ 最適輸送ソルバとしては Sinkhorn アルゴリズムが良く用いられる • これは、ミニバッチサイズが無限大の極限において、もとの最適輸送問題の解に収束することが示されている Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 56 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching Minibatch Optimal Transport • Minibatch OT のイメージ図 通常の最適輸送 Minibatch OT ミニバッチ (反復ごとに更新) ソース 𝜇0 ソース 𝜇0 ターゲット 𝜇𝑇 ターゲット 𝜇𝑇 • 全データを一度に処理 • 大規模データでは現実的でない • 小さなバッチで反復処理 • 大規模データセットに適用可能 図 19: Minibatch OT vs. 通常の最適輸送 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 57 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching 学習方法 • SB-CFM の疑似コードは右 (アルゴリズム 4) の通り • vanilla FM との主な違い ‣ 中間時刻 𝑡 におけるサンプルは、データ分布 𝜇1 と 事前分布 𝜇0 のカップリングから求める ‣ カップリングは on-the-fly で minibatch OT を 適用することで計算 アルゴリズム 4: SB-CFM の訓練 1 while 損失関数が収束するまで do 2 事前分布からサンプル {𝐗𝑏0 } ∼ 𝜇0 3 データ分布からサンプル {𝐗𝑏1 } ∼ 𝜇1 4 サンプルに対して minibatch OT を適用し、 𝑖 𝑗 カップリング {(𝐗0𝑏 , 𝐗1𝑏 )} を取得 5 時刻 𝑡 をサンプル 𝑡 ∼ 𝒰(0, 1) 6 式 37 を用いて、カップリングから 𝐗𝑡 をサンプル 7 Generalized CFM ロス ℒ (式 35) を計算 8 ベクトル場 𝑣𝑡 を更新 𝑏 𝑏 𝑏 9 end while Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 58 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching SB 問題と Flow Matching の理論的関連性 • FM の基本的な考え方: ‣ 2 点間 (ソースとターゲット) を結ぶベクトル場 𝑣𝑡 を直接学習 ‣ 通常、これらの点は独立にサンプリングされる (カップリングなし) • SB 問題との関連: ‣ SB 問題では、最適なカップリング ℙ0,𝑇 を見つけることが本質 ‣ Generalized CFM では、このカップリングを Minibatch OT で近似 ‣ カップリングが最適である場合、生成されるフロー場は SB 解に一致 • 理論的な等価性: ‣ SB-CFM パスを用い、Entropic OT でカップリングを解いた場合、得られるフロー場は SB 問題のドリフト項 (確率フロー ODE) と一致する ‣ 差異点: SB-CFM は確率的項を直接モデル化せず、確率フロー ODE のみを再現 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 59 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching 実験結果 DSB [6] との比較 | 生成品質 • 二次元分布 (図 20) の生成品質を DSB と比較 ‣ 評価指標は 2-Wasserstein 距離 • 低次元データにおいて、SB-CFM は DSB より高精度 moons scurve (S-curve) 8-gaussians 図 20: ターゲットの確率分布 表 1: 生成品質の比較 (引用: [12, Table 3]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 60 / 112
手法②: Flow Matching with Minibatch Optimal Transport Generalized Conditional Flow Matching 実験結果 DSB [6] との比較 | 訓練速度 • 訓練 1 回あたりに必要な時間を計測 ‣ 表中の値は試行 5 回の平均値 (例外: DSB は試行 1 回の値) ‣ (OT-/SB-)CFM と DSB は シングル CPU、その他は 2-CPU と 1-GPU で訓練を実施 • SB-CFM は DSB の 1/4 ~ 1/7 程度の訓練時間 表 2: 平均訓練時間 [× 103 sec] (引用: [12, Table D.1]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 61 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) 概要 • [SF]²M: SB-CFM を拡張し、確率的 (stochastic) なサンプルを可能にした手法 [13]7 • 主な特徴: ‣ 学習対象のベクトル場を “決定的” 成分 (確率フロー ODE) と “確率的” 成分に分解 ‣ 前者は Flow Matching Loss、後者は Score Matching Loss で最適化 図 21: [SF]²M の生成する ODE パス (左) と SDE パスの比較 (右) 引用: [13, Figure 1 (一部抜粋)] 7 “[SF]²” は “SF の二乗” を意味する。 これは、 “Simulation Free” と “Score and Flow” のイニシャリズム “SF” を指している。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 62 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) 理論的背景 • 前進 SDE モデルの Ground Truth (GT) が次のように与えられているとする: d𝐗𝑡 = 𝑢𝑡 (𝐗𝑡 ) d𝑡 + 𝑔(𝑡) d𝐖𝑡 • この SDE に対応する確率フロー ODE は次のように与えられる: (38) 𝑢⚬𝑡 (𝐗𝑡 ) 1 d𝐗𝑡 = [𝑢𝑡 (𝐗𝑡 ) − 𝑔2 (𝑡)∇ log 𝑝𝑡F (𝐗𝑡 )] d𝑡 2 (39) • ここで、確率フロー ODE のベクトル場を 𝑢⚬𝑡 と表記する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 63 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) ベクトル場の分解 • 式 39 で定義したベクトル場 𝑢⚬𝑡 を用いると、GT の(式 38) のドリフト項を 2 つの要素に分解できる 1 d𝐗𝑡 = [𝑢⚬𝑡 (𝐗𝑡 ) + 𝑔2 (𝑡)∇ log 𝑝𝑡F (𝐗𝑡 )] d𝑡 + 𝑔(𝑡) d𝐖𝑡 2 (40) • これに time reversal formula [43] を適用すると、次の後退方程式が得られる 1 d𝐗𝑡 = [𝑢⚬𝑡 (𝐗𝑡 ) − 𝑔2 (𝑡)∇ log 𝑝𝑡F (𝐗𝑡 )] d𝑡 + 𝑔(𝑡) d𝐖̄ 𝑡 2 決定的成分 (確率フロー ODE) (41) 確率的成分 (スコア関数) • [SF]²M の生成過程では、パラメータ化された 式 41 を利用する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 64 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) 損失関数 • 損失関数は次のように定義される ‣ FM loss (第 1 項) と score-matching loss (第 2 項) の重み付け和 [SF]²M の損失関数 定義 15 2 ℒ = 𝔼𝐗𝑡 [‖𝑣𝜃 (𝐗𝑡 , 𝑡) − 𝑢⚬𝑡 (𝐗𝑡 |𝐗0 , 𝐗1 )‖2 + 𝜆2 (𝑡)‖𝑠𝜑 (𝐗𝑡 , 𝑡) − ∇ log 𝑝𝑡F (𝐗𝑡 |𝐗0 , 𝐗1 )‖ ] (42) ‣ ここで: – 𝑣𝜃 : パラメータ化されたベクトル場 (決定的成分) – 𝑠𝜑 : パラメータ化されたスコア関数 (確率的成分) – 𝜆(𝑡) > 0: Flow-/Score-matching のバランスを決める重み定数 8 • 学習アルゴリズムは、損失関数の違いを除いて SB-CFM (アルゴリズム 4) と変わらない 8 [13, Appendix F.1.1] において、最適な重みの決定問題は future works としている。実践的には 𝜆(𝑡) = 2√𝑡(1 − 𝑡)/𝜎 が良好と報告。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 65 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) SB 問題との関連性 • [SF]²M は完全な SB 解法として位置づけられる: ‣ SB-CFM が確率フロー ODE の成分のみをモデル化するのに対し ‣ [SF]²M は確率項も含めた完全な SB 解を提供する ‣ これにより、多様性のあるサンプル生成が可能になる 他手法との比較 • 拡散モデルとの関係: ‣ 拡散モデルは特殊な事前分布に対する Score Matching ‣ [SF]²M は一般の分布に対する Score と Flow の複合的アプローチ • SB-CFM との関係: ‣ SB-CFM は決定論的経路のみを学習 ‣ [SF]²M は確率的変動も含めた完全なダイナミクスを学習 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 66 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) 実験結果 低次元 (2D) データ • 二次元分布 (図 20) の生成品質を DSB と比較 ‣ CFM における「低次元 (2D) データ」と同一の設定を利用 ‣ [SF]²M はミニバッチサイズ 512 で訓練 • 多くのケースで OT-CFM や SB-CFM を上回る精度を達成 表 3: 生成品質の比較 (引用: [13, Table 2]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 67 / 112
手法②: Flow Matching with Minibatch Optimal Transport Simulation-Free Score and Flow Matching ([SF]²M) 実験結果 • 訓練済み [SF]²M モデルによるサンプルパス ‣ 上段: ODE、下段: SDE ‣ 左から順に、𝜎 = 0.1, 1, 2, 3 の設定で学習 図 22: moons → 8gaussians における[SF]²M のサンプルパス (引用: [13, Figure 5]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 68 / 112
手法③: Iterative Markovian Fitting (IMF) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 69 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) 動機付け 1/2 • これまで IPF 及び Flow Mathcing with Minibatch OT に基づく SB 手法を説明した • これらには次のような欠点が知られている IPF の主な課題 1. シミュレーション誤差の累積 • 前進過程を用いて条件付き確率変数 𝑋𝑡 |𝑥0 を計算する際、数値シミュレーションが必要となる • 微分方程式の離散化による数値解法であるため、𝑡 が終端時刻 𝑇 に近づくにつれて離散化誤差が累積する 2. bridge 測度の忘却 9 SB • SB 問題の解 ℙ SB から構成される diffusion bridge ℙ|0,𝑇 は、source/target 分布に依存せず SB 参照測度 ℚ のみから定まる性質 (ℙ|0,𝑇 = ℚ|0,𝑇 ) を持つ • しかし、各反復における最適解 ℙ 𝑛 では、数値誤差や有限反復の影響で、この性質が厳密には保持されない • 反復を重ねるごとに理論的性質からの乖離が生じ、最終的な解の精度に影響を与える 9 用語の初出は [14] だが、当該論文に具体的な説明は記述されていない。本スライドでの説明は、あくまでも筆者の解釈に過ぎない。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 70 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) 動機付け 2/2 Minibatch OT の主な課題 (高次元データへの適用困難性) 1. バッチサイズに関する制約 • 最適輸送の精度向上には大きなバッチサイズが必要 • 例えば、CIFAR-10 では 128 程度で実用的と報告 [12] されているが、SB 解を保証するものではない 2. 計算量の問題 • Sinkhorn アルゴリズムを利用する場合、バッチサイズの二乗 (𝑂(𝑁 2 )) 程度の計算量が必要 • Iterative Markovian Fitting (IMF) は、これらの問題を解決しようと試みる手法 ‣ Markovian projection と Reciprocal projection を交互に適用して SB 解へ近づける – IPF とは異なり、前進過程 or 後退過程の片方だけあれば十分 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 71 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) 最短経路問題によるアナロジー • まずは、IMF アルゴリズムを「与えられた出発地と目的地を結ぶ最適な道路を求める問題」のアナロジーで捉える Markovian Projection • 地図上に描かれた道路を、各交差点における指示 の形式 (Markov 過程) で近似する操作 ‣ 出発地を基準として「次の交差点は直進、その 次の交差点は右折、…」といった表現に直す • この操作によって、目的地は当初のものから別の 地点に置き換わる可能性がある Reciprocal Projection • 出発地と目的地の組み合わせ (カップリング) を保 持したまま、単純な道路を地図上に引き直す操作 ‣ 例: 2 地点間を結ぶ直線 • この操作で得られた道が、実際に通れるもの (Markov 過程) である保証はない 𝑥𝑇 目的地点 𝑥0 出発地点 𝑥′𝑇 到達地点 𝑥0 出発地点 𝑥′𝑇 目的地点 (1) Markovian Projection (2) Reciprocal Projection 図 23: Markovian/reciprocal projection の概念図。実線が射影結果に対応 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 72 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) Markovian Projection • 次に、Markovian/reciprocal projection の数学的な定義について説明する • Markovian Projection: パス測度を Markov 過程で近似する手続き ‣ 与えられたパス測度 ℙ に対して、各時刻 𝑡 における周辺測度 ℙ𝑡 を近似するような拡散過程を構成する操作 10 ‣ すなわち、対応する拡散過程 d𝐗𝑡 = 𝑓 d𝑡 + 𝑔 d𝐖𝑡 のドリフト係数 𝑓 及び拡散係数 𝑔 を求めることに相当 • ここでは、mixture of bridges ℿ = ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) dℿ0,𝑇 (𝑥0 , 𝑥𝑇 ) に対する Markovian projection のみを考える ‣ 後述するように、IMF においてはパス測度として必ず mixture of bridges が与えられるため ‣「この点に到達する」という終点の情報を含んだ経路を、「この先どこへ進むか」という形で書き直すイメージ 10 拡散過程ならば Markov だが、逆は一般に成り立たない。したがって、「Markovian projection」は厳密に言えば誤用である Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 73 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) Markovian Projection • mixture of bridges に対する Markovian Projection は以下のように定義される Markovian Projection [14, Definition 1] 定義 16 ℚ を参照測度とする。任意の点 (𝑥0 , 𝑥𝑇 ) ∈ ℝ𝑑 に対して、bridge 測度 ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) が次の SDE で記述される 確率過程 {𝐗0,𝑇 と対応付けられているとする: 𝑡 } 𝑡∈[0,𝑇 ] 0,𝑇 2 d𝐗0,𝑇 = {𝑓(𝐗0,𝑇 𝑡 𝑡 , 𝑡) + 𝜎𝑡 ∇ log ℚ𝑇 |𝑡 (𝑥𝑇 |𝐗𝑡 )} d𝑡 + 𝜎𝑡 d𝐖𝑡 (43) このとき、well-defined である場合に限り、ℿ のマルコフ射影 𝕄⋆ = projℳ (ℿ) ∈ ℳ を導入する。これは以下の SDE に関連付けられる: d𝐗⋆𝑡 = {𝑓(𝐗⋆𝑡 , 𝑡) + 𝑣⋆ (𝐗⋆𝑡 , 𝑡)} d𝑡 + 𝜎𝑡 d𝐖𝑡 where 𝑣⋆ (𝑥𝑡 , 𝑡) = 𝜎𝑡2 𝔼Π𝑇 |𝑡 [∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) | 𝐗𝑡 = 𝑥𝑡 ] (44) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 74 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) Markovian Projection • 定義 16 のベクトル場 𝑣⋆ は、条件付き期待値として与えられることを述べた • 𝑣⋆ は以下の forward KL ダイバージェンス最小化問題の解としても特徴付けられる ‣ これは FM loss に他ならない ‣ ただし、参照測度 ℚ に関するスコア関数 ∇ log ℚ𝑇 |𝑡 (𝑥𝑇 |𝑥𝑡 ) が明示的に与えられることが要求される KL ダイバージェンスによる Markovian projection の特徴付け[14, Proposition 2] 命題 17 𝜎𝑡 > 0 を仮定し、bridge 測度 ℿ に対して 𝕄⋆ = projℳ (𝕄) で定義する。ある種の緩い条件の元で以下が成立: 𝕄⋆ = argmin 𝐷KL (ℿ‖𝕄) 𝕄∈ℳ 𝑇 2 2 ⋆ [ ‖𝜎𝑡 𝔼ℿ𝑇 |0,𝑇 [∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) | 𝐗0 , 𝐗𝑡 ] − 𝑣 (𝐗𝑡 , 𝑡)‖ ] 1 𝐷KL (ℿ‖𝕄) = ∫ 𝔼ℿ0,𝑡 [ [ 2 0 [ 𝜎𝑡2 (45) ] d𝑡 ] ] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 75 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) Reciprocal Projection • Part I で述べたように、SB 解は一般に ℙ SB = ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) dℙ0,𝑇 (𝑥0 , 𝑥𝑇 ) の形式で表せる ‣ カップリング ℙ0,𝑇 と、参照測度から得られる bridge 測度 ℚ|0,𝑇 の mixture • この形式で表せる確率測度のクラスを reciprocal class [44] とよび、ℛ(ℚ) と表記する¹¹ ‣ 確率測度 ℙ について ℙ ∈ ℛ(ℚ) が成り立つとき、ℙ は ℚ-reciprocal であるという • 与えられたパス測度を reciprocal class で近似する手続きを reciprocal projection と呼ぶ Reciprocal Projection 定義 18 ℿ ∈ 𝒫(𝒞) が ℚ ∈ ℳ の reciprocal class ℛ(ℚ) に属するとは、 ℿ = ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) dℿ0,𝑇 (𝑥0 , 𝑥𝑇 ) が成り立つこと をいう。 また、ℙ ∈ 𝒫(𝒞) の reciprocal projection を ℿ⋆ = projℛ(ℚ) (ℙ) ≝ ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) dℙ0,𝑇 (𝑥0 , 𝑥𝑇 ) で定義する。 ¹¹誤解のおそれがない場合、ℛ = ℛ(ℚ) のように参照測度を略記する Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 76 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) Reciprocal Projection • 参照測度 ℚ が可逆 Brownian 測度のケースを考える ‣ 関連する確率過程が d𝐗𝑡 = 𝜎 d𝐖𝑡 , 𝐗0 ∼ ℚ0 (𝜎 > 0) のとき • このとき、中間時刻 𝑡 ∈ [0, 𝑇 ] における diffusion bridges のサンプル 𝐗0,𝑇 ∼ ℚ|0,𝑇 は閉形式で表現できる 𝑡 Brownian bridge からのサンプリング 𝐗0,𝑇 = 𝑡 命題 19 𝑡 𝑡 𝑡 𝑥𝑇 + (1 − )𝑥0 + 𝜎𝑡 (𝐖𝑡 − 𝐖𝑇 ) 𝑇 𝑇 𝑇 (46) ‣ ここで、𝐖𝑡 − 𝑇𝑡 𝐖𝑇 ∼ 𝒩(0, 𝑡(1 − 𝑇𝑡 ) Id) • すなわち、Reciprocal class ℿ について、カップリング ℿ0,𝑇 が既知ならば中間時刻 𝑡 におけるデータの サンプリング 𝐗𝑡 はシミュレーションフリーで実現可能 ‣ IPF とは異なり、中間時刻のサンプル {𝐗𝑡 } を逐一キャッシュする必要がないメリット 𝑡∈(0,𝑇 ) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 77 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) アルゴリズム • IMF アルゴリズムは、以下のような Markovian/reciprocal projection の交互最適化として定式化 ‣ Markovian projection (定義 16) における最適ベクトル場 𝑣⋆ を 𝜃 でパラメータ化して学習 0 ‣ 初期測度 ℙ 0 ∈ ℛ(ℚ) は ℙ00 = 𝜇0 , ℙ𝑇0 = 𝜇𝑇 を満たすものとする (初期カップリング ℙ0,𝑇 に自由度が残る。後述) ℙ 2𝑛+1 = projℳ (ℙ 2𝑛 ), ℙ 2𝑛+2 = projℛ (ℙ 2𝑛+1 ) (47) • 参照測度 ℚ を可逆ブラウン運動としたケースにおける、前進過程に対する IMF の疑似コードは次の通り: アルゴリズム 5: Iterative Markovian Fitting (IMF) 1 初期 Reciprocal 測度 ℿ0 ∈ ℛ(ℚ) を設定 2 for 𝑛 ∈ 0, …, 𝑁 − 1 do 3 Markovian Projection 𝑇 2 4 𝜃𝑛+1 ← argmin𝜃 12 ∫ 𝔼ℿ𝑛0,𝑡 [‖𝜎𝑡2 ∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) − 𝑣𝜃 (𝐗𝑡 , 𝑡)‖ ]/𝜎𝑡2 d𝑡 5 𝑛+1 d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) d𝑡 + 𝑣𝜃𝑛+1 (𝐗𝑡 , 𝑡)] d𝑡 + 𝜎𝑡 d𝐖𝑡 を用いて 𝕄𝑛+1 0,𝑇 (= ∫ 𝕄𝑇 |0 (⋅ |𝑥0 ) d𝜇0 (𝑥0 )) をキャッシュ 6 0 Reciprocal Projection: ℿ𝑛+1 ← ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) d𝕄𝑛+1 0,𝑇 (𝑥0 , 𝑥𝑇 ) 7 end for Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 78 / 112
手法③: Iterative Markovian Fitting (IMF) Iterative Markovian Fitting (IMF) 収束性 • IMF によって得られる確率測度列は、少なくとも、 KL ダイバージェンスの意味で収束することを示せる IMF の単調減少性 [14, Proposition 7] 命題 20 {ℙ 𝑛 }𝑛∈ℕ を IMF によって得られる確率測度列、ℙ SB を SB 問題の解とする。緩やかな仮定のもとで、 𝐷KL (ℙ 𝑛+1 ‖ℙ SB ) ≤ 𝐷KL (ℙ 𝑛 ‖ℙ SB ) が成り立つ。そして lim𝑛→+∞ 𝐷KL (ℙ 𝑛 ‖ℙ 𝑛+1 ) = 0 が成り立つ。 • また、その収束先は SB 解 ℙ SB であることも示されている [14, Theorem 8], [45, Theorem 2] IMF の収束性 [14, Theorem 8] 定理 21 緩やかな仮定のもとで、IMF 列 {ℙ 𝑛 }𝑛∈ℕ は唯一の不動点 ℙ ⋆ = ℙ SB を持ち、lim𝑛→+∞ 𝐷KL (ℙ 𝑛 ‖ℙ ⋆ ) = 0 が成り立つ。 余談 • 仮に ℳ と ℛ がともに凸集合ならば、確率測度の Hilbert 空間埋め込みを考えることで、 Projections onto Convex Sets (POCS) の枠組みで 収束性を比較的容易に示せる • しかし残念ながら、少なくとも ℳ は一般に凸集合ではないことが証明されている [14, Appendix C.9] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 79 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 概要 • 計算機上で IMF を実行する場合、Markov 測度カップリング 𝕄0,𝑇 のキャッシュ時の誤差累積が問題となる ‣ IMF アルゴリズムは、適切な参照測度 ℚ を選ぶことで、損失関数の最小化時におけるシミュレーションフリーな 中間データサンプリングを実現した ‣ しかし、カップリング 𝕄0,𝑇 の構成時には依然シミュレーションが利用されているため、精度が低い場合 𝕄𝑇 ≠ 𝜇𝑇 となるおそれがある • 前進過程と後退過程の両方を用意し、交互に IMF アルゴリズムを適用することで、誤差累積の偏りを回避する方法 → Diffusion Schrödinger Bridge Matching (DSBM) 図 24: DSBM と既存手法の関係 引用: [14, Figure 1] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 80 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 疑似コード • 単純に、前進過程と後退過程に対する IMF をそれぞれ交互に適用するだけである ‣ 前進・後退過程はそれぞれ Markovian projection のベクトル場 𝑣𝜃 , 𝑣̂𝜑 でパラメトライズ アルゴリズム 6: Diffusion Schrödinger Bridge Matching (DSBM) 1 初期 Reciprocal 測度 ℿ0 ∈ ℛ(ℚ) を設定 2 for 𝑛 ∈ 0, …, 𝑁 − 1 do 3 4 5 Markovian Projection (Backward) 2 𝑇 𝜑𝑛+1 ← argmin𝜑 12 ∫ 𝔼ℿ2𝑛 [‖𝜎𝑡2 ∇ log ℚ𝑡|0 (𝐗𝑡 |𝐗0 ) − 𝑣̂𝜑 (𝐗𝑡 , 𝑡)‖ ]/𝜎𝑡2 d𝑡 0,𝑡 0 ̂ 𝑡 を用いて 𝕄2𝑛+1 (= ∫ 𝕄2𝑛+1 (⋅ |𝑥𝑇 ) d𝜇𝑇 (𝑥𝑇 )) をキャッシュ d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) − 𝑣̂𝜑𝑛+1 (𝐗𝑡 , 𝑡)] d𝑡 + 𝜎𝑡 d𝐖 0,𝑇 2𝑛+1 6 Reciprocal Projection (Backward): ℿ 7 Markovian Projection (Forward) 𝑇 0|𝑇 2𝑛+1 ← ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) d𝕄0,𝑇 (𝑥0 , 𝑥𝑇 ) 2 8 𝜃𝑛+1 ← argmin𝜃 12 ∫ 𝔼ℿ2𝑛+1 [‖𝜎𝑡2 ∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) − 𝑣𝜃 (𝐗𝑡 , 𝑡)‖ ]/𝜎𝑡2 d𝑡 0,𝑡 9 2𝑛+2 d𝐗𝑡 = [𝑓(𝐗𝑡 , 𝑡) + 𝑣𝜃𝑛+1 (𝐗𝑡 , 𝑡)] d𝑡 + 𝜎𝑡 d𝐖𝑡 を用いて 𝕄2𝑛+2 0,𝑇 (= ∫ 𝕄𝑇 |0 (⋅ |𝑥0 ) d𝜇0 (𝑥0 )) をキャッシュ 10 0 Reciprocal Projection (Forward): ℿ2𝑛+2 ← ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) d𝕄2𝑛+2 0,𝑇 (𝑥0 , 𝑥𝑇 ) 11 end for Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 81 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 初期カップリングの設定 • IMF や DSBM アルゴリズムは実用上、初期カップリング Π00,𝑇 の選び方が問題となる ‣ 収束速度に影響がある (収束性自体は選び方によらず保証される) • 原著論文 [14] では幾つかの手法を提案している 1. [DSBM-IPF] 参照パス測度のカップリング ℚ0,𝑇 を利用 2. [DSBM-IMF] 直積カップリング 𝜇0 × 𝜇𝑇 3. [DSBM-IMF+] ミニバッチ最適輸送 ‣ 直積カップリングの訓練ミニバッチに対して on-the-fly で最適輸送を求める 4. 初期カップリングを (static な) 最適輸送によって事前に求める (1) DSBM-IPF (Π00,𝑇 = ℚ0,𝑇 ) (2) DSBM-IMF (Π00,𝑇 = 𝜇0 × 𝜇𝑇 ) 図 25: 初期カップリングの選択肢 (3) & (4) 最適輸送 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 82 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 確率フロー ODE • DSBM の生成過程についても、確率フロー ODE を構成することが可能 ‣ SB-FBSDE [11] と本質的に同一 DSBM の確率フロー ODE 命題 22 1 d𝐗⋆𝑡 = {𝑓(𝐗⋆𝑡 , 𝑡) + [𝑣𝜃⋆ (𝐗⋆𝑡 ) − 𝑣̂𝜑⋆ (𝐗⋆𝑡 )]} d𝑡, 2 𝐗⋆0 ∼ 𝜋0 (48) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 83 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 実験結果 低次元 (2D) データ • 二次元分布 (図 26) の生成品質を評価 ‣ DSBM は確率フロー ODE を利用 ‣ 2-Wasserstein 距離とパスエネルギー 𝑇 (𝔼[∫ ‖𝑣(𝐗𝑡 , 𝑡)‖2 d𝑡]) で評価 0 • 多くの既存手法より高精度だが、 OT-CFM には劣る moons scurve (S-curve) 8-gaussians 図 26: ターゲットの確率分布 表 4: サンプリング品質 (引用: [14, Table 2]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 84 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 実験結果 高次元ガウス分布 • source/target を共に高次元 (𝑑 = 50) ガウス分布に設定した条件で実験 ‣ この設定のもとでは、SB 問題の解は閉形式で与えられることが知られる [46] • 生成サンプルの期待値 𝔼[𝐗0 ] と分散 Var(𝐗0 ) 並びに事前分布との共分散 Cov(𝐗0 , 𝐗𝑇 ) を評価 (図 27) ‣ 図中の点線は真の値 ‣ 先行手法の DSB [6] や Rectified Flow [47] は推定量のバイアスが比較的大きい傾向 ‣ 後退過程のみを学習する IMF (IMF-b) は期待値の推定精度は良好なものの、分散・共分散が発散 ‣ 一方、DSBM の分散・共分散は真値付近に収束 (→ 交互更新の効果) 図 27: ガウス分布の収束性実験 (引用: [14, Figure 3]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 85 / 112
手法③: Iterative Markovian Fitting (IMF) Diffusion Schrödinger Bridge Matching (DSBM) 実験結果 Image-to-Image Transfer • Animal Faces HQ (AFHQ) データセット [48] を用いた画像変換のデモンストレーション ‣ AFHQ: 動物の正面顔が集められたデータセット • cat クラスと wild クラスの SB を学習し、相互変換を行った結果を 図 28 に示す AFHQ のクラス概要 🐈 • cat: イエネコ • wild: ネコ科やイヌ科の野生動物 ‣ トラ ‣ ライオン ‣ オオカミ ‣ キツネ ‣ … etc. 🐅 🦁 🐺 🦊 (a) cat → wild 変換 (b) wild → cat 変換 図 28: 画像変換のデモンストレーション (引用: [14, Figure 9]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 86 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF 概要 • オリジナルの IMF (vanilla IMF) は、確率測度の更新 1 回あたりの計算コストが高いという欠点を持つ ‣ 理論上は、Markovian projection 1 回ごとに最適化問題の厳密解を求める必要があるため ‣ また、入力データに対応する出力 (教師データ) を事前に生成してキャッシュするので、ストレージを圧迫する • Markovian projection の厳密解を求める代わりに、ミニバッチ単位の逐次更新に拡張した IMF¹² → 𝛼-IMF 2 1 𝑇 projℳ (ℿ) : 𝜃 = argmin ∫ 𝔼ℿ𝑛0,𝑡 [‖𝜎𝑡2 ∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) − 𝑣𝜃 (𝐗𝑡 , 𝑡)‖ ]/𝜎𝑡2 d𝑡 2 0 𝜃 ⋆ (49) ¹²原著論文 [15] では、参照測度 ℚ が可逆ブラウン運動 (d𝐗𝑡 = 𝜎 d𝐖𝑡 ) に限定して議論されている。一般の測度への応用可能性は不明 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 87 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF 更新式 • オリジナルの IMF は、パス測度に関して以下のような更新式を実行していた ̂𝑠+1 = projℛ(ℚ) (projℳ (ℙ ̂𝑠 )), ℙ ̂𝑠 ) ℙ 𝑠 = projℳ (ℙ (50) • 一方で 𝛼-IMF は、式 50 と恒等写像との凸結合によるパス測度更新として与えられる ̂𝑠+1 = (1 − 𝛼)ℙ ̂𝑠 + 𝛼 projℛ(ℚ) (projℳ (ℙ ̂𝑠 )), 𝛼 ∈ (0, 1] ℙ (51) • 式 50 の更新式が SB 解へ収束するならば、 式 51 も同じく収束することが示されている [15, Theorem 3.1] 𝛼-IMF の収束 ̂𝑛 } 𝛼 ∈ (0, 1] とし、{ℙ 𝑛 , ℙ 定理 23 𝑛∈ℕ を 式 51 で定義される確率測度列とする。緩やかな仮定のもとで、 lim𝑛→+∞ ℙ 𝑛 = ℙ SB が成り立つ。ここで ℙ SB は SB 問題の解である。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 88 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF 測度の逐次更新 • 式 51 は一見すると、凸結合の分だけ単に 計算量が増えただけのように思える ‣ IMF において最もコストの高い Markovian projection がそのまま残っているため • 実は、先程の更新式 (式 51) は、最適化問題における 逐次更新の 1-step と対応付けることが可能 ‣ 図 29 のオレンジ色の曲線に相当 – 1-step 経るたびに、ℚ から ℙ までを連続的に動く ようなイメージ ‣ 一方で、 vanilla IMF は点線に対応 – ℳ と ℛ(ℚ) の境界をジグザグに移動 ̂𝑛 から ℙ 𝑛 への移動が Markovian projection に – ℙ 対応 (高コスト) 図 29: 逐次更新 (引用: [15, Figure 1]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 89 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF 測度の逐次更新 • はじめに、定常 Brown 運動 d𝐗𝑡 = √ 𝜀 d𝐖𝑡 を参照測度 ℚ とする前進過程の Markovian projection を考える: d𝐗𝑡 = 𝑣(𝐗𝑡 , 𝑡) d𝑡 + √ 𝜀 d𝐖𝑡 (52) • ここで FM loss を次のように定義すると、ベクトル場 𝑣 の最適化問題は vanilla IMF に対応する Flow Matching Loss (𝛼-IMF) 定義 24 1 𝑥1 − 𝑥𝑡 2 ℒ(𝑣, ℙ) ≝ ∫ ℒ𝑡 (𝑣, ℙ) d𝑡, ℒ𝑡 (𝑣, ℙ) ≝ ∫ ‖𝑣(𝑥𝑡 , 𝑡) − ‖ dℙ0,1 (𝑥0 , 𝑥1 ) dℚ𝑡|0,1 (𝑥𝑡 |𝑥0 , 𝑥1 ) 1 − 𝑡 3 𝑑 0 (ℝ ) 定義 24 の最適化問題は vanilla IMF の更新式 (53) 命題 25 𝑣𝑛+1 = argmin𝑣 ℒ(𝑣, ℙ𝑣𝑛 ) で定義されるベクトル場の列 {𝑣𝑛 }𝑛∈ℕ について、付随するパス測度はそれぞれ ℙ𝑣𝑛+1 = projℳ (projℛ(ℚ) (ℙ𝑣𝑛 )) であり、 vanilla IMF と一致する。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 90 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF 測度の逐次更新 • ここで、損失関数 (定義 24) を汎関数の勾配降下法で更新する手続きを考える 𝑣𝑛+1 (𝑥, 𝑡) = 𝑣𝑛 (𝑥, 𝑡) − 𝛿𝑛 ∇𝜇𝑛 ℒ𝑡 (𝑣𝑛 , ℙ𝑣𝑛 )(𝑥) (54) • 式 54 で得られるベクトル場から生成される確率測度列 {ℙ𝑣𝑛 }𝑛∈ℕ は、実は 𝛼-IMF のもの (式 51) と一致することが 示されている ノンパラメトリック更新は 𝛼-IMF [15, Proposition 3.2]¹³ ̂𝑛 } 𝛼 ∈ (0, 1]、{ℙ 𝑛 , ℙ 𝑛∈ℕ 命題 26 ̂𝑛 + 𝛼 projℛ (ℙ 𝑛 ) とする。 を 式 51 で定義される確率測度列、𝛿𝑛 = 𝛼、 𝜇𝑛 = (1 − 𝛼)ℙ 任意の 𝑛 ∈ ℕ について ℙ𝑣𝑛 が well-defined と仮定する。このとき、任意の 𝑛 ∈ ℕ について ℙ𝑣𝑛 = ℙ 𝑛 が成立。 ‣ つまり、IMF の更新 1 ステップは必ず SB 解に近づくことが保証される – Markovian projection の最適化を途中で打ち切っても SB 解への収束が保証される根拠 ¹³原著論文に記載はないが、厳密には 𝛿𝑛 が十分ゼロに近いという条件が必要だと思われる Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 91 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-IMF アルゴリズム • これまでの議論を整理する • 𝛼-IMF は、勾配降下ステップ (式 54) をミニバッチ単位で反復的に行うアルゴリズムとして定式化 • 疑似コードをアルゴリズム 7 に示す • 各 iteration におけるパス測度 ℿ𝑛 及び 𝕄𝑛 は、ミニバッチサイズ分のキャッシュだけ保持すれば十分 ‣ vanilla IMF では、訓練データサイズ分保持していたことと対照的 アルゴリズム 7: 𝛼-IMF 1 初期 Reciprocal 測度 ℿ0 ∈ ℛ(ℚ) を設定 2 for 𝑛 ∈ 0, …, 𝑁 − 1 do 𝑇 2 ℒ(𝜃) ≝ 12 ∫ 𝔼ℿ𝑛0,𝑡 [‖𝜎𝑡2 ∇ log ℚ𝑇 |𝑡 (𝐗𝑇 |𝐗𝑡 ) − 𝑣𝜃 (𝐗𝑡 , 𝑡)‖ ]/𝜎𝑡2 d𝑡 3 𝜃𝑛+1 ← 𝜃𝑛 − 𝛼∇ℒ(𝜃𝑛 ), 4 𝑛+1 d𝐗𝑡 = [𝑓𝑡 (𝐗𝑡 ) d𝑡 + 𝑣𝜃𝑛+1 (𝐗𝑡 , 𝑡)] d𝑡 + 𝜎𝑡 d𝐖𝑡 を用いて 𝕄𝑛+1 0,𝑇 (= ∫ 𝕄𝑇 |0 (⋅ |𝑥0 ) d𝜇0 (𝑥0 )) をキャッシュ ℿ𝑛+1 ← ∫ ℚ|0,𝑇 (⋅ |𝑥0 , 𝑥𝑇 ) d𝕄𝑛+1 0,𝑇 (𝑥0 , 𝑥𝑇 ) 5 0 6 end for Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 92 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 概要 • 𝛼-IMF は計算効率を改善したものの、依然としてシミュレーション時の誤差累積という課題が残る ‣ 前方向または後方向のどちらかの過程のみを使うため、片側に偏った誤差が発生 ‣ 長時間のシミュレーションでは、終端分布と目標分布の乖離が大きくなるリスク • 誤差累積を抑制する方法として、前進・後退過程を交互に更新する DSBM の考え方を採用 ‣ DSBM は前進・後退過程の交互最適化によって誤差の相殺を実現 ‣ しかし従来の DSBM は計算コストが高い問題が存在 • 𝛼-DSBM は 2 つの手法の利点を組み合わせたアプローチ 1. 𝛼-IMF の逐次更新による計算効率の向上 2. DSBM の双方向更新による誤差累積の抑制 3. 単一のモデルで前進・後退過程の両方をパラメータ化 (パラメータ効率) • この手法により、高品質な生成性能を維持しながら、訓練の安定性と効率性を大幅に向上 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 93 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 双方向更新式の導出アウトライン 1/3 • 𝛼-DSBM では、前進・後退過程をそれぞれ次のようにモデル化する ‣ 参照測度 ℚ として可逆 Brown 運動を採用したケースに対応 (𝛼-IMF と同一) ‣ 𝑣F , 𝑣B はそれぞれ前進・後退過程に対応するベクトル場 (学習パラメータ) F (fwd): d𝐗𝑡 = 𝑣 (𝐗𝑡 , 𝑡) d𝑡 + √ 𝜀 d𝐖𝑡 , 𝐗0 ∼ 𝜇0 √ (bwd): d𝐘𝑡 = 𝑣B (𝐘𝑡 , 𝑡) d𝑡 + 𝜀 d𝐖𝑡 , 𝐘0 ∼ 𝜇1 (55) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 94 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 双方向更新式の導出アウトライン 2/3 • 双方向の損失関数を以下のように定義 ‣ 前進・後退過程に対応する FM loss の同時最適化問題 𝛼-DSBM の損失関数 定義 27 1 F B F B ℒ(𝑣 , 𝑣 , ℙ , ℙ ) ≝ ∫ ℒ𝑡 (𝑣F , 𝑣B , ℙ F , ℙ B ) d𝑡 (56) 0 𝑥1 − 𝑥𝑡 2 F ‖𝑣 (𝑥𝑡 , 𝑡) − ‖ dℙ0,1 (𝑥0 , 𝑥1 ) dℚ𝑡|0,1 (𝑥𝑡 |𝑥0 , 𝑥1 ) ℒ𝑡 (𝑣 , 𝑣 , ℙ , ℙ ) ≝ ∫ 1 − 𝑡 3 𝑑 (ℝ ) F B F B F 𝑥0 − 𝑥𝑡 2 B B +∫ ‖𝑣 (𝑥𝑡 , 1 − 𝑡) − ‖ dℙ0,1 (𝑥0 , 𝑥1 ) dℚ𝑡|0,1 (𝑥𝑡 |𝑥0 , 𝑥1 ) 𝑡 3 (ℝ𝑑 ) (57) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 95 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 双方向更新式の導出アウトライン 3/3 • 単方向のケースと同じく、勾配降下ステップは次のように表せることが示せる (𝑣𝑛+1,F , 𝑣𝑛+1,B ) = (𝑣𝑛,F , 𝑣𝑛,B ) − 𝛿𝑛 ∇𝜇𝑛 ℒ𝑡 (𝑣𝑛,F , 𝑣𝑛,B , ℙ𝑣𝑛,F , ℙ𝑣𝑛,B ) (58) • この更新式についても、生成される確率測度列は 𝛼-IMF と一致することが示されている 双方向更新 [15, Proposition 4.1] ̂𝑛 } 𝛼 ∈ (0, 1]、{ℙ 𝑛 , ℙ 𝑛∈ℕ 命題 28 ̂𝑛 + 𝛼 projℛ (ℙ 𝑛 ) とする。任意 を 式 58 で定義される確率測度列、𝛿𝑛 = 𝛼、 𝜇𝑛 = (1 − 𝛼)ℙ の 𝑛 ∈ ℕ について ℙ𝑣𝑛 が well-defined と仮定する。このとき、任意の 𝑛 ∈ ℕ について ℙ𝑣𝑛,F = ℙ𝑣𝑛,B = ℙ 𝑛 が 成り立つ。 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 96 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM ベクトル場のパラメータ化 • 理論的な 𝛼-DSBM では、それぞれ前進・後退過程に対応するベクトル場 𝑣F , 𝑣B を独立に用意する必要があった • 原著論文 [15] では、パラメータ削減のために、単一のモデル 𝑣𝜃 をコンテキストによって切り替える手法を提案 (双方向モデル) ‣ モデルの引数で前進・後退過程に対応するモードを変更可能に 𝑣𝜃 (1, ⋅) = 𝑣F , 𝑣𝜃 (0, ⋅) = 𝑣B (59) • 双方向モデルへの置き換えによる性能劣化は、十分小さいことが実験的に確認されている [15, Appendix K] ‣ 一方で、置き換え前より改善した例は確認されていない Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 97 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 学習アルゴリズム • 原著論文 [15, Algorithm 1] では、実用的な事前学習ファインチューニングスキームが提案されている (アルゴリズム 8)¹⁴ 事前学習 • 中間サンプル 𝐗𝑡 を常に直積カップリング 𝜇0 × 𝜇1 から 取得して訓練 ‣ 従来型 DSBM の Markovian/reciprocal projection 1 回分に相当 ファインチューニング • ミニバッチ単位でカップリング ℿ0,1 のサンプルを都度 生成して訓練 ‣ データ分布と事前分布のそれぞれについて、ミニ バッチサイズの半分を合成データで賄う アルゴリズム 8: 𝛼-DSBM 1 for 𝑛 ∈ 1, …, 𝑁pretraining 2 3 4 do // Pretraining phase (𝐗𝑏0 , 𝐗𝑏1 ) ∼ 𝜇0 × 𝜇1 (∀𝑏 ∈ [1, 𝐵]) and 𝑡 ∼ 𝒰(0, 1) {𝐗𝑏𝑡 } を Brownian bridge からサンプル (命題 1≤𝑏≤𝐵 19) パラメータ 𝜃 を損失関数 (定義 27) に対する 勾配降下ステップで更新 5 end for 6 for 𝑛 ∈ 1, …, 𝑁finetuning 7 8 9 10 11 do // Finetuning phase (𝐗𝑏0 , 𝐗𝑏1 ) ∼ 𝜇0 × 𝜇1 (∀𝑏 ∈ [1, 𝐵/2]) and 𝑡 ∼ 𝒰(0, 1) ̂ 𝑏1 を SDE d𝐗 ̂ 𝑏𝑡 = 𝑣F d𝑡 + √𝜀 d𝐖𝑡 , 𝐗 ̂ 𝑏0 = 𝐗0 からサンプル 𝐗 𝜃 √ ̂ 𝑏0 を SDE d𝐘 ̂ 𝑡𝑏 = 𝑣B d𝑡 + 𝜀 d𝐖𝑡 , 𝐘 ̂ 0𝑏 = 𝐗1 からサンプル 𝐗 𝜃 {𝐗𝑏𝑡 } を Brownian bridge からサンプル (命題 19) 1≤𝑏≤𝐵 パラメータ 𝜃 を損失関数 (定義 27) に対する 勾配降下ステップで更新 12 end for ¹⁴記述の煩雑化を避けるため、原著論文に存在するパラメータの Exponential Moving Average (EMA) は省略している Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 98 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 実験結果 高次元ガウス分布 • source/target を共に 50 次元ガウス分布に設定して学習し、共分散を評価 ‣ (vanilla) DSBM と 𝛼-DSBM で比較 ‣ 10K iterations までの pretrain は共通に実施 • 𝛼-DSBM は、従来手法より少ない iteration で収束することが実験的に示されている 図 30: DSBM 訓練における共分散の発展 (引用: [15, Figure 2]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 99 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 実験結果 Image-to-Image Transfer • 画像変換タスクにおける生成品質を定量的に評価 ‣ 評価指標: FID、平均二乗誤差 (MSD)、LPIPS15 • 𝛼-DSBM (online) は、従来型 DSBM [14] (iterative) と同程度の品質という結果 (表 5 上段) ‣ AFHQ の FID に関しては、サンプル数が少ないためあまり適切でないと原著論文でコメントされている (𝑛 = 500) • 双方向モデルによるパラメータ化に起因する品質低下の影響は少ない (表 5 下段) 表 5: Image-to-Image の生成品質比較 (引用: [15, Table 1]) 15 MSD と LPIPS の評価においてはリファレンス画像の設定が必要だが、原著論文 [15] ではその選定方法が明記されていない Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 100 / 112
手法③: Iterative Markovian Fitting (IMF) 𝛼-DSBM 実験結果 Image-to-Image Transfer • AFHQ データセットによる画像変換タスクのサンプル ‣ 上段・下段がそれぞれ変換前後の画像に対応 • 視覚的品質は DSBM と同程度のように見える cat → wild wild → cat 図 31: 𝛼-DSBM による cat ↔ wild 変換のサンプル (引用: [15, Figure 4]) Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 101 / 112
おわりに Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 102 / 112
おわりに まとめ • SB 問題の概要を説明 • 筆者が着目した 3 種の手法を紹介 Iterative Proportional Fitting (IPF) • 前進・後退 SDE でモデル化し、交互に最適化を適用 • 実現アルゴリズム: DSB [6], SB-FBSDE [11] Flow Matching with Minibatch Optimal Transport • 拡散過程に対応する確率フロー ODE のベクトル場を直接学習する生成モデル → Flow Matching (FM) • 訓練時のミニバッチに対してオンラインで最適輸送を適用 → Minibatch Optimal Transport (Minibatch OT) • 実現アルゴリズム: SB-CFM [12], [SF]²M [13] Iterative Markovian Fitting (IMF) • SB 解の必要条件である Markov 性と Reciprocal 性を利用 • Markov パス集合と Reciprocal class への射影を交互に適用する手法 → Iterative Markovian Fitting (IMF) [14] • 前進・後退 SDE を用いることで誤差の累積を緩和 → Diffusion Schrödinger Bridge Matching (DSBM) [14] • DSBM の訓練アルゴリズムを逐次更新に改良 → 𝛼-DSBM [15] Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 103 / 112
参考文献 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 104 / 112
参考文献 参考文献 1/8 [1] E. Schrödinger, “Über die Umkehrung der Naturgesetze,” Sitzungsberichte der Preussischen Akademie der Wissenschaften. Physikalisch-mathematische Klasse, vol. 44, no. 30, p. 636, Jul. 1931, doi: 10.1002/ange.19310443014. [2] E. Schrödinger, “Sur la théorie relativiste de l'électron et l'interprétation de la mécanique quantique,” Annales de l'institut Henri Poincaré, vol. 2, no. 4, pp. 269–310, 1932, [Online]. Available: http://www.numdam.org/item/AIHP_1932__2_4_269_ 0/ [3] C. Léonard, “A survey of the Schrödinger problem and some of its connections with optimal transport.” Accessed: Mar. 24, 2023. [Online]. Available: https://arxiv.org/abs/1308.0215 [4] Y. Chen, T. Georgiou, and M. Pavon, “On the relation between optimal transport and Schrödinger bridges: A stochastic control viewpoint.” Accessed: Mar. 14, 2023. [Online]. Available: https://arxiv.org/abs/1412.4430 [5] Y. Chen, T. T. Georgiou, and M. Pavon, “Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schroedinger bridge.” Accessed: Mar. 14, 2023. [Online]. Available: https://arxiv.org/abs/2005.10963 [6] V. De Bortoli, J. Thornton, J. Heng, and A. Doucet, “Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling.” Accessed: Sep. 23, 2024. [Online]. Available: https://arxiv.org/abs/2106.01357 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 105 / 112
参考文献 参考文献 2/8 [7] M. Cuturi, “Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances.” Accessed: May 26, 2023. [Online]. Available: https://arxiv.org/abs/1306.0895 [8] G. Peyré and M. Cuturi, “Computational Optimal Transport.” Accessed: Mar. 16, 2023. [Online]. Available: https://arxiv. org/abs/1803.00567 [9] A. Genevay, “Entropy-Regularized Optimal Transport for Machine Learning,” 2019. Accessed: Dec. 14, 2024. [Online]. Available: https://theses.hal.science/tel-02319318 [10] J. Ho, A. Jain, and P. Abbeel, “Denoising Diffusion Probabilistic Models.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/2006.11239 [11] T. Chen, G.-H. Liu, and E. A. Theodorou, “Likelihood Training of Schrödinger Bridge using Forward-Backward SDEs Theory.” Accessed: Mar. 15, 2023. [Online]. Available: https://arxiv.org/abs/2110.11291 [12] A. Tong et al., “Improving and generalizing flow-based generative models with minibatch optimal transport.” Accessed: Feb. 14, 2025. [Online]. Available: https://arxiv.org/abs/2302.00482 [13] A. Tong et al., “Simulation-free Schrödinger bridges via score and flow matching.” Accessed: Nov. 16, 2024. [Online]. Available: https://arxiv.org/abs/2307.03672 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 106 / 112
参考文献 参考文献 3/8 [14] Y. Shi, V. De Bortoli, A. Campbell, and A. Doucet, “Diffusion Schrödinger Bridge Matching.” Accessed: Jul. 25, 2023. [Online]. Available: https://arxiv.org/abs/2303.16852 [15] V. D. Bortoli, I. Korshunova, A. Mnih, and A. Doucet, “Schrödinger Bridge Flow for Unpaired Data Translation.” Accessed: Nov. 06, 2024. [Online]. Available: https://arxiv.org/abs/2409.09347 [16] B. Jamison, “The Markov processes of Schrödinger,” Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, vol. 32, no. 4, pp. 323–331, Dec. 1975, doi: 10.1007/BF00535844. [17] T. Mikami, “Variational processes from the weak forward equation,” Communications in Mathematical Physics, vol. 135, no. 1, pp. 19–40, Jan. 1990, Accessed: Dec. 14, 2024. [Online]. Available: https://projecteuclid.org/journals/ communications-in-mathematical-physics/volume-135/issue-1/Variational-processes-from-the-weak-forward-equation/ cmp/1104201918.full [18] P. Dai Pra, “A stochastic control approach to reciprocal diffusion processes,” Applied Mathematics and Optimization, vol. 23, no. 1, pp. 313–329, Jan. 1991, doi: 10.1007/BF01442404. [19] E. Bernton, J. Heng, A. Doucet, and P. E. Jacob, “Schrödinger Bridge Samplers.” Accessed: Oct. 17, 2024. [Online]. Available: https://arxiv.org/abs/1912.13170 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 107 / 112
参考文献 参考文献 4/8 [20] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks.” Accessed: Mar. 02, 2025. [Online]. Available: https://arxiv.org/abs/1703.10593 [21] F. Vargas, P. Thodoroff, N. D. Lawrence, and A. Lamacraft, “Solving Schrödinger Bridges via Maximum Likelihood,” Entropy, vol. 23, no. 9, p. 1134, Aug. 2021, doi: 10.3390/e23091134. [22] J. Kruithof, “Telefoonverkeersrekening,” De Ingenieur, vol. 52, pp. 15–25, 1937. [23] W. E. Deming and F. F. Stephan, “On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals are Known,” The Annals of Mathematical Statistics, vol. 11, no. 4, pp. 427–444, Dec. 1940, doi: 10.1214/ aoms/1177731829. [24] R. Sinkhorn, “Diagonal Equivalence to Matrices with Prescribed Row and Column Sums,” The American Mathematical Monthly, vol. 74, no. 4, p. 402, Apr. 1967, doi: 10.2307/2314570. [25] C. T. Ireland and S. Kullback, “Contingency tables with given marginals,” Biometrika, vol. 55, no. 1, pp. 179–188, Mar. 1968, doi: 10.1093/biomet/55.1.179. [26] S. Kullback, “Probability Densities with Given Marginals,” The Annals of Mathematical Statistics, vol. 39, no. 4, pp. 1236– 1243, Aug. 1968, doi: 10.1214/aoms/1177698249. Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 108 / 112
参考文献 参考文献 5/8 [27] L. Ruschendorf, “Convergence of the Iterative Proportional Fitting Procedure,” The Annals of Statistics, vol. 23, no. 4, pp. 1160–1174, Aug. 1995, doi: 10.1214/aos/1176324703. [28] Y. Song, C. Durkan, I. Murray, and S. Ermon, “Maximum Likelihood Training of Score-Based Diffusion Models.” Accessed: May 18, 2023. [Online]. Available: https://arxiv.org/abs/2101.09258 [29] P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, vol. 23, no. 7, pp. 1661–1674, Jul. 2011, doi: 10.1162/NECO_a_00142. [30] G. Cohen, S. Afshar, J. Tapson, and A. v. Schaik, “EMNIST: an extension of MNIST to handwritten letters.” Accessed: Feb. 11, 2025. [Online]. Available: https://arxiv.org/abs/1702.05373 [31] K. F. Caluya and A. Halder, “Wasserstein Proximal Algorithms for the Schrödinger Bridge Problem: Density Control with Nonlinear Drift.” Accessed: Apr. 01, 2023. [Online]. Available: https://arxiv.org/abs/1912.01244 [32] M. Hutchinson, “A stochastic estimator of the trace of the influence matrix for Laplacian smoothing splines,” Communication in Statistics- Simulation and Computation, vol. 18, pp. 1059–1076, Jan. 1989, doi: 10.1080/03610919008812866. Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 109 / 112
参考文献 参考文献 6/8 [33] Y. Lipman, R. T. Q. Chen, H. Ben-Hamu, M. Nickel, and M. Le, “Flow Matching for Generative Modeling.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/2210.02747 [34] P. Esser et al., “Scaling Rectified Flow Transformers for High-Resolution Image Synthesis.” Accessed: Oct. 30, 2024. [Online]. Available: https://arxiv.org/abs/2403.03206 [35] “Announcing Black Forest Labs.” Accessed: Jan. 30, 2025. [Online]. Available: https://blackforestlabs.ai/announcing-blackforest-labs/ [36] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-Based Generative Modeling through Stochastic Differential Equations.” Accessed: Oct. 14, 2022. [Online]. Available: https://arxiv.org/abs/2011.13456 [37] D. J. Rezende and S. Mohamed, “Variational Inference with Normalizing Flows.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/1505.05770 [38] R. T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. Duvenaud, “Neural Ordinary Differential Equations.” Accessed: Jan. 21, 2023. [Online]. Available: https://arxiv.org/abs/1806.07366 [39] L. Weng, “Flow-based Deep Generative Models,” lilianweng.github.io, 2018, [Online]. Available: https://lilianweng.github. io/posts/2018-10-13-flow-models/ Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 110 / 112
参考文献 参考文献 7/8 [40] K. Fatras, Y. Zine, R. Flamary, R. Gribonval, and N. Courty, “Learning with minibatch Wasserstein : asymptotic and gradient properties.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/1910.04091 [41] K. Fatras, Y. Zine, S. Majewski, R. Flamary, R. Gribonval, and N. Courty, “Minibatch optimal transport distances; analysis and applications.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/2101.01792 [42] K. Fatras, T. Séjourné, N. Courty, and R. Flamary, “Unbalanced minibatch Optimal Transport; applications to Domain Adaptation.” Accessed: Feb. 04, 2023. [Online]. Available: https://arxiv.org/abs/2103.03606 [43] B. D. Anderson, “Reverse-time diffusion equation models,” Stochastic Processes and their Applications, vol. 12, no. 3, pp. 313–326, May 1982, doi: 10.1016/0304-4149(82)90051-5. [44] B. Jamison, “Reciprocal processes,” Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, vol. 30, no. 1, pp. 65– 86, Mar. 1974, doi: 10.1007/BF00532864. [45] S. Peluchetti, “Diffusion Bridge Mixture Transports, Schrödinger Bridge Problems and Generative Modeling.” Accessed: Apr. 10, 2023. [Online]. Available: https://arxiv.org/abs/2304.00917 [46] C. Bunne, Y.-P. Hsieh, M. Cuturi, and A. Krause, “The Schrödinger Bridge between Gaussian Measures has a Closed Form.” Accessed: Apr. 10, 2023. [Online]. Available: https://arxiv.org/abs/2202.05722 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 111 / 112
参考文献 参考文献 8/8 [47] X. Liu, C. Gong, and Q. Liu, “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow.” Accessed: Oct. 18, 2024. [Online]. Available: https://arxiv.org/abs/2209.03003 [48] Y. Choi, Y. Uh, J. Yoo, and J.-W. Ha, “StarGAN v2: Diverse Image Synthesis for Multiple Domains.” Accessed: Feb. 04, 2025. [Online]. Available: https://arxiv.org/abs/1912.01865 Copyright © 2025 Morpho, Inc. All Rights Reserved. Confidential 112 / 112