2.1K Views
December 12, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Alignment Algorithms for Diffusion Models 2024.12.12 Yuta Oshima, M2, Matsuo-Iwasawa Lab http://deeplearning.jp/
Alignment Algorithms for Diffusion Models • 本発表について • まず,前提となる拡散モデルの基礎知識について共有し,その後,拡散モデルのア ラインメントのためのアルゴリズムについて展開 • テーマの選定理由 • 拡散モデルは,動画像生成,プランニングなど,多岐にわたる分野に応用可能 • 最近ではSoraのような高精度なモデルの公開により,実用化への道がますます現実 味を帯びる • 一方で,実用に耐えるモデルを構築するには,拡散モデルの性能や挙動を適切に調 整する「アラインメント」の重要性がこれまで以上に高まっている 2
Alignment Algorithms for Diffusion Models • 参考文献 • Alignment of Diffusion Models: Fundamentals, Challenges, and Future • Buhua Liu, Shitong Shao, Bao Li, Lichen Bai, Zhiqiang Xu, Haoyi Xiong, James Kwok, Sumi Helal, Zeke Xie • https://arxiv.org/abs/2409.07253 • Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review • Masatoshi Uehara, Yulai Zhao, Tommaso Biancalani, Sergey Levine • https://arxiv.org/abs/2407.13734 3
目次 1. 拡散モデルの準備 2. 拡散モデルのアラインメント 4
目次 1. 拡散モデルの準備 2. 拡散モデルのアラインメント 5
拡散モデルとは • 拡散モデルは,画像生成での成功を皮切りに,大きく注目を集める生成モデル. • 発展の契機となったのは,Denoising Diffusion Probabilistic Models (DDPM) [Ho+ 2018] と呼ばれるモデルの登場 • 近年ではSora [OpenAI 2024] などの動画生成分野でも広く注目を集める 6
拡散モデルとは • 拡散モデルでは,初期値のノイズから段階的にノイズを除去し,データを生成. • 下の図における𝑥𝑇 は,ガウス分布からランダムにサンプリングされた初期値 • ランダムな初期値テンソルからデータを生成する深層生成モデルの基本的な 設計に沿う 7
拡散モデルの枠組み Denoising Diffusion Probalistic Model (DDPM) [1] • データx0 に徐々にガウシアンノイズを加えていき,完全なガウシアンノイズ 𝑥𝑇 ~𝑁(𝑥𝑇 ; 0, 𝐼)にする(拡散過程),ここにはNNは不使用 • β𝑡 の値が大きいほど,ノイズの割合が大きい 8
拡散モデルの枠組み Denoising Diffusion Probalistic Model (DDPM) [1] • 生成は,拡散過程を逆向きに辿る(逆過程).逆過程をNNでモデル化 • ノイズの乗ったデータ𝑥t と拡散時刻𝑡を入力とし, 𝑥𝑡−1 の平均と分散を求める形 で定式化 9
拡散モデルの枠組み Denoising Diffusion Probalistic Model (DDPM) [1] • 実際は, ノイズの乗ったデータ𝑥t と拡散時刻𝑡を入力とし, 𝑥t に載っているノイ ズを予測する.このノイズ予測器にNNが用いられている 画像引用元:深層生成モデル2024 第6回 講義資料 10
拡散モデルの枠組み Denoising Diffusion Probalistic Model (DDPM) [1] • 実際は, ノイズの乗ったデータ𝑥t と拡散時刻𝑡を入力とし, 𝑥t に載っているノイ ズを予測する.このノイズ予測器にNNが用いられている • ノイズ予測器で予測したノイズεを 𝑥t から引くことで,反復的にノイズを除去 画像引用元:深層生成モデル2024 第6回 講義資料 11
目次 1. 拡散モデルの準備 2. 拡散モデルのアラインメント 12
拡散モデルのアラインメント • 言語モデルと同様に,拡散モデルにおいても, 人間にとって好ましい生成結果を得るために, モデルをアラインメントする研究も盛ん • 報酬モデルを用意し,より報酬が高い出力を 生成できるように,拡散モデルを強化学習す る方法が,最も基本的 • 動画像生成の領域では,報酬モデルとして, 人間選好のスコア (ex. HPS v2 [Wu+ 2023]) や, テキスト追従性スコア (ex. CLIP [Radford+ 2021])を主に用いる 13
拡散モデルのアラインメント 報酬モデル • 報酬モデルは,プロンプト𝑐に対する出力𝑥から,報酬を出力するモデル𝑟𝜙 (𝑐, 𝑥) と書くことができる • 報酬モデルは,プロンプト𝑐に対する,好ましい出力𝑥 𝑤 と好ましくない出力𝑥 𝑙 の ペアを用いて,以下の損失関数を用いて学習される(Bradley-Terry モデル) – ただし𝜎はシグモイド関数 式引用元:https://arxiv.org/abs/2409.07253 14
拡散モデルのアラインメント 報酬モデル • 例えば,人間選好のスコアであるPickScore [Kirstain+ 2023] では,プロンプト𝑐に 対する,好ましい出力𝑥 𝑤 と好ましくない出力𝑥 𝑙 のペアは下のようなインター フェイスで集められる 15
拡散モデルのアラインメント Reinforce Learning from Human Feedback (RLHF) • 報酬モデルは,プロンプト𝑐に対する出力𝑥から,報酬を出力するモデル𝑟𝜙 (𝑐, 𝑥) と書くことができた • ナイーブには,この報酬モデルの報酬を最大化するように,生成モデル𝑝𝜃 (𝑥0 |𝑐) を学習できれば良い • すなわち,以下の最適化問題を解く – ここで𝜌はプロンプト𝑐の分布 式引用元:https://arxiv.org/abs/2409.07253 16
拡散モデルのアラインメント RLHF: Denoising Diffusion Policy Optimization (DDPO) • DDPO [Black+ 2023] では,ノイズ除去プロセスをマルチステップ意思決定問題と みなすことで,方策勾配定理より,方策勾配を以下のように推定する – この定式化の場合は,REINFORCE [Williams 1992] に対応 式引用元:https://arxiv.org/abs/2409.07253 17
拡散モデルのアラインメント RLHF: Denoising Diffusion Policy Optimization (DDPO) • DDPOにより,各報酬 (JPEG圧縮可能性,美的魅力,テキスト追従性) に沿う生成 ができるようになる 18
拡散モデルのアラインメント RLHF: Diffusion Policy Optimization with KL regularization (DPOK) • 報酬モデル𝑟𝜙 (𝑐, 𝑥)の報酬を最大化するだけでは,実際には過剰最適化が起こる • DPOK [Fan+ 2023] では,報酬最大化の項に,事前学習済みモデル𝑝𝑟𝑒𝑓 (𝑥0 |c)との KL正則化項を導入することで,これを回避する • 実際には,KL項の上界を用いて勾配を計算する (DPOK 補題4.2) 式引用元:https://arxiv.org/abs/2409.07253 19
拡散モデルのアラインメント RLHF: Diffusion Policy Optimization with KL regularization (DPOK) • KL正則化により,過剰最適化により画像の質を落とすことなく,報酬関数にア ラインすることができる 20
拡散モデルのアラインメント Direct Preference Optimization (DPO) • 報酬モデルは,プロンプト𝑐に対する出力𝑥から,報酬を出力するモデル𝑟𝜙 (𝑐, 𝑥) と書くことができた • この報酬モデルに対して,KL正則化付き報酬最大化を達成するような生成モデ ル𝑝𝜃∗ (𝑥|𝑐)は下のように表された • これを変形すると,以下のようになる (𝒵は規格化定数) [Rafailov+ 2023] 式引用元:https://arxiv.org/abs/2409.07253 21
拡散モデルのアラインメント Direct Preference Optimization (DPO) • さらに変形し,報酬モデルについて解くと,下のようになる • これを,報酬モデルの損失関数に代入すると,損失関数から報酬モデルの項を 削除することができ,このようになる – これがDPOの損失関数,報酬関数を学習せずとも,好ましい出力𝑥 𝑤 と好ましくない出力𝑥 𝑙 の ペアから直接選好を学習できる 式引用元:https://arxiv.org/abs/2409.07253 22
拡散モデルのアラインメント DPO: Diffusion-DPO • DPOの定式化を拡散モデルに適用すると,以下のようになる • イェンゼンの不等式を用いることで,この損失関数は上から抑えられる 式引用元:https://arxiv.org/abs/2409.07253 23
拡散モデルのアラインメント DPO: Diffusion-DPO • Diffusion-DPOによりfine-tuneされた SDXLは,テスターによる評価で,元の モデルよりもより好まれる • 定性的にも,画像の不自然な部分(歯, 目,手などの細部)を改善 24
拡散モデルのアラインメント ここまでのまとめ • 拡散モデルにも.LLMのアラインメン トで主要な方法である,RLHFとDPO を適用することができる • RLHFでは報酬モデルを学習し,拡散 モデルを強化学習で修正する • 一方で,DPOでは好ましい出力𝑥 𝑤 と 好ましくない出力𝑥 𝑙 のペアのみを用い て,拡散モデルを修正する 図引用元:https://arxiv.org/abs/2409.07253 25
拡散モデルのアラインメント Test-timeのアラインメント • Classifier guidance [Dhariwal et al. 2021] • DOODL [Wallace et al. 2023] • これらの手法は,勾配を用いて生成を改善するため,評価器が微分可能でないといけない 26
拡散モデルのアラインメント • Sampling Demon [Yeh+ 2024] • 再訓練や,評価器の微分可能性が必要ない • Demonとは,熱力学的プロセスを操作する架空の存在であるマクスウェルのデーモンに由来 27
結論 • 拡散モデルにも.LLMのアラインメントで主要な方法である,RLHFとDPOを適 用することができる – RLHFでは報酬モデルを学習し,拡散モデルを強化学習で修正する – 一方で,DPOでは好ましい出力𝑥 𝑤 と好ましくない出力𝑥 𝑙 のペアのみを用いて,拡散モデルを 修正する • また,Test-timeにアラインメントする手法も研究がなされている – 評価器に対するアラインメントという観点からは,条件付けの手法として知られていた Classifier guidanceも,拡散モデルのTest-timeアラインメント手法とみなせる – さらに,拡散モデルのパスを制御しようとする手法も出てきている 28