【拡散モデル勉強会】Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

1.

Bigger is not Always Better: DEEP LEARNING JP Scaling Properties of Latent Diﬀusion Models [DL Papers] Jeong Seong Cheol, M2, Matsuo Lab, The University of Tokyo http://deeplearning.jp/

http://deeplearning.jp/

2.

書誌情報タイトル Bigger is not Always Better: Scaling Properties of Latent Diffusion Models ⼤きいことは常に良いとは限らない：潜在拡散モデルのスケーリング特性著者発表⽇ 2024/4/1 (arxiv) 概要 Latent Diffusion Modelsのモデルサイズとサンプリング効率についてのスケーリング特性について調査している。限られた推論予算(推論時間)の下では、⼩さいモデルの⽅が⼤きいモデルよりも⾼品質な結果を⽣成することが多いことを明らかにした。選定理由 Diffusionモデルのスケーリング則について調べていた⽇の数⽇前にこの論⽂が出たから備考 Googleのinternshipの成果で、2024/4/11時点ではプレプリントであることに注意。

3.

https://www.researchgate.net/figure/Architecture-of-Latent-Diffusion-model-2_fig5_372286296 補⾜説明スライド (論⽂内に記載してある図・⽂章ではない) • LDM • サンプリング • サンプラー • • これはLDMではないですがやってることは同じ→ (Latentでない) サンプリング効率が良い：少ステップで⾼品質の画像が⽣成できるサンプリング効率が悪い：画像⽣成に多くのサンプリングステップ数が必要 https://bocek.co.jp/media/exercise/stable-diffusion/5204/#:~:text=Stable%20

https://www.researchgate.net/figure/Architecture-of-Latent-Diffusion-model-2_fig5_372286296

4.

全体概要

5.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models サンプラーが違ってもBigger is… Unetのチャネル数増でモデルサイズ拡⼤(各層のチャネル数の⽐率は固定) 実線：DDPM 点線：DDIM モデルサイズと⽣成品質にスケーリング則(FID↓) ←64? モデルサイズと⽣成品質にスケーリング則(text to image) 蒸留した866Mと同じくらいの性能がでる蒸留してない83M ダウンストリームタスク(超解像)でもスケーリング則限られた推論コスト下では Bigger is not Always Better どんな論⽂？どうやって有効だと検証した？ 39Mから5Bまでのパラメータ数の異なる11個のLDMをフルスクラッチで学習し、モデルサイズとサンプリング効率の関係を調査。 COCO 2014のバリデーションセットを⽤いてFIDとCLIPスコアを評価し、モデルサイズとサンプリング効率の関係を複数の軸で定量的に⽰した。先⾏研究と⽐べてどこがすごい？議論はある？先⾏研究は、主にネットワークアーキテクチャの改良やサンプリングアルゴリズムの開発に注⼒。この研究ではモデルサイズに着⽬し、⼩さなモデルの⽅が同じ計算コストでより⾼品質の結果を⽣成できることを⽰した。 FIDやCLIPスコアを⽤いた定量評価を⾏っているが、これらの指標と⼈間の知覚的な品質評価の乖離が指摘されている。技術や⼿法のキモはどこ？ Stable Diffusion v1.5をベースにチャネル数を64から768まで段階的に増やすことでモデルサイズを変化させ、学習データにはオリジナルの6億件の画像-テキストペアを使⽤。サンプリングにはDDIM、DDPM、DPM-Solver++などの⼿法を⽤いて⽐較。次に読むべき論⽂は？ DiT(UnetではなくTransformerバックボーンのスケーリング)、TIFA(CLIPより⼈間の感覚にあった評価指標,ICCV2023) 、 On the Scalability of Diffusion-based Textto-Image Generation (本論⽂の2⽇後に似たような論⽂が出たしかもCVPR2024採択)

6.

具体的内容

7.

LDMは⾼品質なtext-to-image(画像⽣成)に成功したが、⽋点はサンプリング効率の悪さ(⽣成の遅さ) 背景 • 背景: 潜在拡散モデル (LDM: Latent Diﬀusion Model) は画像⽣成において印象的な結果を⽰してきたが、実世界でのアプリケーションを考えた時、サンプリング効率が悪い(⽣成に時間がかかる)という問題がある • 先⾏研究: 主に、より⾼速なアーキテクチャの開発やサンプリングアルゴリズムの改良に焦点を当てている。Unetを⼤きくしたり(0.2B)、DiTで⼤規模データを使ったスケーリングを検証しているが、既存の取り組みは、⼩さなデータセットまたは⼩さなモデルでのスケーリング特性の調査に限定されている(ページ下図) • 本研究の⽬的: 様々なモデルサイズにおけるLDMのスケーリング特性を調査する(特にサンプリング効率に焦点を当てる) DiT論⽂は本論⽂と⽐べると調査したモデルサイズが⼩さい本論⽂が調査したモデルサイズ

8.

異なるモデルサイズのLDMのスケーリング特性を調査する実験設定 • • • • • Unetのチャネルサイズを変えて、パラメータサイズ39M〜5B の11個のLDMを⽤意 600Mの⾼品質なオリジナルデータセット(text-to-imageのペア)でフルスクラッチでtext-to-imageを学習 Stable Diffusion v1.5のFLOPSを基準(Norm. Cost=1)として各モデルのコストを決定モデルサイズによるスケーリング特性を検証また多様なダウンストリームタスクでスケーリングを検証 Stable Diffusion v1.5を基準とする 64 C 2C 4C 4C 4C 4C 2C C Unetの層数や各層のチャネル数の⽐率は固定． Cを増減させてモデルサイズを変える.

9.

実験設定 • • • • • Unetのチャネルサイズを変えて、パラメータサイズ39M〜5B の11個のLDMを⽤意 600Mの⾼品質なオリジナルデータセット(text-to-imageのペア)でフルスクラッチでtext-to-imageを学習 Stable Diﬀusion v1.5のFLOPSを基準(Norm. Cost=1)として各モデルのコストを決定モデルサイズによるスケーリング特性を検証また多様なダウンストリームタスクでスケーリングを検証 Stable Diﬀusion v1.5 64 C 2C 4C 4C

10.

Bigger is not Always Better: Scaling Properties of Latent Diﬀusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

11.

各貢献の詳細

12.

Bigger is not Always Better: Scaling Properties of Latent Diﬀusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

13.

貢献1：LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 • • • • 異なるモデルサイズサンプリングステップ数は50 サンプラーはDDIM Text-to-imageの⽣成品質はモデルサイズに⽐例定量評価スケーリング特性(Compute=training steps X model GFLOPS) 定性評価

14.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

15.

貢献2：下流タスクの性能は、事前学習の性能に⽐例する。 • 事前学習済みの異なるモデルサイズのLDMを超解像タスク(4倍)でFine-tuning • モデルサイズとダウンストリームタスクの性能のスケーリング特性を確認定量評価 (Compute=training steps X model GFLOPS) 定性評価 LPIPSのスケーリング特性はなんかビミョいけど，定性的にはよくできていると主張

16.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

17.

貢献3：⼩さなモデルはより効率的にサンプリングを⾏う。 • Text-to-imageタスク • 限られた推論コスト(推論時間)の場合，⼩さいモデルが⼤きいモデルより低いFIDを達成することを確認(効率的にサンプリングできている) sampling cost (normalized cost × sampling steps) 同じ推論コストでは⼩さいモデルと⼤きなモデルではそんなに品質が変わらない

18.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

19.

貢献4：サンプラーはスケーリング効率を変えない。 • • • • サンプラーを変えてスケーリング特性を検証 DDIM(決定論的) DDPM(確率的) DPM-Solver++ sampling cost (normalized cost × sampling steps)

20.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

21.

貢献5：⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 Cost<20では⼩さいモデルが良い超解像タスク sampling cost (normalized cost × sampling steps)

22.

Bigger is not Always Better: Scaling Properties of Latent Diﬀusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

23.

補⾜説明スライド (論⽂内に記載してある図・⽂章ではない) 拡散モデルの蒸留 (distillation) • 学習済みモデルが2stepでサンプリングしたやつを，新モデルで1stepで学習させる • 繰り返すと4stepかかってたサンプリングが1stepでできるようになる(サンプリング効率の向上)

24.

貢献6：拡散蒸留はスケーリングの傾向を変えない。

25.

まとめ

26.

Bigger is not Always Better: Scaling Properties of Latent Diﬀusion Models まとめ（ Discussion and Future Work ） • メイン • △ LDMのモデルサイズと⽣成品質のスケーリング能⼒ • ⭕ LDMのモデルサイズと⽣成効率のスケーリング能⼒ • 実験によりモデルサイズと⽣成品質にはスケーリングありを確認(Bigger is Betterを確認) • 少ない推論コストにおいては，⼩さいモデルが⼤きなモデルの⽣成品質を上回ることを確認(Bigger is not Always Betterを発⾒) • LDMはサンプリング数が多いと⾼品質がち=サンプリング数が少ないと低品質になりがち • ⼤きいモデル(サンプリング数3くらい)と⼩さいモデル(サンプリング数40くらい) を⽐べて(推論にかかる時間が同じ)，⼩さいモデルが⾼品質だったと⾔っている←けっこう当たり前のことを⾔っているのでは？ • サンプリング数と⽣成品質のトレードオフに，モデルサイズの観点を追加して，サンプリング数と⽣成品質とモデルサイズのトレードオフがあるかを調べた感じ

【拡散モデル勉強会】Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト