【拡散モデル勉強会】Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

1.2K Views

April 09, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Bigger is not Always Better: DEEP LEARNING JP Scaling Properties of Latent Diffusion Models [DL Papers] Jeong Seong Cheol, M2, Matsuo Lab, The University of Tokyo http://deeplearning.jp/

2.

書誌情報 タイトル Bigger is not Always Better: Scaling Properties of Latent Diffusion Models ⼤きいことは常に良いとは限らない: 潜在拡散モデルのスケーリング特性 著者 発表⽇ 2024/4/1 (arxiv) 概要 Latent Diffusion Modelsのモデルサイズとサンプリング効率についてのスケーリング特性につ いて調査している。限られた推論予算(推論時間)の下では、⼩さいモデルの⽅が⼤きいモデル よりも⾼品質な結果を⽣成することが多いことを明らかにした。 選定理由 Diffusionモデルのスケーリング則について調べていた⽇の数⽇前にこの論⽂が出たから 備考 Googleのinternshipの成果で、2024/4/11時点ではプレプリントであることに注意。

3.

https://www.researchgate.net/figure/Architecture-of-Latent-Diffusion-model-2_fig5_372286296 補⾜説明スライド (論⽂内に記載してある図・⽂章ではない) • LDM • サンプリング • サンプラー • • これはLDMではないですがやってることは同じ→ (Latentでない) サンプリング効率が良い:少ステップで⾼品質の画像が⽣成できる サンプリング効率が悪い:画像⽣成に多くのサンプリングステップ数が必要 https://bocek.co.jp/media/exercise/stable-diffusion/5204/#:~:text=Stable%20

4.

全体概要

5.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models サンプラーが違ってもBigger is… Unetのチャネル数増でモデルサイズ拡⼤(各層のチャネル数の⽐率は固定) 実線:DDPM 点線:DDIM モデルサイズと⽣成品質に スケーリング則(FID↓) ←64? モデルサイズと⽣成品質にスケーリング則(text to image) 蒸留した866Mと 同じくらいの性能がでる 蒸留してない83M ダウンストリームタスク(超解像)でも スケーリング則 限られた推論コスト下では Bigger is not Always Better どんな論⽂? どうやって有効だと検証した? 39Mから5Bまでのパラメータ数の異なる11個のLDMをフルスクラッチで学習し、モデ ルサイズとサンプリング効率の関係を調査。 COCO 2014のバリデーションセットを⽤いてFIDとCLIPスコアを評価し、モデルサイ ズとサンプリング効率の関係を複数の軸で定量的に⽰した。 先⾏研究と⽐べてどこがすごい? 議論はある? 先⾏研究は、主にネットワークアーキテクチャの改良やサンプリングアルゴリズムの開 発に注⼒。この研究ではモデルサイズに着⽬し、⼩さなモデルの⽅が同じ計算コストで より⾼品質の結果を⽣成できることを⽰した。 FIDやCLIPスコアを⽤いた定量評価を⾏っているが、これらの指標と⼈間の知覚的な 品質評価の乖離が指摘されている。 技術や⼿法のキモはどこ? Stable Diffusion v1.5をベースにチャネル数を64から768まで段階的に増やすことでモ デルサイズを変化させ、学習データにはオリジナルの6億件の画像-テキストペアを使⽤。 サンプリングにはDDIM、DDPM、DPM-Solver++などの⼿法を⽤いて⽐較。 次に読むべき論⽂は? DiT(UnetではなくTransformerバックボーンのスケーリング)、TIFA(CLIPより⼈間の 感覚にあった評価指標,ICCV2023) 、 On the Scalability of Diffusion-based Textto-Image Generation (本論⽂の2⽇後に似たような論⽂が出たしかもCVPR2024採択)

6.

具体的内容

7.

LDMは⾼品質なtext-to-image(画像⽣成)に成功したが、⽋点はサンプリング効率の悪さ(⽣成の遅さ) 背景 • 背景: 潜在拡散モデル (LDM: Latent Diffusion Model) は画像⽣成において印象的な結果を⽰してきたが、実世界 でのアプリケーションを考えた時、サンプリング効率が悪い(⽣成に時間がかかる)という問題がある • 先⾏研究: 主に、より⾼速なアーキテクチャの開発やサンプリングアルゴリズムの改良に焦点を当ててい る。Unetを⼤きくしたり(0.2B)、DiTで⼤規模データを使ったスケーリングを検証しているが、既存の取り 組みは、⼩さなデータセットまたは⼩さなモデルでのスケーリング特性の調査に限定されている(ページ下 図) • 本研究の⽬的: 様々なモデルサイズにおけるLDMのスケーリング特性を調査する(特にサンプリング効率に焦 点を当てる) DiT論⽂は本論⽂と⽐べると調査したモデルサイズが⼩さい 本論⽂が調査したモデルサイズ

8.

異なるモデルサイズのLDMのスケーリング特性を調査する 実験設定 • • • • • Unetのチャネルサイズを変えて、パラメータサイズ39M〜5B の11個のLDMを⽤意 600Mの⾼品質なオリジナルデータセット(text-to-imageのペア)でフルスクラッチでtext-to-imageを学習 Stable Diffusion v1.5のFLOPSを基準(Norm. Cost=1)として各モデルのコストを決定 モデルサイズによるスケーリング特性を検証 また多様なダウンストリームタスクでスケーリングを検証 Stable Diffusion v1.5を基準とする 64 C 2C 4C 4C 4C 4C 2C C Unetの層数や 各層のチャネル数の ⽐率は固定. Cを増減させて モデルサイズを変える.

9.

実験設定 • • • • • Unetのチャネルサイズを変えて、パラメータサイズ39M〜5B の11個のLDMを⽤意 600Mの⾼品質なオリジナルデータセット(text-to-imageのペア)でフルスクラッチでtext-to-imageを学習 Stable Diffusion v1.5のFLOPSを基準(Norm. Cost=1)として各モデルのコストを決定 モデルサイズによるスケーリング特性を検証 また多様なダウンストリームタスクでスケーリングを検証 Stable Diffusion v1.5 64 C 2C 4C 4C

10.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

11.

各貢献の詳細

12.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

13.

貢献1:LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 • • • • 異なるモデルサイズ サンプリングステップ数は50 サンプラーはDDIM Text-to-imageの⽣成品質はモデルサイズに⽐例 定量評価 スケーリング特性(Compute=training steps X model GFLOPS) 定性評価

14.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

15.

貢献2:下流タスクの性能は、事前学習の性能に⽐例する。 • 事前学習済みの異なるモデルサイズのLDMを超解像タスク(4倍)でFine-tuning • モデルサイズとダウンストリームタスクの性能のスケーリング特性を確認 定量評価 (Compute=training steps X model GFLOPS) 定性評価 LPIPSのスケーリング特性はなんかビミョいけど, 定性的にはよくできていると主張

16.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

17.

貢献3:⼩さなモデルはより効率的にサンプリングを⾏う。 • Text-to-imageタスク • 限られた推論コスト(推論時間)の場合,⼩さいモデルが⼤きいモデルより低いFIDを達成する ことを確認(効率的にサンプリングできている) sampling cost (normalized cost × sampling steps) 同じ推論コストでは⼩さいモデルと ⼤きなモデルではそんなに品質が変わらない

18.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

19.

貢献4:サンプラーはスケーリング効率を変えない。 • • • • サンプラーを変えてスケーリング特性を検証 DDIM(決定論的) DDPM(確率的) DPM-Solver++ sampling cost (normalized cost × sampling steps)

20.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

21.

貢献5:⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 Cost<20では⼩さいモデルが良い 超解像タスク sampling cost (normalized cost × sampling steps)

22.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models 6つの貢献 Bigger is Betterを確認 1. LDMの事前学習の性能は、学習計算量(training steps × model GFLOPS)に⽐例する。 2. 下流タスクの性能は、事前学習の性能に⽐例する。 3. ⼩さなモデルはより効率的にサンプリングを⾏う。 4. サンプラーはスケーリング効率を変えない。 5. ⼩さなモデルは、少ないステップ数で下流タスクをより効率的にサンプリングする。 6. 拡散蒸留はスケーリングの傾向を変えない。 Bigger is not Always Betterを発⾒、3軸(サンプラー、下流タスク、拡散蒸留)で確認した

23.

補⾜説明スライド (論⽂内に記載してある図・⽂章ではない) 拡散モデルの 蒸留 (distillation) • 学習済みモデルが2stepでサンプリングしたやつを,新モデルで1stepで学習させる • 繰り返すと4stepかかってたサンプリングが1stepでできるようになる(サンプリング効率の向上)

24.

貢献6:拡散蒸留はスケーリングの傾向を変えない。

25.

まとめ

26.

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models まとめ ( Discussion and Future Work ) • メイン • △ LDMのモデルサイズと⽣成品質のスケーリング能⼒ • ⭕ LDMのモデルサイズと⽣成効率のスケーリング能⼒ • 実験によりモデルサイズと⽣成品質にはスケーリングありを確認(Bigger is Betterを確認) • 少ない推論コストにおいては,⼩さいモデルが⼤きなモデルの⽣成品質を上回ることを確認(Bigger is not Always Betterを発⾒) • LDMはサンプリング数が多いと⾼品質がち=サンプリング数が少ないと低品質になりがち • ⼤きいモデル(サンプリング数3くらい)と⼩さいモデル(サンプリング数40くらい) を⽐べて(推論にかかる時 間が同じ),⼩さいモデルが⾼品質だったと⾔っている←けっこう当たり前のことを⾔っているのでは? • サンプリング数と⽣成品質のトレードオフに,モデルサイズの観点を追加して,サンプリング数と⽣成品質とモ デルサイズのトレードオフがあるかを調べた感じ