【拡散モデル勉強会】Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

3K Views

March 19, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Scaling Flow Transformers DL HacksRectified 2021 Introductory Session for High-Resolution Image Synthesis 竹田悠哉, Lui Yoshida Lab. Alfredo Solano, Matsuo Laboratory

2.

概要 • Rectified Flow(RF)のスケーリングを検証 – LDMの従来の拡散学習方式より改善され、数ステップで好ましい特性 • RFのための新しいタイムステップサンプリングの提案 • (Multimodal Diffusion Transformer)MM-DiTの利点を実証 2

3.

フローマッチング • ノイズ分布p_0からのx_0のサンプリングと、 p_1からのx_1のサンプ リングのマッピング • 直接解くこともできるが計算コストが高過ぎる • p_0とp_1の間の確率パスを生成するベクトル場を直接的に回帰 3

4.

フローの軌道 • Rectified Flow • EDM • Cosine • (LDM-)Linear – スケジューリングにDDPMの修正案を使用 4

5.

実験 • サンプラー、EMA重み、デー タセットの24通りの組み合わ せを実験(最も性能の良い2つ のバリアントを表示) • データセット – ImageNet – CC12M • 評価 – COCO-2014バリデーション分割 5

6.

実験 • Lognorm(0.00, 1.00)が一貫し て良い • 一様なサンプリング(rf)を上回 り、中間ステップが重要とい う仮説が裏付けられた 6

7.

実験 • 上 – 25のサンプリングステップ を持つ両方のデータセット における代表的なバリエー ション • 真ん中 – CLIPとFIDのスコアが最も 優れているバリエーション – rf/mode(1.75)を除いて、こ れらの変種は一般的に一方 のメトリックでは非常に良 い性能を示す • 下 – rf/lognorm(0.00, 1.00)は やはり良好 7

8.

実験 • RFはより少ないステップで高いパフォーマンス • 25ステップ以上だと、rf/lognorm(0.00,1.00)のみが競争力を維持 8

9.

実験 • MM-DiTで大規模でも有効なことを確認 9

10.

その他の工夫 • チャネル増やす • 自動キャプショニング(CogVLMを利用) – 人手のキャプションが、被写体に焦点を当てており、背景や構図、表示 テキストなどが省略されているため、キャプションをミックス 10

11.

その他の工夫 • DPOでFinetuning(線形層にLoRA)することでより人に好まれる画 像を生成できるように 11

12.

その他の工夫 • 前処理 – NSFW検出モデルでセクシャルな画像を排除 – Aestheticsレートが低い画像を除去 – クラスタに基づく重複排除(知覚的・意味的な重複を除去) 12

13.

その他の工夫 • QK-Normalization – アスペクト比が異なる高解像度画像でのアップサンプリングにおいて 損失の発散を防ぐ 13

14.

定性的な評価 • 概ね全てのモデルに対し50%以上の勝率 14