【DL輪読会】Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

698 Views

May 01, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Visual Autoregressive Modeling: Generation via Next-Scale Prediction Scalable Image Miyake Daiki, Matsuo Lab 1

2.

書誌情報 • 採録 NeurIPS 2024 (Best Paper) • 著者 Keyu Tia, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang (ByteDance,北京大学) • リンク – NeurIPS https://neurips.cc/virtual/2024/poster/94115 – OpenReview https://openreview.net/forum?id=gojL67CfS8 – arXiv https://arxiv.org/abs/2404.02905 – GitHub https://github.com/FoundationVision/VAR 2

3.

概要 • 自己回帰的な画像生成のための,解像度方向のNext-scale predictionを提案 • Diffusion Transformerに対して,品質と速度の両方で上回った 3

4.

背景 • LLMの性能向上 – 特に,スケーリング則 と few-shot/zero-shot learningの能力が目覚ましい – Next-token predictionによる自己回帰的な学習による • 画像生成でも自己回帰的な手法は検討されてきたものの,性能はイマイチ – 現状はDiffusion Modelが最強 • 画像生成におけるnext-token predictionを再考する必要がある 4

5.

前提 • Next-token prediction – 現在のトークンを前のトークン列から予測する – Cross-entropy最小化によって学習される • 従来の画像でのnext-token prediction – VQVAEを使って有限個の離散トークンに変換 – ラスタスキャンによって1次元のトークン列を生成 5

6.

自己回帰的な画像生成の問題点 • 従来の画像のnext-token predictionには4つの問題点があると指摘している 1. Encoder/Decoderで両方向のモデリングを仮定している – Encoder/Decoderではfull attentionを使っているため,潜在空間でのみ順方向モデリングを 仮定するのは整合性がない 2. 「画像の下半分で条件づけて上半分を生成する」といったタスクに適応できない 3. 空間方向の関係性が失われる – あるピクセルは周囲8ピクセルに依存するはず 4. 計算量が増大する – 後述 6

7.

自己回帰的な画像生成の問題点 4. 計算量が増大する – Attentionの計算量は,系列長 𝐿𝐿 に対して 𝑂𝑂 𝐿𝐿2 – 𝐿𝐿 トークン生成するためにはAttentionの計算が 𝑂𝑂 𝐿𝐿 回必要 – 画像の縦横のサイズを 𝑛𝑛 とした場合,1次元に直した時の系列長は 𝑛𝑛2 – すべて合わせると,next-token predictionで画像生成するときの計算量は 𝑂𝑂(𝑛𝑛6 ) 7

8.

提案手法 • Next-scale prediction – VQVAEによってEncodeされた離散トークン列を複数の解像度にリサイズ – 解像度方向のモデリング 8

9.

提案手法 • 従来の1トークンずつ推論するのとは異なり,一度に ℎ𝑘𝑘 × 𝑤𝑤𝑘𝑘 個のトークンを 予測する • 従来手法だと 𝑛𝑛 × 𝑛𝑛 の画像に対して 𝑛𝑛2 回の予測が必要だったが, VARだと 𝑂𝑂 log 2 𝑛𝑛 回の予測で済む 9

10.

実験設定 • class-conditional ImageNet 256x256で学習 • サンプリング時にはtop-kサンプリングを使用 • Softmaxを取る前にclassifier-free guidanceを適用 10

11.

実験結果 • dは層数,-re は棄却サンプリング • TimeはVAR-d30の処理時間との比 • FID,Inception Score,Timeで DiffusionやARよりも良い 11

12.

スケーリング則① • モデルサイズに対するスケーリング則も確認された 12

13.

スケーリング則② • 学習時の計算量に対するスケーリング則も確認された 13

14.

スケーリング則③ • スケーリング則の 定性的効果 14

15.

下流タスクの評価 • Inpaintingタスクの評価 • LLMでのfew-shot generationに対応? この部分だけを生成する 15

16.

下流タスクの評価 • Outpaintingタスクの評価 この部分だけを生成する 元画像 16

17.

下流タスクの評価 • Class-conditional Inpaintingタスクの評価 元画像 17

18.

まとめ • 従来のnext-token predictionの代わりとして,解像度方向へ予測するnext-scale predictionを提案 • 計算量を減らしつつ,性能向上 • スケーリング則やfew-shot learningの能力も観測された • 今後の課題は,text-to-imageや動画生成(3D next-scale prediction)への拡張 18