【拡散モデル勉強会】SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models

5.5K Views

April 09, 24

#物体中心学習 #拡散モデル #画像生成 #動画生成 #NeurIPS2023

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models 2024.04.09 Akihiro Nakano, D2, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 “SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models” • 著者：Ziyi Wu, Jingyu Wu, Wuyne Lu, Igor Gilitschenski, Animesh Garg – University of Toronto – Garg先⽣はRL系のbackgrounをもつ先⽣ – 第⼀著者の⼈はSlotFormer（Object-centricなtransformerモデル）の提案者 • NeurIPS2023にて採択（spotlight） 2

概要 • ⼀⾔で⾔うと？ – Object-centricな拡散モデル – 画像および動画⽣成において，object discoveryとgenerationにおいてモデルを検証 – Future predictionとtemporal reasoningタスクにおいても精度向上を確認 3

背景 • Object-centric Learning（物体中⼼学習） – 複数の物体から構成されるシーンを，単⼀の潜在表現ではなく，物体ごとの潜在表現（以下，slot表現）に分割して表すように学習する⼿法 – 元々はVAEのdisentanglementに関する研究の⼀つ – シーンを物体にdisentangleし，さらに物体表現がfactorごとにdisentangleされて学習されることで，未知物体・シーンへの汎化性能が向上 4

背景 • Object-centric Learning（物体中⼼学習） – 静⽌画 → 動画への拡張，物体間の相互作⽤のモデリング，視点変化の追加などが研究されてきている [4,6] – シーンを物体表現を⽤いて表した⽅が後続タスクにおいても有⽤であることが近年⽰されている • VQAタスク，planningなど [3,5] 5

関連研究 1. Slot Attention [1] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をquery，ガウス分布によって初期化された slot表現をkey・valueとして，画像のどの部分をどのslotに割り当てるかを競い合わせる 6

関連研究 1. Slot Attention [1] • 物体中⼼である潜在表現を獲得する⼿法の⼀つ • CNNエンコーダの出⼒をquery，ガウス分布によって初期化された slot表現をkey・valueとして，画像のどの部分をどのslotに割り当てるかを競い合わせる ×𝑀 𝑧 ∈ ℝ!×#×$ → 𝑞 Slot Attention &:( 𝑠) 𝑠%&:( ∈ ℝ(×$! → 𝑘, 𝑣 7

関連研究 2. SLATE [2] • Slot Attentionを拡張した⼿法の⼀つ • dVAEと組み合わせて，離散化されたvisual tokenからslot表現を獲得する⼿法 Autoregressiveにslot表現を CNNをdVAEに置き換え tokenに戻す 8

関連研究 3. SAVi [3] • Slot Attentionを動画に拡張した⼿法 #:) • 時刻t-1のslot表現𝑠!"#(,&) を，現在時刻でのslot attentionの計算の初期値として⽤いる • CNNエンコーダー，Spatial Broadcastデコーダー，Attentionを⽤いた遷移モデル 9

10.

関連研究 4. STEVE [4] • SLATEを動画に拡張した⼿法 #:) • 時刻t-1のslot表現𝑠!"#(,&) を，現在時刻でのslot attentionの計算の初期値として⽤いる • CNNエンコーダー，Autoregressive Transformerデコーダー+CNNデコーダー，RNNを⽤いた遷移モデル 10

11.

関連研究 5. SlotFormer [5] • Slot表現を⽤いたTransformerモデルを提案し，幅広い後続タスクにおける性能を評価した⼿法 • 任意の（pretrainedな）object-centricなモデルで得られたslot表現を⼊⼒としてTransformerを学習させる • Video prediction，VQAタスクにおいて object-centricな表現を⽤いることが性能向上につながることを確認 11

12.

⼿法 • SAViやSTEVEにあったslot-to-imageデコーダーを拡散モデルに置換 • 事前学習させたVQVAEより特徴量𝑧を求め，Latent Diffusion Model [7]を⽤いる • Text-guided LDMに倣い，slot情報 𝒮 で条件づけを⾏う 𝒄 = CrossAttention 𝑄 𝒄- , 𝐾 𝒮 , 𝑉 𝒮 • 損失関数は，𝒛! = 𝜖! ~𝒩 0, 𝑰 𝛼(! 𝒛 + 1 − 𝛼(! 𝜖! , ℒ = 𝜖! − 𝜖* 𝒛! , 𝑡, 𝒮 + where 12

13.

⼿法 • Slot情報 𝒮 で条件づけを⾏う際，slot表現のorder-invariant性をもたせたい．実装上は，UNetにおいて異なるresolutionで条件付けを⾏う • 動画予測する際は，各時刻でのslot表現を予測するところで任意の既存⼿法（SAVi, SlotFormerなど）を⽤いる • ↑あくまでslot-to-imageデコーダーをLDMに置き換える効果を検証しているので，その他の部分は任意のモデルで成⽴ 13

14.

実験 Research Questions 1. 拡散モデルに置き換えてもobject-centricなdisentanglementが学習されるか 2. 拡散モデルに置き換えることで⽣成の品質が向上するか 3. SlotDiffusionによって学習されたslot表現は後続タスクにおいて有⽤か ※それぞれの実験設定において，SOTAな既存⼿法を持ってきて，slotto-imageデコーダーをLDMに置き換えている – 静⽌画：Slot AttentionとSLATE – 動画：SAViとSTEVE 14

15.

実験結果 ①：Disentanglement • 全指標においてSlot Attention（Mixture）とSLATE（Transformer）を上回る結果に • 動画でもqualitative resultsからうまくdisentangleできているのがわかる 15

16.

実験結果②-1：Reconstruction • LPIPSではSlot Attention（Mixture）とSLATE（Transformer）を上回る結果に • 再構成誤差ではSLATEに次いで2番⽬の性能 16

17.

実験結果②-2：Generation • Generation qualityの⾯では，FID・FVDの両⽅で既存⼿法を⼤幅に上回る性能 17

18.

実験結果③-1：Downstream Tasks (Video Prediction) • PhysionデータセットにおいてVideo PredictionタスクでPredRNN， VQFormer（SlotFormerでslotの代わりにVQVAEのトークンを利⽤）， STEVE + SlotFormerと⽐較 • LPIPS，FVDで精度向上を確認 18

19.

実験結果③-2：Downstream Tasks (VQA) • PhysionデータセットにおいてVQAタスクでRPIN，pDEIT-lstm， STEVE + SlotFormerと⽐較 • やや精度向上を確認 19

20.

その他実験結果①：Scalability to Real-World Data • Slot Attentionを計算する際のエンコーダーをViTベースのものに置き換えたときの性能を⽐較 – DINOSAUR [8]に倣って，事前学習済みのDINO [9]に置き換える • デコーダーをLDMに置き換えるだけでも性能向上がみられる 20

21.

まとめ • 静⽌画と動画において“object-centric learning”x“diffusion model”を初めて提案した論⽂ • 既存⼿法でslot-to-imageデコーダーでLDMを⽤いることで，⽣成や後続タスクにおいて性能向上につながることを確認 • 任意のobject-centricモデルと組み合わせることができる疑問・課題感など • （おそらく）⽐較するにあたって既存⼿法のVQVAE相当部分を事前学習させていない，fairな⽐較じゃないのでは？（特にLPIPSで⽐較しているあたり） • デコーダー性能が上がると⽣成が良くなるのはわかるが，後続タスクにおいて性能が上がるのがよくわからない 21

22.

参考⽂献 [1] Locatello F, et al. Object-Centric Learning with Slot Attention. NeurIPS2020. [2] Singh G, et al. Illiterate DALL-E Learns to Compose. ICLR2022. [3] Kipf T, et al. Conditional Object-Centric Learning from Video.ICLR2022. [4] Singh G, et al. Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos. NeurIPS2022. [5] Wu Z, et al. SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models. ICLR2023. [6] Li N, et al. Learning Object-Centric Representations of Multi-Object Scenes from Multiple Views. NeurIPS2020. [7] Rombach R, et al. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR2022. [8] Seitzer M, et al. Bridging the Gap to Real-World Object-Centric Learning. ICLR2023. [9] Caron M, et al. Emerging Properties in Self-Supervised Vision Transformers. CVPR2021. 22

23.

Appendix 1. Decoderの⽐較 23

24.

Appendix 2. Visual Concept Library • SLATEで提案されていた⼿法 • 学習済みのSlot Attentionモデルを⽤いて，データセットについてslot 表現を計算し，K-Means法を使うことでK個のクラスタを作ることができる．Slot表現におけるクラスタは，それぞれ“concept”（データセットに登場する個々の物体）とみなすことができる． 24