【Diffusion勉強会】TKG-DM: Training-free Chroma Key Content Generation Diffusion Model

549 Views

April 30, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

TKG-DM: Training-free Chroma Key Content Generation Diffusion Model Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Takahiro Shirakawa, Ko Watanabe, Andreas Dengel, Jinjia Zhou Hosei University, RPTU & DFKI CVPR2025(Highlight)

2.

自己紹介 守田 竜梧 所属 法政大学修士2年 周研究室 X(Twiter): @Oguryu417 研究内容 - Layer-wise Image Generation/ Edition - Attention-wise Image/Video Compression - Education x GenAI - Baseball x AI 過去のインターン先 GMO, オリンピック放送局(OBS),DeNA,法政大 学情報メディア教育研究センター,KDDI総合研究 所,ドイツ人工知能研究センター(DFKI), CyberAgent, EQUES, 松尾研究所,SB Intuitions 趣味 - 旅行 (全国,33カ国旅行) - 野球 (夏季高校野球西東京大会ベスト8) - 論文読み 2

3.

Introduction 広告やアニメ業界では, 既存のワークフロー Layerごとに編集・納品することが多い ≠ 画像生成AIのワークフロー 画像を一括で生成する 例 自己紹介スライド Layer Decompose 3

4.

Stable Diffusion 引用: https://jalammar.github.io/illustrated-stable-diffusion/ 4

5.

LayerDiffuse Data collection … 著作権の影響で公開できず Fine-Tuning 5

6.

LayerDiffuse Data collection … 著作権の影響で公開できず Fine-Tuning 6

7.

TKG-DM Data collection Fine-Tuning Zt = initial Noise Zt* = Init Color Noise 7

8.

Channel Mean Shift 8

9.

Channel Mean Shift VAE Encoder RGB画像 3 channel Latent 4 channel Channel 1 = 光 Channel 2,3,4 = 色 初期ノイズの分布を移動 初期ノイズに〇〇成分を大量に付与する 通常のSDではDenoisingしきれず,色成分が残ってしまう 9

10.

Channel Mean Shift 10

11.

TKG-DM Understand Zt = initial Noise Zt* = Init Color Noise 11

12.

Mechanism of TKG-DM Self-Attention - Keep consistency Cross-Attention - Align text and image Hacking these Attention feature Add init color noise Foreground ➢ Cross-attn…Align text and image ➢ Strong connection between the foreground and the text ➢ Self-attn…Keep consistency Background ➢ Cross-attn…Ignore ➢ Weak connection between the background and the text ➢ Self-attn…keep color image 12

13.

Qualitative Result 13

14.

Qualitative Result 14

15.

Quantitative Result 15

16.

Application(ControlNet) 16

17.

Application(ControlNet) 17

18.

Panda surfing Application Horse running 18

19.

Conclusion 1. Training-free Chroma Key Generation • TKG-DM controls background color through initial noise manipulation without requiring fine-tuning. • Enables precise foreground-background separation for various applications. 2. High Performance and Versatility • Matches or surpasses fine-tuned models across FID, mask-FID, CLIP-I, and CLIP-S. • Seamlessly extends to layout-aware generation, consistency models, and textto-video tasks. 3. New Opportunities for Efficient Content Creation • Paves the way for foreground-background disentanglement without training overhead. • Facilitates flexible, scalable workflows for advertising, design, and game development. 19