549 Views
April 30, 25
スライド概要
DL輪読会資料
TKG-DM: Training-free Chroma Key Content Generation Diffusion Model Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Takahiro Shirakawa, Ko Watanabe, Andreas Dengel, Jinjia Zhou Hosei University, RPTU & DFKI CVPR2025(Highlight)
自己紹介 守田 竜梧 所属 法政大学修士2年 周研究室 X(Twiter): @Oguryu417 研究内容 - Layer-wise Image Generation/ Edition - Attention-wise Image/Video Compression - Education x GenAI - Baseball x AI 過去のインターン先 GMO, オリンピック放送局(OBS),DeNA,法政大 学情報メディア教育研究センター,KDDI総合研究 所,ドイツ人工知能研究センター(DFKI), CyberAgent, EQUES, 松尾研究所,SB Intuitions 趣味 - 旅行 (全国,33カ国旅行) - 野球 (夏季高校野球西東京大会ベスト8) - 論文読み 2
Introduction 広告やアニメ業界では, 既存のワークフロー Layerごとに編集・納品することが多い ≠ 画像生成AIのワークフロー 画像を一括で生成する 例 自己紹介スライド Layer Decompose 3
Stable Diffusion 引用: https://jalammar.github.io/illustrated-stable-diffusion/ 4
LayerDiffuse Data collection … 著作権の影響で公開できず Fine-Tuning 5
LayerDiffuse Data collection … 著作権の影響で公開できず Fine-Tuning 6
TKG-DM Data collection Fine-Tuning Zt = initial Noise Zt* = Init Color Noise 7
Channel Mean Shift 8
Channel Mean Shift VAE Encoder RGB画像 3 channel Latent 4 channel Channel 1 = 光 Channel 2,3,4 = 色 初期ノイズの分布を移動 初期ノイズに〇〇成分を大量に付与する 通常のSDではDenoisingしきれず,色成分が残ってしまう 9
Channel Mean Shift 10
TKG-DM Understand Zt = initial Noise Zt* = Init Color Noise 11
Mechanism of TKG-DM Self-Attention - Keep consistency Cross-Attention - Align text and image Hacking these Attention feature Add init color noise Foreground ➢ Cross-attn…Align text and image ➢ Strong connection between the foreground and the text ➢ Self-attn…Keep consistency Background ➢ Cross-attn…Ignore ➢ Weak connection between the background and the text ➢ Self-attn…keep color image 12
Qualitative Result 13
Qualitative Result 14
Quantitative Result 15
Application(ControlNet) 16
Application(ControlNet) 17
Panda surfing Application Horse running 18
Conclusion 1. Training-free Chroma Key Generation • TKG-DM controls background color through initial noise manipulation without requiring fine-tuning. • Enables precise foreground-background separation for various applications. 2. High Performance and Versatility • Matches or surpasses fine-tuned models across FID, mask-FID, CLIP-I, and CLIP-S. • Seamlessly extends to layout-aware generation, consistency models, and textto-video tasks. 3. New Opportunities for Efficient Content Creation • Paves the way for foreground-background disentanglement without training overhead. • Facilitates flexible, scalable workflows for advertising, design, and game development. 19