1.6K Views
December 18, 24
スライド概要
DL輪読会資料
One Diffusion to Generate Them All DuongH.Le, TuanPham, SanghoLee, ChristopherClark, AniruddhaKembhavi, StephanMandt, RanjayKrishna, JiasenLu 2024/12/18 Masaki Otsuki 1
概要 画像生成と画像理解の2つの能力を備えた統一的 なdiffusion model である OneDiffusion を提案 一つのモデルで以下のタスクを解けるものを scratchから学習 - Text2Image - 条件付き画像生成 - Inpainting, upscaling, ControlNet-like, IPAdapter-like - 画像理解 - 物体認識、セグメンテーション… - ID Customization - Multi-view generation モデルの重みとデータセット(One-Gen)を公開 https://github.com/lehduong/OneDiffusion 2
概要 問題 拡散モデルのタスク特化の限界 大規模言語モデル(LLM)の汎用性の影響 多様な画像合成タスクにおける課題 3
先行研究 – OmniGenとの違い OmniGen は Diffusion を行うことを念頭に おいたMulti-modal LLM の学習が主軸 OneDiffusion は Next-DiT アーキテクチャを採用 し、diffusion model の持つ「bidirectional」な 能力(画像の生成と理解)を活用している。 4
OneDiffusion 手法 - 概要 Sequential data を diffusion model で扱う手法を参考に、画像条件付き画像生成を「view」の シーケンスとして定義する View の数 N によって解くタスクが変わり、 • N = 1 : text-to-image • N = 2 : image-to-image translation (depth/pose/image editing etc) • N > 2 : multiview generation or ID customization. 5
OneDiffusion 手法 – 学習 𝜀 ~ Ν 0,1 各 view に対して違うscaleのノイズがかかる LossはFlow matching 6
OneDiffusion 手法 – 生成 Conditional Sampling 条件となるviewから残りのviewを生成 Text-to-Image : テキストプロンプトが条件、画像が ターゲット Image Inpainting: マスクされた画像部分が条件、修 復されたピクセルがターゲット Multiview Generation: 1つ以上の入力画像とカメラ ポーズが条件、生成される出力ビューがターゲット 7
One-Gen Dataset • Text-to-Image : • PixelProse, Unsplash, Coyo, JourneyDB , 10M 件の合成データ • Image-to-Image : • 1M件の合成データをpreprocess、Midjourney等を用いて追加で 合成データ作成 • ID Customization : • 60K 件をLLaVA-NeXTでcaptioning • Multiview Generation : • DL3DV-10K dataset, Objaverse, CO3D 8
結果 9
結果 10
結果 11
参考文献 Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu: “One Diffusion to Generate Them All”, 2024; Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Chaofan Li, Shuting Wang, Tiejun Huang, Zheng Liu: “OmniGen: Unified Image Generation”, 2024; Le Zhuo, Ruoyi Du, Han Xiao, Yangguang Li, Dongyang Liu, Rongjie Huang, Wenze Liu, Lirui Zhao, FuYun Wang, Zhanyu Ma, Xu Luo, Zehan Wang, Kaipeng Zhang, Xiangyang Zhu, Si Liu, Xiangyu Yue, Dingning Liu, Wanli Ouyang, Ziwei Liu, Yu Qiao, Hongsheng Li, Peng Gao: “Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT”, 2024; 12