【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

1.4K Views

March 03, 23

#@deep learning jp #Deep Learning #Diffusion Models #Image Generation #Model Personalization #Fine Tuning

スライド概要

2023/3/3
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Takeyuki Nakae, Shiga University 2023/03/03 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報投稿先: arXiv(2022/08/25) https://arxiv.org/abs/2208.12242 プロジェクトページ: https://dreambooth.github.io/ 選定理由: 修士論文との研究に関連しそうだったため 2

概要 • 拡散モデルの「個人化」に焦点を当てた論文数枚の画像の主要的な視覚的特徴を別の状況のテキストが与えられても維持して表現を可能にする。(被写体駆動型生成) • 数枚の画像で拡散モデルを学習することを目的とする入力画像生成画像入力画像に登場した犬が生成時に登場していることが確認できる類似研究(2022年08月19日): https://deeplearning.jp/an-image-is-worth-one-word-personalizing-text-to-image-generation-using-textual-inversion/ 3

https://deeplearning.jp/an-image-is-worth-one-word-personalizing-text-to-image-generation-using-textual-inversion/

背景拡散モデルの強み • 膨大なデータの意味を事前学習している所(意味的事前情報) 「犬」という単語を様々な単語と結び付けられる例): 赤の蝶ネクタイと紫のパーティー帽をつけたコーギー→ この場合、「犬」と「蝶ネクタイ」と「パーティー帽」が結び付けられているこの強みは、想像上でしかないシーンの画像を作成することができ、自分の飼っている犬を見たことのないシーンに登場させるなどの活用ができる。 4

背景「自分の飼っている犬を見たことのないシーンに登場させる」際の問題点 • 与えられた画像の被写体の外観を模倣する能力の欠如(図1) →出力領域の表現力に限界があるため • 与えられた画像の被写体に対する新しい表現の獲得の困難(図2) →与えられた画像に対して過学習を起こすため生成モデル(出力) 生成モデル(出力) 微調整図1: 被写体の外観を模倣できない例テキストプロンプトをいくらいじってもinput imagesの画像を再現できない図2:被写体の新しい表現を獲得できない例入力されたダックスフンドしか生成しなくなる 5

本論文の目玉生成モデル(出力) 生成モデル(出力) 微調整図1: 被写体の外観を模倣できない例出力領域の表現力の限界図2:被写体の新しい表現を獲得できない例与えられた画像に対して過学習 6 上記の課題を解決するために本論文では、拡散モデルの「個人化」を目指す。 • 数枚の被写体の画像を学習することで拡散モデルに被写体を生成させる →与えられた数枚の被写体画像をモデルの出力領域に埋め込み、一意の識別子と合成できるようにする • 数枚の学習でも過学習(言語ドリフト)を起こさせないために新たな損失関数の提案 →事前に学習している意味的事前分布を保持するための損失関数 6

Preliminaries(前提知識) • DreamBoothの拡散モデルはcascaded diffusion modelsが使用されているノイズの付与 + 条件(CLIPの埋め込みなど) cascaded diffusion models SR SR moduleによる moduleによる拡大 • また中間画像にノイズを付与して画像を破損し、その後破損のレベルに応じてSR moduleに条件付き学習を行う。 7

手法(数枚の画像のプロンプトの作成) プロンプトには二つの候補 • [identifier]: 被写体に関連するユニークな識別子例): 自分のペットの名前 • [class noun]: 被写体のおおよそのクラスを示すもの例): dogやbird等例): 特定の犬を生成したい場合 • 汎用的な単語※1 unique dog • 珍しい単語※2 xvg dog →論文では[class noun]を使用しかし汎用的な単語※1(強い事前分布)を利用しても、学習時間の長期化・性能の低下そのために、珍しい単語※2(Rare-token)を利用する。 Rare-tokenは3文字以下の単語から抽出し、T5-XXLトークナイザーの範囲 (5000~10000)のトークンをランダムサンプリングし使用するとうまくいく 8

手法(事前分布を保存する方法) • Prior-Preservation Loss 数枚の微調整が開始された時点でモデルが事前分布を保持するようにするloss モデル自身が生成したサンプルを用いて、モデル自身がモデルを監視する概要図 • 𝜆: ハイパーパラメータ • 𝑐𝑝𝑟 : テキストプロンプト • 𝑥𝑝𝑟 = 𝑥ො 𝑧𝑡 , 𝑐𝑝𝑟 : 生成画像 • 学習率1e-5・𝜆 = 1・epoch=200 • 学習時間は1台のTPUv4で約15分 9

10.

手法(事前分布を保存する方法) • Prior-Preservation Loss 元画像と、 Finetuning後の「A [V] dog」の生成画像で比較 Finetuningした「A dog」の生成画像と、 Finetuning前の「A dog」の生成画像で比較 10

11.

手法(Personalized Instance-Specific Super-Resolution) • 拡散モデルの超解像モデルのファインチューニングを行うとアーチファクトを生み出すことが実験で分かった Normal Noise(対策前のノイズ付与)の場合、全体的にぼやける現象が発生 No Finetuning(微調整しない)の場合、高周波パターンが幻覚的になってしまう • 対策 256×256のSR-moduleの微調整のノイズ増強のレベルを10-3から10-5に下げる。 11

12.

実験本手法の実験成果として、 • 再文脈化(recontextualization) • アートレンダリング(Art Renditions) • 表情変換(Expression Manipulation) • 視点合成(Novel View Synthesis) • アクセサリの付与(Accessorization) • プロパティの変更(Property Modification) を行った。また、 • 実験画像で出現する[V]は被写体の固有識別子である。 • すべての実験は、Unsplashの画像を用いて行う https://unsplash.com/ja 12

https://unsplash.com/ja

13.

実験(Recontextualization) • Recontextualization モデルがテキストプロンプトに応じて入力した被写体を生成することができるプロンプト例): a [V] [クラス名詞] [文脈の記述] 生成画像入力画像入力した画像のカバ入力した画像のカバンと同じカバンの生成画ンと同じカバンの生像を出力する。成画像を出力する。 13

14.

実験(Art Renditions) • Art Renditions 被写体のオリジナルの芸術作品をレンダリングすることが可能プロンプト例): a painting of a [V] [class noun] in the style of [famous painter] a statue of a [V] [class noun] in the style of [famous sculptor] 14

15.

実験(Expression Manipulation) • Expression Manipulation 元の入力画像の被写体ににない表情を生成することができる。表情の範囲は広くいずれの例でも犬のアイデンティティは保てている。 (根拠は顔の非対称な白い筋がいずれの画像にも残っていること) 非対称な白い筋 15

16.

実験(Novel View Synthesis) • Novel View Synthesis 被写体を様々な視点でレンダリングすることも可能数枚の正面画像があれば新しい視点を生成できる複雑な毛並みが一貫している 16

17.

実験(Accessorization) • Accessorization 被写体にアクセサリを付与することも可能例文): a [V] [クラス名詞] wearing [アクセサリー] 犬の同一性が保たれている 17

18.

実験(Property Modification) • Property Modification 被写体のインスタンスプロパティを変更できる被写体の車の色の変更や犬と別の種の交配結果を生成することも可能 18

19.

実験(Ablation Studies) 被写体のテキストアノテーションに、「クラス名詞なし」「誤ったクラス」「正しいクラス分布」を付与して実験を行う。(Class-Prior Ablation) 入力した被写体の学習が難しい新しい被写体の画像を生成できない上手く画像を生成できる 19

20.

実験(Ablation Studies) • Prior Preservation Loss Ablation 提案損失であるPrior Preservation Lossをなくして実験を行った。 Finetuning前の生成画像 Prior Preservation Lossなし入力画像の犬しか生成できない Prior Preservation Lossあり多様性のある犬が生成できる 20

21.

比較 • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion(Gal et al.)との比較提案手法の方が入力画像に忠実提案手法の方が入力画像に忠実 21

22.

比較 • ImagenやDALL-Eの公開APIでの比較特徴のある時計の再文脈化について我々の手法とプロンプトエンジニアリングによる比較 ImagenやDALLE-2は細かい時計の特徴を再現できない提案手法の方が入力画像に忠実 22

23.

制約 • (a)が入力したプロンプト生成の失敗: 事前情報が難しい • (b)が文脈と被写体のもつれ: 別の文脈の影響を被写体が受けてしまう • (c)が画像の過学習: 学習しやすい被写体も存在する MoonやISSの背景を生成できない被写体の出力が変わることがある過学習 23

24.

結論 • この研究では数枚の画像とそれに対応するテキストを使って、与えられた被写体の新しい表現を合成するアプローチを提案した。本研究のカギは、 • 与えられた被写体を一意の識別子と結びつけて埋め込むこと • 学習中に学習した他の視覚的概念を「忘れる」ことなく慎重に微調整する • 撮影した3〜5枚の画像だけで達成できることである。これによって微調整されたモデルは、被写体の特徴を維持したまま、事前に学習した知識(視点・ポーズなど)を再利用することができる。 24

25.

所感 • DreamBoothは入力画像のアイデンティティを維持することを目的に特化した画像生成モデル自分との研究との関連が思っていたのと違った • 入力画像に対する過学習をなるべく回避するための設計が中心 • 入力画像に映っている被写体を無理やり言語モデルに埋め込むために、めったに使われないプロンプトの埋め込み空間を借りている気がした。 • Prior Preservation Lossの影響で事前分布は出来るだけ保存できているが、完全に保存できているわけではないように見えた。実際にDreamBoothを利用した人の感想でも、生成画像が全体的に入力画像の被写体に似るようになった感想があった 25