【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

704 Views

March 03, 23

スライド概要

2023/3/3
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Takeyuki Nakae, Shiga University 2023/03/03 http://deeplearning.jp/ 1

2.

書誌情報 投稿先: arXiv(2022/08/25) https://arxiv.org/abs/2208.12242 プロジェクトページ: https://dreambooth.github.io/ 選定理由: 修士論文との研究に関連しそうだったため 2

3.

概要 • 拡散モデルの「個人化」に焦点を当てた論文 数枚の画像の主要的な視覚的特徴を別の状況のテキストが与えられても維持して表 現を可能にする。(被写体駆動型生成) • 数枚の画像で拡散モデルを学習することを目的とする 入力画像 生成画像 入力画像に登場し た犬が生成時に登 場していることが 確認できる 類似研究(2022年08月19日): https://deeplearning.jp/an-image-is-worth-one-word-personalizing-text-to-image-generation-using-textual-inversion/ 3

4.

背景 拡散モデルの強み • 膨大なデータの意味を事前学習している所(意味的事前情報) 「犬」という単語を様々な単語と結び付けられる 例): 赤の蝶ネクタイと紫のパーティー帽をつけたコーギー→ この場合、「犬」と「蝶ネクタイ」と「パーティー帽」が結び付 けられている この強みは、想像上でしかないシーンの画像を作成することができ、 自分の飼っている犬を見たことのないシーンに登場させるなどの活用ができる。 4

5.

背景 「自分の飼っている犬を見たことのないシーンに登場させる」際の問題点 • 与えられた画像の被写体の外観を模倣する能力の欠如(図1) →出力領域の表現力に限界があるため • 与えられた画像の被写体に対する新しい表現の獲得の困難(図2) →与えられた画像に対して過学習を起こすため 生成モデル(出力) 生成モデル(出力) 微調整 図1: 被写体の外観を模倣できない例 テキストプロンプトをいくらいじってもinput imagesの 画像を再現できない 図2:被写体の新しい表現を獲得できない例 入力されたダックスフンドしか生成しなくなる 5

6.

本論文の目玉 生成モデル(出力) 生成モデル(出力) 微調整 図1: 被写体の外観を模倣できない例 出力領域の表現力の限界 図2:被写体の新しい表現を獲得できない例 与えられた画像に対して過学習 6 上記の課題を解決するために本論文では、拡散モデルの「個人化」を目指す。 • 数枚の被写体の画像を学習することで拡散モデルに被写体を生成させる →与えられた数枚の被写体画像をモデルの出力領域に埋め込み、一意の識別子と合成できる ようにする • 数枚の学習でも過学習(言語ドリフト)を起こさせないために新たな損失関数の提案 →事前に学習している意味的事前分布を保持するための損失関数 6

7.

Preliminaries(前提知識) • DreamBoothの拡散モデルはcascaded diffusion modelsが使用されている ノイズの付与 + 条件(CLIPの埋め込みなど) cascaded diffusion models SR SR moduleによる moduleによる 拡大 • また中間画像にノイズを付与して画像を破損し、その後破損のレベルに応じてSR moduleに条件付き学習を行う。 7

8.

手法(数枚の画像のプロンプトの作成) プロンプトには二つの候補 • [identifier]: 被写体に関連するユニークな識別子 例): 自分のペットの名前 • [class noun]: 被写体のおおよそのクラスを示すもの 例): dogやbird等 例): 特定の犬を生成したい場合 • 汎用的な単語※1 unique dog • 珍しい単語※2 xvg dog →論文では[class noun]を使用 しかし汎用的な単語※1(強い事前分布)を利用しても、学習時間の長期化・性能の低 下 そのために、珍しい単語※2(Rare-token)を利用する。 Rare-tokenは3文字以下の単語から抽出し、T5-XXLトークナイザーの範囲 (5000~10000)のトークンをランダムサンプリングし使用するとうまくいく 8

9.

手法(事前分布を保存する方法) • Prior-Preservation Loss 数枚の微調整が開始された時点でモデルが事前分布を保持するようにするloss モデル自身が生成したサンプルを用いて、モデル自身がモデルを監視する 概要図 • 𝜆: ハイパーパラメータ • 𝑐𝑝𝑟 : テキストプロンプト • 𝑥𝑝𝑟 = 𝑥ො 𝑧𝑡 , 𝑐𝑝𝑟 : 生成画像 • 学習率1e-5・𝜆 = 1・epoch=200 • 学習時間は1台のTPUv4で約15分 9

10.

手法(事前分布を保存する方法) • Prior-Preservation Loss 元画像と、 Finetuning後の「A [V] dog」の生成画像で 比較 Finetuningした「A dog」の生成画像と、 Finetuning前の「A dog」の生成画像で比較 10

11.

手法(Personalized Instance-Specific Super-Resolution) • 拡散モデルの超解像モデルのファインチューニングを行うとアーチファクトを生 み出すことが実験で分かった Normal Noise(対策前のノイズ付与)の場合、全体的にぼやける現象が発生 No Finetuning(微調整しない)の場合、高周波パターンが幻覚的になってしまう • 対策 256×256のSR-moduleの微調整のノイズ増強のレベルを10-3から10-5に下げる。 11

12.

実験 本手法の実験成果として、 • 再文脈化(recontextualization) • アートレンダリング(Art Renditions) • 表情変換(Expression Manipulation) • 視点合成(Novel View Synthesis) • アクセサリの付与(Accessorization) • プロパティの変更(Property Modification) を行った。 また、 • 実験画像で出現する[V]は被写体の固有識別子である。 • すべての実験は、Unsplashの画像を用いて行う https://unsplash.com/ja 12

13.

実験(Recontextualization) • Recontextualization モデルがテキストプロンプトに応じて入力した被写体を生成することができる プロンプト例): a [V] [クラス名詞] [文脈の記述] 生成画像 入力画像 入力した画像のカバ 入力した画像のカバン と同じカバンの生成画 ンと同じカバンの生 像を出力する。 成画像を出力する。 13

14.

実験(Art Renditions) • Art Renditions 被写体のオリジナルの芸術作品をレンダリングすることが可能 プロンプト例): a painting of a [V] [class noun] in the style of [famous painter] a statue of a [V] [class noun] in the style of [famous sculptor] 14

15.

実験(Expression Manipulation) • Expression Manipulation 元の入力画像の被写体ににない表情を生成することができる。 表情の範囲は広くいずれの例でも犬のアイデンティティは保てている。 (根拠は顔の非対称な白い筋がいずれの画像にも残っていること) 非対称な 白い筋 15

16.

実験(Novel View Synthesis) • Novel View Synthesis 被写体を様々な視点でレンダリングすることも可能 数枚の正面画像があれば新しい視点を生成できる 複雑な毛並みが一貫している 16

17.

実験(Accessorization) • Accessorization 被写体にアクセサリを付与することも可能 例文): a [V] [クラス名詞] wearing [アクセサリー] 犬の同一性 が保たれて いる 17

18.

実験(Property Modification) • Property Modification 被写体のインスタンスプロパティを変更できる 被写体の車の色の変更や犬と別の種の交配結果を生成することも可能 18

19.

実験(Ablation Studies) 被写体のテキストアノテーションに、 「クラス名詞なし」「誤ったクラス」「正しいクラス分布」 を付与して実験を行う。(Class-Prior Ablation) 入力した被写体の学習が難 しい 新しい被写体の画像を生成 できない 上手く画像を生成できる 19

20.

実験(Ablation Studies) • Prior Preservation Loss Ablation 提案損失であるPrior Preservation Lossをなくして実験を行った。 Finetuning前の生成画像 Prior Preservation Lossなし 入力画像の犬しか生成できない Prior Preservation Lossあり 多様性のある犬が生成できる 20

21.

比較 • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion(Gal et al.)との比較 提案手法の方が入力画像に忠実 提案手法の方が入力画像に忠実 21

22.

比較 • ImagenやDALL-Eの公開APIでの比較 特徴のある時計の再文脈化について我々の手法とプロンプトエンジニアリングによ る比較 ImagenやDALLE-2は細か い時計の特徴を再現でき ない 提案手法の方が入力画像 に忠実 22

23.

制約 • (a)が入力したプロンプト生成の失敗: 事前情報が難しい • (b)が文脈と被写体のもつれ: 別の文脈の影響を被写体が受けてしまう • (c)が画像の過学習: 学習しやすい被写体も存在する MoonやISSの背景を生成 できない 被写体の出力が変わるこ とがある 過学習 23

24.

結論 • この研究では数枚の画像とそれに対応するテキストを使って、与えられた被写体 の新しい表現を合成するアプローチを提案した。 本研究のカギは、 • 与えられた被写体を一意の識別子と結びつけて埋め込むこと • 学習中に学習した他の視覚的概念を「忘れる」ことなく慎重に微調整する • 撮影した3〜5枚の画像だけで達成できる ことである。 これによって微調整されたモデルは、被写体の特徴を維持したまま、事前に学習し た知識(視点・ポーズなど)を再利用することができる。 24

25.

所感 • DreamBoothは入力画像のアイデンティティを維持することを目的に特化した画 像生成モデル 自分との研究との関連が思っていたのと違った • 入力画像に対する過学習をなるべく回避するための設計が中心 • 入力画像に映っている被写体を無理やり言語モデルに埋め込むために、めったに 使われないプロンプトの埋め込み空間を借りている気がした。 • Prior Preservation Lossの影響で事前分布は出来るだけ保存できているが、完全 に保存できているわけではないように見えた。 実際にDreamBoothを利用した人の感想でも、生成画像が全体的に入力画像の被写 体に似るようになった感想があった 25