260 Views
July 03, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
KaiRA ゼロつく輪読会 #6 生成Deep Learning 13.3~4 :マルチモーダルモデル 京都大学 工学部 情報学科 宮前明生 0
アジェンダ ◼ Imagen ◼ Stable (Latest) diffusion Stable(Latest) Imagen 以下の論文をベdiffusion ースに解説する 以下の論文をベースに解説する Imagen Stable(Latest) diffusion 1
拡散モデルの時系列 2020/8 ノイズ除去拡散モデル(DDPM) 2021/2 DALL-E 2021/12 GLIDE Stable diffusionの元論文 2021/12 潜在拡散モデル(Latest diffusion) 2022/4 DALL-E2 2022/5 Imagen 2022/8 Stable diffusionの公開 コードと重みが公開され、 一般的に普及し始める 2
アジェンダ ◼ Imagen ◼ Stable (Latest) diffusion 3
Imagen:概要 ・テキストのみから学習した大規模言語モ デルをテキストエンコーダーに用いる ・低解像度の拡散モデルから得た画像を アップサンプラー(拡散モデル)で高解像度 にサンプリングする ・ガイダンス重みを大きくするのに伴い、 動的閾値を導入した ・テキスト生成の定量的な評価指標として、 Drawbenchを提唱した 4
Imagen: テキストエンコーダー テキストと画像で学習(CLIP) テキストのみで学習(T5) ・テキストと画像を関連付け ・大規模言語モデルの発展に て学習を行う よって、テキスト理解、生成 能力が向上 ・テキストと画像のペアデー タよりも、はるかに大きいテ キストデータで学習できる 5
Imagen: 拡散モデル 分類器なしガイダンス テキスト画像生成では、拡散過程で𝑝𝛾 (𝑋|𝑦)から画像を生成 する際にテキスト条件付け(ガイダンス)が必要であり、 条件付けの影響度をガイダンス重み𝛾で制御したい (𝑋が拡散過程での画像、 𝑦がテキスト) 分類器ガイダンス 分類器なしガイダンス ・分類器𝑝(𝑦|𝑋)を用いてガイ ・分類器を使わず、𝑝 𝑋 𝑦 ダンスを行う を直接学習する ・条件付きと無条件の拡散 ∇𝑋 log𝑝𝛾 𝑋 𝑦 = 𝛾∇𝑋 log𝑝 𝑦 𝑋 + ∇𝑋 log𝑝(𝑋) モデルの両方を学習する ∇𝑋 log𝑝𝛾 𝑋 𝑦 Imagen、Stable diffusion = 𝛾∇𝑋 log𝑝 𝑋 𝑦 + ベイズの定理から変形 (1 − 𝛾)∇𝑋 log𝑝(𝑋) などは分類器なしガイダ ンス 6
Imagen: 拡散モデル ガイダンス重みを大きくする問題点 ∇𝑋 log𝑝𝛾 𝑋 𝑦 = 𝛾∇𝑋 log𝑝 𝑋 𝑦 + (1 − 𝛾)∇𝑋 log𝑝(𝑋) ・ガイダンス重み𝛾を1にすると、無条件拡散モデルの影 響がなくなり、 1より大きなると無条件拡散モデルから 遠ざかるように生成される ガイダンス重み𝛾を大きくすると忠実性が高くなるが、 整合性が損なわれる(不自然な画像が生成される) ・Imagenではガイダンス重み𝛾を大きくしているので、 ピクセル値(1画素)が[-1,1]に収まらない問題が起こる 動的閾値の導入 7
Imagen: 拡散モデル 動的閾値 静的閾値 動的閾値 ・拡散過程の画像を各ピクセ ・各サンプリングでsが動的 ルで[-1,1]でクリップする に決まり、s>1ならば各ピク (ピクセル値が-1以下ならば セルで[-s,s]でクリップする -1、1以上ならば1を返す) プロンプトを “A photo of an astronaut riding a horse.” としたときの閾値処理なし、静的閾値、 動的閾値の画像生成 8
Imagen: 拡散モデル U-Netのself-attensionとcross-attension self-attension cross-attension ・低解像度拡散モデルにのみ ・全ての拡散モデルにのみ self-attension層を追加する cross-attension層を追加す る ・𝜑 𝑧𝑡 はU-Netの中間層 ・𝜏𝜃 はテキストエンコーダー ・𝑄 = 𝜑 𝑧𝑡 𝑊𝑄 ・𝑄 = 𝜑 𝑧𝑡 𝑊𝑄 K=𝜑 𝑧 𝑊 𝑡 𝑄 V = 𝜑 𝑧𝑡 𝑊𝑉 K = 𝜏𝜃 𝑦 𝑊𝑄 V = 𝜏𝜃 𝑦 𝑊𝑉 9
Imagen: 超解像度拡散モデル U-Net 超解像度拡散モデル ・まず、64×64画像を転置畳 み込み(cov2dtranspose)で 256×256に拡大し、U-Netで ノイズを予測する ・CombieEmbsでcrossattension層からテキスト条 件付け、拡散過程の時刻tも条 件付けをする ・超解像度拡散モデルでselfattension層を削除している 10
Imagen:ResNetBlock U-Net ResNetBlock ・テキスト条件付けなどをした後に畳み込 みと残差接続を持つResNetBlockを複数回 通す ・swish活性化関数 𝑠𝑤𝑖𝑠ℎ 𝑥 1 =𝑥 1+𝑒 −𝑥 11
Imagen: Efficient U-Net 通常のU-Netよりも以下のような工夫がある ・通常のU-Netは、DBlockでは最後にダウン サンプリング、Ublockでは最初にアップサン プリングをするが、逆にすることで計算量を 削減している U-Net ・通常のU-NetはResNetBlockを2,3回通す が、低解像度のResNetBlockでは8回通すこ とで、少ない計算量の増加で、多くのパラ メータを追加している ・低解像度のResNetBlockでは残差接続の値 を1/ 2倍にする 12
Imagen: Drawbench ・テキスト画像生成の性能について、人間による評価を実施するための 200個のプロンプト(全てのプロンプト) ・ 200個のプロンプトは11個のカテゴリーを持つ 評価は以下の手順で実施される 1.評価者は各プロンプトに対するモデルAとモデルBによる2つの画像 セットが与えられる 2.評価者は2つの質問に答える Which set of images is of higher quality?(整合性) Which set of images better represents the text caption?(忠実性) 13
Imagen: Drawbench 14
Imagen:その他のモデルの性能比較 テキストエンコーダーにT5-XXLを採用したImagenと CLIPを採用したその他のモデルのDrawbenchにおける 比較 15
Imagen:その他のモデルの性能比較 ・FID Inception-v3モデル(画像の 1000クラス分類モデル)による 本物の画像と生成画像の埋め込 みの分布の平均と分散の距離 ・Zero-shot FID 生成モデルが評価用データ(MSCOCO)を学習していない状態で のFID 16
アジェンダ ◼ Imagen ◼ Stable (Latest) diffusion 17
Stable duffusion: 高解像度の拡散モデルの問題点 ・拡散モデルをピクセル空間(画像サイズ)に適応すると、画 像の解像度が高くなるほど、計算量が増大する DALL-E2やImagenでは、低解像度の画像を生成してから、 アップサンプラー(拡散モデル)で高解像度にサンプリン グしていた ・Stable diffusionでは、潜在空間のみに拡散モデルを適応する ことで、高解像度で学習の計算が早いモデルを実現した 18
Stable duffusion:概要 ・テキストエンコーダーはテキストと画像のペアデータで学習 したCLIPを使用した ・オートエンコーダー(VQ-GAN)からの潜在空間にノイズ除 去U-Netで拡散過程を実行しサンプリングする 19
Stable duffusion:サンプリング ・潜在空間の拡散過程で学習に必要なサンプリングはエンコー ダーℰ(𝑥)にノイズを加えて生成する ・画像生成は、潜在空間𝑧𝑇 を正規分布から生成し、ノイズ除去 して最終的にデコーダー𝒟(𝑧)から生成する ・ベクトル量子化(潜在空間𝑧をコードブック𝑒𝑘 に近づける)をす るが、画像生成はコードブックからサンプリングはしない 20
Stable duffusion:オートエンコーダー(VQ-GAN) VAE GAN VAE,VQ-GAN ・𝐿𝑟𝑒𝑐 (𝑥, 𝒟 ℰ(𝑥 ))は再構成損失、 ここでは𝑥と𝒟 ℰ(𝑥 )の二乗和誤差 ・ 𝑙𝑜𝑔𝐷𝜓 (𝑥)は識別器𝐷𝜓 の対数尤度、ここでは生成画像と本物の画像の 交差エントロピー ・−𝐿𝑎𝑑𝑣 (𝒟 ℰ(𝑥 )) は識別器𝐷𝜓 に敵対的に学習(識別器が間違うよう に)する項、具体的には識別器𝐷𝜓 の対数尤度から得られる VG-GANのアーキテクチャ→ 21
Stable duffusion:オートエンコーダー(VQ-GAN) ・ 𝐿𝑟𝑒𝑔 (𝑥; 𝒟, ℰ) は2つの正則化項 1.潜在空間の分布と標準正規分布のKLダイバージェンス ⇑VAEと似ている。通常のVQ-GANには存在しない 2.潜在空間𝑧でコードブック𝑒𝑘 を学習し、ベクトル量子化をする 𝑧𝑞 = 𝑒𝑘 : k = argmax𝑗 𝑧 − 𝑒𝑗 2 として、正則化項は 2 2 アライメント損失 𝑠𝑔 𝑧 − 𝑧𝑞 とコミットメント損失 𝑠𝑔 𝑧𝑞 − 𝑧 か ら構成される 𝑠𝑔[∙]誤差逆伝播法で勾配を計算しない(stop gradient)ことを意味する 22
Stable duffusion:拡散モデル Imagenと同様にU-Netに以下の特徴がある ・self-attension層 ・cross-attension層によるテキスト条件付け ・拡散過程の時刻tの条件付け ・ResNetBlock 23
Stable duffusion:無条件拡散モデルの条件付け ガイダンス重みでプロンプトの影響を制御したい Imagen,Stable diffusionではテキスト条件付けがcross-attension層 で行われるので、反対に無条件の拡散モデルが必要がある Stable diffusionでは分類器ガイダンスの考え方で、分類器𝑝Φ (𝑦|𝑧𝑡 ) を画像にプロンプトを与えられたか与えられていないかを分類すると する 24
Stable duffusion:その他のモデルの性能比較 ・FID Inception-v3モデル(画像の1000クラス分類モデル)による本 物の画像と生成画像の埋め込みの分布の平均と分散の距離 ・IS Inception-v3モデルの本物の画像と生成画像のクラス分布の 距離(KLダイバージェンス) 25
参考文献 Imagen Stable(Latest) diffusion VQ-GAN 分類器なしガイダンス CLIP 生成モデルの評価指標 26