【生成Deap Learning 第2版】13.1~13.2

245 Views

July 03, 25

#dall e2 #clip #DALL-E 2 #マルチモーダルモデル #深層学習 #画像生成 #CLIP

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2025年度前期輪読会生成deep learning #11 13章マルチモーダルモデル 13.1~13.2 名古屋大学情報学部 B4 吉村昂樹 0

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 1

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 2

イントロダクションマルチモーダル学習は２つ以上の種類のデータ間を変換するように生成モデルを学習させること視覚言語モデル概要 DALL・E 2などは、テキストから画像を生成するモデルである特徴テキストプロンプトに基づいて、精度の高い最先端の画像を生成することに重点が置かれているテキストの理解と画像の生成という異なる領域を結びつける「橋渡し」の役割が重要とされる 3

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 4

アーキテクチャ DALL・E2はテキストエンコーダ、プライア、デコーダで構成されている Input テキストエンコーダ (1)入力をテキスト埋め込みベクトルに変換テキスト埋め込みベクトル (1)テキストと画像の橋渡しとして画像埋め込みベクトルに変換プライア画像埋め込みベクトルデコーダ (1)入力プロンプトと画像埋め込みベクトルを元に画像を生成 Output 5

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 6

テキストエンコーダコントラスティブ学習で学習させた既存のCLIPというモデルを使用している CLIP コントラスティブ学習発表時期と開発元 2021年2月にOpenAIによって発表された学習データインターネット上から収集された約4億の画像とテキストのペアデータで学習された学習目的画像とその説明文が与えられたときに、画像に最も適したテキストを選択できるように学習されている 7

テキストエンコーダ CLIPは一度も扱ったことのないタスクのゼロショット予測でも使え、下流タスクで有用ゼロショット予測初見データのラベルを「{ラベル}の写真」に変換、予測たいていのモデルでは失敗してしまうがCLIPは成功 8

10.

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 9

11.

プライアテキストから画像ベクトルに変換するプライアには自己回帰プライアと拡散プライアの２種類がある自己回帰プライアモデルエンコーダデコーダトランスフォーマ学習データ画像とテキストのペアデータで学習学習 1.エンコーダでテキスト埋め込みを変換 2.デコーダに変換したものと前時刻の予測画像埋め込みベクトルを入力して予測 3.予測させた画像埋め込みベクトルと、CLIP の画像埋め込みベクトルを比較する 10

12.

プライアテキストから画像ベクトルに変換するプライアには自己回帰プライアと拡散プライアの２種類がある拡散プライアモデルデコーダのみのトランスフォーマ学習データ画像とテキストのペアデータで学習学習 1.テキスト埋め込みと画像埋め込みを連結して単独ベクトル化 2.1000ステップかけ画像埋め込みにノイズ付加 3.プライアで逆に辿ってノイズ除去 4.平均二乗誤差の平均を損失関数で求める 11

13.

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 12

14.

デコーダテキストプロンプトとプライアの予測画像埋め込みから、最終的な画像を生成するデコーダモデル OpenAIが発表したGLIDEを模したモデル + アップサンプラー（後で解説） GLIDE 2億のテキストと画像のペアで学習させる違いはプライアの画像埋め込みがあるかどうか学習 1.画像にノイズを付加 2.プロンプトをトランスフォーマで埋め込み 3.プライアからの埋め込みとそれをU-Netに入力し、ノイズを除去 13

15.

デコーダアップサンプラーは画像のサイズを大きくするデコーダモデル OpenAIが発表したGLIDEを模したモデル（前述） + アップサンプラーアップサンプラー二つの異なった拡散モデルで画像のサイズを拡大する処理を担うこれによりこれより以前の処理は小さいサイズの画像で処理でき、パラメータ数を抑えられる処理 1.一つ目のモデルで64×64から256×256に拡大 2.二つ目のモデルで256×256から1024×1024に拡大 14

16.

アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 15

17.

考察プライアがないと正確に画像を生成できないプライアの必要性実験以下の条件で実験し、プライアが本当に必要かを確認 1. デコーダにテキストプロンプトと画像埋め込みとしてゼロベクトルを与える 2. デコーダにテキストプロンプトと画像埋め込みの代わりとしてテキスト埋め込みを与える 3. デコーダにテキストプロンプトと画像埋め込みを与える（DALL・E2）結果 1. 生成の抜け落ちが発生 2. 関係性が捉えられていない 3. 正確に生成 16

18.

考察 DALL・E2の応用として与えられた画像のバリエーションを生成することができる拡散モデルの性質ランダムノイズを拡散モデルで除去して画像を生成 ↓ 元となるランダムノイズが変わることで生成結果が変化 DALL・E2でのバリエーション生成デコーダに入力する画像埋め込みとして、バリエーションを作りたい画像を埋め込めばいい ↓ CLIPの画像エンコーダを用いて、与えられた画像を画像埋め込みに変換 17

19.

考察 DALL・E2には主に属性バインディングとテキスト生成という制限がある属性バインディング概要テキストプロンプト内の単語の関係を理解する能力のこと問題点文章の意味を理解することに少し苦戦テキスト生成概要画像の中で文章を書くこと問題テキストを高レベルの表現を捉えており、単語のスペルを補足していないので、正確にスペルを再現できない A red cube on top of a blue cube (青い立方体の上の赤い立方体) 上記のプロンプトで生成したが、うまく生成できていない A sign that says deep learning (deep learningと書かれた看板）で生成 18