>100 Views
July 03, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度前期輪読会 生成deep learning #11 13章 マルチモーダルモデル 13.1~13.2 名古屋大学 情報学部 B4 吉村 昂樹 0
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 1
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 2
イントロダクション マルチモーダル学習は2つ以上の種類のデータ間を変換するように生成モデルを学習させること 視覚言語モデル 概要 DALL・E 2などは、テキストから画像を生成 するモデルである 特徴 テキストプロンプトに基づいて、精度の高い 最先端の画像を生成することに重点が置かれ ている テキストの理解と画像の生成という異なる領 域を結びつける「橋渡し」の役割が重要とさ れる 3
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 4
アーキテクチャ DALL・E2はテキストエンコーダ、プライア、デコーダで構成されている Input テキストエンコーダ (1)入力をテキスト埋め込みベクトルに変換 テキスト埋め込みベクトル (1)テキストと画像の橋渡しとして画像埋め 込みベクトルに変換 プライア 画像埋め込みベクトル デコーダ (1)入力プロンプトと画像埋め込みベクトル を元に画像を生成 Output 5
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 6
テキストエンコーダ コントラスティブ学習で学習させた既存のCLIPというモデルを使用している CLIP コントラスティブ学習 発表時期と開発元 2021年2月にOpenAIによって発表された 学習データ インターネット上から収集された約4億の画 像とテキストのペアデータで学習された 学習目的 画像とその説明文が与えられたときに、画像 に最も適したテキストを選択できるように学 習されている 7
テキストエンコーダ CLIPは一度も扱ったことのないタスクのゼロショット予測でも使え、下流タスクで有用 ゼロショット予測 初見データのラベルを「{ラベル}の写真」に変換、予測 たいていのモデルでは失敗してしまうがCLIPは成功 8
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 9
プライア テキストから画像ベクトルに変換するプライアには自己回帰プライアと拡散プライアの2種類がある 自己回帰プライア モデル エンコーダデコーダトランスフォーマ 学習データ 画像とテキストのペアデータで学習 学習 1.エンコーダでテキスト埋め込みを変換 2.デコーダに変換したものと前 時刻の予測画 像埋め込みベクトルを入力して予測 3.予測させた画像埋め込みベクトルと、CLIP の画像埋め込みベクトルを比較する 10
プライア テキストから画像ベクトルに変換するプライアには自己回帰プライアと拡散プライアの2種類がある 拡散プライア モデル デコーダのみのトランスフォーマ 学習データ 画像とテキストのペアデータで学習 学習 1.テキスト埋め込みと画像埋め込みを連結して 単独ベクトル化 2.1000ステップかけ画像埋め込みにノイズ付加 3.プライアで逆に辿ってノイズ除去 4.平均二乗誤差の平均を損失関数で求める 11
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 12
デコーダ テキストプロンプトとプライアの予測画像埋め込みから、最終的な画像を生成する デコーダ モデル OpenAIが発表したGLIDEを模したモデル + アップサンプラー(後で解説) GLIDE 2億のテキストと画像のペアで学習させる 違いはプライアの画像埋め込みがあるかどうか 学習 1.画像にノイズを付加 2.プロンプトをトランスフォーマで埋め込み 3.プライアからの埋め込みとそれをU-Netに入 力し、ノイズを除去 13
デコーダ アップサンプラーは画像のサイズを大きくする デコーダ モデル OpenAIが発表したGLIDEを模したモデル(前述) + アップサンプラー アップサンプラー 二つの異なった拡散モデルで画像のサイズを拡大 する処理を担う これによりこれより以前の処理は小さいサイズの 画像で処理でき、パラメータ数を抑えられる 処理 1.一つ目のモデルで64×64から256×256に拡大 2.二つ目のモデルで256×256から1024×1024に拡大 14
アジェンダ ■ イントロダクション ■ アーキテクチャ ■ テキストエンコーダ ■ プライア ■ デコーダ ■ 考察 15
考察 プライアがないと正確に画像を生成できない プライアの必要性 実験 以下の条件で実験し、プライアが本当に必要かを確認 1. デコーダにテキストプロンプトと画像埋め込みとして ゼロベクトルを与える 2. デコーダにテキストプロンプトと画像埋め込みの代わ りとしてテキスト埋め込みを与える 3. デコーダにテキストプロンプトと画像埋め込みを与え る(DALL・E2) 結果 1. 生成の抜け落ちが発生 2. 関係性が捉えられていない 3. 正確に生成 16
考察 DALL・E2の応用として与えられた画像のバリエーションを生成することができる 拡散モデルの性質 ランダムノイズを拡散モデルで除去して画像を生成 ↓ 元となるランダムノイズが変わることで生成結果が変化 DALL・E2でのバリエーション生成 デコーダに入力する画像埋め込みとして、バリエーショ ンを作りたい画像を埋め込めばいい ↓ CLIPの画像エンコーダを用いて、与えられた画像を画像 埋め込みに変換 17
考察 DALL・E2には主に属性バインディングとテキスト生成という制限がある 属性バインディング 概要 テキストプロンプト内の単語の関係を理解す る能力のこと 問題点 文章の意味を理解することに少し苦戦 テキスト生成 概要 画像の中で文章を書くこと 問題 テキストを高レベルの表現を捉えており、単 語のスペルを補足していないので、正確にス ペルを再現できない A red cube on top of a blue cube (青い立方体の上の赤い立方体) 上記のプロンプトで生成したが、 うまく生成できていない A sign that says deep learning (deep learningと書かれた看板)で生成 18