【生成Deap Learning 第2版】13.5~13.6

161 Views

July 10, 25

#flamingo

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.8K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 20.7K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

KaiRA 生成DeepLearning #12 生成Deep Learning 13.5~6 :マルチモーダルモデル京都大学工学部情報学科宮前明生 0

アジェンダ ◼ Flamingoの概要 ◼ アーキテクチャ ◼ 結果 Flamingo 以下の論文をベースに解説する以下の論文をベースに解説する Flamingo 1

https://arxiv.org/abs/2205.11487

アジェンダ ◼ Flamingoの概要 ◼ アーキテクチャ ◼ 結果 2

Flamingoの概要：Flamingoのタスク Flamingo Imagen, Stable diffusion • テキストから画像を生成す • 視覚データ＋テキストからテキストを生成するモデルるモデル • 視覚データとは、画像と動画を含む Prompt: A horse riding an astronaut. Stable diffusion onlineから生成 3

https://stablediffusionweb.com/ja

Flamingoの概要： Flamingoのタスク • 入力は複数の画像や動画とテキストを可能としている • Fine-tuningなしで、 few-shot推定（わずかな入出力例から推定）で高い精度を誇る 4

Flamingoの概要：モデルの概要 • 様々な解像度の画像や動画を同次元埋め込みの条件付けとして扱うために、Vision EncoderとPerceiver Resamplarを用いる • テキスト中の複数の画像や動画に条件付けが対応するようにマスクされたcross-attention層を用いる • 最終的に、視覚データ𝑥を条件として、次のトークン𝑦𝑙 の予測を繰り返すときの尤度を次のようにモデル化する 𝑝 𝑦 𝑥 = ς𝐿𝑙=1 𝑝(𝑦𝑙 |𝑦<𝑙 , 𝑥≤𝑙 ) 5

アジェンダ ◼ Flamingoの概要 ◼ アーキテクチャ ◼ 結果 6

アーキテクチャ：Vision Encoder FlamingoのVision Encoderは Normalizer-Free ResNet(NFNet)の F6モデルを用いる NFNet CLIP • ResNetのアーキテクチャ • ViTのアーキテクチャ • 画像とテキストの埋め込み • バッチ正則化なしでAdaptive Gradient Clippingを採用ペアをコサイン類似度で最適化 • 画像とテキストの埋め込みペアをコサイン類似度で最適化 7

アーキテクチャ：Vision Encoder 画像 • NFNetから得た特徴マップを平坦化する動画 • 1秒1フレームずつサンプリングする • サンプリングごとにNFNetから得た特徴マップを得て、時間埋め込みを付与し、平坦化する • サンプリングごとの埋め込みベクトルを連結する 8

10.

アーキテクチャ： Perceiver Resamplar Vision Encoderから可変長（画像の解像度や動画のフレーム数による）の平坦化されたベクトルを受け取る ➢ ベクトル次元の上限を設けず、短いベクトルも長いベクトルも同じ次元に変換して、計算を簡単にしたい視覚ベクトル埋め込みをキー𝐾とバリュー 𝑉、64次元の潜在ベクトルをクエリ𝑄としたcross-attention層で同次元の出力を得る（潜在ベクトルも学習される） 9

11.

アーキテクチャ： Perceiver Resamplar Perceiver Resamplar • 時間埋め込みと平坦化からベクトルx_fを得る • 潜在ベクトルxにattention層とffw層の出力を足し合わせる • 上の処理をnum_layers回繰り返す 10

12.

アーキテクチャ：Language model GATED XATTN-DENSE • masked cross-attention層で複数の視覚データを文章に条件付けしている • Tanh gatingで視覚条件付けを制御し、学習を安定させている LM layers • self-attention層を持つ事前学習済モデル • DeepMind社で開発したChinchillaをLanguage modelに採用した 11

13.

アーキテクチャ：Language model 画像や動画が複数ある場合、それぞれの視覚埋め込みを文章に対応させる必要がある視覚埋め込み 2. マスクして条件付け 1. 文章の前処理画像の直前を境目に文章をチャンクに分割するチャンクごとに他のチャンクをマスクして、含まれる画像の埋め込みを条件付けする 12

14.

アーキテクチャ： Language model GATED XATTN-DENSE • cross-attention層は、チャンクごとの視覚ベクトル埋め込みをキー𝐾とバリュー𝑉、マスクされた言語入力Y埋め込みをクエリ𝑄とした（チャンクごとの出力を合計する） • cross-attention層、FFW層の出力に𝑡𝑎𝑛ℎ(𝛼)を掛けたものをYに足し合わせる（𝛼も層ごとに学習される） LM layer • self-attention層、FFW層の出力をYに足し合わせる 𝛼は初期値を0とすることで、学習が初期では出力が事前学習済のLMにのみ依存するので、学習が安定する self-attention層のおかげで、部分的なcrossattentionの条件付けが文章全体に反映される 13

15.

16.

アーキテクチャ： Language model tanh gating 24層のLM層から構成されるFlaminogoについて、 𝑡𝑎𝑛ℎ(𝛼)の絶対値|𝛼|の訓練時の推移 15

17.

アーキテクチャ：それぞれのtransfomer Perceiver Resampler、GATE XATTNDENSE、Frozen LMで使われた transfomerの詳細は表のようになる L：層数、D：transfomerの隠れ次元、 H：ヘッド数、Act.：活性化関数 • それぞれのキーとバリューの次元は D/Hとなる • FFW層（MLP）の隠れ次元は4D 16

18.

アジェンダ ◼ Flamingoの概要 ◼ アーキテクチャ ◼ 結果 17

19.

結果：評価用ベンチマークマルチモーダルモデルの性能を評価するための16のデータセット DEV:開発段階での検証に使われた Gen.:生成タスク 18

20.

結果：Flamingo(few-shot)vsSOTA(fine-tuning) • Few-shot推定(わずかな例が与えらた推定)の Flamingoとfine-tuningしたSOTA(以前の最高性能のモデル)の比較 • Flamingoは16つのうち6つのタスクで上回った FT: fine-tuning Shot: 例の数 19

21.

結果：Flamingo(fine-tuning)vsSOTA(fine-tuning) • Flamingoが性能で上回れなかった16つのうち 9つのタスクについて、 fine-tuningした FlamingoとSOTAの比較 • Flamingoは検証データとテストデータの両方で9つのうち5つ上回った 20

22.

参考文献 Flamingo CLIP NormalizerFree ResNet (NFNet) 21