【深層学習による画像認識の基礎】8.1~8.2

-- Views

July 02, 26

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2026 前期輪読会 #12 深層学習による画像認識の基礎 画像と自然言語8.1~8.2 京都大学 工学部情報学科B4 宮前明生 0

2.

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 1

3.

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 2

4.

画像と自然言語 画像と自然言語(Vision and Language; V&L) • 画像と自然言語という異なる 2つを扱うマルチモーダル情報処理 例①画像質問応答 (Visual Question Answering; VQA) • 与えられた画像に関する質問に答えるタスク 例②画像キャプション生成 (image captioning) • 与えられた画像に関する説明文を自然言語で記述 するタスク 3

5.

画像と自然言語:さまざまなタスク 画像・テキスト検索 Visual Grounding • 与えられた画像(テキスト)に最も適合するデータ ベース内のテキスト(画像)を検索するタスク • 画像内の領域とテキスト内のフレーズの部分的な 対応付けを行うタスク • 代表的なモデル: CLIP(Contrastive Language– Image Pre-training) • 代表的なモデル: SCAN(Stacked Cross Attention Network) CLIP: https://arxiv.org/abs/2103.00020 SCAN: https://arxiv.org/abs/1803.08024 4

6.

画像と自然言語:さまざまなタスク 画像付き対話 • • 2人組の自然言語と画像を用いた対話履歴から、 対話中に登場する画像に関する質問に回答するタ スク 代表的なモデル: Flamingo Flamingo:https://arxiv.org/abs/2204.14198 テキストからの画像生成 • 与えられたテキストからその内容を表す画像を生 成するタスク • 代表的なモデル: 拡散モデル 画像元:https://kyotokaira.github.io/assets/docs/NF_2025.pdf 5

7.

画像と自然言語:さまざまなタスク V&Lナビゲーション • ある環境下にいるロボットに対して,自然言語で指示を与え、目的地に到達させるタスク • 代表的なモデル: Speaker-Follower Models for Vision-and-Language Navigation 画像元:https://arxiv.org/abs/1806.02724 6

8.

画像と自然言語:V&Lの難しさ V&Lの最大の課題 • 画像データとテキストデータはまったく異なる性質をもつ • 2種類のデータをうまく結びつけるには、画像とテキストで共通の特徴空間にそれぞれを射影 し,対応する概念同士が最近傍に存在するように学習する必要がある 7

9.

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 8

10.

Transformer台頭前のV&Lモデル:伝統的なVQAモデル Transformer台頭前のV&Lモデル • 2018年後半から 2019年にかけて, GPTやBERTなど大規模言語モデル以前の画像質問応答 (Visual Question Answering; VQA)モデル 伝統的なVQAの構成要素 • 画像エンコーダー(CNN) • 言語エンコーダー(RNN) • 統合 • 分類ヘッド 9

11.

Transformer台頭前のV&Lモデル:画像エンコーダー グリッド特徴 • 画像をℎ × 𝑤の格子状に分割した各領域に対応する 特徴ベクトルとして見なせる • 画像全体に適応したCNNやViTが出力する中間特 徴マップを画像エンコーダーの出力とする • 一般的に、ImageNet-1Kで事前学習したCNNで 分類ヘッド前の特徴マップ𝑽 ∈ ℝ𝑑𝐼×ℎ×𝑤 を用いる • 最後に、空間方向のベクトルを1列にする 𝑑𝐼 ×𝑁 𝑯𝐼 = {𝒗𝑖 }𝑁 ∈ ℝ 𝑁 = ℎ𝑤 𝑖=1 利点として、画像全体の情報を利用できる • 領域特徴 • 画像内のN個の物体領域から抽出する • 一般的には、FasterR-CNNのRoI Pooling後の特 徴マップ𝒗𝑖 ∈ ℝ𝑑𝐼 ×ℎ×𝑤 を用いる • 最後に、各𝑣𝑖 を空間方向に対して平均化する • 課題として • 計算コストが大きい • 物体同士の関係性を捉えることが困難 • 検出漏れの可能性がある 𝑑𝐼 ×𝑁 𝑯𝐼 = {ഥ 𝒗 𝑖 }𝑁 ∈ ℝ 𝑖=1 FasterR-CNNの全体像 RoI Pooling後 10

12.

Transformer台頭前のV&Lモデル:言語エンコーダー 分かち書き • 文章を単語単位で分割:“What is the object behind the sheep?” 単語埋め込み • GloVeなどの手法で、各単語を𝑑𝐿 次元ベクトルへ変換 • 𝑇単語の質問文から単語埋め込み系列{𝒒𝑖 }𝑇𝑖=1 が得られる RNN(再起型ニューラルネットワーク) • 文章などの系列データを扱うのに適したニューラルネットワーク • 位置𝑡における系列データ𝒒𝑡 と直前で得られた隠れ状態ベクトル𝒉𝑡−1 から、次の隠れ状態ベク トル𝒉𝑡 を出力する • すべての単語埋め込みを利用した隠れ状態ベクトル𝒉 𝑇 や、すべての中間出力{𝒉𝑖 }𝑇𝑖=1 などを最終 的な言語特徴にする 𝒉𝑡 = 𝜎 𝑾𝑞 𝒒𝑡 + 𝑾ℎ 𝒉𝑡−1 + 𝒃 • 𝜎は活性化関数 11

13.

Transformer台頭前のV&Lモデル:画像特徴と言語特徴のアライメント アライメントとは • 画像特徴と言語特徴を同じ空間で比較・統合できるようにする処理 • VQAの構成要素の統合に該当する ①要素積 • まずは、画像特徴𝑯𝐼 と言語特徴𝑯𝐿 の系列長と特徴ベクトルの次元数をPoolingなどで揃える • ベクトル間で要素積を計算し、アライメントを実施 𝑯𝐼+𝐿 = 𝑯𝐼 ⊙ 𝑯𝐿 • 簡単で計算効率も良いが、性質が大きく異なる組では不十分 ②外積 • 画像ベクトル𝒗と言語ベクトル𝒘の外積𝒗𝒘𝑇 によってアライメントする方法もある 12

14.

Transformer台頭前のV&Lモデル:画像特徴と言語特徴のアライメント ③言語特徴から画像特徴への注意(Attention) • 𝑑𝐼 ×𝑁 への注意を計算する RNNの最終出力(言語特徴)𝒉 𝑇 ∈ ℝ𝑑𝐿 から画像特徴𝑯𝐼 = {𝒗𝑖 }𝑁 𝑖=1 ∈ ℝ • 各画像特徴𝒗𝑖 ∈ ℝ𝑑𝐼 と言語特徴𝒉 𝑇 間の注意𝑎𝑖 を求める(全結合層) 𝑎𝑖 = 𝑾𝑎 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ] • 𝑾𝑎 ∈ ℝ1×𝑑 , 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑 , [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑𝐿+𝑑𝐼 , [𝒙, 𝒚]は𝒙と𝒚を結合する演算 𝑓𝑎 はゲート付きの非線形関数 𝑓𝑎 𝑥 = tanh 𝑾1 𝒙 + 𝒃1 ⊙ 𝜎 𝑾2 𝒙 + 𝒃2 𝑊1 , 𝑊2 ∈ ℝ𝑑×(𝑑𝐿+𝑑𝐼 ) , 𝑏1 , 𝑏2 ∈ ℝ𝑑 ⊙は要素積 ※RNNの派生形であるLSTMにもあるゲート構造LSTMネットワークの概要 • 𝑎𝑖 にソフトマックス関数を適用する • 注意ベクトルഥ 𝒂による𝒗𝑖 の重み付き和ෝ 𝒗を算出する exp 𝑎𝑖 𝑎ഥ𝑖 = σ𝑗 exp 𝑎𝑗 𝑁 ෝ = ෍ 𝑎ഥ𝑖 𝒗𝑖 𝒗 • ෝを分類ヘッドに入力する 最後に、 𝒗 𝑖=1 13

15.

Transformer台頭前のV&Lモデル:画像特徴と言語特徴のアライメント ④自己注意とクロス注意 • Transformer台頭に伴い、4.2.4項にある内積に基づく注意を利用したアライメントが提案さ れた。(代表例:MCAN) • 言語特徴は自己注意機構を配置 • 画像特徴は自己注意機構に加えて、言語特徴とのクロス注意機構を配置 𝑲𝑇 𝑸 𝑸ሖ = 𝑽softmax 𝑞 14