---
title: 【深層学習による画像認識の基礎】8.1~8.2
tags: 
author: [京都大学人工知能研究会KaiRA](https://image.docswell.com/user/kyoto-kaira)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/47QYG865EP.jpg?width=480
description: 【深層学習による画像認識の基礎】8.1~8.2 by 京都大学人工知能研究会KaiRA
published: July 02, 26
canonical: https://image.docswell.com/s/kyoto-kaira/KN77DR-2026-07-02-211136
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/47QYG865EP.jpg)

2026 前期輪読会 #12 深層学習による画像認識の基礎
画像と自然言語8.1~8.2
京都大学 工学部情報学科B4
宮前明生
0


# Page. 2

![Page Image](https://bcdn.docswell.com/page/KE4W524VJ1.jpg)

アジェンダ
◼ 画像と自然言語
◼ Transformer台頭前のV&amp;Lモデル
1


# Page. 3

![Page Image](https://bcdn.docswell.com/page/L71YWM44JG.jpg)

アジェンダ
◼ 画像と自然言語
◼ Transformer台頭前のV&amp;Lモデル
2


# Page. 4

![Page Image](https://bcdn.docswell.com/page/G7WG63XZE2.jpg)

画像と自然言語
画像と自然言語（Vision and Language; V&amp;L）
• 画像と自然言語という異なる 2つを扱うマルチモーダル情報処理
例①画像質問応答 （Visual Question Answering;
VQA）
• 与えられた画像に関する質問に答えるタスク
例②画像キャプション生成 （image captioning）
• 与えられた画像に関する説明文を自然言語で記述
するタスク
3


# Page. 5

![Page Image](https://bcdn.docswell.com/page/4JZLYV6LE3.jpg)

画像と自然言語：さまざまなタスク
画像・テキスト検索
Visual Grounding
•
与えられた画像(テキスト)に最も適合するデータ
ベース内のテキスト(画像)を検索するタスク
•
画像内の領域とテキスト内のフレーズの部分的な
対応付けを行うタスク
•
代表的なモデル: CLIP(Contrastive Language–
Image Pre-training)
•
代表的なモデル: SCAN(Stacked Cross
Attention Network)
CLIP: https://arxiv.org/abs/2103.00020
SCAN: https://arxiv.org/abs/1803.08024
4


# Page. 6

![Page Image](https://bcdn.docswell.com/page/YE6WD52MEV.jpg)

画像と自然言語：さまざまなタスク
画像付き対話
•
•
2人組の自然言語と画像を用いた対話履歴から、
対話中に登場する画像に関する質問に回答するタ
スク
代表的なモデル: Flamingo
Flamingo:https://arxiv.org/abs/2204.14198
テキストからの画像生成
•
与えられたテキストからその内容を表す画像を生
成するタスク
•
代表的なモデル: 拡散モデル
画像元:https://kyotokaira.github.io/assets/docs/NF_2025.pdf
5


# Page. 7

![Page Image](https://bcdn.docswell.com/page/GE5M3Y2QE4.jpg)

画像と自然言語：さまざまなタスク
V&amp;Lナビゲーション
• ある環境下にいるロボットに対して，自然言語で指示を与え、目的地に到達させるタスク
• 代表的なモデル: Speaker-Follower Models for Vision-and-Language Navigation
画像元:https://arxiv.org/abs/1806.02724
6


# Page. 8

![Page Image](https://bcdn.docswell.com/page/9729ZG4WJR.jpg)

画像と自然言語：V&amp;Lの難しさ
V&amp;Lの最大の課題
• 画像データとテキストデータはまったく異なる性質をもつ
• 2種類のデータをうまく結びつけるには、画像とテキストで共通の特徴空間にそれぞれを射影
し，対応する概念同士が最近傍に存在するように学習する必要がある
7


# Page. 9

![Page Image](https://bcdn.docswell.com/page/DJY4RVM97M.jpg)

アジェンダ
◼ 画像と自然言語
◼ Transformer台頭前のV&amp;Lモデル
8


# Page. 10

![Page Image](https://bcdn.docswell.com/page/V7NYDMWDE8.jpg)

Transformer台頭前のV&amp;Lモデル：伝統的なVQAモデル
Transformer台頭前のV&amp;Lモデル
• 2018年後半から 2019年にかけて， GPTやBERTなど大規模言語モデル以前の画像質問応答
（Visual Question Answering; VQA）モデル
伝統的なVQAの構成要素
• 画像エンコーダー（CNN）
• 言語エンコーダー（RNN）
• 統合
• 分類ヘッド
9


# Page. 11

![Page Image](https://bcdn.docswell.com/page/YJ9PGNX873.jpg)

Transformer台頭前のV&amp;Lモデル：画像エンコーダー
グリッド特徴
•
画像をℎ × 𝑤の格子状に分割した各領域に対応する
特徴ベクトルとして見なせる
•
画像全体に適応したCNNやViTが出力する中間特
徴マップを画像エンコーダーの出力とする
•
一般的に、ImageNet-1Kで事前学習したCNNで
分類ヘッド前の特徴マップ𝑽 ∈ ℝ𝑑𝐼×ℎ×𝑤 を用いる
•
最後に、空間方向のベクトルを1列にする
𝑑𝐼 ×𝑁
𝑯𝐼 = {𝒗𝑖 }𝑁
∈
ℝ
𝑁 = ℎ𝑤
𝑖=1
利点として、画像全体の情報を利用できる
•
領域特徴
•
画像内のN個の物体領域から抽出する
•
一般的には、FasterR-CNNのRoI Pooling後の特
徴マップ𝒗𝑖 ∈ ℝ𝑑𝐼 ×ℎ×𝑤 を用いる
•
最後に、各𝑣𝑖 を空間方向に対して平均化する
•
課題として
• 計算コストが大きい
• 物体同士の関係性を捉えることが困難
• 検出漏れの可能性がある
𝑑𝐼 ×𝑁
𝑯𝐼 = {ഥ
𝒗 𝑖 }𝑁
∈
ℝ
𝑖=1
FasterR-CNNの全体像
RoI Pooling後
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/GJ8DVK2ZJD.jpg)

Transformer台頭前のV&amp;Lモデル：言語エンコーダー
分かち書き
• 文章を単語単位で分割：“What is the object behind the sheep?”
単語埋め込み
• GloVeなどの手法で、各単語を𝑑𝐿 次元ベクトルへ変換
• 𝑇単語の質問文から単語埋め込み系列{𝒒𝑖 }𝑇𝑖=1 が得られる
RNN（再起型ニューラルネットワーク）
• 文章などの系列データを扱うのに適したニューラルネットワーク
• 位置𝑡における系列データ𝒒𝑡 と直前で得られた隠れ状態ベクトル𝒉𝑡−1 から、次の隠れ状態ベク
トル𝒉𝑡 を出力する
• すべての単語埋め込みを利用した隠れ状態ベクトル𝒉 𝑇 や、すべての中間出力{𝒉𝑖 }𝑇𝑖=1 などを最終
的な言語特徴にする
𝒉𝑡 = 𝜎 𝑾𝑞 𝒒𝑡 + 𝑾ℎ 𝒉𝑡−1 + 𝒃
• 𝜎は活性化関数
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/LJLM5Z21ER.jpg)

Transformer台頭前のV&amp;Lモデル：画像特徴と言語特徴のアライメント
アライメントとは
• 画像特徴と言語特徴を同じ空間で比較・統合できるようにする処理
• VQAの構成要素の統合に該当する
①要素積
• まずは、画像特徴𝑯𝐼 と言語特徴𝑯𝐿 の系列長と特徴ベクトルの次元数をPoolingなどで揃える
• ベクトル間で要素積を計算し、アライメントを実施 𝑯𝐼+𝐿 = 𝑯𝐼 ⊙ 𝑯𝐿
• 簡単で計算効率も良いが、性質が大きく異なる組では不十分
②外積
• 画像ベクトル𝒗と言語ベクトル𝒘の外積𝒗𝒘𝑇 によってアライメントする方法もある
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/47MY3V857W.jpg)

Transformer台頭前のV&amp;Lモデル：画像特徴と言語特徴のアライメント
③言語特徴から画像特徴への注意(Attention)
•
𝑑𝐼 ×𝑁 への注意を計算する
RNNの最終出力（言語特徴）𝒉 𝑇 ∈ ℝ𝑑𝐿 から画像特徴𝑯𝐼 = {𝒗𝑖 }𝑁
𝑖=1 ∈ ℝ
•
各画像特徴𝒗𝑖 ∈ ℝ𝑑𝐼 と言語特徴𝒉 𝑇 間の注意𝑎𝑖 を求める（全結合層）
𝑎𝑖 = 𝑾𝑎 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ]
•
𝑾𝑎 ∈ ℝ1×𝑑 , 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑 , [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑𝐿+𝑑𝐼 , [𝒙, 𝒚]は𝒙と𝒚を結合する演算
𝑓𝑎 はゲート付きの非線形関数
𝑓𝑎 𝑥 = tanh 𝑾1 𝒙 + 𝒃1 ⊙ 𝜎 𝑾2 𝒙 + 𝒃2
𝑊1 , 𝑊2 ∈ ℝ𝑑×(𝑑𝐿+𝑑𝐼 ) , 𝑏1 , 𝑏2 ∈ ℝ𝑑 ⊙は要素積
※RNNの派生形であるLSTMにもあるゲート構造LSTMネットワークの概要
•
𝑎𝑖 にソフトマックス関数を適用する
•
注意ベクトルഥ
𝒂による𝒗𝑖 の重み付き和ෝ
𝒗を算出する
exp 𝑎𝑖
𝑎ഥ𝑖 =
σ𝑗 exp 𝑎𝑗
𝑁
ෝ = ෍ 𝑎ഥ𝑖 𝒗𝑖
𝒗
•
ෝを分類ヘッドに入力する
最後に、 𝒗
𝑖=1
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/P7R9Q25ZE9.jpg)

Transformer台頭前のV&amp;Lモデル：画像特徴と言語特徴のアライメント
④自己注意とクロス注意
• Transformer台頭に伴い、4.2.4項にある内積に基づく注意を利用したアライメントが提案さ
れた。（代表例：MCAN）
• 言語特徴は自己注意機構を配置
• 画像特徴は自己注意機構に加えて、言語特徴とのクロス注意機構を配置
𝑲𝑇 𝑸
𝑸ሖ = 𝑽softmax
𝑞
14