---
title: 【深層学習による画像認識の基礎】8.3
tags: 
author: [京都大学人工知能研究会KaiRA](https://image.docswell.com/user/kyoto-kaira)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/PJXQ5DK17X.jpg?width=480
description: 【深層学習による画像認識の基礎】8.3 by 京都大学人工知能研究会KaiRA
published: July 02, 26
canonical: https://image.docswell.com/s/kyoto-kaira/5R88D2-2026-07-02-211203
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/PJXQ5DK17X.jpg)

2026前期輪読会 #11 2026/07/02
深層学習による画像認識の基礎
8.3 Transformer台頭後のV&amp;Lモデル
京都大学工学部理工化学科 B3
岡本 和優
1


# Page. 2

![Page Image](https://bcdn.docswell.com/page/3JK96X5MJD.jpg)

アジェンダ
8.3.1 個別のモデル設計から大規模事前学習へ
8.3.2 事前学習の基本方針
8.3.3 Oscar / VinVL
8.3.4 ALBEF
8.3.5 ITCとMLMの理論的背景
8.3.6 CoCa
8.3.7 ITCとキャプション生成の比較
8.3.8 CLIP
8.3.9 V&amp;Lモデルの特性調査
2


# Page. 3

![Page Image](https://bcdn.docswell.com/page/LE3W65K2E5.jpg)

8.3.1 従来手法の課題
伝統的なVQAモデルでは、優れたモデル構造（注意機構や新しいネットワーク構造）の発
見が分野を牽引してきた。
汎用性の課題
目的タスクごとに十分な学習データを収集し、かつモデルや解法も設計する必要がある
目的タスク用に設計されたモデルを他のタスクに適用することは一般的に難しい
2つの学習方法の比較
(a) 伝統的な学習方法
(b) 大規模事前学習
モデル 目的タスクに特化した設計 汎用 Transformer を事前学習
データ タスクごとに収集
ウェブから大規模収集
転用性 低い
複数タスクへ転用可能
3


# Page. 4

![Page Image](https://bcdn.docswell.com/page/8EDKVD367G.jpg)

8.3.1 大規模事前学習によるパラダイムシフト
2018〜2019年、GPT・BERTによる大規模事前学習が自然言語処理で大成功を収め、
V&amp;L分野にも波及
変化のポイント
単一モデルで複数のV&amp;Lタスクを扱うことが一般化
モデル構造よりも事前学習方法やデータに重点が移動
大規模事前学習に基づく方法は従来の V&amp;L モデルを凌駕する性能を達成
事前学習用データの充実
ウェブ上には大量の画像と各画像に対応するキャプション（代替テキスト）ペアが存在
し、収集が比較的容易
これら大量のデータが画像表現と言語表現のアライメントに有効であることが実験的に
示されている
4


# Page. 5

![Page Image](https://bcdn.docswell.com/page/V7PKVXPZJ8.jpg)

8.3.2 事前学習の基本方針
画像・キャプションペアデータを用い、以下のいずれか（またはその組み合わせ）のタス
クを解くことで画像表現と言語表現のアライメントを図る
事前学習タスク（3種類）
画像からキャプションを生成する
画像からキャプションの一部を補完する（Masked Language Modeling）
画像とキャプションの1対1の対応関係を築く（検索・対比学習）
アーキテクチャの2方向
方向
代表モデル
特徴
Transformerエンコーダのみ Oscar, VinVL, ALBEF 識別・検索タスクに強い
エンコーダ＋デコーダ
CoCa
文章生成に対応
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/2JVVZL2MJQ.jpg)

8.3.3 Oscar — 概要と設計方針
Oscar: BERT と同じ Transformer エンコーダ構造、物体タグを追加入力として活用
通常のV&amp;Lモデルとの違い
入力系列
通常モデル Oscar
画像領域特徴 HI
○
○
キャプション単語埋め込み HL ○
○
物体タグ単語埋め込み HP
✗
○
物体タグを導入する目的
画像内の中心的な物体はキャプション中にも含まれる可能性が高い
→ 言語情報として物体の存在を明示し、画像特徴とのアライメントを補助
物体同士が重なるケースでも各物体を言語情報として明確に表現できる
​
​
​
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/5EGL4XRXJL.jpg)

8.3.3 Oscar — 入力系列の構成
3系列を結合した入力
: 領域特徴（学習済み Faster R-CNN で取得）
HP = {tj }M
j=1 : 物体タグの単語埋め込み（検出した物体クラス名のBERTの埋め込み）
HL = {wk }Lk=1 : キャプション文の単語埋め込み（BERTの埋め込みを使用）
d×N
HI = {vi }N
∈
R
i=1
​
​
​
​
​
​
​
​
​
7


# Page. 8

![Page Image](https://bcdn.docswell.com/page/4JQYG8V57P.jpg)

8.3.3 Oscar — 事前学習: MLM
Masked Language Modeling (MLM): 15%の確率で物体タグ・キャプション内の各
単語を[MASK]に置換し、元の単語を予測
、
LMLM = −E(HI , H)∼D log P (H m ∣ H ∖m , H I )
H ≡ [HF , HL ] H ∖m
​
​
​
​
​
: マスクされていない単語系列、H m : マスクされた単語群
​
学習の意義
マスクされた単語を、周囲の単語列と画像情報 HI から正しく予測することで
画像・言語のアライメントを促進
​
​
​
​
​
8


# Page. 9

![Page Image](https://bcdn.docswell.com/page/K74W52MVE1.jpg)

8.3.3 Oscar — 物体タグマッチング・FT
物体タグマッチング (TM): 50%の確率で物体タグ hF を別の入力画像から算出した物体
タグと置換し、置換されたかどうかを2値分類
​
LTM = −EH∼D [y log s(H) + (1 − y) log(1 − s(H))]
​
​
: [CLS]トークンを全結合層+シグモイドに入力して算出した予測、y ∈ {0, 1}
効果: TM導入によりVQAの回答精度が数%向上、収束速度も約1/2に短縮
ファインチューニング
事前学習後のモデルを7つのV&amp;Lタスク上でファインチューニング
モデル
VQA 精度
MCAN（従来手法） 70.90%
Oscar
73.82%
s(H)
9


# Page. 10

![Page Image](https://bcdn.docswell.com/page/LJ1YWM84EG.jpg)

8.3.3 VinVL — Oscar の拡張
VinVL: Oscar を拡張し、領域特徴の洗練化を図った手法
改良点
性能
物体検出器 (Faster R-CNN) を巨大な物 モデル VQA 精度
体検出用データセットで大規模事前学習 MCAN 70.90%
より洗練化された領域特徴を抽出
Oscar
73.82%
V&amp;L 事前学習に用いるデータセットも拡
VinVL 76.60%
大
その他の設定は Oscar とほぼ同一
2021年3月時点で最も高精度なVQAモデル
→ 領域特徴の洗練化と事前学習データの拡
大がともに重要
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/GJWG63ZZ72.jpg)

8.3.4 ALBEF — モデル構造
ALBEF (Align Before Fuse): 物体検出器不要のV&amp;Lモデル
画像エンコーダ: 12層 ViT-B/16（グリッ
ド特徴）、ImageNet-1K で事前学習
言語エンコーダ: 6層 Transformer、
BERT 前半6層で初期化
マルチモーダルエンコーダ:
6層 Transformer+クロス注意機構、
BERT 後半6層で初期化
画像エンコーダ出力 → キー・バリュー
言語エンコーダ出力 → クエリ
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4EZLYV1L73.jpg)

8.3.4 ALBEF — 事前学習: ITC
ITC (Image-Text Contrastive Learning): 画像エンコーダと言語エンコーダの出力ク
ラストークン icls , tcls を用いた対比学習
​
​
B
B
1
exp(s(In , Tn )/τ )
exp(s(Tn , In )/τ )
LITC = − (∑ log M
+ ∑ log M
)
B n=1
∑m=1 exp(s(In , Tm )/τ ) n=1
∑m=1 exp(s(Tn , Im )/τ )
​
​
​
​
​
​
​
​
​
​
​
​
​
​
​
​
: クラストークン間の類似度（g(⋅): 全結合層）
τ : 学習可能な温度パラメータ、B : ミニバッチサイズ
負例の扱い: MoCo にならい、移動平均エンコーダからの直近 M 個の出力をキューに保
持し負例として利用 → 大きなバッチサイズなしに豊富な負例を活用
s(I, T ) = gi (icls )⊤ gt′ (t′cls )
​
​
​
​
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/Y76WD5LM7V.jpg)

8.3.4 ALBEF — ITM事前学習と性能
ITM (Image-Text Matching): 画像・キャプションペアが正しいペアかどうかの2値分
類
マルチモーダルエンコーダ出力の [CLS] トークンを全結合層+softmax に入力し、クロ
スエントロピー損失を最小化
Hard negative sampling: ミニバッチ内で ITC 類似度が高い画像・キャプションを
負例として選択（難しい負例を使い精度向上）
VQA性能
モデル
物体検出器 事前学習タスク VQA 精度
VinVL
必要 MLM + TM
76.60%
ALBEF（大規模） 不要 ITC + ITM + MLM 75.84%
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/G75M3Y1Q74.jpg)

8.3.5 ITCとMLMの理論的背景
ITC と MLM はともに相互情報量の最大化として統一的に理解できる
ITC と相互情報量
ITC は正例ペアにおける画像表現 I と言語表現 T 間の相互情報量を最大化
MLM と相互情報量
MLM は、単語埋め込みを ψ(⋅)、マスクされた単語位置のモデル出力を返す関数を
f (I, T m ) とすると、以下を最小化することに相当：
⊤
m
exp(ψ(tm
)
f
(I,
T
))
i
LMLM = −Ep(I,T m ) [log
]
⊤
m
∑t∈V exp(ψ(t) f (I, T ))
​
​
​
​
→ マスクされた単語と、それ以外の情報（画像情報+マスクされていない単語系列）間の
相互情報量を最大化することに相当
​
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/9J29ZG1WER.jpg)

8.3.6 CoCa — モデル構造
CoCa (Contrastive Captioners) : エンコーダ+デコーダ構成で文章生成が可能
画像エンコーダ: 12〜40層 ViT（最大パ
ラメータ数10億）
言語デコーダ: クロス注意を除いた
Transformerデコーダ
言語モデリングとITC事前学習を実現
マルチモーダルデコーダ: クロス注意を含
む Transformerデコーダ → キャプショ
ン生成
両者とも自己回帰的に出力するため
causally-masked attention を使用
15


# Page. 16

![Page Image](https://bcdn.docswell.com/page/DEY4RVZ9JM.jpg)

8.3.6 CoCa — 事前学習
事前学習タスク: ITC + キャプション生成の損失値の重み付き和を最小化
ITC
キャプション生成
ALBEFと同様に対比学習を実施
画像表現 Q∗t と位置 t までの部分キャプシ
ョン y1:t から、位置 t + 1 の正解トークン
v i ∈ Rd : 画像エンコーダ出力 X ∈
Rd×N にクロス注意を適用して算出した yt+1 を予測
画像表現
p
^ = f (W z t )
wi ∈ Rd : 言語デコーダのクラストークン
z t ∈ Rd : マルチモーダルデコーダの t 番
目の出力ベクトル
v i とwi のペアについて対比学習
W ∈ R∣V ∣×d 、f (⋅): softmax → 予測確
率分布 p^ ∈ R∣V ∣
正解トークン yt+1 に対する確率値 p^y が最大となるようにクロスエントロピー損失で
最適化
​
​
​
​
​
​
​
​
​
​
​
​
​
t+1
​
​
16


# Page. 17

![Page Image](https://bcdn.docswell.com/page/VJNYDM3D78.jpg)

8.3.7 ITCとキャプション生成の事前学習効果の比較
ITC とキャプション生成はともに代表的な事前学習方法
比較結果
キャプション生成で事前学習した V&amp;L モデルは、ITC で事前学習したものよりも
VQA・OCR-VQA・画像キャプション生成・詳細クラス画像分類などの下流タスクで
優れた性能
詳細な理解が必要なタスクでは、キャプション生成の事前学習が大幅に優れた性能
データセットサイズ・モデルサイズに対するスケーラビリティも、キャプション生成の
方が優れていることを実験的に報告
注意点
事前学習に用いるデータ数を縮小した際の比較については、今後の更なる検証が必要
下流タスクへの転用方法や画像エンコーダのアーキテクチャ種類によっても性能が大き
く変化するため、多角的に評価する必要がある
17


# Page. 18

![Page Image](https://bcdn.docswell.com/page/YE9PGN98J3.jpg)

8.3.8 CLIP — 概要と対比学習
CLIP (Contrastive Language-Image
Pre-Training): ウェブ収集画像・テキスト
ペアで事前学習した大規模基盤モデル
画像エンコーダ (ViT または ResNet) と
言語エンコーダ (Transformer) をITCで
共同最適化
正例（対応ペア）の類似度を高め、負例
（非対応ペア）の類似度を低くなるよう
学習
大規模なウェブデータを活用することで
豊富な概念を学習
18


# Page. 19

![Page Image](https://bcdn.docswell.com/page/GE8DVK9ZED.jpg)

8.3.8 CLIP — ゼロショット転用
ゼロショット分類の手順
1. 各クラスに対して「A photo of a
{class}.」形式のプロンプトを用意
2. 画像表現と格テキスト表現の類似度を
計算
3. 類似度が最も高いクラスが予測結果
特徴と意義
タスク固有の学習データ・ファインチュ
ーニングなしで多様なタスクに対応
ImageNet 等の画像分類ベンチマークで
高い汎化性能
19


# Page. 20

![Page Image](https://bcdn.docswell.com/page/LELM5ZW17R.jpg)

8.3.8 CLIP — CLIPの貢献
CLIPは V&amp;L 研究を大きく発展させ、以降のモデルの多くに採用されている。
主な貢献
Open-vocabulary
自然言語による制御可能性
従来のワンホットベクトルでは表現しき ゼロショット画像分類のように、自然言
れない概念（物体の属性・個数・背景な 語で画像認識器を制御可能にした
ど）をキャプションで学習
モデルの柔軟性を大きく向上させ、扱え
任意のカテゴリに対する画像認識精度が るタスクの守備範囲を大きく拡大
高い
データ収集コスト
Long-tail
ImageNet などの従来のデータセット構
カテゴリ分布が不均衡（long-tail）な場 築（アノテーション作業）に比べ、Web
合でも認識性能が優れている
の画像・キャプションデータの収集は非
常に低コスト
20


# Page. 21

![Page Image](https://bcdn.docswell.com/page/4JMY3V95JW.jpg)

8.3.8 CLIP — 特徴空間のズレと CyCLIP
問題: ITC で学習した場合、正例ペアはアライメントされるが、その他のデータペアには
特に制約がなく、歪んだ特徴空間が構築される可能性
不一致の定量化（CyCLIP）
不一致の修正: CLIP の損失に 2 つの制約項
を追加
PT (Ij ): 言語空間でのゼロショット分類
1
結果
LC-Cyclic = ∑ ∑(vj⊤ wk − vk⊤ wj )2
B
PT∗ (Ij ): 画像空間での分類結果（k 近傍）
j
k
​
​
​
​
​
​
​
​
​
​
​
​
N
1
Consistency Scorek =
∑ 1[PT∗ (Ij ) = PT (Ij )]
N j=1
​
​
​
​
​
​
​
1
LI-Cyclic = ∑ ∑(vj⊤ vk − wk⊤ wj )2
B
​
​
​
j
​
​
​
​
​
k
CLIPの一致度 (k = 1): CIFAR-10: 44%、 負例ペア間の類似度・画像間、キャプショ
CIFAR-100: 16%、ImageNet-1K: 16% ン間の類似度をそろえる
→画像空間と言語空間で不一致が発生
21


# Page. 22

![Page Image](https://bcdn.docswell.com/page/PJR9Q2GZ79.jpg)

8.3.8 CLIP — ファインチューニング (PAINT)
問題: 破滅的忘却
単純にファインチューニングした場合、対象タスク以外の性能が大きく劣化してしまう
PAINT (Patching with Interpolation): 特定タスクの精度を向上させつつ、他タスク
の精度劣化を極力抑えるファインチューニング方法
ステップ
1. 特定タスクの学習データ Dft でCLIPをファインチューニング（言語エンコーダの重
みは固定、画像エンコーダの重みのみ更新） → 重み θft を得る
2. 係数 α ∈ [0, 1] を用いて、事前学習済みの重み θzs とファインチューニング後の重
み θft を線形補間:
​
​
​
θ pt = (1 − α) ⋅ θ zs + α ⋅ θ ft
​
​
​
22


# Page. 23

![Page Image](https://bcdn.docswell.com/page/PEXQ5DX1JX.jpg)

8.3.9 V&amp;Lモデルの特性調査 — VL-checklist
下流タスクの精度だけでは V&amp;L モデルがどのような特性をもつのかが不明瞭。VLchecklist はキャプション内の特定単語を入れ替えた場合に ITM 精度がどう変化するか
を調べるベンチマーク
3つの置換カテゴリ
(a) 物体名称の置換: 名詞をランダムに他 評価方法
p xn
の名詞と入れ替え（入れ替わる名詞物体
∑M
f
(x
m, m)
m=1
Acc =
の画像内でのサイズや場所による影響も
M
調査）
xpm : 正例サンプル、xnm : 負例サンプル（単
(b) 属性の置換: サイズ・物質・状態・行 語入れ替え後）
動・色に関する単語を入れ替え
f : 正例スコア &gt; 負例スコアなら1、それ以
(c) 2物体間の関係性の置換: 空間的な前 外は0
置詞（in, on, at）と述語の2種類を入れ → 精度が高いほど画像表現と言語表現が適
切に結び付いている
替え
23
​
​
​
​
​
​


# Page. 24

![Page Image](https://bcdn.docswell.com/page/3EK96XWMED.jpg)

8.3.9 V&amp;Lモデルの特性調査 — CLIPの評価と示唆
CLIPのVL-checklistでの評価結果
置換カテゴリ
ITM精度
評価
(a) 物体名称
80%以上
好成績
(b) 属性
一部で65%未満 苦手
(c) 2物体間の空間的な関係性（前置詞） 約50%（ランダム同等） 非常に低い
原因の分析
対比学習の損失を小さくするためには、必ずしも細かな関係性に着目する必要がない
改善方向
区別がしづらい負例サンプルをうまく生成し、それらを使ってモデルをファインチュー
ニングすることで、VL-checklist などの精度を大きく向上させられる
24


# Page. 25

![Page Image](https://bcdn.docswell.com/page/L73W651275.jpg)

まとめ
大規模事前学習が V&amp;L 分野のパラダイムを変えた
モデル構造の細かい工夫よりも、事前学習方法とデータ規模が性能を左右する時代へ
単一モデルで複数タスクを扱うことが標準に
主要な事前学習タスク
ITC: 画像・テキストの対応関係を対比学習で埋め込み空間に整合づける
MLM: マスクされた単語を画像+文脈から予測することで細粒度のアライメントを促進
キャプション生成: ITC より多くのタスクで高精度・高スケーラビリティ
限界と今後
対比学習モデルは、空間的関係性や細かい属性の理解が苦手
ゼロショット能力（CLIP）やデコーダの追加（CoCa）によってモデルの汎用性が拡大
25