【深層学習による画像認識の基礎】8.3

>100 Views

July 02, 26

#深層学習 #画像認識 #Transformer #V&Lモデル #大規模事前学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2026前期輪読会 #11 2026/07/02 深層学習による画像認識の基礎 8.3 Transformer台頭後のV&Lモデル京都大学工学部理工化学科 B3 岡本和優 1

アジェンダ 8.3.1 個別のモデル設計から大規模事前学習へ 8.3.2 事前学習の基本方針 8.3.3 Oscar / VinVL 8.3.4 ALBEF 8.3.5 ITCとMLMの理論的背景 8.3.6 CoCa 8.3.7 ITCとキャプション生成の比較 8.3.8 CLIP 8.3.9 V&Lモデルの特性調査 2

8.3.1 従来手法の課題伝統的なVQAモデルでは、優れたモデル構造（注意機構や新しいネットワーク構造）の発見が分野を牽引してきた。汎用性の課題目的タスクごとに十分な学習データを収集し、かつモデルや解法も設計する必要がある目的タスク用に設計されたモデルを他のタスクに適用することは一般的に難しい 2つの学習方法の比較 (a) 伝統的な学習方法 (b) 大規模事前学習モデル目的タスクに特化した設計汎用 Transformer を事前学習データタスクごとに収集ウェブから大規模収集転用性低い複数タスクへ転用可能 3

8.3.1 大規模事前学習によるパラダイムシフト 2018〜2019年、GPT・BERTによる大規模事前学習が自然言語処理で大成功を収め、 V&L分野にも波及変化のポイント単一モデルで複数のV&Lタスクを扱うことが一般化モデル構造よりも事前学習方法やデータに重点が移動大規模事前学習に基づく方法は従来の V&L モデルを凌駕する性能を達成事前学習用データの充実ウェブ上には大量の画像と各画像に対応するキャプション（代替テキスト）ペアが存在し、収集が比較的容易これら大量のデータが画像表現と言語表現のアライメントに有効であることが実験的に示されている 4

8.3.2 事前学習の基本方針画像・キャプションペアデータを用い、以下のいずれか（またはその組み合わせ）のタスクを解くことで画像表現と言語表現のアライメントを図る事前学習タスク（3種類）画像からキャプションを生成する画像からキャプションの一部を補完する（Masked Language Modeling）画像とキャプションの1対1の対応関係を築く（検索・対比学習）アーキテクチャの2方向方向代表モデル特徴 Transformerエンコーダのみ Oscar, VinVL, ALBEF 識別・検索タスクに強いエンコーダ＋デコーダ CoCa 文章生成に対応 5

8.3.3 Oscar — 概要と設計方針 Oscar: BERT と同じ Transformer エンコーダ構造、物体タグを追加入力として活用通常のV&Lモデルとの違い入力系列通常モデル Oscar 画像領域特徴 HI ○ ○ キャプション単語埋め込み HL ○ ○ 物体タグ単語埋め込み HP ✗ ○ 物体タグを導入する目的画像内の中心的な物体はキャプション中にも含まれる可能性が高い → 言語情報として物体の存在を明示し、画像特徴とのアライメントを補助物体同士が重なるケースでも各物体を言語情報として明確に表現できる 6

8.3.3 Oscar — 入力系列の構成 3系列を結合した入力 : 領域特徴（学習済み Faster R-CNN で取得） HP = {tj }M j=1 : 物体タグの単語埋め込み（検出した物体クラス名のBERTの埋め込み） HL = {wk }Lk=1 : キャプション文の単語埋め込み（BERTの埋め込みを使用） d×N HI = {vi }N ∈ R i=1 7

8.3.3 Oscar — 事前学習: MLM Masked Language Modeling (MLM): 15%の確率で物体タグ・キャプション内の各単語を[MASK]に置換し、元の単語を予測、 LMLM = −E(HI , H)∼D log P (H m ∣ H ∖m , H I ) H ≡ [HF , HL ] H ∖m : マスクされていない単語系列、H m : マスクされた単語群学習の意義マスクされた単語を、周囲の単語列と画像情報 HI から正しく予測することで画像・言語のアライメントを促進 8

8.3.3 Oscar — 物体タグマッチング・FT 物体タグマッチング (TM): 50%の確率で物体タグ hF を別の入力画像から算出した物体タグと置換し、置換されたかどうかを2値分類 LTM = −EH∼D [y log s(H) + (1 − y) log(1 − s(H))] : [CLS]トークンを全結合層+シグモイドに入力して算出した予測、y ∈ {0, 1} 効果: TM導入によりVQAの回答精度が数%向上、収束速度も約1/2に短縮ファインチューニング事前学習後のモデルを7つのV&Lタスク上でファインチューニングモデル VQA 精度 MCAN（従来手法） 70.90% Oscar 73.82% s(H) 9

10.

8.3.3 VinVL — Oscar の拡張 VinVL: Oscar を拡張し、領域特徴の洗練化を図った手法改良点性能物体検出器 (Faster R-CNN) を巨大な物モデル VQA 精度体検出用データセットで大規模事前学習 MCAN 70.90% より洗練化された領域特徴を抽出 Oscar 73.82% V&L 事前学習に用いるデータセットも拡 VinVL 76.60% 大その他の設定は Oscar とほぼ同一 2021年3月時点で最も高精度なVQAモデル → 領域特徴の洗練化と事前学習データの拡大がともに重要 10

11.

8.3.4 ALBEF — モデル構造 ALBEF (Align Before Fuse): 物体検出器不要のV&Lモデル画像エンコーダ: 12層 ViT-B/16（グリッド特徴）、ImageNet-1K で事前学習言語エンコーダ: 6層 Transformer、 BERT 前半6層で初期化マルチモーダルエンコーダ: 6層 Transformer+クロス注意機構、 BERT 後半6層で初期化画像エンコーダ出力 → キー・バリュー言語エンコーダ出力 → クエリ 11

12.

8.3.4 ALBEF — 事前学習: ITC ITC (Image-Text Contrastive Learning): 画像エンコーダと言語エンコーダの出力クラストークン icls , tcls を用いた対比学習 B B 1 exp(s(In , Tn )/τ ) exp(s(Tn , In )/τ ) LITC = − (∑ log M + ∑ log M ) B n=1 ∑m=1 exp(s(In , Tm )/τ ) n=1 ∑m=1 exp(s(Tn , Im )/τ ) : クラストークン間の類似度（g(⋅): 全結合層） τ : 学習可能な温度パラメータ、B : ミニバッチサイズ負例の扱い: MoCo にならい、移動平均エンコーダからの直近 M 個の出力をキューに保持し負例として利用 → 大きなバッチサイズなしに豊富な負例を活用 s(I, T ) = gi (icls )⊤ gt′ (t′cls ) 12

13.

8.3.4 ALBEF — ITM事前学習と性能 ITM (Image-Text Matching): 画像・キャプションペアが正しいペアかどうかの2値分類マルチモーダルエンコーダ出力の [CLS] トークンを全結合層+softmax に入力し、クロスエントロピー損失を最小化 Hard negative sampling: ミニバッチ内で ITC 類似度が高い画像・キャプションを負例として選択（難しい負例を使い精度向上） VQA性能モデル物体検出器事前学習タスク VQA 精度 VinVL 必要 MLM + TM 76.60% ALBEF（大規模）不要 ITC + ITM + MLM 75.84% 13

14.

8.3.5 ITCとMLMの理論的背景 ITC と MLM はともに相互情報量の最大化として統一的に理解できる ITC と相互情報量 ITC は正例ペアにおける画像表現 I と言語表現 T 間の相互情報量を最大化 MLM と相互情報量 MLM は、単語埋め込みを ψ(⋅)、マスクされた単語位置のモデル出力を返す関数を f (I, T m ) とすると、以下を最小化することに相当： ⊤ m exp(ψ(tm ) f (I, T )) i LMLM = −Ep(I,T m ) [log ] ⊤ m ∑t∈V exp(ψ(t) f (I, T )) → マスクされた単語と、それ以外の情報（画像情報+マスクされていない単語系列）間の相互情報量を最大化することに相当 14

15.

8.3.6 CoCa — モデル構造 CoCa (Contrastive Captioners) : エンコーダ+デコーダ構成で文章生成が可能画像エンコーダ: 12〜40層 ViT（最大パラメータ数10億）言語デコーダ: クロス注意を除いた Transformerデコーダ言語モデリングとITC事前学習を実現マルチモーダルデコーダ: クロス注意を含む Transformerデコーダ → キャプション生成両者とも自己回帰的に出力するため causally-masked attention を使用 15

16.

8.3.6 CoCa — 事前学習事前学習タスク: ITC + キャプション生成の損失値の重み付き和を最小化 ITC キャプション生成 ALBEFと同様に対比学習を実施画像表現 Q∗t と位置 t までの部分キャプション y1:t から、位置 t + 1 の正解トークン v i ∈ Rd : 画像エンコーダ出力 X ∈ Rd×N にクロス注意を適用して算出した yt+1 を予測画像表現 p ^ = f (W z t ) wi ∈ Rd : 言語デコーダのクラストークン z t ∈ Rd : マルチモーダルデコーダの t 番目の出力ベクトル v i とwi のペアについて対比学習 W ∈ R∣V ∣×d 、f (⋅): softmax → 予測確率分布 p^ ∈ R∣V ∣ 正解トークン yt+1 に対する確率値 p^y が最大となるようにクロスエントロピー損失で最適化 t+1 16

17.

8.3.7 ITCとキャプション生成の事前学習効果の比較 ITC とキャプション生成はともに代表的な事前学習方法比較結果キャプション生成で事前学習した V&L モデルは、ITC で事前学習したものよりも VQA・OCR-VQA・画像キャプション生成・詳細クラス画像分類などの下流タスクで優れた性能詳細な理解が必要なタスクでは、キャプション生成の事前学習が大幅に優れた性能データセットサイズ・モデルサイズに対するスケーラビリティも、キャプション生成の方が優れていることを実験的に報告注意点事前学習に用いるデータ数を縮小した際の比較については、今後の更なる検証が必要下流タスクへの転用方法や画像エンコーダのアーキテクチャ種類によっても性能が大きく変化するため、多角的に評価する必要がある 17

18.

8.3.8 CLIP — 概要と対比学習 CLIP (Contrastive Language-Image Pre-Training): ウェブ収集画像・テキストペアで事前学習した大規模基盤モデル画像エンコーダ (ViT または ResNet) と言語エンコーダ (Transformer) をITCで共同最適化正例（対応ペア）の類似度を高め、負例（非対応ペア）の類似度を低くなるよう学習大規模なウェブデータを活用することで豊富な概念を学習 18

19.

8.3.8 CLIP — ゼロショット転用ゼロショット分類の手順 1. 各クラスに対して「A photo of a {class}.」形式のプロンプトを用意 2. 画像表現と格テキスト表現の類似度を計算 3. 類似度が最も高いクラスが予測結果特徴と意義タスク固有の学習データ・ファインチューニングなしで多様なタスクに対応 ImageNet 等の画像分類ベンチマークで高い汎化性能 19

20.

8.3.8 CLIP — CLIPの貢献 CLIPは V&L 研究を大きく発展させ、以降のモデルの多くに採用されている。主な貢献 Open-vocabulary 自然言語による制御可能性従来のワンホットベクトルでは表現しきゼロショット画像分類のように、自然言れない概念（物体の属性・個数・背景な語で画像認識器を制御可能にしたど）をキャプションで学習モデルの柔軟性を大きく向上させ、扱え任意のカテゴリに対する画像認識精度がるタスクの守備範囲を大きく拡大高いデータ収集コスト Long-tail ImageNet などの従来のデータセット構カテゴリ分布が不均衡（long-tail）な場築（アノテーション作業）に比べ、Web 合でも認識性能が優れているの画像・キャプションデータの収集は非常に低コスト 20

21.

8.3.8 CLIP — 特徴空間のズレと CyCLIP 問題: ITC で学習した場合、正例ペアはアライメントされるが、その他のデータペアには特に制約がなく、歪んだ特徴空間が構築される可能性不一致の定量化（CyCLIP）不一致の修正: CLIP の損失に 2 つの制約項を追加 PT (Ij ): 言語空間でのゼロショット分類 1 結果 LC-Cyclic = ∑ ∑(vj⊤ wk − vk⊤ wj )2 B PT∗ (Ij ): 画像空間での分類結果（k 近傍） j k N 1 Consistency Scorek = ∑ 1[PT∗ (Ij ) = PT (Ij )] N j=1 1 LI-Cyclic = ∑ ∑(vj⊤ vk − wk⊤ wj )2 B j k CLIPの一致度 (k = 1): CIFAR-10: 44%、負例ペア間の類似度・画像間、キャプショ CIFAR-100: 16%、ImageNet-1K: 16% ン間の類似度をそろえる →画像空間と言語空間で不一致が発生 21

22.

8.3.8 CLIP — ファインチューニング (PAINT) 問題: 破滅的忘却単純にファインチューニングした場合、対象タスク以外の性能が大きく劣化してしまう PAINT (Patching with Interpolation): 特定タスクの精度を向上させつつ、他タスクの精度劣化を極力抑えるファインチューニング方法ステップ 1. 特定タスクの学習データ Dft でCLIPをファインチューニング（言語エンコーダの重みは固定、画像エンコーダの重みのみ更新） → 重み θft を得る 2. 係数 α ∈ [0, 1] を用いて、事前学習済みの重み θzs とファインチューニング後の重み θft を線形補間: θ pt = (1 − α) ⋅ θ zs + α ⋅ θ ft 22

23.

8.3.9 V&Lモデルの特性調査 — VL-checklist 下流タスクの精度だけでは V&L モデルがどのような特性をもつのかが不明瞭。VLchecklist はキャプション内の特定単語を入れ替えた場合に ITM 精度がどう変化するかを調べるベンチマーク 3つの置換カテゴリ (a) 物体名称の置換: 名詞をランダムに他評価方法 p xn の名詞と入れ替え（入れ替わる名詞物体 ∑M f (x m, m) m=1 Acc = の画像内でのサイズや場所による影響も M 調査） xpm : 正例サンプル、xnm : 負例サンプル（単 (b) 属性の置換: サイズ・物質・状態・行語入れ替え後）動・色に関する単語を入れ替え f : 正例スコア > 負例スコアなら1、それ以 (c) 2物体間の関係性の置換: 空間的な前外は0 置詞（in, on, at）と述語の2種類を入れ → 精度が高いほど画像表現と言語表現が適切に結び付いている替え 23

24.

8.3.9 V&Lモデルの特性調査 — CLIPの評価と示唆 CLIPのVL-checklistでの評価結果置換カテゴリ ITM精度評価 (a) 物体名称 80%以上好成績 (b) 属性一部で65%未満苦手 (c) 2物体間の空間的な関係性（前置詞）約50%（ランダム同等）非常に低い原因の分析対比学習の損失を小さくするためには、必ずしも細かな関係性に着目する必要がない改善方向区別がしづらい負例サンプルをうまく生成し、それらを使ってモデルをファインチューニングすることで、VL-checklist などの精度を大きく向上させられる 24

25.

まとめ大規模事前学習が V&L 分野のパラダイムを変えたモデル構造の細かい工夫よりも、事前学習方法とデータ規模が性能を左右する時代へ単一モデルで複数タスクを扱うことが標準に主要な事前学習タスク ITC: 画像・テキストの対応関係を対比学習で埋め込み空間に整合づける MLM: マスクされた単語を画像+文脈から予測することで細粒度のアライメントを促進キャプション生成: ITC より多くのタスクで高精度・高スケーラビリティ限界と今後対比学習モデルは、空間的関係性や細かい属性の理解が苦手ゼロショット能力（CLIP）やデコーダの追加（CoCa）によってモデルの汎用性が拡大 25