【深層学習による画像認識の基礎】8.1~8.2

>100 Views

July 02, 26

#画像認識 #自然言語処理 #マルチモーダル #深層学習 #Transformer以前

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2026 前期輪読会 #12 深層学習による画像認識の基礎画像と自然言語8.1~8.2 京都大学工学部情報学科B4 宮前明生 0

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 1

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 2

画像と自然言語画像と自然言語（Vision and Language; V&L） • 画像と自然言語という異なる 2つを扱うマルチモーダル情報処理例①画像質問応答（Visual Question Answering; VQA） • 与えられた画像に関する質問に答えるタスク例②画像キャプション生成（image captioning） • 与えられた画像に関する説明文を自然言語で記述するタスク 3

画像と自然言語：さまざまなタスク画像・テキスト検索 Visual Grounding • 与えられた画像(テキスト)に最も適合するデータベース内のテキスト(画像)を検索するタスク • 画像内の領域とテキスト内のフレーズの部分的な対応付けを行うタスク • 代表的なモデル: CLIP(Contrastive Language– Image Pre-training) • 代表的なモデル: SCAN(Stacked Cross Attention Network) CLIP: https://arxiv.org/abs/2103.00020 SCAN: https://arxiv.org/abs/1803.08024 4

画像と自然言語：さまざまなタスク画像付き対話 • • 2人組の自然言語と画像を用いた対話履歴から、対話中に登場する画像に関する質問に回答するタスク代表的なモデル: Flamingo Flamingo:https://arxiv.org/abs/2204.14198 テキストからの画像生成 • 与えられたテキストからその内容を表す画像を生成するタスク • 代表的なモデル: 拡散モデル画像元:https://kyotokaira.github.io/assets/docs/NF_2025.pdf 5

画像と自然言語：さまざまなタスク V&Lナビゲーション • ある環境下にいるロボットに対して，自然言語で指示を与え、目的地に到達させるタスク • 代表的なモデル: Speaker-Follower Models for Vision-and-Language Navigation 画像元:https://arxiv.org/abs/1806.02724 6

https://arxiv.org/abs/1806.02724

画像と自然言語：V&Lの難しさ V&Lの最大の課題 • 画像データとテキストデータはまったく異なる性質をもつ • 2種類のデータをうまく結びつけるには、画像とテキストで共通の特徴空間にそれぞれを射影し，対応する概念同士が最近傍に存在するように学習する必要がある 7

アジェンダ ◼ 画像と自然言語 ◼ Transformer台頭前のV&Lモデル 8

10.

Transformer台頭前のV&Lモデル：伝統的なVQAモデル Transformer台頭前のV&Lモデル • 2018年後半から 2019年にかけて， GPTやBERTなど大規模言語モデル以前の画像質問応答（Visual Question Answering; VQA）モデル伝統的なVQAの構成要素 • 画像エンコーダー（CNN） • 言語エンコーダー（RNN） • 統合 • 分類ヘッド 9

11.

Transformer台頭前のV&Lモデル：画像エンコーダーグリッド特徴 • 画像をℎ × 𝑤の格子状に分割した各領域に対応する特徴ベクトルとして見なせる • 画像全体に適応したCNNやViTが出力する中間特徴マップを画像エンコーダーの出力とする • 一般的に、ImageNet-1Kで事前学習したCNNで分類ヘッド前の特徴マップ𝑽 ∈ ℝ𝑑𝐼×ℎ×𝑤 を用いる • 最後に、空間方向のベクトルを1列にする 𝑑𝐼 ×𝑁 𝑯𝐼 = {𝒗𝑖 }𝑁 ∈ ℝ 𝑁 = ℎ𝑤 𝑖=1 利点として、画像全体の情報を利用できる • 領域特徴 • 画像内のN個の物体領域から抽出する • 一般的には、FasterR-CNNのRoI Pooling後の特徴マップ𝒗𝑖 ∈ ℝ𝑑𝐼 ×ℎ×𝑤 を用いる • 最後に、各𝑣𝑖 を空間方向に対して平均化する • 課題として • 計算コストが大きい • 物体同士の関係性を捉えることが困難 • 検出漏れの可能性がある 𝑑𝐼 ×𝑁 𝑯𝐼 = {ഥ 𝒗 𝑖 }𝑁 ∈ ℝ 𝑖=1 FasterR-CNNの全体像 RoI Pooling後 10

12.

Transformer台頭前のV&Lモデル：言語エンコーダー分かち書き • 文章を単語単位で分割：“What is the object behind the sheep?” 単語埋め込み • GloVeなどの手法で、各単語を𝑑𝐿 次元ベクトルへ変換 • 𝑇単語の質問文から単語埋め込み系列{𝒒𝑖 }𝑇𝑖=1 が得られる RNN（再起型ニューラルネットワーク） • 文章などの系列データを扱うのに適したニューラルネットワーク • 位置𝑡における系列データ𝒒𝑡 と直前で得られた隠れ状態ベクトル𝒉𝑡−1 から、次の隠れ状態ベクトル𝒉𝑡 を出力する • すべての単語埋め込みを利用した隠れ状態ベクトル𝒉 𝑇 や、すべての中間出力{𝒉𝑖 }𝑇𝑖=1 などを最終的な言語特徴にする 𝒉𝑡 = 𝜎 𝑾𝑞 𝒒𝑡 + 𝑾ℎ 𝒉𝑡−1 + 𝒃 • 𝜎は活性化関数 11

13.

Transformer台頭前のV&Lモデル：画像特徴と言語特徴のアライメントアライメントとは • 画像特徴と言語特徴を同じ空間で比較・統合できるようにする処理 • VQAの構成要素の統合に該当する ①要素積 • まずは、画像特徴𝑯𝐼 と言語特徴𝑯𝐿 の系列長と特徴ベクトルの次元数をPoolingなどで揃える • ベクトル間で要素積を計算し、アライメントを実施 𝑯𝐼+𝐿 = 𝑯𝐼 ⊙ 𝑯𝐿 • 簡単で計算効率も良いが、性質が大きく異なる組では不十分 ②外積 • 画像ベクトル𝒗と言語ベクトル𝒘の外積𝒗𝒘𝑇 によってアライメントする方法もある 12

14.

Transformer台頭前のV&Lモデル：画像特徴と言語特徴のアライメント ③言語特徴から画像特徴への注意(Attention) • 𝑑𝐼 ×𝑁 への注意を計算する RNNの最終出力（言語特徴）𝒉 𝑇 ∈ ℝ𝑑𝐿 から画像特徴𝑯𝐼 = {𝒗𝑖 }𝑁 𝑖=1 ∈ ℝ • 各画像特徴𝒗𝑖 ∈ ℝ𝑑𝐼 と言語特徴𝒉 𝑇 間の注意𝑎𝑖 を求める（全結合層） 𝑎𝑖 = 𝑾𝑎 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ] • 𝑾𝑎 ∈ ℝ1×𝑑 , 𝑓𝑎 [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑 , [𝒗𝑖 , 𝒉 𝑇 ] ∈ ℝ𝑑𝐿+𝑑𝐼 , [𝒙, 𝒚]は𝒙と𝒚を結合する演算 𝑓𝑎 はゲート付きの非線形関数 𝑓𝑎 𝑥 = tanh 𝑾1 𝒙 + 𝒃1 ⊙ 𝜎 𝑾2 𝒙 + 𝒃2 𝑊1 , 𝑊2 ∈ ℝ𝑑×(𝑑𝐿+𝑑𝐼 ) , 𝑏1 , 𝑏2 ∈ ℝ𝑑 ⊙は要素積 ※RNNの派生形であるLSTMにもあるゲート構造LSTMネットワークの概要 • 𝑎𝑖 にソフトマックス関数を適用する • 注意ベクトルഥ 𝒂による𝒗𝑖 の重み付き和ෝ 𝒗を算出する exp 𝑎𝑖 𝑎ഥ𝑖 = σ𝑗 exp 𝑎𝑗 𝑁 ෝ = ෍ 𝑎ഥ𝑖 𝒗𝑖 𝒗 • ෝを分類ヘッドに入力する最後に、 𝒗 𝑖=1 13

https://qiita.com/KojiOhki/items/89cd7b69a8a6239d67ca

15.

Transformer台頭前のV&Lモデル：画像特徴と言語特徴のアライメント ④自己注意とクロス注意 • Transformer台頭に伴い、4.2.4項にある内積に基づく注意を利用したアライメントが提案された。（代表例：MCAN） • 言語特徴は自己注意機構を配置 • 画像特徴は自己注意機構に加えて、言語特徴とのクロス注意機構を配置 𝑲𝑇 𝑸 𝑸ሖ = 𝑽softmax 𝑞 14