【深層学習による画像認識の基礎】4.5~4.8

191 Views

June 04, 26

#深層学習 #画像認識 #Vision Transformer #位置情報 #メタアーキテクチャ

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.8K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 2026前期輪読会 #7 2026/06/04 深層学習による画像認識の基礎 4.5-4.8 位置の表現/ViTの解析/MetaFormer 京都大学工学部理工学科 B3 岡本和優 1

■ アジェンダ京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ■ 4.5 位置情報の表現方法 ■ 4.6 ViTの解析 ■ 4.7 ViTのメタアーキテクチャ ■ 4.8 本章のまとめ 2

一 4.5 位置情報の表現方法京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 背景: 自己注意機構は入力系列の要素の順番に不変な演算であるため, 各ベクトルに位置情報を付加する必要がある主な位置情報の表現方法 • 4.5.1 絶対位置符号 (absolute position encoding) : sin/cos 関数ベースの固定ベクトル • 4.5.2 2次元絶対位置符号 : 垂直・水平方向を個別に符号化して結合 • 4.5.3 相対位置埋込み (relative positional embedding) : ベクトル間の相対距離を利用 • 4.5.4 条件位置埋込み (conditional positional embedding) : 畳み込みで動的に生成 3

一 4.5.1 絶対位置符号京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 位置 t の位置ベクトル wt = (wt,1, ..., wt,d)⊤ ∈ Rd を正弦・余弦関数で構築 wt,k = { sin ( ( t Tk/d ) , ( t T(k-1)/d ) , cos k が奇数の場合 k が偶数の場合 (T = 10000) • 各位置 (行) で異なるベクトル表現が得られる • 前半次元 : 位置変化に応じて値が大きく変動 • 後半次元 : 0と1を交互に示す (k の増加 → 波長が長くなる) 4

一 4.5.2 2次元絶対位置符号京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 1次元の絶対位置符号は画像を左上→右下に走査する1次元系列として扱うため, 垂直方向のパッチ間の位置情報を適切に符号化できない 1次元に平坦化してから, 絶対位置符号 (それぞれ d/2 次元で符号化) ↓ 次元方向で結合して, d 次元とする垂直方向の位置情報入力系列内での位置水平方向の位置情報図4.17 2次元絶対位置符号の例. 入力画像を7×7のグリッドに分割した場合 (N = 49) を示しています. 図4.17 入力画像を7×7グリッドに分割した場合 (N=49) 解決策: 垂直・水平方向それぞれの絶対位置符号を用意して結合 • 垂直方向 : d/2 次元で1次元符号化 • 水平方向 : d/2 次元で1次元符号化 • 次元方向に結合 → d 次元の2次元位置符号 2次元空間を考慮した位置表現が可能 5

一 4.5.3 相対位置埋込み京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 絶対位置符号は並進移動に対して同変性を満たさない相対位置埋込み: キー・バリューに相対距離に対応する埋込みベクトルを加算する N qi = Σ (W Vh j + p V clip(i-j,r)) exp(Aij) Σ k=1 exp(Aik) N Aij = (W Kh j + p K clip(i-j,r)) ⊤ (W Qh i) √d • PK, PV ∈ Rd×(2r+1) : 相対位置に対応する学習可能な埋込み • clip(x, r) = max(-r, min(r, x)) : 距離 r 以上の埋込みはすべて同じ 6

一 4.5.4 条件位置埋込み京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 並進移動に対する同変性の欠如・学習時と異なる系列長への対応が困難 patch embed Trans. encoder position encoding generator Trans. encoder × (L-1) 手順 1. ベクトル系列を画像テンソル表現に成形 (Reshape) 2. k × k 畳み込み層 (position encoding generator) を適用 3. 出力テンソルを再びベクトル系列に成形し, 元の系列に加算入力系列 Reshape H W Conv Reshape 位置埋込み系列図4.18 条件位置埋込み. 図4.18 条件位置埋込みの概要利点 • 畳み込み処理により並進同変性を満たす • 局所的な受容野 (k × k) のみ参照 → 長い系列長にも一般化可能 7

一 4.5.5 位置表現方法の比較京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 有効性はViTモデルの種類・タスク・学習方法によって変わる主な報告 • 画像分類 : 相対位置埋込みの優位性は報告によって異なる • 物体検出 : 絶対位置符号が相対位置埋込みより優れた性能 • 自己教師あり学習 : 絶対位置符号の方が高精度各手法の特徴まとめ手法並進同変性可変系列長絶対位置符号 X X 2次元絶対位置符号 X X 相対位置埋込み ○ △ 条件位置埋込み ○ ○ 8

一 4.6 ViTの解析 - 4.6.1 マルチヘッド注意機構は目的関数を滑らかにする京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 動機: なぜ ViT が優れているのか, 直感的理解が難しい → 目的関数の形状 (loss landscape) を実験的に調査ヘッセ行列 H(θ) = ∂² ∂θ² L(x, y; θ) の固有値分布から分析 • 値が大きい固有値が多い → シャープな目的関数 • 負の固有値が多い → 鞍点を多く含む (非凸) ViT vs ResNet の比較 • 学習初期: ViT は ResNet より負の固有値を多く含む → 最適化が難しい • 訓練データ増加: 負の固有値が大幅に減少 → 大規模データセットの必要性 • ViT の固有値は ResNet より大幅に小さい → 目的関数がより平坦要因: マルチヘッド注意機構の空間平滑化が目的関数の形状をフラットにする 9

10.

一 4.6.1 固有値分布と目的関数の形状京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association - ViT ---- ViT(6%) - ResNet 頻度 -100 0 0 最大固有値 500 (a) 固有値分布 ViT ResNet (b) 目的関数の形状図4.19 (a)ViT と ResNet のヘッセ行列の固有値分布. (b)ViT と ResNet の目的関数の形状. (a) は文献 [156] から引用しています. (b) の可視化には, 文献 [157] の方法を用いています. 図4.19 ViTとResNetのヘッセ行列の固有値分布(a)と目的関数の形状(b) (a) 固有値分布 • ViT (全データ) は固有値が小さい → 目的関数が平坦 • ViT (少量データ) では負の固有値がさらに増加 • 全データ使用で負の固有値が大幅に減少 (b) 目的関数の形状 • ViT の方が明らかに平坦な形状 • ResNet はよりシャープな目的関数解釈: マルチヘッド注意機構 = 空間平滑化の一種であり, 特徴マップへの平滑化処理が目的関数をフラットにする 10

11.

一 4.6.2 ViTはローパスフィルタ, CNNはハイパスフィルタ京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association マルチヘッド注意は空間平滑化 = 高周波成分を減衰させる (ローパスフィルタ) 特徴マップの周波数解析 • ViT のマルチヘッド注意部分 : 高周波成分を減衰 • ViT の FFN 部分 : 高周波成分を増幅 • 例外: 入力層に近い注意機構は高周波成分を増幅畳み込み (CNN) = ハイパスフィルタ → 注意機構と畳み込み処理は互いに補完関係実用的含意 • ViT 序盤に畳み込み層を配置するハイブリッド構造が有効な理由を説明注意点 • ViT は低周波ノイズに対して CNN より性能劣化しやすい • CNN は高周波ノイズに対して ViT より性能劣化しやすい 11

12.

一 4.7 ViTのメタアーキテクチャ - MetaFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Input C x H x W Stage 1 H W C x - x - 4 4 Stage 2 H W 2C x - x - 8 8 Stage 3 H W 4C x - x - 16 16 Stage 4 H W 8C x - x - 32 32 Patch embed Transformer Block × L1 DS Transformer Block × L2 DS Transformer Block × L3 DS Transformer Block × L4 Norm Token Mixer Norm Channel FFN 図4.20 ViT のメタアーキテクチャ. モデル全体は Transformer ブロックとダウンサンプリング (DS) を積み重ねた構造をしています. Transformer ブロックは, 層正規化 (Norm), トークン混合 (Token mixer), チャネル FFN で構成されます. 「×Li」 (i = 1, 2, 3, 4) は各ブロックの層数を示します. 図4.20 ViTのメタアーキテクチャ (MetaFormer) 多くの ViT モデルの共通構造 • Transformer Block + ダウンサンプリング (DS) を積み重ねた構造 • Block = Norm + Token Mixer + Norm + Channel FFN + スキップ接続重要な仮説 • Token Mixer をランダム注意や平均プーリングに置き換えても ImageNet-1K で 80% 以上 • 恒等写像でも約 80% を達成 → ViT の成功要因はモデル構造自体 (MetaFormer) にある 12

13.

一 4.7.2 MLPFormer / 4.7.3 PoolFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association MLPFormer (MLP-mixer) PoolFormer LN patches MLP patches channels LN MLP 空間方向 (パッチ間) での特徴集約チャネル間での特徴集約図4.21 MLP-mixerの基本となる演算ブロック. 図4.21 MLP-mixerの演算ブロック • Token Mixer に MLP を採用 • 入力を転置 → 全結合層でパッチ間特徴集約 • ViT と同等以上の精度 Norm Average pooling Norm Channel FFN Norm Identity Norm Channel FFN (a) PoolFormer (b) IdentityFormer 図4.22 (a)PoolFormer. (b)IdentityFormer. 図4.22 PoolFormer (a) と IdentityFormer (b) • Token Mixer に 3×3 平均プーリングを採用 • 自己注意 ≈ 空間平滑化 → 平均プーリングと同等 • 画像分類・物体検出・領域分割でも標準的な CNN・ViT と遜色ない性能 13

14.

一 4.7.4 IdentityFormer / RIFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Teacher Norm Token mixer Norm Channe FFN Student (学習時) Norm Affine Norm Channe FFN μ, σ, γ, β s, t 再パラメータ化 Student (推論時) μ, σ, γ', β' Norm Identity Norm Channe FFN 図 4.23 RIFormer [105] は, 学習時はトークン混合にアフィン変換を採用し, 学習済みの教師モデルの中間出力との誤差を最小化するように最適化します. 推論時は再パラメータ化によって, 層正規化とアフィン変換を1つの層正規化に統合します. L のところで知識蒸留のための損失計算を行います. 図4.23 RIFormerの学習・推論の仕組み (知識蒸留と再パラメータ化) IdentityFormer • Token Mixer に恒等写像を採用 • 標準的な ViT (DeiT) と同程度の精度を達成 RIFormer (RepIdentityFormer) • 学習時: Token Mixer にアフィン変換を採用し, 教師モデルとの知識蒸留で最適化 • 推論時: 再パラメータ化でアフィン変換と層正規化を1つの層正規化に統合 γ'i = γi(si - 1), β'i = βi(si - 1) + ti 14

15.

一 4.7.5 メタアーキテクチャ比較 & まとめ京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 表 4.3 メタアーキテクチャの比較結果例 [163]. ImageNet-1K での Top-1 分類精度, モデルパラメータ数 (Params), 積和演算数 (MACs) を示しています. Model Params (M) MACs (G) Top-1 (%) DeiT-B [96] 86 17.5 81.8 Swin-B [79] 88 15.4 83.5 MLP-mixer-B/16 [164] 59 12.7 76.4 gMLP-B [165] 73 15.8 81.6 IdentityFormer-M48 [163] 73 11.5 80.4 RIFormer-M48 [105] 73 11.6 82.8 RandFormer-M48 [163] 73 11.9 81.4 PoolFormerV2-M48 [163] 73 11.5 82.6 ConvFormer-M36 [163] 57 12.8 84.5 CAFormer-M36 [163] 56 13.2 85.2 表4.3 ImageNet-1K Top-1 分類精度比較前半 CNN + 後半 ViT のハイブリッドモデル (CAFormer) が 85.2% で最高精度まとめ • 位置情報の表現 : 絶対位置符号・2次元・相対・条件の各手法。有効性はタスク・モデル依存 • ViTの解析 : マルチヘッド注意が目的関数を平坦化, ローパスフィルタとして機能 • MetaFormer : 成功要因はモデル構造自体。Token Mixer の違いが性能を左右 15