【深層学習による画像認識の基礎】4.5~4.8

>100 Views

June 04, 26

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 2026前期輪読会 #7 2026/06/04 深層学習による画像認識の基礎 4.5-4.8 位置の表現/ViTの解析/MetaFormer 京都大学工学部理工学科 B3 岡本 和優 1

2.

■ アジェンダ 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association ■ 4.5 位置情報の表現方法 ■ 4.6 ViTの解析 ■ 4.7 ViTのメタアーキテクチャ ■ 4.8 本章のまとめ 2

3.

一 4.5 位置情報の表現方法 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 背景: 自己注意機構は入力系列の要素の順番に不変な演算であるため, 各ベクトルに位置 情報を付加する必要がある 主な位置情報の表現方法 • 4.5.1 絶対位置符号 (absolute position encoding) : sin/cos 関数ベースの固定ベクト ル • 4.5.2 2次元絶対位置符号 : 垂直・水平方向を個別に符号化して結合 • 4.5.3 相対位置埋込み (relative positional embedding) : ベクトル間の相対距離を利 用 • 4.5.4 条件位置埋込み (conditional positional embedding) : 畳み込みで動的に生成 3

4.

一 4.5.1 絶対位置符号 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 位置 t の位置ベクトル wt = (wt,1, ..., wt,d)⊤ ∈ Rd を正弦・余弦関数で構築 wt,k = { sin ( ( t Tk/d ) , ( t T(k-1)/d ) , cos k が奇数の場合 k が偶数の場合 (T = 10000) • 各位置 (行) で異なるベクトル表現が得られる • 前半次元 : 位置変化に応じて値が大きく変動 • 後半次元 : 0と1を交互に示す (k の増加 → 波長が長くなる) 4

5.

一 4.5.2 2次元絶対位置符号 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 1次元の絶対位置符号は画像を左上→右下に走査する1次元系列として扱うため, 垂 直方向のパッチ間の位置情報を適切に符号化できない 1次元に平坦化してから, 絶対位置符号 (それぞれ d/2 次元で符号化) ↓ 次元方向で結合して, d 次元とする 垂直方向の 位置情報 入力系列内での位置 水平方向の 位置情報 図4.17 2次元絶対位置符号の例. 入力画像を7×7のグリッドに分割し た場合 (N = 49) を示しています. 図4.17 入力画像を7×7グリッドに分割した 場合 (N=49) 解決策: 垂直・水平方向それぞれの絶対位置 符号を用意して結合 • 垂直方向 : d/2 次元で1次元符号化 • 水平方向 : d/2 次元で1次元符号化 • 次元方向に結合 → d 次元の2次元位置符 号 2次元空間を考慮した位置表現が可能 5

6.

一 4.5.3 相対位置埋込み 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 絶対位置符号は並進移動に対して同変性を満たさない 相対位置埋込み: キー・バリューに相対距離に対応する埋込みベクトルを加算する N qi = Σ (W Vh j + p V clip(i-j,r)) exp(Aij) Σ k=1 exp(Aik) N Aij = (W Kh j + p K clip(i-j,r)) ⊤ (W Qh i) √d • PK, PV ∈ Rd×(2r+1) : 相対位置に対応する学習可能な埋込み • clip(x, r) = max(-r, min(r, x)) : 距離 r 以上の埋込みはすべて同じ 6

7.

一 4.5.4 条件位置埋込み 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 問題: 並進移動に対する同変性の欠如・学習時と異なる系列長への対応が困難 patch embed Trans. encoder position encoding generator Trans. encoder × (L-1) 手順 1. ベクトル系列を画像テンソル表現に成 形 (Reshape) 2. k × k 畳み込み層 (position encoding generator) を適用 3. 出力テンソルを再びベクトル系列に成 形し, 元の系列に加算 入力系列 Reshape H W Conv Reshape 位置埋込み系列 図4.18 条件位置埋込み. 図4.18 条件位置埋込みの概要 利点 • 畳み込み処理により並進同変性を満たす • 局所的な受容野 (k × k) のみ参照 → 長 い系列長にも一般化可能 7

8.

一 4.5.5 位置表現方法の比較 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 有効性はViTモデルの種類・タスク・学習方法によって変わる 主な報告 • 画像分類 : 相対位置埋込みの優位性 は報告によって異なる • 物体検出 : 絶対位置符号が相対位置 埋込みより優れた性能 • 自己教師あり学習 : 絶対位置符号の 方が高精度 各手法の特徴まとめ 手法 並進同変性 可変系列長 絶対位置符号 X X 2次元絶対位置符号 X X 相対位置埋込み ○ △ 条件位置埋込み ○ ○ 8

9.

一 4.6 ViTの解析 - 4.6.1 マルチヘッド注意機構は目的関 数を滑らかにする 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 動機: なぜ ViT が優れているのか, 直感的理解が難しい → 目的関数の形状 (loss landscape) を実験的に調査 ヘッセ行列 H(θ) = ∂² ∂θ² L(x, y; θ) の固有値分布から分析 • 値が大きい固有値が多い → シャープな目的関数 • 負の固有値が多い → 鞍点を多く含む (非凸) ViT vs ResNet の比較 • 学習初期: ViT は ResNet より負の固有値を多く含む → 最適化が難しい • 訓練データ増加: 負の固有値が大幅に減少 → 大規模データセットの必要性 • ViT の固有値は ResNet より大幅に小さい → 目的関数がより平坦 要因: マルチヘッド注意機構の空間平滑化が目的関数の形状をフラットにする 9

10.

一 4.6.1 固有値分布と目的関数の形状 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association - ViT ---- ViT(6%) - ResNet 頻度 -100 0 0 最大固有値 500 (a) 固有値分布 ViT ResNet (b) 目的関数の形状 図4.19 (a)ViT と ResNet のヘッセ行列の固有値分布. (b)ViT と ResNet の目的関数の形状. (a) は文献 [156] から引用していま す. (b) の可視化には, 文献 [157] の方法を用いています. 図4.19 ViTとResNetのヘッセ行列の固有 値分布(a)と目的関数の形状(b) (a) 固有値分布 • ViT (全データ) は固有値が小さい → 目 的関数が平坦 • ViT (少量データ) では負の固有値がさら に増加 • 全データ使用で負の固有値が大幅に減少 (b) 目的関数の形状 • ViT の方が明らかに平坦な形状 • ResNet はよりシャープな目的関数 解釈: マルチヘッド注意機構 = 空間平滑化 の一種であり, 特徴マップへの平滑化処理 が目的関数をフラットにする 10

11.

一 4.6.2 ViTはローパスフィルタ, CNNはハイパスフィル タ 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association マルチヘッド注意は空間平滑化 = 高周波成分を減衰させる (ローパスフィルタ) 特徴マップの周波数解析 • ViT のマルチヘッド注意部分 : 高周波成 分を減衰 • ViT の FFN 部分 : 高周波成分を増幅 • 例外: 入力層に近い注意機構は高周波成 分を増幅 畳み込み (CNN) = ハイパスフィルタ → 注意機構と畳み込み処理は互いに補完関 係 実用的含意 • ViT 序盤に畳み込み層を配置するハイブ リッド構造が有効な理由を説明 注意点 • ViT は低周波ノイズに対して CNN より性 能劣化しやすい • CNN は高周波ノイズに対して ViT より性 能劣化しやすい 11

12.

一 4.7 ViTのメタアーキテクチャ - MetaFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Input C x H x W Stage 1 H W C x - x - 4 4 Stage 2 H W 2C x - x - 8 8 Stage 3 H W 4C x - x - 16 16 Stage 4 H W 8C x - x - 32 32 Patch embed Transformer Block × L1 DS Transformer Block × L2 DS Transformer Block × L3 DS Transformer Block × L4 Norm Token Mixer Norm Channel FFN 図4.20 ViT のメタアーキテクチャ. モデル全体は Transformer ブロッ クとダウンサンプリング (DS) を積み重ねた構造をしていま す. Transformer ブロックは, 層正規化 (Norm), トークン混 合 (Token mixer), チャネル FFN で構成されます. 「×Li」 (i = 1, 2, 3, 4) は各ブロックの層数を示します. 図4.20 ViTのメタアーキテクチャ (MetaFormer) 多くの ViT モデルの共通構造 • Transformer Block + ダウンサンプリ ング (DS) を積み重ねた構造 • Block = Norm + Token Mixer + Norm + Channel FFN + スキップ接続 重要な仮説 • Token Mixer をランダム注意や平均プー リングに置き換えても ImageNet-1K で 80% 以上 • 恒等写像でも 約 80% を達成 → ViT の成功要因はモデル構造自体 (MetaFormer) にある 12

13.

一 4.7.2 MLPFormer / 4.7.3 PoolFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association MLPFormer (MLP-mixer) PoolFormer LN patches MLP patches channels LN MLP 空間方向 (パッチ間) での特徴集約 チャネル間での特徴集約 図4.21 MLP-mixerの基本となる演算ブロック. 図4.21 MLP-mixerの演算ブロック • Token Mixer に MLP を採用 • 入力を転置 → 全結合層でパッチ間特徴集 約 • ViT と同等以上の精度 Norm Average pooling Norm Channel FFN Norm Identity Norm Channel FFN (a) PoolFormer (b) IdentityFormer 図4.22 (a)PoolFormer. (b)IdentityFormer. 図4.22 PoolFormer (a) と IdentityFormer (b) • Token Mixer に 3×3 平均プーリングを 採用 • 自己注意 ≈ 空間平滑化 → 平均プーリン グと同等 • 画像分類・物体検出・領域分割でも標準 的な CNN・ViT と遜色ない性能 13

14.

一 4.7.4 IdentityFormer / RIFormer 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association Teacher Norm Token mixer Norm Channe FFN Student (学習時) Norm Affine Norm Channe FFN μ, σ, γ, β s, t 再パラメータ化 Student (推論時) μ, σ, γ', β' Norm Identity Norm Channe FFN 図 4.23 RIFormer [105] は, 学習時はトークン混合にアフィン変換を採 用し, 学習済みの教師モデルの中間出力との誤差を最小化する ように最適化します. 推論時は再パラメータ化によって, 層正 規化とアフィン変換を1つの層正規化に統合します. L のとこ ろで知識蒸留のための損失計算を行います. 図4.23 RIFormerの学習・推論の仕組み (知識蒸留と再パラメータ化) IdentityFormer • Token Mixer に恒等写像を採用 • 標準的な ViT (DeiT) と同程度の精度を 達成 RIFormer (RepIdentityFormer) • 学習時: Token Mixer にアフィン変換を 採用し, 教師モデルとの知識蒸留で最適 化 • 推論時: 再パラメータ化でアフィン変換 と層正規化を1つの層正規化に統合 γ'i = γi(si - 1), β'i = βi(si - 1) + ti 14

15.

一 4.7.5 メタアーキテクチャ比較 & まとめ 京都大学人工知能研究会 KaiRA Kyoto univ. AI Research Association 表 4.3 メタアーキテクチャの比較結果例 [163]. ImageNet-1K での Top-1 分類精度, モデルパラメータ数 (Params), 積和演算数 (MACs) を示しています. Model Params (M) MACs (G) Top-1 (%) DeiT-B [96] 86 17.5 81.8 Swin-B [79] 88 15.4 83.5 MLP-mixer-B/16 [164] 59 12.7 76.4 gMLP-B [165] 73 15.8 81.6 IdentityFormer-M48 [163] 73 11.5 80.4 RIFormer-M48 [105] 73 11.6 82.8 RandFormer-M48 [163] 73 11.9 81.4 PoolFormerV2-M48 [163] 73 11.5 82.6 ConvFormer-M36 [163] 57 12.8 84.5 CAFormer-M36 [163] 56 13.2 85.2 表4.3 ImageNet-1K Top-1 分類精度比較 前半 CNN + 後半 ViT のハイブリッドモデル (CAFormer) が 85.2% で最高精度 まとめ • 位置情報の表現 : 絶対位置符号・2次元・ 相対・条件の各手法。有効性はタスク・ モデル依存 • ViTの解析 : マルチヘッド注意が目的関数 を平坦化, ローパスフィルタとして機能 • MetaFormer : 成功要因はモデル構造自 体。Token Mixer の違いが性能を左右 15