【人工知能・深層学習】論文紹介：Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

876 Views

May 19, 25

#deeplearning #深層学習 #論文紹介 #人工知能 #vision transformer #Hypergraph Vision Transformers #Vision Transformer #Graph Neural Network #Image Recognition #Computer Vision

スライド概要

立教大学人工知能科学研究科瀧雅人研究室
M2の倉沢真乃介さんが論文「Hypergraph Vision Transformers: Images are More than Nodes, More than Edges」の紹介を担当しました。本論文は、ViTに階層的な二部構成のハイパーグラフを組み込むことで画像の意味理解を向上を目指したHgVTを提案しました。仮想ノード及び仮想ハイパーエッジを導入し、意味的特徴と関係抽象化の階層構造を付与します。次に、コサイン類似度によるエッジ構築と、3つのAttention Blockでハイパーグラフの処理を近似することで効率的なグラフ処理を実現します。他にも、グラフ構造の構築を手助けする正則化やプーリングを導入することでグラフの表現の向上を図っています。実験では、ransformer 系と同等以上の精度をより少ないパラメータで実現しています。

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 4.9K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 4.7K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2.1K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 1.7K

【人工知能・深層学習】論文紹介：SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer

論文紹介 deeplearning 深層学習 point cloud 3d点群

Taki lab. 1.5K

各ページのテキスト

論文紹介 Hypergraph Vision Transformers: Images are More than Nodes, More than Edges ジャーナルクラブ(5月10日) 24VR031M 倉沢真乃介

論文概要論文 Hypergraph Vision Transformers: Images are More than Nodes, More than Edges Joshua Fixelle (University of Virginia). CVPR 2025 概要 ViTに階層的な二部構成のハイパーグラフを組み込み、意味的関係を捉えるアーキテクチャ Hypergraph Vision Transformers (HgVT) を提案。 1

研究背景: ViT, Vision GNN(ViG)系の課題課題1 (ViT系) 画像の顕著な特徴に焦点を当て、包括的な画像理解が弱い課題2 (ViG系) エッジがメッセージパッシングのみに使用され、層を重ねてもエッジ情報が蓄積されない課題3 (ViG系) 動的グラフ構築 (ViG: KNN, ViHGNN: Fuzzy C-Means) の場合、計算コストが高い課題4 (ViG系) 課題2の解決となる、静的グラフ構築 (MobileViG, GreedyViG) は精度とのトレードオフになる 2

Hypergraph グラフハイパーグラフ 𝒢 = 𝒱, ℰ : グラフ 𝒱 = 𝜐1 , 𝜐2 , ⋯ , 𝜐𝑛 : ノード集合 ℰ = 𝑒𝑖𝑗 𝜐𝑖 , 𝜐𝑗 : エッジ集合 ෡ ∈ 0, 1 𝑉 × 𝑉 : 隣接行列 Α ℋ = 𝒱, ℰ : ハイパーグラフ 𝑒𝑗 = 𝜐𝑖 𝜐𝑖 ∈ 𝒱 𝑎𝑛𝑑 𝑖 ∈ 𝐼𝑗 : ハイパーエッジ 𝐼𝑗 : ハイパーエッジ𝑒𝑖 に含まれるノードのインデックス番号の集合 Η ∈ 0, 1 𝑉 × 𝐸 : インシデンス行列 Α ∈ ℝ 𝑉 × 𝑉 : エッジ重み行列 𝜐6 𝜐1 𝑒12 𝑒46 𝜐2 𝑒34 𝑒23 𝜐3 𝑒1 𝜐4 ෡= Α 𝑒45 𝜐5 ※ このグラフは無向グラフなので、𝑒𝑖𝑗 = 𝑒𝑗𝑖 有向グラフの場合は、 𝑒𝑖𝑗 ≠ 𝑒𝑗𝑖 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 𝑒4 𝜐1 𝜐6 𝑒2 𝜐2 Η= 𝜐5 𝜐3 𝜐4 𝑒3 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 3

HgVTでの画像のハイパーグラフ化仮想ノードと仮想ハイパーエッジの導入意味的特徴と関係抽象化の階層構造を付与する為、仮想ノード及び仮想ハイパーエッジを導入する。 𝑝 ℰ: 一次ハイパーエッジ 𝑖 𝒱: 画像パッチ 𝜐ℰ: 仮想ハイパーエッジ 𝜐𝒱: 仮想ノード -> 分類に用いる 𝒱 = 𝑖 𝒱 ∪ 𝜐𝒱 ℰ = 𝑝ℰ ∪ 𝜐ℰ 以下の図のように、 𝑝ℰは全てのノードと繋がり、クラス予測に使用する𝜐ℰは𝜐𝒱のみと接続する。 𝑖𝒱 𝑝ℰ 𝜐𝒱 𝜐ℰ 4

関連研究: Register tokens 論文 Vision Transformers Need Registers Timothée Darcet (Meta FAIR), et al. ICLR 2024 概要クラストークンとレジスタトークンのアテンションマップの可視化。 -> HgVTの仮想要素に期待される動き・ViTは情報量の少ない背景パッチが高ノルムの異常トークンとして現れ、アテンションマップにアーティファクトを引き起こす。・入力シーケンスに追加のRegister tokensを挿入し、この問題を解決。 Register tokenは学習終了後に破棄される。 5

HypergraphとBipartite Representations ハイパーグラフを二部グラフとして表現ハイパーグラフは二部グラフとして表現が可能。二部グラフとして扱う事で実装が単純かつ高速になる。以下の図の (a) と (b) は等価。以下に、ハイパーグラフのインシデンス行列 Η ෡ の対応関係を示す。と二部グラフの隣接行列 Α ෡=Η ℰ → 𝒱の時、Α ෡ = Η𝑇 𝒱 → ℰの時、Α 二部グラフによるHgVTの各ノードとエッジの接続関係 6

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) 7

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・アテンションのクエリとキーの相互作用に似たコサイン類似度で構築する。・ハイパーエッジは関連するノードをクエリする。 8

10.

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・頂点とハイパーエッジの相互作用を処理するために、 gather→scatter アルゴリズムを採用する。・ Vertex self-attention (𝒱 → 𝒱) Edge aggregate attention (𝒱 → ℰ): gather Edge distribution attention (ℰ → 𝒱): scatter のようにハイパーグラフの計算を近似する事で計算の複雑さを軽減する。 9

11.

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・同じハイパーエッジに属する頂点だけに自己注意を回す。 10

12.

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・Edge Agg でハイパーエッジからノードに、 Edge Dist でノードからハイパーエッジにメッセージパッシングを行う。・ Α によるマスクは最適ではないので、実際には 𝑆はアテンションロジットを使用する。を使用する。 11

13.

HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) ->・ノードとハイパーエッジの特徴を独立に処理する。・ fully-connected GeGLU を通して直接属性と関係属性の両方を効果的に結合する。・同じFFN層内で更新することで、メッセージパッシングプロセスの簡素化と計算効率が向上する。 12

14.

HgVT: 正則化意味構造の強制・diversity regularization (多様性正則化) -> 仮想ノードとハイパーエッジの特徴行列は画像パッチのような具体的入力ではない為、一様な解へ収束して表現が崩壊してしまう危険がある。 -> 多様性正則化を導入し、仮想頂点・ハイパーエッジ同士が互いに異なる方向を向くように強制する。・population regularization (人数正則化) -> ViG等で使用されるクラスタリングを用いず、コサイン類似度による動的隣接行列形成な為、意味的なグループ化を自然に促進することが出来ない。 -> 人数正則化を導入し、各ハイパーエッジに所属するノード数を適切な数に制限する。 13

15.

16.

HgVT: 正則化意味構造の強制・diversity regularization (多様性正則化) -> 仮想ノードとハイパーエッジの特徴行列は画像パッチのような具体的入力ではない為、一様な解へ収束して表現が崩壊してしまう危険がある。 -> 多様性正則化を導入し、仮想頂点・ハイパーエッジが互いに異なる方向を向くように強制する。・population regularization (人数正則化) -> ViG等で使用されるクラスタリングを用いず、コサイン類似度による動的隣接行列形成な為、意味的なグループ化を自然に促進することが出来ない。 -> 人数正則化を導入し、各ハイパーエッジに所属するノード数を適切な数に制限する。 15

17.

HgVT: プーリング意味特化の為のExpert Pooling 各仮想ハイパーエッジは、何かしらの役割を持つエキスパートとして機能している。その為、平均プーリングで処理すると個々の寄与を希釈する可能性がある。 -> Expert Pooling を導入し、各仮想ハイパーエッジごとに信頼度スコアを学習する。学習時: 各仮想ハイパーエッジ特徴の重み (𝑃(𝑒)) 付き和をdensity loss functionと、クロスエントロピーへ適用する。推論時: 上位 k 個 (通常 k=1) の各仮想ハイパーエッジ特徴を使用する。 16

18.

実験結果: ハイパーパラメータ 17

19.

実験結果: ImageNet 低パラメータでも精度が高い。 18

20.

実験結果: Ablation Study (ImageNet-100) 19

21.

実験結果: プーリング方法とグラフ構造・プーリング手法が画像構造に与える影響を調査 HE: 各ハイパーエッジ内部で頂点特徴がどれだけバラけているか ICS: 同じハイパーエッジ内の頂点どうしがどれだけ似ているか ICD:ハイパーエッジ同士がどれだけ離れているか 20

22.

実験結果: マクロクラスタリング 21

23.