290 Views
May 19, 25
スライド概要
立教大学人工知能科学研究科 瀧雅人研究室
M2の倉沢真乃介さんが論文「Hypergraph Vision Transformers: Images are More than Nodes, More than Edges」の紹介を担当しました。本論文は、ViTに階層的な二部構成のハイパーグラフを組み込むことで画像の意味理解を向上を目指したHgVTを提案しました。仮想ノード及び仮想ハイパーエッジを導入し、意味的特徴と関係抽象化の階層構造を付与します。次に、コサイン類似度によるエッジ構築と、3つのAttention Blockでハイパーグラフの処理を近似することで効率的なグラフ処理を実現します。他にも、グラフ構造の構築を手助けする正則化やプーリングを導入することでグラフの表現の向上を図っています。実験では、ransformer 系と同等以上の精度をより少ないパラメータで実現しています。
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
論文紹介 Hypergraph Vision Transformers: Images are More than Nodes, More than Edges ジャーナルクラブ(5月10日) 24VR031M 倉沢真乃介
論文概要 論文 Hypergraph Vision Transformers: Images are More than Nodes, More than Edges Joshua Fixelle (University of Virginia). CVPR 2025 概要 ViTに階層的な二部構成のハイパーグラフを組み込み、意味的関係を捉えるアーキテクチャ Hypergraph Vision Transformers (HgVT) を提案。 1
研究背景: ViT, Vision GNN(ViG)系の課題 課題1 (ViT系) 画像の顕著な特徴に焦点を当て、包括的な画像理解が弱い 課題2 (ViG系) エッジがメッセージパッシングのみに使用され、層を重ねてもエッジ情報が蓄積されない 課題3 (ViG系) 動的グラフ構築 (ViG: KNN, ViHGNN: Fuzzy C-Means) の場合、計算コストが高い 課題4 (ViG系) 課題2の解決となる、静的グラフ構築 (MobileViG, GreedyViG) は精度とのトレードオフになる 2
Hypergraph グラフ ハイパーグラフ 𝒢 = 𝒱, ℰ : グラフ 𝒱 = 𝜐1 , 𝜐2 , ⋯ , 𝜐𝑛 : ノード集合 ℰ = 𝑒𝑖𝑗 𝜐𝑖 , 𝜐𝑗 : エッジ集合 ∈ 0, 1 𝑉 × 𝑉 : 隣接行列 Α ℋ = 𝒱, ℰ : ハイパーグラフ 𝑒𝑗 = 𝜐𝑖 𝜐𝑖 ∈ 𝒱 𝑎𝑛𝑑 𝑖 ∈ 𝐼𝑗 : ハイパーエッジ 𝐼𝑗 : ハイパーエッジ𝑒𝑖 に含まれるノードの インデックス番号の集合 Η ∈ 0, 1 𝑉 × 𝐸 : インシデンス行列 Α ∈ ℝ 𝑉 × 𝑉 : エッジ重み行列 𝜐6 𝜐1 𝑒12 𝑒46 𝜐2 𝑒34 𝑒23 𝜐3 𝑒1 𝜐4 = Α 𝑒45 𝜐5 ※ このグラフは無向グラフなので、𝑒𝑖𝑗 = 𝑒𝑗𝑖 有向グラフの場合は、 𝑒𝑖𝑗 ≠ 𝑒𝑗𝑖 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 𝑒4 𝜐1 𝜐6 𝑒2 𝜐2 Η= 𝜐5 𝜐3 𝜐4 𝑒3 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 3
HgVTでの画像のハイパーグラフ化 仮想ノードと仮想ハイパーエッジの導入 意味的特徴と関係抽象化の階層構造を付与する為、 仮想ノード及び仮想ハイパーエッジを導入する。 𝑝 ℰ: 一次ハイパーエッジ 𝑖 𝒱: 画像パッチ 𝜐ℰ: 仮想ハイパーエッジ 𝜐𝒱: 仮想ノード -> 分類に用いる 𝒱 = 𝑖 𝒱 ∪ 𝜐𝒱 ℰ = 𝑝ℰ ∪ 𝜐ℰ 以下の図のように、 𝑝ℰは全てのノードと繋がり、 クラス予測に使用する𝜐ℰは𝜐𝒱のみと接続する。 𝑖𝒱 𝑝ℰ 𝜐𝒱 𝜐ℰ 4
関連研究: Register tokens 論文 Vision Transformers Need Registers Timothée Darcet (Meta FAIR), et al. ICLR 2024 概要 クラストークンとレジスタトークンのアテンション マップの可視化。 -> HgVTの仮想要素に期待される動き ・ViTは情報量の少ない背景パッチが高ノルムの異常トークンとして現れ、 アテンションマップにアーティファクトを引き起こす。 ・入力シーケンスに追加のRegister tokensを挿入し、この問題を解決。 Register tokenは学習終了後に破棄される。 5
HypergraphとBipartite Representations ハイパーグラフを二部グラフとして表現 ハイパーグラフは二部グラフとして表現が可能。 二部グラフとして扱う事で実装が単純かつ高速になる。 以下の図の (a) と (b) は等価。 以下に、ハイパーグラフのインシデンス行列 Η の対応関係を示す。 と二部グラフの隣接行列 Α =Η ℰ → 𝒱の時、Α = Η𝑇 𝒱 → ℰの時、Α 二部グラフによるHgVTの各ノードとエッジの接続関係 6
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) 7
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・アテンションのクエリとキーの相互作用に似たコサイン類似度で構築する。 ・ハイパーエッジは関連するノードをクエリする。 8
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・頂点とハイパーエッジの相互作用を処理するために、 gather→scatter アルゴリズムを採用する。 ・ Vertex self-attention (𝒱 → 𝒱) Edge aggregate attention (𝒱 → ℰ): gather Edge distribution attention (ℰ → 𝒱): scatter のようにハイパーグラフの計算を近似する事で 計算の複雑さを軽減する。 9
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・同じハイパーエッジに属する頂点だけに自己注意を回す。 10
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) -> ・Edge Agg でハイパーエッジからノードに、 Edge Dist でノードからハイパーエッジにメッセージパッシングを行う。 ・ Α によるマスクは最適ではないので、実際には 𝑆はアテンションロジットを使用する。 を使用する。 11
HgVT: アーキテクチャ HgVT Blockのコンポーネント 1. Dynamic Adjacency Formation Block 2. Attention Block (Vertex self, Edge Agg, Edge Dist) 3. FFN Block (Edge, Vertex) ->・ノードとハイパーエッジの特徴を独立に処理する。 ・ fully-connected GeGLU を通して直接属性と関係属性の両方を効果的に結合する。 ・ 同じFFN層内で更新することで、メッセージパッシングプロセスの簡素化と 計算効率が向上する。 12
HgVT: 正則化 意味構造の強制 ・diversity regularization (多様性正則化) -> 仮想ノードとハイパーエッジの特徴行列は画像パッチのような具体的入力ではない為、 一様な解へ収束して表現が崩壊してしまう危険がある。 -> 多様性正則化を導入し、仮想頂点・ハイパーエッジ同士が互いに異なる方向を向く ように強制する。 ・population regularization (人数正則化) -> ViG等で使用されるクラスタリングを用いず、コサイン類似度による動的隣接行列形成な為、 意味的なグループ化を自然に促進することが出来ない。 -> 人数正則化を導入し、各ハイパーエッジに所属するノード数を適切な数に制限する。 13
HgVT: 正則化 意味構造の強制 ・diversity regularization (多様性正則化) -> 仮想ノードとハイパーエッジの特徴行列は画像パッチのような具体的入力ではない為、 一様な解へ収束して表現が崩壊してしまう危険がある。 -> 多様性正則化を導入し、仮想頂点・ハイパーエッジ同士が互いに異なる方向を向く ように強制する。 14
HgVT: 正則化 意味構造の強制 ・diversity regularization (多様性正則化) -> 仮想ノードとハイパーエッジの特徴行列は画像パッチのような具体的入力ではない為、 一様な解へ収束して表現が崩壊してしまう危険がある。 -> 多様性正則化を導入し、仮想頂点・ハイパーエッジが互いに異なる方向を向く ように強制する。 ・population regularization (人数正則化) -> ViG等で使用されるクラスタリングを用いず、コサイン類似度による動的隣接行列形成な為、 意味的なグループ化を自然に促進することが出来ない。 -> 人数正則化を導入し、各ハイパーエッジに所属するノード数を適切な数に制限する。 15
HgVT: プーリング 意味特化の為のExpert Pooling 各仮想ハイパーエッジは、何かしらの役割を持つエキスパートとして機能している。 その為、平均プーリングで処理すると個々の寄与を希釈する可能性がある。 -> Expert Pooling を導入し、各仮想ハイパーエッジごとに信頼度スコアを学習する。 学習時: 各仮想ハイパーエッジ特徴の重み (𝑃(𝑒)) 付き和をdensity loss functionと、 クロスエントロピーへ適用する。 推論時: 上位 k 個 (通常 k=1) の各仮想ハイパーエッジ特徴を使用する。 16
実験結果: ハイパーパラメータ 17
実験結果: ImageNet 低パラメータでも精度が高い。 18
実験結果: Ablation Study (ImageNet-100) 19
実験結果: プーリング方法とグラフ構造 ・プーリング手法が画像構造に与える影響を調査 HE: 各ハイパーエッジ内部で頂点特徴がどれだけバラ けているか ICS: 同じハイパーエッジ内の頂点どうしが どれだけ似 ているか ICD:ハイパーエッジ同士が どれだけ離れているか 20
実験結果: マクロクラスタリング 21