>100 Views
February 09, 26
スライド概要
【学生の情報】:M2 倉沢真乃介
【対象論文】:
Block-Recurrent Dynamics in Vision Transformers
【注意書き】:研究室内で発表に利用したものです。自分用のメモも兼ねていますので、情報が混みあっています。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。**資料の転用は禁止しております。**
立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。
Block-Recurrent Dynamics in ViTs ジャーナルクラブ(2026年2月7日) 倉沢 真乃介
ViTは,少数ブロックの反復として書き換えられる. 論文 Block-Recurrent Dynamics in ViTs. Jacobs et al., ICLR 2026. 概要 ・ViTを再帰構造として置き換えることが可能であることを示す. ・ViTのphase構造と再帰モデルの近似が, stochastic depthで強まることを示す. ・ViTの, (i) 方向収束と自己修正, (ii) token別ダイナミクス, (iii) 終盤の低ランク更新を示す. 1
ViTの類似度傾向は,学習目的やモデル規模が異なる場合でも概ね一致. 自己教師 VLM 異モデル規模 layer–layer表現類似度行列に連続的なブロック(phase)構造が出現. → 深さは意味をなしているのか? 2
背景
ResNetの深さは,逐次計算ではない? Residual Networks Behave Like Ensembles of Relatively Shallow Networks. 2016. VGGは,ある層を削除すると全体の予測精度が大幅に劣化. ResNetは,ほとんど変化せず. 4
残差はアンサンブル! Residual Networks Behave Like Ensembles of Relatively Shallow Networks. 2016. 残差は,無数の経路を形成し,アンサンブルとして機能. 5
各ステージ内の層は,同じ潜在表現を推定しているのではないか? HIGHWAY AND RESIDUAL NETWORKS LEARN UNROLLED ITERATIVE ESTIMATION. 2016. 各層の出力と潜在表現Aとの推定誤差の平均と分散を計算. 平均は0付近を推移し,分散は収束に向かう. 6
ResNetは反復推定! HIGHWAY AND RESIDUAL NETWORKS LEARN UNROLLED ITERATIVE ESTIMATION. 2016. ResNetは,毎層で新しい表現を作るのではなく,同じ表現を反復で洗練させていく. 7
ResNetはRNN! Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex. 2016. 各層で重み共有したResNetは,浅いRNNと等価. 8
重み共有ResNetと通常のResNetの精度はほぼ一致. Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex. 2016. ImageNet1kで実験. パラメータ数は大きく削減しながらも,精度はほぼ同一. 9
表現が似ていても、同じ計算とは限らない. 自己教師 VLM 異モデル規模 「表現の類似」 と 「機能の同値」 は別. → ViTもResNetのような再帰的な性質を持っているのか? 10
仮説: Block-Recurrent Hypothesis
Block-Recurrent Hypothesis:少数ブロックの反復で成り立つ? BRH:内部状態も含めて,少数ブロックの反復で近似が可能か? 近似可能? 𝑓ℓ 𝐵𝑘 × 𝑛𝑘 𝐵2 × 𝑛2 𝐵1 × 𝑛1 ℓ ∈ {1, ⋯ , L} , 𝑓2 ℓ≫𝑘, 𝑘 𝑓1 ℓ = 𝑛𝑘 . 1 12
Block-Recurrent Hypothesis:少数ブロックの反復で成り立つ? BRH:内部状態も含めて,少数ブロックの反復で近似が可能か? 層の総数は一緒 𝑓ℓ 𝐵𝑘 × 𝑛𝑘 𝐵2 × 𝑛2 𝐵1 × 𝑛1 ℓ ∈ {1, ⋯ , L} , 𝑓2 ℓ≫𝑘, 𝑘 𝑓1 ℓ = 𝑛𝑘 . 1 13
Block-Recurrent Hypothesis:少数ブロックの反復で成り立つ? Deep_Block 例: Middle_Block Shallow_Block ブロック数:24 ≫ × 13 ×7 総反復数:24 ×4 ブロック数:3 14
提案手法:Raptor・Max-cut
Raptor(= ViTを少数ブロックの反復で模倣する蒸留モデル)を作成. Raptorの中間特徴. 元モデルの中間特徴. 元モデルの各層の出力を目的とした蒸留で学習. 16
Phaseをどのように設定する必要があるのか? Max-cutを用いる. phase内の類似度が最大,phase外との類似度が最小になるような境界を設定. 17
実験1:CIFAR100で小規模実験
K=2でも十分な分類精度. K=2 → 3で精度が大きく上昇. 19
Phaseで区切るのは正しいのか? Random Shuffle:非連続にシャッフル反復. Random Contiguous:連続にシャッフル反復. Random Contiguous > Random Shuffleより, 反復は連続に行う方が良い. 20
Stochastic Depthが反復しやすさを促進. 全層に一様なstochastic depth(DropPath)をつけてViTを訓練. 21
Stochastic Depthが反復しやすさを促進. SD確率を上げると,Max-cut(赤線)が均等なブロック形状に移行. 22
Stochastic Depthが反復しやすさを促進. SDを上げると,Max-cut(赤線)が均等なブロック形状に移行. SDが上がると,Raptorの中間表現は教師ViTをより良く模倣. 23
Stochastic Depthが反復しやすさを促進. 0.6までのSDの上昇は,ViT・Raptor共に精度が上昇. 24
実験2:DINOv2で大規模実験
DINOv2のような,巨大モデルでも検証可能か? Teacher Forcing→ Autoregressiveの2段階で学習. 26
少数ブロック反復でも,DINOv2の約96%以上の精度を維持. K=2 → 3で精度・DINOv2との類似度が大きく上昇し,4で飽和. 27
下流タスクでの精度劣化は分類より大きい. semantic segmentation(ADE20k)・depth estimation(NYUv2)では, k=3→4の精度上昇がまだ見られる. 28
Raptorは中間表現をある程度再現できている. k=3以上の時,DINOv2のほとんどの層が揃っている. 初期層・最終層付近の一致が高く,中盤の一致度は下がる. 29
Phase内の入れ替えのみ,精度が維持される DINOv2で実験. pahse内で層を入れ替える時と,異phase間で層を入れ替えた時の精度変化. 30
実験3:DINOv2(Giant)の観察
トークンの角度は,最終層に向かって揃っていく. トークンの角度は,最終層にむかって揃っていく. 32
摂動を加えた後の修復は,patch/cls tokenで異なる. 各層地点で摂動を加え,最終表現が元とどれだけ異なるのかを計測. Patch tokenは,浅層で摂動をると誤差が大きく,深層で加えた場合は小さくなる. CLS tokenは,深層で摂動を加えると誤差が大きくなる. 33
phase境界はダイナミクスの切り替え点として現れる. トークン種別ごとに異なる挙動を示す. phase境界と整合して切り替わりが生じる. 34
終盤の更新は低ランク化し,patchは同じ方向へ動く. 浅層から中層で大きくなり,深層に向かってrankが小さくなる. 深層に向かってpatchの更新方向が揃っていく. 35