【DL輪読会】Attention Residuals

0.9K Views

May 07, 26

#大規模言語モデル #残差接続 #Attention #深層学習 #LLM最適化

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 70.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 53.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 50.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 49.4K

各ページのテキスト

Attention Residuals Hiroyuki Matsushima, Matsuo・Iwasawa Lab 1

書誌情報 Attention Residuals ● Author: Kimi Team, Guangyu Chen,et al. (Moonshot) ● Preprint ( Arxiv: https://arxiv.org/abs/2512.24880) TL;DR ○ 固定重みの残差接続 hₗ = hₗ₋₁ + fₗ₋₁(hₗ₋₁) を「深さ方向の softmax attention」に置き換えることで、 PreNormの希釈問題を緩和し、下流タスクで一貫した性能向上を達成する。 2

https://arxiv.org/abs/2512.24880

背景：なぜ残差接続を「再考」するのかモチベーション ■ ■ ■ 残差接続とPreNormは現代LLMの標準構成だが、各層の出力を固定の単位重みで足し合わせることしかできない。 PostNorm ノルム有界・勾配消失その結果、隠れ状態のノルムが深さに比例して O(L) で増大し（PreNorm希釈問題）、後段の層は影響力を保つために出力を不必要に大きく学習せざるを得なくなる。 PreNorm 既存の改良手法（DeepNet、Highway、mHC等）はいずれも単一状態の再帰か固定重みにとどまり、前の層の出力を内容に応じて選択的に取り出す仕組みが欠けている。 → 個別の層出力に選択的アクセスする機構が必要恒等経路を保持・ノルム発散(希釈) 両者ともに「層l は hₗ₋₁ という単一の圧縮状態にしかアクセスできない」 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 2 / 16

目的・仮説： RNNからの着想に基づく置換研究目的 ■ 残差接続を「時間方向の RNN 的再帰」と捉え、その置換手法を提案する。 ■ 深さ方向にも softmax attention を適用し、各層が任意の層出力を選択できるようにする。中心的仮説 ■ RNN→Transformer で「時間」に対し起きた linear→softmax 移行を、「深さ」に対しても実施することで性能が向上するはずである。 ■ 層数 L < 1000 程度であるため、 O(L²) attention は実装可能な計算量であるはずである。主要評価項目 ■ Validation loss、出力ノルム・勾配ノルム、 14種の下流ベンチマーク Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 3 / 16

アプローチ全体像： 3つのアーキテクチャ Fig. 1 ● 従来の標準残差（ a）は、全層の出力を均等な重みで足し合わせるだけの単純な構造である。 ● Full AttnRes（b）は、層ごとの学習済みベクトルを用いて、全ての先行層出力に softmax attentionを適用し、重要な層を選択的に集約する。 ● Block AttnRes（c）は、L層をN個のブロックに分割し、ブロック内は通常の残差で足し合わせ、ブロック間でのみ attentionを適用することで、メモリ・通信コストを O(Ld) から O(Nd)に削減する。 ● Full AttnResとBlock AttnResの本質的な違いはattentionの適用範囲のみであり、 Block AttnResはdrop-inで置き換えが可能である。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 4 / 16

手法 (1)：Full AttnRes の定式化数式定義 (Eq.2) softmax over depth ● 計算量は O(L*2d)だが、ネットワークの深さ Lはシーケンス長よりはるかに小さいため、負荷はわずかである。 ● 通常の学習ではバックプロパゲーション用のメモリを再利用できるため、追加メモリはほぼ不要だが、大規模訓練（パイプライン並列など）では層を跨ぐ O(Ld) の通信が課題となる。 ● 追加パラメータは各層にベクトル w_l と RMSNormを1つずつ足すのみで、モデル全体のサイズに対して無視できるほど小さい。 (Eq.3) Query/Key 設計 qₗ = wₗ ∈ ℝᵈ (層ごとに 1 本だけ持つ学習可能ベクトル) kᵢ = vᵢ = h₁ (i=0) / fᵢ(hᵢ) (i≥1) (Eq.4) 層 l の入力 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 5 / 16

インフラ： Cross-stage cache と Two-phase 計算システム最適化のポイント ● Cross-stage caching: パイプライン並列時に重複する送信を省き、通信量を仮想ステージ数（V）倍削減する。 ● Two-phase computation : ブロック内の全層をまとめて計算する Phase 1と、逐次計算するPhase 2に分け、メモリ読み出し（ I/O）を大幅に効率化する。 ● 推論効率 : ブロック版のメモリアクセス量は約 5.5d で、類似手法（ mHC）の約 1/6 と極めて低い。 ● 実測負荷 : 訓練時の負荷は 4% 未満、推論時の遅延は 2% 未満と、無視できるほど小さい。 ● 長文対応 : 128Kトークンの入力でも、テンソル並列を活用してデバイスあたりのメモリ消費を約 1.9GB まで抑制できる。 ★ ここに Fig. 3 を貼り付け Cache-based pipeline communication 例 (P=4 ranks, V=2 virtual stages) (Each rank caches previously received blocks; transitions transmit only incremental blocks (+[b1,b2]).) ▸ 配置メモ: 論文 p.6 の Figure 3 全体を貼付（左右のVirtual stage 0/1 のダイアグラム）。 ▸ 縦横比: 横長 (おおよそ 16:7) (元論文の比率を維持すること) Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 7 / 16

結果 (1)：Scaling law Fig. 4 ● Full AttnResおよびBlock AttnResのいずれも、すべての計算リソース範囲においてBaselineを上回る低い損失（Loss）を達成した。 ● Block AttnResの性能はFull AttnResに極めて近く、モデル規模が大きくなるほどその差は 0.001 まで縮小する。 ● 同じ計算量（5.6 PFLOP/s-days）で比較すると、Block AttnResはBaselineが1.25倍の計算量を使った場合に匹敵する低い損失を達成した。 ● 両者のスケーリング曲線の傾きはほぼ同一であり、 AttnResは学習効率の指数を変えるのではなく、ベースとなる性能を底上げしている。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 8 / 16

結果 (2)：出力ノルム・勾配の改善 Fig. 5 ★ ここに Fig. 5 を貼り付け (a) Validation loss / (b) Output magnitude / (c) Gradient magnitude across blocks の3パネル (AttnRes consistently lower val loss; bounded output magnitudes; uniform gradient distribution across depth.) ▸ 配置メモ: 論文 p.10 の Figure 5 全体（3パネル）を貼付。 ▸ 縦横比: 横長 (3:1 程度) (元論文の比率を維持すること) (a) Validation loss (b) Output magnitude (c) Gradient magnitude AttnResは学習の全期間を通じて Baseline より低い損失を維持し、特に学習終盤の減衰フェーズでその差がさらに拡大して、最終的に明確に優れた精度に到達する。従来のBaselineでは深い層ほど出力が指数関数的に増大する「 PreNorm希釈問題」が発生するが、 Block AttnResはブロック境界で蓄積をリセットするため、出力の大きさを一定範囲内に抑えられる Baselineでは勾配が最初期の層に極端に集中してしまうが、 AttnResはsoftmaxによる層間の重み競合を通じて、勾配を全層にわたって均一に分布させる。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 9 / 16

10.

結果 (3)：下流タスクでの比較図から読み取れること Table 3 ■ 評価した全 14タスクにおいて、 AttnResはBaselineと同等以上の成績を収めた。この改善効果は一部のタスクに限定されず、全方位に及んでいる。 ■ 特に、多段階の思考が必要なタスクで顕著な伸びが見られ、GPQA-Diamondで+7.5、Mathで+3.6、HumanEvalで+3.1の大幅な向上を記録した。 ■ 特に、多段階の思考が必要なタスクで顕著な伸びが見られ、GPQA-Diamondで+7.5、Mathで+3.6、HumanEvalで+3.1の大幅な向上を記録した。 ■ CMMLUやC-Evalといった中国語ベンチマークも向上しており、この手法が言語を問わず普遍的な効果を発揮することを示している。深さ方向の情報伝達が改善されたことで、深い層が初期の層の表現を必要に応じて再利用できるようになった。このことが、複数の情報を組み合わせて解く「合成的・複雑な」タスクにおいて、特に高い効果を発揮したという仮説を裏付けている。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 10 / 16

11.

結果 (4)：アブレーション実験 Fig. 6 Table 4 Ablationのポイント ■ 入力に応じて動的に重みを変える仕組みが不可欠であり、固定重みの手法（DenseFormer等）を上回る。重みの決定には softmaxが最適であり、各層のスケールを揃えるRMSNormも性能維持に極めて重要である

12.

分析 (1)：AttnRes はより深いネットワークを好むポイント ● 計算量とパラメータ数を一定に保った条件下で、25通りの構成による総当たり実験（グリッドサーチ）を実施した。 ● どちらの手法もモデルの次元数が多いほど・Multi-Head Attentionのヘッド数を少なくするほど性能が向上するという共通の傾向が見られた。 ● 同じパラメータ数であれば、AttnResは Baselineよりも層が深くてパラメータが少ないモデルでより高い効果を発揮することを示している。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 12 / 16

13.

分析 (2)：学習された depth-wise attention の構造 Fig. 8 3つの学習現象 ■ すべての残差接続のバリエーションは、過去の出力をどう混ぜるかを示す行列を用いた数式として統一的に記述できる。 ■ 標準的な残差やHighwayなどの従来手法は、この行列が単純な低ランク構造であり、実質的には「深さ方向のLinear Attention」を行っているに等しい。 ■ mHCなどの手法は、情報を複数のストリームで持つことで行列のランクを拡張しており、これは深さ方向における「状態の拡張」と見なせる。 ■ これらに対し、AttnResは密なsoftmax重みを採用することで、深さ方向における「softmax Attention」を完成させたモデルであるといえる。 Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 13 / 16

14.

限界と強み Strengths ● 48Bパラメータの MoEモデルを用い、 1.4兆トークンの膨大なデータで訓練してその効果を証明している。 ● 全14種のベンチマークで Baselineを上回り、言語理解から数学、コード生成まで分野を問わず一貫して改善する。 ● シーケンスと深さの類似性に基づき、あらゆる残差手法を共通の理論モデルの中に位置づけた。 ● 既存モデルにベクトル 1本とRMSNormを足すだけで置き換え可能であり、訓練・推論への負荷も極めて小さい ● 動的な重み付け、 softmax、ブロックサイズなど、各構成要素の重要性が詳細な比較実験で個別に裏付けられている Limitations ■ 比較対象が PreNormに偏っており、他の正規化手法との対比は十分ではない ■ ブロック数の決定は経験則に頼っており、理論的な根拠の解明が課題 ■ 性能と負荷の兼ね合いから、クエリは入力に依存しない設計としている Attention Residuals ｜ Kimi Team, 2026 ｜ Slide 15 / 16