【人工知能・深層学習】論文紹介:Uncovering Hidden Representations in Language Models

-- Views

April 26, 26

スライド概要

profile-image

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

論文紹介 Uncovering Hidden Representations in Language Models カ ブンキン JC 2026/04/25

2.

論文概要 タイトル:Layer by Layer: Uncovering Hidden Representations in Language Models (ICML2025 Oral) 著者: Oscar Skean(University of Kentucky, PHD), Md Rifat Arefin, Dan Zhao, Niket Patel, Jalal Naghiyev, Yann LeCun, Ravid Shwartz-Ziv 概要: LLMの出力は一般的に最終層に依存している考え方があるが、中間層もより豊富な情報を 表現できる。 中間層の特性を説明し、定量化するための情報理論、幾何学、不変性に基づいた統一的な 評価基準を提案する。 さまざまなアーキテクチャ(Transformer, SSM)や分野(言語、視覚)におけるデータ セットで実験を通じて、中間層の特徴が確認された。 1

3.

はじめに 疑問:自然言語処理の分野にほとんどのアプリケーションにおいて、最終層の表現が最も 有効であるという共通の前提がある。しがし、最終層が常に最適な表現を提供するのか。 実験:32種類の言語分野の下流タスクにおいて、各層の 平均スコアを計算する。 実験対象: 自己回帰型モデル:Pythia 状態空間モデル:Mamba 双方向モデル:Bert 事実:中間層の平均スコアが、最終層の平均スコアを最 大16%上回る。中間層は特に優れた表現能力を持つのに 対して、最終層は事前学習の目的に過度に特化してしま う傾向がある。 2

4.

Unified Framework ニューラル表現のための統一的な枠組み(Unified Framework)は、三つの補完的な観点 (情報理論、幾何学、不変性)を組み合わせたものです。 情報理論観点:各層は、どの程度文脈情報を圧縮したり、保持したりするのか。 幾何学観点:トークンの埋め込みは高次元空間の中でどのように表現されるのか。 不変性観点:埋め込みは入力データのわずかな変化に対しても安定しているのか。 これらの観点を統一的な枠組みに結合し、中間層が、必要な特徴を保持しつつ、不要なノ イズを排除するというバランスをどのように取っているか明らかにする。 3

5.

Unified Framework: Notation and Motivation 入力x(例えば、一つシーケンスの各トークン)を内部の隠れ状態𝐙にマッピングする ニューラルネットワークを考えてみる。ここで、𝐙 ∈ ℝ𝑁∗𝐷 は、𝐷次元を持つ𝑁個のデータサ ンプル(またはトークン)からなる行列です。いくつかの重要な疑問が生じる: (x: 入力データ 𝐙: 中間層データ) 1. これらの表現は、どの程度圧縮されているのか。 2. これらは、何かの乱れと拡張に対して、どれほど耐性があるのか。 3. これらは、さまざまな入力データを、幾何学的にどのように整理しているのか。 これらの質問に答えによって、中間層が、必要な特徴を保持しつつ、不要なノイズを排除 するというバランスをどのように取っているか明らかになる。 4

6.

Unified Framework: Entropy エントロピー(Entropy)は、情報理論の概念で、あるできこと(事象)が起きた際、そ れがどれほど起こりにくいかを表す尺度です。(Wikipedia) 詳しくはシャノンエントロピー(Shannon Entropy)と呼ぶ。 量子力学の場合はフォン・ノイマンエントロピー(von Neumann entropy)。 𝑛 𝐻 𝑥 = − ෍ 𝑃 𝑥𝑖 log 𝑃 𝑥𝑖 𝑖=1 𝑃 𝑥𝑖 :事象𝑥𝑖 が起こる確率 log 𝑃 𝑥𝑖 :自己情報量 エントロピーが低いほど、情報の不確実性は低くなる。 5

7.

Unified Framework: Entropy Shannon Entropy: 𝐻 𝑃 = − σ𝑥 𝑃 𝑥 log 𝑃 𝑥 Cross Entropy: 𝐻 𝑃, 𝑄 = − σ𝑥 𝑃 𝑥 log 𝑄 𝑥 𝑃: 真の分布 𝑄: 予測分布 数学的な関係性 𝐻 𝑃, 𝑄 = 𝐻 𝑃 + 𝐷𝐾𝐿 𝑃 ∥ 𝑄 𝐷𝐾𝐿 𝑃 ∥ 𝑄 : KLダイバージェンス。分布𝑄と分布𝑃からどれほどズレているかを表す。 交差エントロピー = シャノンエントロピー + 分布のズレ 6

8.

Unified Framework: Rényi Entropy レニーエントロピー(Rényi Entropy)は、先ほどのシャノンエントロピーを拡張(一般 化)した概念です。 シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエ ントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」の どちらを重視するかを自由に変えることができる。 𝑛 1 𝐻𝛼 𝑋 = log ෍ 𝑝𝑖𝛼 1−𝛼 正規化 𝑖=1 𝛼 < 1のとき:小さな確率を𝛼乗すると、相対的に大きな値に引き上げられる。「珍しい事 象」を重視する。 𝛼 > 1のとき:大きな確率を𝛼乗すると、相対的に小さな値に下げられる。 「よく起こる 事象」を重視する。 7

9.

Unified Framework: Rényi Entropy レニーエントロピー(Rényi Entropy)は、先ほどのシャノンエントロピーを拡張(一般 化)した概念です。 シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエ ントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」の どちらを重視するかを自由に変えることができる。 𝑛 𝐻𝛼 𝑋 = 1 log ෍ 𝑝𝑖𝛼 1−𝛼 正規化 𝑖=1 𝛼 → 1:シャノンエントロピーとなる。 𝛼 = 2:衝突エントロピーとなる。 衝突エントロピー(Collision Entropy):𝐻2 𝑋 = − log σ𝑛𝑖=1 𝑝𝑖2 2つの独立な変数が同じ値をとる(衝突する)確率をベースにしたエントロピーです。 8

10.

Unified Framework: Matrix-Based Entropy 研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行 列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 𝐙:中間層データ行列 𝐊:グラム行列、𝐊 = 𝐙𝐙T 、データ間の類似性を示す λi 𝐊 : 𝐊の固有値 tr 𝐊 : 𝐊のトレース、 σ𝑟𝑖=1 λi 𝐊 = tr 𝐊 9

11.

Unified Framework: Matrix-Based Entropy 研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行 列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑛 1 𝐻𝛼 𝑋 = log ෍ 𝑝𝑖𝛼 1−𝛼 𝑖=1 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列 𝐊のトレース(対角成分の和)で、全ての固有値の合計に等しくなる。固有値をこれ で割ることで、合計が1になる「確率分布」のように扱えるようにしている。 実験では常に𝛼 → 1(Shannon Entropy)に設定する。 10

12.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行 列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点 圧縮率と情報量: 行列𝐊において少数の大きな固有値が存在することは、エントロピーが低く、モデルが入 力データの多くの情報がより少ない次元に圧縮された。 一方、固有値の分布がより均一である場合、エントロピーが高く、より多様な特徴が得ら れることになる。 11

13.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行 列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点 幾何学的な滑らかさ: 埋め込み空間におけるトークンの軌跡が「急に曲がる(曲率が高い)」といった幾何学的 な構造は、固有値集合の偏りとして現れる。これにより、局所的な特徴と全体的なパター ンの違いを捉えられる。 12

14.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行 列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点 拡張に対する不変性: データにノイズや微小な変化を加えた際に表現が安定しているか(不変性)は、行列𝐊に おけるクラスタリング構造の安定性として現れ、これも固有値の分布に依存する。 13

15.

Evaluation Metrics 主なポイント:情報理論的、幾何学的、および不変性に基づく評価指標は、表現の質につ いて互いに補完し合う視点を提供しており、これらはすべて行列ベースのエントロピーを 通じて理解することができる。 実験で使用した表現評価指標は以下の3つのカテゴリーに分類される: 1. 情報理論 2. 幾何学 3. 不変性 これらはすべて、グラム行列 𝐊 、行列ベースのエントロピーに関連している。 14

16.

Evaluation Metrics: INFORMATION-THEORETIC METRICS 情報理論の評価指標 プロンプトエントロピー(Prompt Entropy):単一のプロンプト内のトークン埋め込みに対 して行列ベースのエントロピーを適用する。このプロンプトエントロピーは、埋め込み空 間においてトークンがどれほど広範囲に分散しているかを定量化する。エントロピーが高 いほど、トークンレベルの特徴は多様で冗長性が低いことを示し、エントロピーが低いほ ど圧縮率が高いことを意味する。 データセットエントロピー(Dataset Entropy):各プロンプトのトークン埋め込みの平均 を計算し、𝐙ത ∈ ℝ𝑁×𝐷 を形成することで、N個のプロンプトにわたる埋め込みを集約するこ ともできる。 𝐙ത に行列ベースのエントロピーを適用することで、データセットレベルでの 全体的な多様性の指標が得られ、モデルが異なる入力をどの程度明確に区別しているかが 明らかになる。 15

17.

Evaluation Metrics: INFORMATION-THEORETIC METRICS 情報理論の評価指標 実効ランク(Effective Rank):行列の真の「実質的な次元数」を定量化するための指標 。exp 𝑆1 𝐙 の下限となることが示されており、表現が強く圧縮されると、次元数が実質 的に縮小することを浮き彫りにしている。 EffRank 𝐙 ≤ exp 𝑆1 𝐙 α→1 Shannon Entropy 実効ランクが大きいことは、エントロピーが高いことを意味する。 実効ランクが小さいことは、エントロピーが低いことを意味する。 16

18.

Evaluation Metrics: GEOMETRIC METRICS 幾何学の評価指標 曲率(Curvature):あるトークンの埋め込みが、 ℝ𝐷 空間内のシーケンスとして見た場合、 どれほど急激に変化するかを示すものである。 長さ𝐿のプロンプトについて、𝐯𝑘 = 𝐳𝑘+1 − 𝐳𝑘 を連続するトークン間の差とする。平均曲率 は以下の通りである: 差の間の角度 𝐿−2 ⊺ 1 𝑣𝑘+1 𝑣𝑘 ҧ 𝐶= ෍ 𝑎𝑟𝑐𝑐𝑜𝑠 𝐿−2 |𝑣𝑘+1 ||𝑣𝑘 | 𝑘=1 曲率が高い場合、連続するトークンの方向が急激に変わり、より局所的な特徴が現れる。 曲率が低い場合、トークンの移動軌跡は滑らかになり、より全体的な特徴が現れる。 17

19.

Evaluation Metrics: INVARIANCE METRICS 不変性の評価指標 InfoNCE:自己教師あり学習の損失関数。一致するサンプル同士は埋め込み空間内で近い 位置にあり、一致していないサンプル同士は互いに離れた位置になる。InfoNCE損失が低 いほど、データ拡張に対する不変性が強くなる。 LiDAR:線形判別法が用いられており、クラス内のデータのばらつきとクラス間のデータ のばらつきを測定する。各プロンプトを独立したクラスとして扱い、 LiDARの数値が高い ほど、多様のクラスを形成しているを意味する。 DiME:行列ベースのエントロピー理論に基づいている。この手法では、実際のペアデータ とランダムに生成されたペアデータを比較することで、正しい拡張がどの程度一意に行わ れているかを推定する。 18

20.

実験 さまざまなアーキテクチャ、スケール、トレーニング手法を用いた広範な実験を通じて、 理論的枠組みを実証的に検証する。ここでは、3つの重要な疑問に焦点を当てる。 • 中間層は、さまざまな下流タスクにおいて、最終層よりも一貫して優れた性能を発揮す るか? • これらの中間表現は、アーキテクチャやトレーニングの段階、規模によって、どのよう に異なるか? • トレーニング後の処理手法(例えば、ファインチューニングやCoT(Chain of Thought) など)は、どのようにデータの表現を再構築するか? 色々な表現指標を通じてテキスト表現を分析する。 19

21.

実験: SETUP 実験モデル 自己回帰型Transformer:Pythia、 Llama3 状態空間モデル: Mamba 双方向Transformer :Bert、 LLM2Vec models Decoder-only Transformer: Pythia、 Llama3、LLM2Vec models Encoder-only Transformer: Bert 実験データセット:WikiText-103 20

22.

実験: SETUP 下流タスク Benchmark :Massive Text Embedding Benchmark (MTEB) 各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスク には、分類、クラスタリング、リランキングなどが含まれる。 21

23.

実験: SETUP 下流タスク Benchmark :Massive Text Embedding Benchmark (MTEB) 各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスク には、分類、クラスタリング、リランキングなどが含まれる。 22

24.

実験: 観察結果 先の事実:ほぼすべてのタスクにおいて、最終層よりも中間層の方が優れた性能を示す。平均して、 その改善率は2%から16%にも上る。 最も優れた性能を持つ層は、ネットワークの中間付近に位置していることが多い。この現象は、さま ざまなアーキテクチャにおいても同様に見られる。 観点: 中間層は、十分な情報を保持しつつ、過度な圧縮を避けつ つ、低レベルのノイズを排除するというバランスをうまく 取っている。 こうした最適な設定は偶然に決まるわけではなく、中間層 が情報をどのように処理するかによって決まる。 23

25.

実験: 相関関係 実験内容:枠組みの有効性を検証するために、各 評価指標が下流タスクのスコアとどのように関連 しているかを分析した。 Model:Pythia-410M dCor:非線形的な相関関係係数。 0は独立性を、1は強い依存性を示す。 結論: すべての評価指標が下流タスクのスコアと強い相 関関係がある。特に曲率、DiME、InfoNCEの相 関係数が高かった。 この結論により、研究結果の信頼性が裏付けられ る。 24

26.

実験: Architectural Differences 実験内容:標準的なテキストデータセットWikiText-103におけるプロンプトエントロピー、曲率、 LiDARの指標を分析し、 BERT(Encoder)、 Pythia(Decoder)、Mamba(SSM)という根本的に異なる3 つのアーキテクチャを比較した。 結果:アーキテクチャが異なると、情報圧縮のパターンも異なる。自己回帰モデルでは中間層でボトル ネックが生じる一方、双方向モデルではより均一な傾向が維持される。 Encoder vs Decoder vs SSM 25

27.

実験: Architectural Differences BERT:入力データを双方向にエンコードするBERTは、各層において高いエントロピーを維持する。こ れは、圧縮が最小限であることを示唆している。つまり、このモデルはすべてのトークンを一度に把握で きるため、それほど多くの情報を破棄する必要がないのである。 Encoder vs Decoder vs SSM 26

28.

実験: Architectural Differences Pythia:Decoder-onlyから構成されるPythiaでは、中間層でエントロピーが急激に低下する。これは、 Pythiaが自己回帰的な処理を行うため、ネットワークの中間部分の非局所的な詳細情報を省略する傾向が あるためである。その結果、 Pythiaの下流タスクにおける「最適点」は、多くの場合、深さのほぼ中間 付近に位置しており、そこでは不可欠な文脈と圧縮のバランスが取れている。 Encoder vs Decoder vs SSM 27

29.

実験: Architectural Differences Mamba: 必要な文脈情報とデータの圧縮のバランスをうまく取っている。一方、Mambaは状態空間ア プローチを用いてデータを処理するため、深さ方向においてより平坦で均一な曲線が得られる。BERTほ ど多くの情報を保持することはできず、Pythiaの中間層ほど積極的にデータを圧縮することもない。 Encoder vs Decoder vs SSM 28

30.

実験: Architectural Differences 他の指標 29

31.

実験: Scaling Size Effects 実験内容:パラメータ数が1,400万から10億のPythiaモデルの分析。 結果:より大規模なモデルほど、中間層での圧縮(エントロピーの低下)がより顕著になる。これは、重要な 特徴を効果的に抽出する能力が高まっていることを示している。また、トークンの軌跡がより滑らか(曲率が 低い)になり、不変性がより強くなる(LiDAR値が低い)ことも確認された。 これは、より大規模なモデルほどノイズを効果的に除去し、長距離依存関係を捉えることができるという既存 発見と一致している。これらの傾向は、なぜ性能がネットワークの中間層でピークに達するのかを裏付けてい る。つまり、大規模なモデルは中間表現を圧縮する能力が高い一方で、重要な文脈を保持し続けているからで ある。 30

32.

実験: Finetuning Effects 実験内容:ファインチューニングがLlama3の内部表現にどの ような影響を与えるかの分析。 Baseline: Llama3-8B Finetuning LLM2Vec Model LLM2Vec-mntp-unsup-simcse: 2つの教師なし学習フェーズ からなるLLM2Vecアプローチにより、双方向アテンションを 実現したLlama3 LLM2Vec-mntp-supervised:1つの教師あり学習フェーズか らなるLLM2Vecアプローチにより、双方向アテンションを実 現したLlama3 結果:両方のモデルがデータ拡張に対する不変性を向上させて いることは明らかである。さらに、教師なしモデルはLlama3 よりもプロンプトエントロピーが高く、一方、教師ありモデル はより低い。 31

33.

実験: Transformer Sub-Components Transformerのサブレイヤーに関する層レベルの分析。 Post MLP Residual Post MLP Post Attention Residual Post Attention Attention Patterns Pre Attention 32

34.

実験: Transformer Sub-Components Transformerのサブレイヤーに関する層レベルの分析。 実験内容: 各サブレイヤー後のエントロピーを測定する。 結果 残差接続以前のサブレイヤーでは、多くの場 合、わずかな圧縮しか起こらない。 残差サブレイヤーではエントロピーが顕著に 低下しており、情報の大幅なフィルタリング が行われていることを示している。 中間層における強いエントロピーの「谷」は、 残差経路が新しい信号を既存の隠れ状態とど のように統合するかに関連している。これは、 残差が正則化項として機能し、隠れ表現にお ける不要な成分を平滑化するという既存研究 の結果と一致している。 33

35.

実験: Training Progression 実験内容:学習を通じて層ごとの表現がどのように変化するかを把握するため、複数のチェックポイントで Pythia-410Mの評価指標を測定した。 x 軸はモデルの各層を表しており、学習が各層に与える影響がわかる。色は学習中の異なるチェックポイン トを表している。 結論:学習中の大きな変化は中間層で生じ、初期層は急速に安定化する。これは非トークン化仮説を裏付け るものである。 非トークン化仮説:モデルの初期層の主な機能は、原始的なトークンを基本的な埋め込み空間に変換するこ とである。 34

36.

実験: Training Progression 中間層で最も大きな変化が生じる。 学習が進むにつれて、プロンプトエントロピーは徐々に減少する。これは、中間層が入力データをより効率 的に圧縮し、抽象化していることを意味する。 曲率は、中間層で滑らかになる。 LiDARスコアは、中間層で非常に低い値を示す。 初期層は急速に安定化する。 中間層とは対照的に、初期層は学習の初期段階を過ぎるとほとんど変化しない。 35

37.

実験: Training Progression 他の指標 36

38.

実験: Chain-of-Thought Finetuning CoT Finetuningは推論能力を向上させるための有効な手 法であることを検討する。 実験内容:シーケンス全体にわたるトークンレベルでの プロンプトエントロピーを測定する。 Baseline:Qwen 2.5 CoT Finetuning Model: Qwen 2.5-Math 灰色プロット:共通の問題文プロンプト 赤色と青色プロット:モデルの回答 結果:Qwen 2.5はプロンプトの圧縮率が高いのに対し、 ファインチューニングされたQwen 2.5-Mathではエント ロピー値が高く、より多くの情報が保持されていること を示す。 37

39.

実験: Chain-of-Thought Finetuning この結果から CoTのファインチューニングによって、モデルは中間層 全体にわたってより多くの文脈を保持するようになり、 より効果的なマルチステップ推論が可能になることがわ かる。 統一的な枠組みにより CoTのファインチューニングがどのようにしてモデルが シーケンス全体にわたってより豊かな内部表現を保持す るように促すかを定量的に理解することができる。 38

40.

実験: Extreme Input Conditions 表現品質に影響を与える根本的な要因をより深く調べ 実験内容:各層がさまざまな入力タイプに対してどのように反応す るかを調べため、Pythia-410Mを用いて、2種類の極端なプロンプ トに対する反応を調べ、各層におけるプロンプトエントロピーを測 定する。 極端なプロンプトの例(pは割合) Repetition: (p = 0.1) Mint records indicate the first gold dollars were Mint Mint May 7. (p = 1.0) Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint. Randomness: (p = 0.1) Mint records indicate salivary first gold dollars were produced on May NaCl... (p = 1.0) arf emulsion minorensteinorianmega_TOStack potsRecip Installifykeeping... 39

41.

実験: Extreme Input Conditions 表現品質に影響を与える根本的な要因をより深く調べ 結論: トークンの繰り返しによって、中間層が圧縮される。pが大きくな るほど(つまり、繰り返されるトークンの数が多くなるほど)、中 間層におけるプロンプトエントロピーは急激に低下する。これは、 モデルが反復的なパターンを認識・符号化し、内部表現から冗長性 を排除していることを示している。 ランダムなトークンによって、初期層でのプロンプトエントロピー が増加する。トークンレベルでのランダム性を加えることで、初期 の層ではエントロピーが大幅に増加し、ノイズに対する敏感さが明 らかになる。一方、より深い層の場合は、そのような影響をあまり 受けない。 全体として、中間層が、複雑または特殊な入力データを処理する上 で重要な役割を果たしていることを示している。 40

42.

Vision Transformers 研究成果は、コンピュータビジョンのような他の分野にも適用できるか? ビジョンモデルには、完全な教師あり学習から自己教師あり学習まで、また双方向から自己回 帰エンコーダまで、さまざまなアーキテクチャや訓練目的が用いられている。この多様性によ り、研究成果がどの程度一般化できるか、また、異なる訓練目的が内部表現にどのような影響 を与えるかを検証する。 実験モデル 自己回帰画像Transformer:AIM マルチモーダルTransformer: AIMv2 他の視覚相関モデル: ViT, CLIP, BEiT, DINOv2, MAE 実験データセット: ImageNet-1k 41

43.

Vision Transformers AIMは言語モデルと類似した振る舞いを示す。 画像の各パッチを順次的に予測するため、Pythiaのよ うな言語モデルで観察されたのと同じようなプロンプ トエントロピーの「谷」や、中間層での精度のピーク が見られる。このパターンから、テキストのトークン であれ、画像のパッチであれ、自己回帰的な学習手法 は、常に中間層で情報の圧縮が起こることがわかる。 AIMv2モデルでは中間層での精度は向上していないが、 依然としてプロンプトエントロピーの「谷」が現れる。 この違いは、マルチモーダルの影響によるものと考え られる。 42

44.

Vision Transformer 視覚モデルの表現は言語モデルと異なる。 AIMを除くすべてのモデルにおいて、最終層に向かっ て精度が単調に向上している。 ほとんどの非自己回帰型視覚モデルでは、データセッ トエントロピーが徐々に増加している。ただし、BEIT は例外であり、中間層でエントロピーが大幅に減少し ている。 これらの結果から、自己回帰的な目的関数がない場合、 視覚モデルは途中でそれほど大きな変換を必要としな いことがわかる。 43

45.

Vision Transformer 自己回帰が推進力となっている。 LLMにおいて見られる層間圧縮という現象は、「シー ケンシャルなトークンデータ」と「画像パッチデー タ」という性質の違いによるものではなく、むしろ事 前訓練の過程で生じる副産物のようである。 視覚分野におけるさまざまな自己教師あり/完全教師 ありのアプローチは、各層での特徴量の均一な構築を 促進するが、自己回帰型の視覚モデルでは、言語処理 で見られるのと同様の中間層でのボトルネックが生じ る。 したがって、目的関数の設計(モデルが自己回帰的で あるかどうか)が、ドメイン(分野)に関わらず、層 ごとの表現の質を形作る上で極めて重要であるように 思われる。 44

46.

結論 この研究により、以下のことが明らかになる。 • 中間層の性能は、最終層の性能を常に上回る。このパターンは、TransformerでもSSM でも同様に見られる。これは、アーキテクチャに依存しない効果があることを示唆して いる。 • 自己回帰型とマスク言語学習の比較。自己回帰型モデルは中間層に顕著な「圧縮の谷」 を示すのに対し、マスク型や双方向型モデルは中間層の変化がより緩やかである。 • ドメイン一般化効果。これらの結果を視覚処理モデルにも適用してみると、自己回帰型 視覚モデルも同様の中間層でのボトルネック現象を示した。これは、データの性質では なく、学習目的関数が重要な要因であることを示している。 • CoTのファインチューニング。思考連鎖(CoT)の分析により、ファインチューニング によって中間層のエントロピーが再形成され、 multi-stepのための潜在的な文脈が保持 されることが明らかになる。 45

47.

後続研究 研究では、LLMにおける内部表現の動的な変化について検討していた。理論的・実証的な 知見を提供するとともに、モデルの設計や学習を最適化するための実用的な示唆も提供し ていた。 今後の研究では、中間層での圧縮が生じる根本的な原因をさらに調査し、圧縮を制御する ための具体的な手法を検討する必要がある。 不足:異なるアーキテクチャ実験の部分にBERTとSSMに関する議論が少ない。 OpenReviewで著者が最終版に追加すると回答していたが、結局追加されなかった。残念 です。 46