---
title: 【人工知能・深層学習】論文紹介：Uncovering Hidden Representations in Language Models
tags: 
author: [Taki lab.](https://image.docswell.com/user/8328889256)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/9J299GM3ER.jpg?width=480
description: 【人工知能・深層学習】論文紹介：Uncovering Hidden Representations in Language Models by Taki lab.
published: April 26, 26
canonical: https://image.docswell.com/s/8328889256/KWRXQX-2026-04-26-171027
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/9J299GM3ER.jpg)

論文紹介
Uncovering Hidden Representations in
Language Models
カ ブンキン
JC 2026/04/25


# Page. 2

![Page Image](https://bcdn.docswell.com/page/DEY44VX8JM.jpg)

論文概要
タイトル：Layer by Layer: Uncovering Hidden Representations in Language Models
(ICML2025 Oral)
著者： Oscar Skean(University of Kentucky, PHD), Md Rifat Arefin, Dan Zhao, Niket
Patel, Jalal Naghiyev, Yann LeCun, Ravid Shwartz-Ziv
概要：
LLMの出力は一般的に最終層に依存している考え方があるが、中間層もより豊富な情報を
表現できる。
中間層の特性を説明し、定量化するための情報理論、幾何学、不変性に基づいた統一的な
評価基準を提案する。
さまざまなアーキテクチャ（Transformer, SSM）や分野（言語、視覚）におけるデータ
セットで実験を通じて、中間層の特徴が確認された。
1


# Page. 3

![Page Image](https://bcdn.docswell.com/page/VJNYYM1978.jpg)

はじめに
疑問：自然言語処理の分野にほとんどのアプリケーションにおいて、最終層の表現が最も
有効であるという共通の前提がある。しがし、最終層が常に最適な表現を提供するのか。
実験：32種類の言語分野の下流タスクにおいて、各層の
平均スコアを計算する。
実験対象：
自己回帰型モデル：Pythia
状態空間モデル：Mamba
双方向モデル：Bert
事実：中間層の平均スコアが、最終層の平均スコアを最
大16％上回る。中間層は特に優れた表現能力を持つのに
対して、最終層は事前学習の目的に過度に特化してしま
う傾向がある。
2


# Page. 4

![Page Image](https://bcdn.docswell.com/page/YE9PPN53J3.jpg)

Unified Framework
ニューラル表現のための統一的な枠組み（Unified Framework）は、三つの補完的な観点
（情報理論、幾何学、不変性）を組み合わせたものです。
情報理論観点：各層は、どの程度文脈情報を圧縮したり、保持したりするのか。
幾何学観点：トークンの埋め込みは高次元空間の中でどのように表現されるのか。
不変性観点：埋め込みは入力データのわずかな変化に対しても安定しているのか。
これらの観点を統一的な枠組みに結合し、中間層が、必要な特徴を保持しつつ、不要なノ
イズを排除するというバランスをどのように取っているか明らかにする。
3


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GE8DDKYLED.jpg)

Unified Framework: Notation and Motivation
入力x（例えば、一つシーケンスの各トークン）を内部の隠れ状態𝐙にマッピングする
ニューラルネットワークを考えてみる。ここで、𝐙 ∈ ℝ𝑁∗𝐷 は、𝐷次元を持つ𝑁個のデータサ
ンプル（またはトークン）からなる行列です。いくつかの重要な疑問が生じる：
(x: 入力データ
𝐙: 中間層データ)
1. これらの表現は、どの程度圧縮されているのか。
2. これらは、何かの乱れと拡張に対して、どれほど耐性があるのか。
3. これらは、さまざまな入力データを、幾何学的にどのように整理しているのか。
これらの質問に答えによって、中間層が、必要な特徴を保持しつつ、不要なノイズを排除
するというバランスをどのように取っているか明らかになる。
4


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LELMMZ4Q7R.jpg)

Unified Framework: Entropy
エントロピー（Entropy）は、情報理論の概念で、あるできこと（事象）が起きた際、そ
れがどれほど起こりにくいかを表す尺度です。（Wikipedia）
詳しくはシャノンエントロピー（Shannon Entropy）と呼ぶ。
量子力学の場合はフォン・ノイマンエントロピー（von Neumann entropy）。
𝑛
𝐻 𝑥 = − ෍ 𝑃 𝑥𝑖 log 𝑃 𝑥𝑖
𝑖=1
𝑃 𝑥𝑖 ：事象𝑥𝑖 が起こる確率
log 𝑃 𝑥𝑖 ：自己情報量
エントロピーが低いほど、情報の不確実性は低くなる。
5


# Page. 7

![Page Image](https://bcdn.docswell.com/page/4JMYYVZKJW.jpg)

Unified Framework: Entropy
Shannon Entropy: 𝐻 𝑃 = − σ𝑥 𝑃 𝑥 log 𝑃 𝑥
Cross Entropy: 𝐻 𝑃, 𝑄 = − σ𝑥 𝑃 𝑥 log 𝑄 𝑥
𝑃: 真の分布
𝑄: 予測分布
数学的な関係性
𝐻 𝑃, 𝑄 = 𝐻 𝑃 + 𝐷𝐾𝐿 𝑃 ∥ 𝑄
𝐷𝐾𝐿 𝑃 ∥ 𝑄 ： KLダイバージェンス。分布𝑄と分布𝑃からどれほどズレているかを表す。
交差エントロピー = シャノンエントロピー + 分布のズレ
6


# Page. 8

![Page Image](https://bcdn.docswell.com/page/PJR9926679.jpg)

Unified Framework: Rényi Entropy
レニーエントロピー（Rényi Entropy）は、先ほどのシャノンエントロピーを拡張（一般
化）した概念です。
シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエ
ントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」の
どちらを重視するかを自由に変えることができる。
𝑛
1
𝐻𝛼 𝑋 =
log ෍ 𝑝𝑖𝛼
1−𝛼
正規化
𝑖=1
𝛼 &lt; 1のとき：小さな確率を𝛼乗すると、相対的に大きな値に引き上げられる。「珍しい事
象」を重視する。
𝛼 &gt; 1のとき：大きな確率を𝛼乗すると、相対的に小さな値に下げられる。 「よく起こる
事象」を重視する。
7


# Page. 9

![Page Image](https://bcdn.docswell.com/page/PEXQQDMDJX.jpg)

Unified Framework: Rényi Entropy
レニーエントロピー（Rényi Entropy）は、先ほどのシャノンエントロピーを拡張（一般
化）した概念です。
シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエ
ントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」の
どちらを重視するかを自由に変えることができる。
𝑛
𝐻𝛼 𝑋 =
1
log ෍ 𝑝𝑖𝛼
1−𝛼
正規化
𝑖=1
𝛼 → 1：シャノンエントロピーとなる。
𝛼 = 2：衝突エントロピーとなる。
衝突エントロピー(Collision Entropy)：𝐻2 𝑋 = − log σ𝑛𝑖=1 𝑝𝑖2
2つの独立な変数が同じ値をとる（衝突する）確率をベースにしたエントロピーです。
8


# Page. 10

![Page Image](https://bcdn.docswell.com/page/3EK99XGDED.jpg)

Unified Framework: Matrix-Based Entropy
研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行
列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。
𝑟
1
λi 𝐊
𝑆𝛼 𝐙 =
log ෍
1−𝛼
tr 𝐊
𝛼
𝑖=1
𝐙：中間層データ行列
𝐊：グラム行列、𝐊 = 𝐙𝐙T 、データ間の類似性を示す
λi 𝐊 ： 𝐊の固有値
tr 𝐊 ： 𝐊のトレース、 σ𝑟𝑖=1 λi 𝐊 = tr 𝐊
9


# Page. 11

![Page Image](https://bcdn.docswell.com/page/L73WW5NP75.jpg)

Unified Framework: Matrix-Based Entropy
研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行
列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。
𝑛
1
𝐻𝛼 𝑋 =
log ෍ 𝑝𝑖𝛼
1−𝛼
𝑖=1
𝑟
1
λi 𝐊
𝑆𝛼 𝐙 =
log ෍
1−𝛼
tr 𝐊
𝛼
𝑖=1
行列 𝐊のトレース（対角成分の和）で、全ての固有値の合計に等しくなる。固有値をこれ
で割ることで、合計が1になる「確率分布」のように扱えるようにしている。
実験では常に𝛼 → 1(Shannon Entropy)に設定する。
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/87DKKDW3JG.jpg)

Unified Framework: Matrix-Based Entropy
論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行
列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。
𝑟
1
λi 𝐊
𝑆𝛼 𝐙 =
log ෍
1−𝛼
tr 𝐊
𝛼
𝑖=1
行列ベースのエントロピーの利点
圧縮率と情報量：
行列𝐊において少数の大きな固有値が存在することは、エントロピーが低く、モデルが入
力データの多くの情報がより少ない次元に圧縮された。
一方、固有値の分布がより均一である場合、エントロピーが高く、より多様な特徴が得ら
れることになる。
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/VJPKKX9PE8.jpg)

Unified Framework: Matrix-Based Entropy
論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行
列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。
𝑟
1
λi 𝐊
𝑆𝛼 𝐙 =
log ෍
1−𝛼
tr 𝐊
𝛼
𝑖=1
行列ベースのエントロピーの利点
幾何学的な滑らかさ：
埋め込み空間におけるトークンの軌跡が「急に曲がる（曲率が高い）」といった幾何学的
な構造は、固有値集合の偏りとして現れる。これにより、局所的な特徴と全体的なパター
ンの違いを捉えられる。
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/2EVVVLMVEQ.jpg)

Unified Framework: Matrix-Based Entropy
論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行
列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。
𝑟
1
λi 𝐊
𝑆𝛼 𝐙 =
log ෍
1−𝛼
tr 𝐊
𝛼
𝑖=1
行列ベースのエントロピーの利点
拡張に対する不変性：
データにノイズや微小な変化を加えた際に表現が安定しているか（不変性）は、行列𝐊に
おけるクラスタリング構造の安定性として現れ、これも固有値の分布に依存する。
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/57GLLXG1EL.jpg)

Evaluation Metrics
主なポイント：情報理論的、幾何学的、および不変性に基づく評価指標は、表現の質につ
いて互いに補完し合う視点を提供しており、これらはすべて行列ベースのエントロピーを
通じて理解することができる。
実験で使用した表現評価指標は以下の3つのカテゴリーに分類される：
1. 情報理論
2. 幾何学
3. 不変性
これらはすべて、グラム行列 𝐊 、行列ベースのエントロピーに関連している。
14


# Page. 16

![Page Image](https://bcdn.docswell.com/page/4EQYY8XNJP.jpg)

Evaluation Metrics: INFORMATION-THEORETIC METRICS
情報理論の評価指標
プロンプトエントロピー(Prompt Entropy)：単一のプロンプト内のトークン埋め込みに対
して行列ベースのエントロピーを適用する。このプロンプトエントロピーは、埋め込み空
間においてトークンがどれほど広範囲に分散しているかを定量化する。エントロピーが高
いほど、トークンレベルの特徴は多様で冗長性が低いことを示し、エントロピーが低いほ
ど圧縮率が高いことを意味する。
データセットエントロピー(Dataset Entropy)：各プロンプトのトークン埋め込みの平均
を計算し、𝐙ത ∈ ℝ𝑁×𝐷 を形成することで、N個のプロンプトにわたる埋め込みを集約するこ
ともできる。 𝐙ത に行列ベースのエントロピーを適用することで、データセットレベルでの
全体的な多様性の指標が得られ、モデルが異なる入力をどの程度明確に区別しているかが
明らかになる。
15


# Page. 17

![Page Image](https://bcdn.docswell.com/page/KJ4WW26371.jpg)

Evaluation Metrics: INFORMATION-THEORETIC METRICS
情報理論の評価指標
実効ランク(Effective Rank)：行列の真の「実質的な次元数」を定量化するための指標
。exp 𝑆1 𝐙 の下限となることが示されており、表現が強く圧縮されると、次元数が実質
的に縮小することを浮き彫りにしている。
EffRank 𝐙 ≤ exp 𝑆1 𝐙
α→1
Shannon Entropy
実効ランクが大きいことは、エントロピーが高いことを意味する。
実効ランクが小さいことは、エントロピーが低いことを意味する。
16


# Page. 18

![Page Image](https://bcdn.docswell.com/page/LE1YYMVZ7G.jpg)

Evaluation Metrics: GEOMETRIC METRICS
幾何学の評価指標
曲率(Curvature)：あるトークンの埋め込みが、 ℝ𝐷 空間内のシーケンスとして見た場合、
どれほど急激に変化するかを示すものである。
長さ𝐿のプロンプトについて、𝐯𝑘 = 𝐳𝑘+1 − 𝐳𝑘 を連続するトークン間の差とする。平均曲率
は以下の通りである：
差の間の角度
𝐿−2
⊺
1
𝑣𝑘+1
𝑣𝑘
ҧ
𝐶=
෍ 𝑎𝑟𝑐𝑐𝑜𝑠
𝐿−2
|𝑣𝑘+1 ||𝑣𝑘 |
𝑘=1
曲率が高い場合、連続するトークンの方向が急激に変わり、より局所的な特徴が現れる。
曲率が低い場合、トークンの移動軌跡は滑らかになり、より全体的な特徴が現れる。
17


# Page. 19

![Page Image](https://bcdn.docswell.com/page/GEWGG3L6J2.jpg)

Evaluation Metrics: INVARIANCE METRICS
不変性の評価指標
InfoNCE：自己教師あり学習の損失関数。一致するサンプル同士は埋め込み空間内で近い
位置にあり、一致していないサンプル同士は互いに離れた位置になる。InfoNCE損失が低
いほど、データ拡張に対する不変性が強くなる。
LiDAR：線形判別法が用いられており、クラス内のデータのばらつきとクラス間のデータ
のばらつきを測定する。各プロンプトを独立したクラスとして扱い、 LiDARの数値が高い
ほど、多様のクラスを形成しているを意味する。
DiME：行列ベースのエントロピー理論に基づいている。この手法では、実際のペアデータ
とランダムに生成されたペアデータを比較することで、正しい拡張がどの程度一意に行わ
れているかを推定する。
18


# Page. 20

![Page Image](https://bcdn.docswell.com/page/47ZLLVMRJ3.jpg)

実験
さまざまなアーキテクチャ、スケール、トレーニング手法を用いた広範な実験を通じて、
理論的枠組みを実証的に検証する。ここでは、3つの重要な疑問に焦点を当てる。
• 中間層は、さまざまな下流タスクにおいて、最終層よりも一貫して優れた性能を発揮す
るか？
• これらの中間表現は、アーキテクチャやトレーニングの段階、規模によって、どのよう
に異なるか？
• トレーニング後の処理手法（例えば、ファインチューニングやCoT(Chain of Thought)
など）は、どのようにデータの表現を再構築するか？
色々な表現指標を通じてテキスト表現を分析する。
19


# Page. 21

![Page Image](https://bcdn.docswell.com/page/YJ6WW5N1JV.jpg)

実験： SETUP
実験モデル
自己回帰型Transformer：Pythia、 Llama3
状態空間モデル： Mamba
双方向Transformer ：Bert、 LLM2Vec models
Decoder-only Transformer： Pythia、 Llama3、LLM2Vec models
Encoder-only Transformer： Bert
実験データセット：WikiText-103
20


# Page. 22

![Page Image](https://bcdn.docswell.com/page/GJ5MMY5LJ4.jpg)

実験： SETUP
下流タスク
Benchmark ：Massive Text Embedding Benchmark (MTEB)
各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスク
には、分類、クラスタリング、リランキングなどが含まれる。
21


# Page. 23

![Page Image](https://bcdn.docswell.com/page/9E299GN37R.jpg)

実験： SETUP
下流タスク
Benchmark ：Massive Text Embedding Benchmark (MTEB)
各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスク
には、分類、クラスタリング、リランキングなどが含まれる。
22


# Page. 24

![Page Image](https://bcdn.docswell.com/page/D7Y44VP8EM.jpg)

実験： 観察結果
先の事実：ほぼすべてのタスクにおいて、最終層よりも中間層の方が優れた性能を示す。平均して、
その改善率は2％から16％にも上る。
最も優れた性能を持つ層は、ネットワークの中間付近に位置していることが多い。この現象は、さま
ざまなアーキテクチャにおいても同様に見られる。
観点：
中間層は、十分な情報を保持しつつ、過度な圧縮を避けつ
つ、低レベルのノイズを排除するというバランスをうまく
取っている。
こうした最適な設定は偶然に決まるわけではなく、中間層
が情報をどのように処理するかによって決まる。
23


# Page. 25

![Page Image](https://bcdn.docswell.com/page/VENYYM59J8.jpg)

実験： 相関関係
実験内容：枠組みの有効性を検証するために、各
評価指標が下流タスクのスコアとどのように関連
しているかを分析した。
Model：Pythia-410M
dCor：非線形的な相関関係係数。
0は独立性を、1は強い依存性を示す。
結論：
すべての評価指標が下流タスクのスコアと強い相
関関係がある。特に曲率、DiME、InfoNCEの相
関係数が高かった。
この結論により、研究結果の信頼性が裏付けられ
る。
24


# Page. 26

![Page Image](https://bcdn.docswell.com/page/Y79PPNY3E3.jpg)

実験： Architectural Differences
実験内容：標準的なテキストデータセットWikiText-103におけるプロンプトエントロピー、曲率、
LiDARの指標を分析し、 BERT(Encoder)、 Pythia(Decoder)、Mamba(SSM)という根本的に異なる３
つのアーキテクチャを比較した。
結果：アーキテクチャが異なると、情報圧縮のパターンも異なる。自己回帰モデルでは中間層でボトル
ネックが生じる一方、双方向モデルではより均一な傾向が維持される。
Encoder vs Decoder vs SSM
25


# Page. 27

![Page Image](https://bcdn.docswell.com/page/G78DDK6L7D.jpg)

実験： Architectural Differences
BERT：入力データを双方向にエンコードするBERTは、各層において高いエントロピーを維持する。こ
れは、圧縮が最小限であることを示唆している。つまり、このモデルはすべてのトークンを一度に把握で
きるため、それほど多くの情報を破棄する必要がないのである。
Encoder vs Decoder vs SSM
26


# Page. 28

![Page Image](https://bcdn.docswell.com/page/L7LMMZ9QJR.jpg)

実験： Architectural Differences
Pythia：Decoder-onlyから構成されるPythiaでは、中間層でエントロピーが急激に低下する。これは、
Pythiaが自己回帰的な処理を行うため、ネットワークの中間部分の非局所的な詳細情報を省略する傾向が
あるためである。その結果、 Pythiaの下流タスクにおける「最適点」は、多くの場合、深さのほぼ中間
付近に位置しており、そこでは不可欠な文脈と圧縮のバランスが取れている。
Encoder vs Decoder vs SSM
27


# Page. 29

![Page Image](https://bcdn.docswell.com/page/4EMYYVVKEW.jpg)

実験： Architectural Differences
Mamba： 必要な文脈情報とデータの圧縮のバランスをうまく取っている。一方、Mambaは状態空間ア
プローチを用いてデータを処理するため、深さ方向においてより平坦で均一な曲線が得られる。BERTほ
ど多くの情報を保持することはできず、Pythiaの中間層ほど積極的にデータを圧縮することもない。
Encoder vs Decoder vs SSM
28


# Page. 30

![Page Image](https://bcdn.docswell.com/page/PER99226J9.jpg)

実験： Architectural Differences
他の指標
29


# Page. 31

![Page Image](https://bcdn.docswell.com/page/P7XQQDDDEX.jpg)

実験： Scaling Size Effects
実験内容：パラメータ数が1,400万から10億のPythiaモデルの分析。
結果：より大規模なモデルほど、中間層での圧縮（エントロピーの低下）がより顕著になる。これは、重要な
特徴を効果的に抽出する能力が高まっていることを示している。また、トークンの軌跡がより滑らか（曲率が
低い）になり、不変性がより強くなる（LiDAR値が低い）ことも確認された。
これは、より大規模なモデルほどノイズを効果的に除去し、長距離依存関係を捉えることができるという既存
発見と一致している。これらの傾向は、なぜ性能がネットワークの中間層でピークに達するのかを裏付けてい
る。つまり、大規模なモデルは中間表現を圧縮する能力が高い一方で、重要な文脈を保持し続けているからで
ある。
30


# Page. 32

![Page Image](https://bcdn.docswell.com/page/37K99XXD7D.jpg)

実験： Finetuning Effects
実験内容：ファインチューニングがLlama3の内部表現にどの
ような影響を与えるかの分析。
Baseline： Llama3-8B
Finetuning LLM2Vec Model
LLM2Vec-mntp-unsup-simcse： 2つの教師なし学習フェーズ
からなるLLM2Vecアプローチにより、双方向アテンションを
実現したLlama3
LLM2Vec-mntp-supervised：１つの教師あり学習フェーズか
らなるLLM2Vecアプローチにより、双方向アテンションを実
現したLlama3
結果：両方のモデルがデータ拡張に対する不変性を向上させて
いることは明らかである。さらに、教師なしモデルはLlama3
よりもプロンプトエントロピーが高く、一方、教師ありモデル
はより低い。
31


# Page. 33

![Page Image](https://bcdn.docswell.com/page/LJ3WW55PJ5.jpg)

実験： Transformer Sub-Components
Transformerのサブレイヤーに関する層レベルの分析。
Post MLP Residual
Post MLP
Post Attention Residual
Post Attention
Attention Patterns
Pre Attention
32


# Page. 34

![Page Image](https://bcdn.docswell.com/page/8JDKKDD3EG.jpg)

実験： Transformer Sub-Components
Transformerのサブレイヤーに関する層レベルの分析。
実験内容：
各サブレイヤー後のエントロピーを測定する。
結果
残差接続以前のサブレイヤーでは、多くの場
合、わずかな圧縮しか起こらない。
残差サブレイヤーではエントロピーが顕著に
低下しており、情報の大幅なフィルタリング
が行われていることを示している。
中間層における強いエントロピーの「谷」は、
残差経路が新しい信号を既存の隠れ状態とど
のように統合するかに関連している。これは、
残差が正則化項として機能し、隠れ表現にお
ける不要な成分を平滑化するという既存研究
の結果と一致している。
33


# Page. 35

![Page Image](https://bcdn.docswell.com/page/VEPKKXXP78.jpg)

実験： Training Progression
実験内容：学習を通じて層ごとの表現がどのように変化するかを把握するため、複数のチェックポイントで
Pythia-410Mの評価指標を測定した。
x 軸はモデルの各層を表しており、学習が各層に与える影響がわかる。色は学習中の異なるチェックポイン
トを表している。
結論：学習中の大きな変化は中間層で生じ、初期層は急速に安定化する。これは非トークン化仮説を裏付け
るものである。
非トークン化仮説：モデルの初期層の主な機能は、原始的なトークンを基本的な埋め込み空間に変換するこ
とである。
34


# Page. 36

![Page Image](https://bcdn.docswell.com/page/27VVVLLV7Q.jpg)

実験： Training Progression
中間層で最も大きな変化が生じる。
学習が進むにつれて、プロンプトエントロピーは徐々に減少する。これは、中間層が入力データをより効率
的に圧縮し、抽象化していることを意味する。
曲率は、中間層で滑らかになる。
LiDARスコアは、中間層で非常に低い値を示す。
初期層は急速に安定化する。
中間層とは対照的に、初期層は学習の初期段階を過ぎるとほとんど変化しない。
35


# Page. 37

![Page Image](https://bcdn.docswell.com/page/5JGLLXX17L.jpg)

実験： Training Progression
他の指標
36


# Page. 38

![Page Image](https://bcdn.docswell.com/page/47QYY88NEP.jpg)

実験： Chain-of-Thought Finetuning
CoT Finetuningは推論能力を向上させるための有効な手
法であることを検討する。
実験内容：シーケンス全体にわたるトークンレベルでの
プロンプトエントロピーを測定する。
Baseline：Qwen 2.5
CoT Finetuning Model： Qwen 2.5-Math
灰色プロット：共通の問題文プロンプト
赤色と青色プロット：モデルの回答
結果：Qwen 2.5はプロンプトの圧縮率が高いのに対し、
ファインチューニングされたQwen 2.5-Mathではエント
ロピー値が高く、より多くの情報が保持されていること
を示す。
37


# Page. 39

![Page Image](https://bcdn.docswell.com/page/KE4WW223J1.jpg)

実験： Chain-of-Thought Finetuning
この結果から
CoTのファインチューニングによって、モデルは中間層
全体にわたってより多くの文脈を保持するようになり、
より効果的なマルチステップ推論が可能になることがわ
かる。
統一的な枠組みにより
CoTのファインチューニングがどのようにしてモデルが
シーケンス全体にわたってより豊かな内部表現を保持す
るように促すかを定量的に理解することができる。
38


# Page. 40

![Page Image](https://bcdn.docswell.com/page/L71YYMMZJG.jpg)

実験： Extreme Input Conditions
表現品質に影響を与える根本的な要因をより深く調べ
実験内容：各層がさまざまな入力タイプに対してどのように反応す
るかを調べため、Pythia-410Mを用いて、2種類の極端なプロンプ
トに対する反応を調べ、各層におけるプロンプトエントロピーを測
定する。
極端なプロンプトの例（pは割合）
Repetition:
(p = 0.1) Mint records indicate the first gold dollars were Mint Mint May 7.
(p = 1.0) Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint.
Randomness:
(p = 0.1) Mint records indicate salivary first gold dollars were produced on May
NaCl...
(p = 1.0) arf emulsion minorensteinorianmega_TOStack potsRecip Installifykeeping...
39


# Page. 41

![Page Image](https://bcdn.docswell.com/page/G7WGG336E2.jpg)

実験： Extreme Input Conditions
表現品質に影響を与える根本的な要因をより深く調べ
結論：
トークンの繰り返しによって、中間層が圧縮される。pが大きくな
るほど（つまり、繰り返されるトークンの数が多くなるほど）、中
間層におけるプロンプトエントロピーは急激に低下する。これは、
モデルが反復的なパターンを認識・符号化し、内部表現から冗長性
を排除していることを示している。
ランダムなトークンによって、初期層でのプロンプトエントロピー
が増加する。トークンレベルでのランダム性を加えることで、初期
の層ではエントロピーが大幅に増加し、ノイズに対する敏感さが明
らかになる。一方、より深い層の場合は、そのような影響をあまり
受けない。
全体として、中間層が、複雑または特殊な入力データを処理する上
で重要な役割を果たしていることを示している。
40


# Page. 42

![Page Image](https://bcdn.docswell.com/page/4JZLLVVRE3.jpg)

Vision Transformers
研究成果は、コンピュータビジョンのような他の分野にも適用できるか？
ビジョンモデルには、完全な教師あり学習から自己教師あり学習まで、また双方向から自己回
帰エンコーダまで、さまざまなアーキテクチャや訓練目的が用いられている。この多様性によ
り、研究成果がどの程度一般化できるか、また、異なる訓練目的が内部表現にどのような影響
を与えるかを検証する。
実験モデル
自己回帰画像Transformer：AIM
マルチモーダルTransformer： AIMv2
他の視覚相関モデル： ViT, CLIP, BEiT, DINOv2, MAE
実験データセット： ImageNet-1k
41


# Page. 43

![Page Image](https://bcdn.docswell.com/page/YE6WW551EV.jpg)

Vision Transformers
AIMは言語モデルと類似した振る舞いを示す。
画像の各パッチを順次的に予測するため、Pythiaのよ
うな言語モデルで観察されたのと同じようなプロンプ
トエントロピーの「谷」や、中間層での精度のピーク
が見られる。このパターンから、テキストのトークン
であれ、画像のパッチであれ、自己回帰的な学習手法
は、常に中間層で情報の圧縮が起こることがわかる。
AIMv2モデルでは中間層での精度は向上していないが、
依然としてプロンプトエントロピーの「谷」が現れる。
この違いは、マルチモーダルの影響によるものと考え
られる。
42


# Page. 44

![Page Image](https://bcdn.docswell.com/page/GE5MMYYLE4.jpg)

Vision Transformer
視覚モデルの表現は言語モデルと異なる。
AIMを除くすべてのモデルにおいて、最終層に向かっ
て精度が単調に向上している。
ほとんどの非自己回帰型視覚モデルでは、データセッ
トエントロピーが徐々に増加している。ただし、BEIT
は例外であり、中間層でエントロピーが大幅に減少し
ている。
これらの結果から、自己回帰的な目的関数がない場合、
視覚モデルは途中でそれほど大きな変換を必要としな
いことがわかる。
43


# Page. 45

![Page Image](https://bcdn.docswell.com/page/97299GG3JR.jpg)

Vision Transformer
自己回帰が推進力となっている。
LLMにおいて見られる層間圧縮という現象は、「シー
ケンシャルなトークンデータ」と「画像パッチデー
タ」という性質の違いによるものではなく、むしろ事
前訓練の過程で生じる副産物のようである。
視覚分野におけるさまざまな自己教師あり/完全教師
ありのアプローチは、各層での特徴量の均一な構築を
促進するが、自己回帰型の視覚モデルでは、言語処理
で見られるのと同様の中間層でのボトルネックが生じ
る。
したがって、目的関数の設計（モデルが自己回帰的で
あるかどうか）が、ドメイン（分野）に関わらず、層
ごとの表現の質を形作る上で極めて重要であるように
思われる。
44


# Page. 46

![Page Image](https://bcdn.docswell.com/page/DJY44VV87M.jpg)

結論
この研究により、以下のことが明らかになる。
• 中間層の性能は、最終層の性能を常に上回る。このパターンは、TransformerでもSSM
でも同様に見られる。これは、アーキテクチャに依存しない効果があることを示唆して
いる。
• 自己回帰型とマスク言語学習の比較。自己回帰型モデルは中間層に顕著な「圧縮の谷」
を示すのに対し、マスク型や双方向型モデルは中間層の変化がより緩やかである。
• ドメイン一般化効果。これらの結果を視覚処理モデルにも適用してみると、自己回帰型
視覚モデルも同様の中間層でのボトルネック現象を示した。これは、データの性質では
なく、学習目的関数が重要な要因であることを示している。
• CoTのファインチューニング。思考連鎖（CoT）の分析により、ファインチューニング
によって中間層のエントロピーが再形成され、 multi-stepのための潜在的な文脈が保持
されることが明らかになる。
45


# Page. 47

![Page Image](https://bcdn.docswell.com/page/V7NYYMM9E8.jpg)

後続研究
研究では、LLMにおける内部表現の動的な変化について検討していた。理論的・実証的な
知見を提供するとともに、モデルの設計や学習を最適化するための実用的な示唆も提供し
ていた。
今後の研究では、中間層での圧縮が生じる根本的な原因をさらに調査し、圧縮を制御する
ための具体的な手法を検討する必要がある。
不足：異なるアーキテクチャ実験の部分にBERTとSSMに関する議論が少ない。
OpenReviewで著者が最終版に追加すると回答していたが、結局追加されなかった。残念
です。
46


# Page. 48

![Page Image](https://bcdn.docswell.com/page/YJ9PPNN373.jpg)