【人工知能・深層学習】論文紹介：Uncovering Hidden Representations in Language Models

269 Views

April 26, 26

#deeplearning #論文紹介 #深層学習 #人工知能 #言語モデル #中間層表現 #情報理論 #Rényiエントロピー #統一的評価枠組み

スライド概要

Taki lab.

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 8K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 6.6K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2.6K

【人工知能・深層学習】論文紹介：Nested Learning: The Illusion of Deep Learning Architectures

deeplearning 論文紹介深層学習人工知能 optimizer llm in-context learning

Taki lab. 2.6K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2.5K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 2.1K

各ページのテキスト

論文紹介 Uncovering Hidden Representations in Language Models カブンキン JC 2026/04/25

論文概要タイトル：Layer by Layer: Uncovering Hidden Representations in Language Models (ICML2025 Oral) 著者： Oscar Skean(University of Kentucky, PHD), Md Rifat Arefin, Dan Zhao, Niket Patel, Jalal Naghiyev, Yann LeCun, Ravid Shwartz-Ziv 概要： LLMの出力は一般的に最終層に依存している考え方があるが、中間層もより豊富な情報を表現できる。中間層の特性を説明し、定量化するための情報理論、幾何学、不変性に基づいた統一的な評価基準を提案する。さまざまなアーキテクチャ（Transformer, SSM）や分野（言語、視覚）におけるデータセットで実験を通じて、中間層の特徴が確認された。 1

はじめに疑問：自然言語処理の分野にほとんどのアプリケーションにおいて、最終層の表現が最も有効であるという共通の前提がある。しがし、最終層が常に最適な表現を提供するのか。実験：32種類の言語分野の下流タスクにおいて、各層の平均スコアを計算する。実験対象：自己回帰型モデル：Pythia 状態空間モデル：Mamba 双方向モデル：Bert 事実：中間層の平均スコアが、最終層の平均スコアを最大16％上回る。中間層は特に優れた表現能力を持つのに対して、最終層は事前学習の目的に過度に特化してしまう傾向がある。 2

Unified Framework ニューラル表現のための統一的な枠組み（Unified Framework）は、三つの補完的な観点（情報理論、幾何学、不変性）を組み合わせたものです。情報理論観点：各層は、どの程度文脈情報を圧縮したり、保持したりするのか。幾何学観点：トークンの埋め込みは高次元空間の中でどのように表現されるのか。不変性観点：埋め込みは入力データのわずかな変化に対しても安定しているのか。これらの観点を統一的な枠組みに結合し、中間層が、必要な特徴を保持しつつ、不要なノイズを排除するというバランスをどのように取っているか明らかにする。 3

Unified Framework: Notation and Motivation 入力x（例えば、一つシーケンスの各トークン）を内部の隠れ状態𝐙にマッピングするニューラルネットワークを考えてみる。ここで、𝐙 ∈ ℝ𝑁∗𝐷 は、𝐷次元を持つ𝑁個のデータサンプル（またはトークン）からなる行列です。いくつかの重要な疑問が生じる： (x: 入力データ 𝐙: 中間層データ) 1. これらの表現は、どの程度圧縮されているのか。 2. これらは、何かの乱れと拡張に対して、どれほど耐性があるのか。 3. これらは、さまざまな入力データを、幾何学的にどのように整理しているのか。これらの質問に答えによって、中間層が、必要な特徴を保持しつつ、不要なノイズを排除するというバランスをどのように取っているか明らかになる。 4

Unified Framework: Entropy エントロピー（Entropy）は、情報理論の概念で、あるできこと（事象）が起きた際、それがどれほど起こりにくいかを表す尺度です。（Wikipedia）詳しくはシャノンエントロピー（Shannon Entropy）と呼ぶ。量子力学の場合はフォン・ノイマンエントロピー（von Neumann entropy）。 𝑛 𝐻 𝑥 = − ෍ 𝑃 𝑥𝑖 log 𝑃 𝑥𝑖 𝑖=1 𝑃 𝑥𝑖 ：事象𝑥𝑖 が起こる確率 log 𝑃 𝑥𝑖 ：自己情報量エントロピーが低いほど、情報の不確実性は低くなる。 5

Unified Framework: Entropy Shannon Entropy: 𝐻 𝑃 = − σ𝑥 𝑃 𝑥 log 𝑃 𝑥 Cross Entropy: 𝐻 𝑃, 𝑄 = − σ𝑥 𝑃 𝑥 log 𝑄 𝑥 𝑃: 真の分布 𝑄: 予測分布数学的な関係性 𝐻 𝑃, 𝑄 = 𝐻 𝑃 + 𝐷𝐾𝐿 𝑃 ∥ 𝑄 𝐷𝐾𝐿 𝑃 ∥ 𝑄 ： KLダイバージェンス。分布𝑄と分布𝑃からどれほどズレているかを表す。交差エントロピー = シャノンエントロピー + 分布のズレ 6

Unified Framework: Rényi Entropy レニーエントロピー（Rényi Entropy）は、先ほどのシャノンエントロピーを拡張（一般化）した概念です。シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」のどちらを重視するかを自由に変えることができる。 𝑛 1 𝐻𝛼 𝑋 = log ෍ 𝑝𝑖𝛼 1−𝛼 正規化 𝑖=1 𝛼 < 1のとき：小さな確率を𝛼乗すると、相対的に大きな値に引き上げられる。「珍しい事象」を重視する。 𝛼 > 1のとき：大きな確率を𝛼乗すると、相対的に小さな値に下げられる。「よく起こる事象」を重視する。 7

Unified Framework: Rényi Entropy レニーエントロピー（Rényi Entropy）は、先ほどのシャノンエントロピーを拡張（一般化）した概念です。シャノンエントロピーが一つの固定された「情報量の測り方」であるのに対し、レニーエントロピーは “パラメータ𝛼”を調整することで、「珍しい事象」と「よく起こる事象」のどちらを重視するかを自由に変えることができる。 𝑛 𝐻𝛼 𝑋 = 1 log ෍ 𝑝𝑖𝛼 1−𝛼 正規化 𝑖=1 𝛼 → 1：シャノンエントロピーとなる。 𝛼 = 2：衝突エントロピーとなる。衝突エントロピー(Collision Entropy)：𝐻2 𝑋 = − log σ𝑛𝑖=1 𝑝𝑖2 2つの独立な変数が同じ値をとる（衝突する）確率をベースにしたエントロピーです。 8

10.

Unified Framework: Matrix-Based Entropy 研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 𝐙：中間層データ行列 𝐊：グラム行列、𝐊 = 𝐙𝐙T 、データ間の類似性を示す λi 𝐊 ： 𝐊の固有値 tr 𝐊 ： 𝐊のトレース、 σ𝑟𝑖=1 λi 𝐊 = tr 𝐊 9

11.

Unified Framework: Matrix-Based Entropy 研究はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑛 1 𝐻𝛼 𝑋 = log ෍ 𝑝𝑖𝛼 1−𝛼 𝑖=1 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列 𝐊のトレース（対角成分の和）で、全ての固有値の合計に等しくなる。固有値をこれで割ることで、合計が1になる「確率分布」のように扱えるようにしている。実験では常に𝛼 → 1(Shannon Entropy)に設定する。 10

12.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点圧縮率と情報量：行列𝐊において少数の大きな固有値が存在することは、エントロピーが低く、モデルが入力データの多くの情報がより少ない次元に圧縮された。一方、固有値の分布がより均一である場合、エントロピーが高く、より多様な特徴が得られることになる。 11

13.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点幾何学的な滑らかさ：埋め込み空間におけるトークンの軌跡が「急に曲がる（曲率が高い）」といった幾何学的な構造は、固有値集合の偏りとして現れる。これにより、局所的な特徴と全体的なパターンの違いを捉えられる。 12

14.

Unified Framework: Matrix-Based Entropy 論文はRényi Entropyを数式的な統一枠組みとする。ただし、単純なある事象の確率を行列の性質に変える。この時は行列ベースのエントロピー(Matrix-Based Entropy)と呼び。 𝑟 1 λi 𝐊 𝑆𝛼 𝐙 = log ෍ 1−𝛼 tr 𝐊 𝛼 𝑖=1 行列ベースのエントロピーの利点拡張に対する不変性：データにノイズや微小な変化を加えた際に表現が安定しているか（不変性）は、行列𝐊におけるクラスタリング構造の安定性として現れ、これも固有値の分布に依存する。 13

15.

Evaluation Metrics 主なポイント：情報理論的、幾何学的、および不変性に基づく評価指標は、表現の質について互いに補完し合う視点を提供しており、これらはすべて行列ベースのエントロピーを通じて理解することができる。実験で使用した表現評価指標は以下の3つのカテゴリーに分類される： 1. 情報理論 2. 幾何学 3. 不変性これらはすべて、グラム行列 𝐊 、行列ベースのエントロピーに関連している。 14

16.

Evaluation Metrics: INFORMATION-THEORETIC METRICS 情報理論の評価指標プロンプトエントロピー(Prompt Entropy)：単一のプロンプト内のトークン埋め込みに対して行列ベースのエントロピーを適用する。このプロンプトエントロピーは、埋め込み空間においてトークンがどれほど広範囲に分散しているかを定量化する。エントロピーが高いほど、トークンレベルの特徴は多様で冗長性が低いことを示し、エントロピーが低いほど圧縮率が高いことを意味する。データセットエントロピー(Dataset Entropy)：各プロンプトのトークン埋め込みの平均を計算し、𝐙ത ∈ ℝ𝑁×𝐷 を形成することで、N個のプロンプトにわたる埋め込みを集約することもできる。 𝐙ത に行列ベースのエントロピーを適用することで、データセットレベルでの全体的な多様性の指標が得られ、モデルが異なる入力をどの程度明確に区別しているかが明らかになる。 15

17.

Evaluation Metrics: INFORMATION-THEORETIC METRICS 情報理論の評価指標実効ランク(Effective Rank)：行列の真の「実質的な次元数」を定量化するための指標。exp 𝑆1 𝐙 の下限となることが示されており、表現が強く圧縮されると、次元数が実質的に縮小することを浮き彫りにしている。 EffRank 𝐙 ≤ exp 𝑆1 𝐙 α→1 Shannon Entropy 実効ランクが大きいことは、エントロピーが高いことを意味する。実効ランクが小さいことは、エントロピーが低いことを意味する。 16

18.

Evaluation Metrics: GEOMETRIC METRICS 幾何学の評価指標曲率(Curvature)：あるトークンの埋め込みが、 ℝ𝐷 空間内のシーケンスとして見た場合、どれほど急激に変化するかを示すものである。長さ𝐿のプロンプトについて、𝐯𝑘 = 𝐳𝑘+1 − 𝐳𝑘 を連続するトークン間の差とする。平均曲率は以下の通りである：差の間の角度 𝐿−2 ⊺ 1 𝑣𝑘+1 𝑣𝑘 ҧ 𝐶= ෍ 𝑎𝑟𝑐𝑐𝑜𝑠 𝐿−2 |𝑣𝑘+1 ||𝑣𝑘 | 𝑘=1 曲率が高い場合、連続するトークンの方向が急激に変わり、より局所的な特徴が現れる。曲率が低い場合、トークンの移動軌跡は滑らかになり、より全体的な特徴が現れる。 17

19.

Evaluation Metrics: INVARIANCE METRICS 不変性の評価指標 InfoNCE：自己教師あり学習の損失関数。一致するサンプル同士は埋め込み空間内で近い位置にあり、一致していないサンプル同士は互いに離れた位置になる。InfoNCE損失が低いほど、データ拡張に対する不変性が強くなる。 LiDAR：線形判別法が用いられており、クラス内のデータのばらつきとクラス間のデータのばらつきを測定する。各プロンプトを独立したクラスとして扱い、 LiDARの数値が高いほど、多様のクラスを形成しているを意味する。 DiME：行列ベースのエントロピー理論に基づいている。この手法では、実際のペアデータとランダムに生成されたペアデータを比較することで、正しい拡張がどの程度一意に行われているかを推定する。 18

20.

実験さまざまなアーキテクチャ、スケール、トレーニング手法を用いた広範な実験を通じて、理論的枠組みを実証的に検証する。ここでは、3つの重要な疑問に焦点を当てる。 • 中間層は、さまざまな下流タスクにおいて、最終層よりも一貫して優れた性能を発揮するか？ • これらの中間表現は、アーキテクチャやトレーニングの段階、規模によって、どのように異なるか？ • トレーニング後の処理手法（例えば、ファインチューニングやCoT(Chain of Thought) など）は、どのようにデータの表現を再構築するか？色々な表現指標を通じてテキスト表現を分析する。 19

21.

実験： SETUP 実験モデル自己回帰型Transformer：Pythia、 Llama3 状態空間モデル： Mamba 双方向Transformer ：Bert、 LLM2Vec models Decoder-only Transformer： Pythia、 Llama3、LLM2Vec models Encoder-only Transformer： Bert 実験データセット：WikiText-103 20

22.

実験： SETUP 下流タスク Benchmark ：Massive Text Embedding Benchmark (MTEB) 各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスクには、分類、クラスタリング、リランキングなどが含まれる。 21

23.

実験： SETUP 下流タスク Benchmark ：Massive Text Embedding Benchmark (MTEB) 各層の埋め込みを評価する際には、MTEB の32 種類のタスクを使用した。これらのタスクには、分類、クラスタリング、リランキングなどが含まれる。 22

24.

実験：観察結果先の事実：ほぼすべてのタスクにおいて、最終層よりも中間層の方が優れた性能を示す。平均して、その改善率は2％から16％にも上る。最も優れた性能を持つ層は、ネットワークの中間付近に位置していることが多い。この現象は、さまざまなアーキテクチャにおいても同様に見られる。観点：中間層は、十分な情報を保持しつつ、過度な圧縮を避けつつ、低レベルのノイズを排除するというバランスをうまく取っている。こうした最適な設定は偶然に決まるわけではなく、中間層が情報をどのように処理するかによって決まる。 23

25.

実験：相関関係実験内容：枠組みの有効性を検証するために、各評価指標が下流タスクのスコアとどのように関連しているかを分析した。 Model：Pythia-410M dCor：非線形的な相関関係係数。 0は独立性を、1は強い依存性を示す。結論：すべての評価指標が下流タスクのスコアと強い相関関係がある。特に曲率、DiME、InfoNCEの相関係数が高かった。この結論により、研究結果の信頼性が裏付けられる。 24

26.

実験： Architectural Differences 実験内容：標準的なテキストデータセットWikiText-103におけるプロンプトエントロピー、曲率、 LiDARの指標を分析し、 BERT(Encoder)、 Pythia(Decoder)、Mamba(SSM)という根本的に異なる３つのアーキテクチャを比較した。結果：アーキテクチャが異なると、情報圧縮のパターンも異なる。自己回帰モデルでは中間層でボトルネックが生じる一方、双方向モデルではより均一な傾向が維持される。 Encoder vs Decoder vs SSM 25

27.

実験： Architectural Differences BERT：入力データを双方向にエンコードするBERTは、各層において高いエントロピーを維持する。これは、圧縮が最小限であることを示唆している。つまり、このモデルはすべてのトークンを一度に把握できるため、それほど多くの情報を破棄する必要がないのである。 Encoder vs Decoder vs SSM 26

28.

実験： Architectural Differences Pythia：Decoder-onlyから構成されるPythiaでは、中間層でエントロピーが急激に低下する。これは、 Pythiaが自己回帰的な処理を行うため、ネットワークの中間部分の非局所的な詳細情報を省略する傾向があるためである。その結果、 Pythiaの下流タスクにおける「最適点」は、多くの場合、深さのほぼ中間付近に位置しており、そこでは不可欠な文脈と圧縮のバランスが取れている。 Encoder vs Decoder vs SSM 27

29.

実験： Architectural Differences Mamba：必要な文脈情報とデータの圧縮のバランスをうまく取っている。一方、Mambaは状態空間アプローチを用いてデータを処理するため、深さ方向においてより平坦で均一な曲線が得られる。BERTほど多くの情報を保持することはできず、Pythiaの中間層ほど積極的にデータを圧縮することもない。 Encoder vs Decoder vs SSM 28

30.

実験： Architectural Differences 他の指標 29

31.

実験： Scaling Size Effects 実験内容：パラメータ数が1,400万から10億のPythiaモデルの分析。結果：より大規模なモデルほど、中間層での圧縮（エントロピーの低下）がより顕著になる。これは、重要な特徴を効果的に抽出する能力が高まっていることを示している。また、トークンの軌跡がより滑らか（曲率が低い）になり、不変性がより強くなる（LiDAR値が低い）ことも確認された。これは、より大規模なモデルほどノイズを効果的に除去し、長距離依存関係を捉えることができるという既存発見と一致している。これらの傾向は、なぜ性能がネットワークの中間層でピークに達するのかを裏付けている。つまり、大規模なモデルは中間表現を圧縮する能力が高い一方で、重要な文脈を保持し続けているからである。 30

32.

実験： Finetuning Effects 実験内容：ファインチューニングがLlama3の内部表現にどのような影響を与えるかの分析。 Baseline： Llama3-8B Finetuning LLM2Vec Model LLM2Vec-mntp-unsup-simcse： 2つの教師なし学習フェーズからなるLLM2Vecアプローチにより、双方向アテンションを実現したLlama3 LLM2Vec-mntp-supervised：１つの教師あり学習フェーズからなるLLM2Vecアプローチにより、双方向アテンションを実現したLlama3 結果：両方のモデルがデータ拡張に対する不変性を向上させていることは明らかである。さらに、教師なしモデルはLlama3 よりもプロンプトエントロピーが高く、一方、教師ありモデルはより低い。 31

33.

実験： Transformer Sub-Components Transformerのサブレイヤーに関する層レベルの分析。 Post MLP Residual Post MLP Post Attention Residual Post Attention Attention Patterns Pre Attention 32

34.

実験： Transformer Sub-Components Transformerのサブレイヤーに関する層レベルの分析。実験内容：各サブレイヤー後のエントロピーを測定する。結果残差接続以前のサブレイヤーでは、多くの場合、わずかな圧縮しか起こらない。残差サブレイヤーではエントロピーが顕著に低下しており、情報の大幅なフィルタリングが行われていることを示している。中間層における強いエントロピーの「谷」は、残差経路が新しい信号を既存の隠れ状態とどのように統合するかに関連している。これは、残差が正則化項として機能し、隠れ表現における不要な成分を平滑化するという既存研究の結果と一致している。 33

35.

実験： Training Progression 実験内容：学習を通じて層ごとの表現がどのように変化するかを把握するため、複数のチェックポイントで Pythia-410Mの評価指標を測定した。 x 軸はモデルの各層を表しており、学習が各層に与える影響がわかる。色は学習中の異なるチェックポイントを表している。結論：学習中の大きな変化は中間層で生じ、初期層は急速に安定化する。これは非トークン化仮説を裏付けるものである。非トークン化仮説：モデルの初期層の主な機能は、原始的なトークンを基本的な埋め込み空間に変換することである。 34

36.

実験： Training Progression 中間層で最も大きな変化が生じる。学習が進むにつれて、プロンプトエントロピーは徐々に減少する。これは、中間層が入力データをより効率的に圧縮し、抽象化していることを意味する。曲率は、中間層で滑らかになる。 LiDARスコアは、中間層で非常に低い値を示す。初期層は急速に安定化する。中間層とは対照的に、初期層は学習の初期段階を過ぎるとほとんど変化しない。 35

37.

実験： Training Progression 他の指標 36

38.

実験： Chain-of-Thought Finetuning CoT Finetuningは推論能力を向上させるための有効な手法であることを検討する。実験内容：シーケンス全体にわたるトークンレベルでのプロンプトエントロピーを測定する。 Baseline：Qwen 2.5 CoT Finetuning Model： Qwen 2.5-Math 灰色プロット：共通の問題文プロンプト赤色と青色プロット：モデルの回答結果：Qwen 2.5はプロンプトの圧縮率が高いのに対し、ファインチューニングされたQwen 2.5-Mathではエントロピー値が高く、より多くの情報が保持されていることを示す。 37

39.

実験： Chain-of-Thought Finetuning この結果から CoTのファインチューニングによって、モデルは中間層全体にわたってより多くの文脈を保持するようになり、より効果的なマルチステップ推論が可能になることがわかる。統一的な枠組みにより CoTのファインチューニングがどのようにしてモデルがシーケンス全体にわたってより豊かな内部表現を保持するように促すかを定量的に理解することができる。 38

40.

実験： Extreme Input Conditions 表現品質に影響を与える根本的な要因をより深く調べ実験内容：各層がさまざまな入力タイプに対してどのように反応するかを調べため、Pythia-410Mを用いて、2種類の極端なプロンプトに対する反応を調べ、各層におけるプロンプトエントロピーを測定する。極端なプロンプトの例（pは割合） Repetition: (p = 0.1) Mint records indicate the first gold dollars were Mint Mint May 7. (p = 1.0) Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint Mint. Randomness: (p = 0.1) Mint records indicate salivary first gold dollars were produced on May NaCl... (p = 1.0) arf emulsion minorensteinorianmega_TOStack potsRecip Installifykeeping... 39

41.

実験： Extreme Input Conditions 表現品質に影響を与える根本的な要因をより深く調べ結論：トークンの繰り返しによって、中間層が圧縮される。pが大きくなるほど（つまり、繰り返されるトークンの数が多くなるほど）、中間層におけるプロンプトエントロピーは急激に低下する。これは、モデルが反復的なパターンを認識・符号化し、内部表現から冗長性を排除していることを示している。ランダムなトークンによって、初期層でのプロンプトエントロピーが増加する。トークンレベルでのランダム性を加えることで、初期の層ではエントロピーが大幅に増加し、ノイズに対する敏感さが明らかになる。一方、より深い層の場合は、そのような影響をあまり受けない。全体として、中間層が、複雑または特殊な入力データを処理する上で重要な役割を果たしていることを示している。 40

42.

Vision Transformers 研究成果は、コンピュータビジョンのような他の分野にも適用できるか？ビジョンモデルには、完全な教師あり学習から自己教師あり学習まで、また双方向から自己回帰エンコーダまで、さまざまなアーキテクチャや訓練目的が用いられている。この多様性により、研究成果がどの程度一般化できるか、また、異なる訓練目的が内部表現にどのような影響を与えるかを検証する。実験モデル自己回帰画像Transformer：AIM マルチモーダルTransformer： AIMv2 他の視覚相関モデル： ViT, CLIP, BEiT, DINOv2, MAE 実験データセット： ImageNet-1k 41

43.

Vision Transformers AIMは言語モデルと類似した振る舞いを示す。画像の各パッチを順次的に予測するため、Pythiaのような言語モデルで観察されたのと同じようなプロンプトエントロピーの「谷」や、中間層での精度のピークが見られる。このパターンから、テキストのトークンであれ、画像のパッチであれ、自己回帰的な学習手法は、常に中間層で情報の圧縮が起こることがわかる。 AIMv2モデルでは中間層での精度は向上していないが、依然としてプロンプトエントロピーの「谷」が現れる。この違いは、マルチモーダルの影響によるものと考えられる。 42

44.

Vision Transformer 視覚モデルの表現は言語モデルと異なる。 AIMを除くすべてのモデルにおいて、最終層に向かって精度が単調に向上している。ほとんどの非自己回帰型視覚モデルでは、データセットエントロピーが徐々に増加している。ただし、BEIT は例外であり、中間層でエントロピーが大幅に減少している。これらの結果から、自己回帰的な目的関数がない場合、視覚モデルは途中でそれほど大きな変換を必要としないことがわかる。 43

45.

Vision Transformer 自己回帰が推進力となっている。 LLMにおいて見られる層間圧縮という現象は、「シーケンシャルなトークンデータ」と「画像パッチデータ」という性質の違いによるものではなく、むしろ事前訓練の過程で生じる副産物のようである。視覚分野におけるさまざまな自己教師あり/完全教師ありのアプローチは、各層での特徴量の均一な構築を促進するが、自己回帰型の視覚モデルでは、言語処理で見られるのと同様の中間層でのボトルネックが生じる。したがって、目的関数の設計（モデルが自己回帰的であるかどうか）が、ドメイン（分野）に関わらず、層ごとの表現の質を形作る上で極めて重要であるように思われる。 44

46.

結論この研究により、以下のことが明らかになる。 • 中間層の性能は、最終層の性能を常に上回る。このパターンは、TransformerでもSSM でも同様に見られる。これは、アーキテクチャに依存しない効果があることを示唆している。 • 自己回帰型とマスク言語学習の比較。自己回帰型モデルは中間層に顕著な「圧縮の谷」を示すのに対し、マスク型や双方向型モデルは中間層の変化がより緩やかである。 • ドメイン一般化効果。これらの結果を視覚処理モデルにも適用してみると、自己回帰型視覚モデルも同様の中間層でのボトルネック現象を示した。これは、データの性質ではなく、学習目的関数が重要な要因であることを示している。 • CoTのファインチューニング。思考連鎖（CoT）の分析により、ファインチューニングによって中間層のエントロピーが再形成され、 multi-stepのための潜在的な文脈が保持されることが明らかになる。 45

47.

後続研究研究では、LLMにおける内部表現の動的な変化について検討していた。理論的・実証的な知見を提供するとともに、モデルの設計や学習を最適化するための実用的な示唆も提供していた。今後の研究では、中間層での圧縮が生じる根本的な原因をさらに調査し、圧縮を制御するための具体的な手法を検討する必要がある。不足：異なるアーキテクチャ実験の部分にBERTとSSMに関する議論が少ない。 OpenReviewで著者が最終版に追加すると回答していたが、結局追加されなかった。残念です。 46

48.