【DL輪読会】 Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

187 Views

June 19, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations Gouki Minegishi, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • • • • おそらくNeurips2025 (underreview) LLMにおけるメタ認知の内部メカニズムに(自分が知る限り初めて)踏み込んだ研究 手法は神経科学分野の”ニューロフィードバック”をLLMに応用していて面白い 著者らは,神経科学・心理学などの方々 2

3.

背景 • • • • LLMはますます高性能になっている 一方でユーザーを欺くような応答をしたり,予期しない行動をとったりすることがある これらの内部プロセスを理解/監視/制御することが重要である 例えば,LLMはモデルの内部で実行している処理をレポートすることが可能であるが,たまに 失敗することがある.[Lindsey et al., 2025] LLMの 内部計算 生成結果と内部計算が一致する例 (floor(5*(sqrt(0.64))) LLMの 生成結果 生成結果と内部計算が一致しない例 (36+59) LLMの 内部計算 LLMの 生成結果 3

4.

関連研究:認知科学におけるメタ認知 • 1次プロセスと2次プロセス [Ericsson and Simon, 1980] – 1次プロセス:何かのタスクを実行する – 2次プロセス:どのように1次プロセスが実行されているかをみる – 人間の脳内ではこの2つのレベルの異なるメカニズムが存在している • LLMがこのメタ認知を持っていたら.. – 自分の内部処理を自己監視して,難しいタスクの性能が上がったり,ハルシネーションがなくなったりしそう – 逆に自分の活性値を制御して外部からの検出/分析を回避されてしまう(AI安全性の懸念) 1次プロセス 例)問題の答えを生成する 2次プロセス 例)答えの確信度を推定する 「これあってんのか?....」 4

5.

関連研究:LLMのメタ認知研究 • LLMは他のモデルより,自分の内部状態を言い当てることができる [Binder et al., 2024] • メタ認知能力(自信の妥当性)を、認知性能から切り離して定量化する新しい評価フレー ムワーク「DMC」を提案 [Wang et al., 2025] • LLMは自分の発言を振り返って「今の自分の温度設定は高め(低め)に設定されていると思う」 と言い当てることができる [Comsa et al., 2025] • Reasoning Modelは他のモデルよりも自分の確信度と正解率が一致しやすい(自分の確 信度を的確にわかっている)[Yoon et al., 2025] • LLMは、自身が学習した行動方針(ポリシー)を明示的に説明できる行動的自己認識能 力がある [Betley et al., 2025] これらは全てLLMの言語化された出力からメタ認知能力を判断していて, メタ認知に関係した内部処理(ニューラルプロセス)を分析している研究はない 5

6.

Research Questions • LLMにおける自身の内部の活性値を報告・制御するメタ認知能力を、体系的に定量化でき るのか? – LLMは、任意に選ばれたニューロン、メカニズム、またはニューラル空間上の特徴方向における微細な変化を、 正確にモニタリングできるのか? 本研究はニューロフィードバックという神経科学の手法を使って,この問いに答える 6

7.

ニューロフィードバック [Sitaram et al., 2017] • 被験者はまず目の前のスコアを下げるように指示される – 特に自らの神経活動を意図的に制御するように指示される • その後,例えば恐怖画像(蜘蛛)が見せられる • この時脳内の活性値をリアルタイムで測り,神経活動に応じて恐怖スコアが提示される – 具体的には恐怖時に生じる神経活動との類似度をスコアとする – 被験者はこのスコアが小さくなるように頑張って神経活動を意図的に制御する • これを繰り返し行い,恐怖画像を見ても恐怖に関連した神経活動が生じなくなる. – 精神疾患(自閉症/躁鬱/統合失調症...)などの治療に使えるとされている [ATR] 7

8.

LLMのニューロフィードバック • LLMのメタ認知に関する活性値を調べるためには,1次プロセス (e.g., 足し算をしている) とよりメタ 的な2次プロセス (e.g., 足し算をしていることを監視する)を切り分ける必要がある – これにはニューロフィードバックが非常に適している – 恐怖の神経活動(1次プロセス)とその神経活動を制御する神経活動(2次プロセス)を区別できるから • 具体的には,In Context Learningを使う – N個の文とラベルが与えられる • 文章の活性値とあるターゲット軸との類似度に応じてスコア(ラベル)が決まる – ターゲットの軸=PCAの主成分 (PC1, PC2….), データセットラベルで活性値から線形回帰(LR)したスコア • LLM: Llama3, Qwen2.5 • データ: ETHICS (道徳的/非道徳的)の2値ラベル 8

9.

実験1: LLMは自分の活性値を報告できる 手法 • LLMに「あなたの脳内の活性値に基づいたラベルと文章のペアを与えるので,そのスコアと文章の関係性を理解し,最 後の文章のラベルを予測せよ」と与える • その後,LLMはN個の文章とラベル(0,1)のペアが与えられる • N+1個目に新しい文章が与えられて,そのスコアを予測させ,精度を測る 結果 • 事例の数を増やすと精度が上がる • LR軸をターゲットする場合が精度が高く,次にPCAの分散が大きい軸の精度が高い →LLMは自分の活性値に基づいた値を予測することができる,つまり自分の活性値を監視して状態を報告できる またどれだけ効果的に活性値を監視/報告できるかは,ターゲットの軸の分散に影響される(一部の神経活動しか報 告してくれない) LLMへのプロンプト Instruction N個の事例 9

10.

実験2-1: LLMは自分の活性値を明示的に制御できる 手法 • 同様にLLMにN個の文章とラベルを与える • 最後にモデル自身に文章+ラベルを生成させる(N+1個目を模擬させる) • もしLLMが自分の活性値を制御できるのであれば,1とラベルを模擬した場合はターゲットとの軸との類似度 (score)が正の値になるはず,0のラベルを模擬した場合は負の値 結果 • 1と模擬する時は,正.0と模擬する時は負になる • この1と0の差を定量化すると他のターゲット軸には影響を与えていない → LLMが自分の活性値を明示的に制御することができる LLMへのプロンプト Instruction 差を定量化 N個の事例 モデルの生成 (文章+ラベル) 10

11.

実験2-2: LLMは自分の活性値を暗黙的に制御できる • 実験2-1では,モデルの生成したトークンが入力として与えられるので結果として望ましい活性値を引き起こしてい た可能性があった – つまり自己回帰的な生成を通してLLMが自分の活性値を制御できた 手法 • N個の事例の後に,無関係な文章を与えてその後のラベルをモデルに出力させる • この場合モデルは生成したトークンを返して内部の活性値を制御するのではなく,内部的に制御しないといけない 結果 • 明示的な制御と概ね類似した結果だが,制御効果は小さい. • また後半の層になればなるほど制御できるようになる.(最初の方の層はほぼ制御できない) LLMへのプロンプト Instruction N個の事例 モデルの生成 (ラベルのみ) 11

12.

まとめ・議論 • まとめ – LLMのメタ認知能力を調査するためにニューロフィードバックを導入 – モデル自身が自分の活性を監視/報告/制御できることを示した • 議論 – 神経科学との関連 • 神経科学では,低次元多様体上にある活性値ほどニューロフィードバックしやすいと言われている.[Fetz and Baker, 1973] • 今回の実験の分散の大きい主成分が制御しやすいのと近い – 安全性への示唆 • 今回のLR軸はLLMの活性値がどれだけ道徳的かを出力する監視システムとも考えられる • モデルが自分の活性値を制御できるとすると,この監視システムをハックできる可能性がある • 活性値上は道徳的な表現をして,非道徳的な出力をするなど – 今後の方向性 • ICLだけでなく,IWL(重みの学習)への拡張 • 他の軸(SAEを使うなど)への拡張 12