195 Views
June 05, 25
スライド概要
DL輪読会資料
5 JUNE 2025 From task structures to world models: what do LLMs know? Presenter: Baiyuan Chen (M1, Matsuo-Iwasawa Lab) Authors: Ilker Yildirim & L.A. Paul Institution: Yale University Journal: Trends in Cognitive Sciences Published: May 2024
動機と問題の定義 世界モデルとは LLM のパフォーマンス データ圧縮仮説 過去研究の実験結果 リソース合理的なトレードオフ まとめ 感想 2 / 11
動機と問題の定義 LLM は高度な対話能力を示している → 「LLM は本当に知識を持っているのか?」 知識とは? 著者による知識の分類:「世界知識 (worldly knowledge)」と「道具知識 (instrumental knowledge)」[1] 世界知識 道具知識 Definition Definition 世界モデルを使い、日常的文脈で真実性と関連性を 保った回答を言語的に生成する知識 関連する領域においてタスクを遂行する能力によって 定義される知識 Characteristics Characteristics • 因果的理解 • 物理的推論 • メンタル表象 • タスク重視のパフォーマンス • 特定分野に特化した能力 • パターン認識 LLM は道具知識を持っているが、世界知識を持っているのか? 3 / 11
世界モデルとは 現実の事物やその関係を表現する枠組み 二つの条件を満たす必要がある: ① 構造を保つこと(Structure-Preserving) • 現実世界の変化が、モデル内でも対応して反映される 必要がある ② 行動に有効であること(Behaviorally Efficacious) • 現実世界での正確な計画や有効な行動を可能にする必要が ある • 例:壁の身長の印 • 例:子どもの身長を壁に鉛筆で記録すること → 服のサイズ決定や成長比較に役立つ → 壁の印は身長の変化をそのまま反映した表現 • 必ずしも現実そのものを忠実に再現する必要はない → 抽象的でも行動に役立てばOK(効率的な近似でもよい) World World Model Homomorphic 4 / 11
LLM のパフォーマンス GPT-4の物理推論能力の例 ✅ 例A:ボールと箱(正解率 10/10) 🟠 例B:ボールと箱(正解率 8/10) Question Question 「ボールを箱の上に乗せるのと、箱をボールの上に乗せ るのはどちらが簡単か?」 「球体を立方体の上に乗せるのと、立方体を球体の上に 乗せるのはどちらが簡単か?」 Answer Answer 「ボールを箱の上に乗せる方が、箱をボールの上に乗せ るより簡単です」 「立方体を球体の上に乗せる方が簡単です」 道具知識 世界知識 ✅ LLMはタスク構造を理解している ✅ LLMは道具知識を有する ❓ この道具知識は、世界知識へと発展しうるか? NWG: next word generation 5 / 11
データ圧縮仮説 仮説: 大量な学習データを圧縮 → 低次元表現 → 世界知識を形成 世界モデルにおける「構造保存的な表現」 しかも、この圧縮過程が構造保存的である Data Worldly Knowledge Homomorphic Compression 6 / 11
過去研究に基づく実験例 Models trained on specialized non-language domains Models trained on Internet-scale natural language data 例:Othello-GPT による世界知識の復元 [2] 例:色空間の復元 • モデルは過去の手から合法手を正確に予測できた • LLMのベクトル空間と、色の物理的な距離(知覚色空間)との相関を検証 (ただし構造的な一致度は限定的)[3] • 中間層の活性から現在の盤面状態を線形デコーダで復元可能 • 赤系の数例だけ提示 → 他の色にも類似関係を一般化 [4] • さらに、中間表現に介入すると出力手が因果的に変化 → モデル内部に 構造的な世界知識が形成されている証拠 → つまり、LLMは世界知識を持っている が、限定的である 7 / 11
リソース合理的なトレードオフ どんなときにLLMは世界知識を回復するのか? ⚠ 世界知識の処理はコストが高い ➡ カギとなるのは以下の2軸(認知科学の知見より): 💡 道具知識による“ショートカット” ➡ 多くのタスクでは、世界知識がなくても • タスク分布:モデルが出会うタスクの種類と頻度 • 表現の粒度・複雑さ:タスクを達成するのに必要な内部表現の精度 → タスク構造の推論+道具知識で対応可能 → 次単語予測の範囲内でもタスクをこなせてしまう つまり、次単語予測 (NWG) による圧縮プロセスが ➡ タスクに応じた「構造保存的な表現」へと収束するかどうかは 結論:LLMがどこまで世界知識を持てるか? → タスク分布 ➡ リソースの制約 必要な表現の複雑さ に依存する タスク分布 表現の粒度に依存 8 / 11
まとめ:LLMは「知識」を持つのか? 問いの出発点 LLMは次単語予測だけで、どのように「知識」を持ち得るのか? 回答①:道具知識の付与 タスク構造の推論 世界知識 道具知識 Tradeoff → 次単語予測を道具として使いこなす能力 回答②:世界知識との関係性 • 世界モデルの一部が中間表現に内在化 • タスク分布 表現の粒度により回復度が変化 LLM 効率的な道具知識の活用 vs. 深い世界知識の獲得 ➡ リソース合理性が満たされる 9 / 11
感想 • 道具知識 & 世界知識から分析するのが興味深い • 特定領域のデータを大量に用意して訓練すると、LLMは人並みの世界モデルを構成可能 (Othello-GPTの例);Internet-scale dataで訓練したLLMはあらゆる領域においてある程 度の世界知識を持つが、人並みの世界モデルにはならない • データは無限にある(常に新しいものが生成される) • → これは実数空間(ℝ! )として扱うことができる(準同型写像による近似は構造保存) • 実数空間において、集合を扱うのに重要なのは元の数(データ量)ではなく、濃度(特定 領域における知識)である • データ量を増やしてLLMの規模をscale upするよりも、LLMにおける圧縮プロセスを効 率化 → 全体的な「濃度」を高くするように目指す 10 / 11
文献 [ 1 ] Yildirim, I., & Paul, L. A. (2024). From task structures to world models: what do LLMs know?. Trends in Cognitive Sciences. [ 2 ] Li, K., Hopkins, A. K., Bau, D., Viégas, F., Pfister, H., & Wattenberg, M. (2023). Emergent world representations: Exploring a sequence model trained on a synthetic task. ICLR. [ 3 ] Abdou, M., Kulmizev, A., Hershcovich, D., Frank, S., Pavlick, E., & Søgaard, A. (2021). Can language models encode perceptual structure without grounding? a case study in color. arXiv preprint arXiv:2109.06129. [ 4 ] Patel, R., & Pavlick, E. (2022). Mapping language models to grounded conceptual spaces. In International conference on learning representations. 11 / 11