253 Views
June 05, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Text2World: Benchmarking Large Language Models for Symbolic World Model Generation 1 Eri Kuroda, Matsuo-Iwasawa Lab http://deeplearning.jp/
書誌情報 Text2World: Benchmarking Large Language Models for Symbolic World Model Generation • • • Authors: Hu Mengkang et al. @The University of Hong Kong • Conference: ACL2025 findings, ICLR2025 WM workshop • arXiv: https://arxiv.org/abs/2502.13092 • HP: https://text-to-world.github.io/ LLMが自然言語による説明から、コンピュータが理解して実行できる「記号的な 世界モデル」をどれだけ正確に作り出せるかを評価するためのベンチマークの提案 ※ 本スライドの図表は元論文より引用 2
周辺研究:LLMと世界モデル • LLMの内部に世界モデルがある と主張する研究 • Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding • • Disentangling World Knowledge from Linguistic Knowledge in Large Language Models • • 世界の知識(因果関係など)を持っているかの分析と調査 LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models • • VLMが視覚情報とテキスト情報を統合してどのように世界を理解しているか LLMは物理法則を持っているか LLMを世界モデルとみなしている研究 • WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents • • • Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents • • • ルールを学習することで、LLMからWMを構築(LLMを環境に適応させる) 強化学習不要のMPC モデルベースのプランニング LLMがWebの構造や挙動に関する知識を内在的に持っていると仮定 Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation • これまでのLLMにはWMないが、行動のシミュレーションを追加することでWMのようにした 3
背景:世界モデルの重要性 • 世界モデルの重要性 • 予測と計画のために外部世界の内部表現を用いる(Ha+, 18) • 自律型機械の知能の核になる(LeCun, 22) • 本論文:記号的世界モデル( symbolic world models, ドメインモデル)を対象 • • 現実世界の状況・ルール・因果関係を、明確な「記号(シンボル)」と論理的な関係で 表現した内部モデル LLMから記号的世界モデルが生成できたら、人間と機械の仲介的な役割を担う 4
背景:評価における課題 • LLMを用いた記号的世界モデル生成の評価における課題点 • • • • ドメインが限られている • 既存研究:20未満のドメインで少ない • 一般化可能性、適用性が制限 評価のランダム性 • LLMベースの評価方法に依存 → 追加の誤差を導入する必要あり • 人間のアノテーターとの間での一致度が低い(Cohen’s κ カッパ係数 = 0.10) 間接的な評価 • 世界モデル:モデルベースの計画におけるエンドツーエンドの成功率で評価 • 具体的な失敗を見つけるのが難しい(事前条件、オブジェクトのあやまりなど) データ汚染 • LLMの訓練データを記憶している可能性があり、性能指標が水増し 5
概要図 • PDDL(Planning Domain Definition Language)をベースとしたText2Worldの提案 • PDDL – The Planning Domain Definition Language, Howe et al., 1998 6
予備知識:タスク定義 • M : N →D • • • • • D|= N • • M: マッピング関数(LLMで実装) D=<F, A>:シンボリックな世界モデル F:状態関数(述語として表現) A:可能な行動の集合 |= 意味的満足 N • • ドメインの全体的な目的を説明する一般的な記述 Nf = {f1,…,fn}:述語の集合 • • • シグネチャ:“(conn ?x ?y)” 説明:2つの場所 ?x と ?y の間の接続を示す Na = {a1,…am}:アクションの集合 • シグネチャ:“move <?curpos> <?nextpos>” • 説明:ロボットが場所<?curpos>から場所<?nextpos>へ移動する 7
ベンチマーク構築 • (a):データ取得 • • • (b):データファイリングと手動選択 • 各ファイルに対してPDDLを使って構文検証 • 重複の除去 • 40以上の述語、20以上のアクションの除去 • トークン長のフィルタリング(5000トークン以上は削除) (c1):データアノテーション • • 1,801件のraw PDDL収集 前ページNの表現に従い記述 (c2):品質保証 • 2人のエキスパートが監督するレビューシステム • Fleiss κ(フライスのκ係数) = 0.82 • 最終的に103のドメインとゴールの説明を含むデータセット 8
データの汚染率 Data contamination • LLMはtraining dataを記憶する可能性がある(汚染) • LLMのtraining dataとText2Worldの潜在的な汚染をGPT-4で評価 • • • 最初20トークンから完全なPDDLドメインを生成 • PDDL固有のキーワードと変数を除外したトークン化された10-gram(最大4つの不一致)で計算 Prior Work(LLMのPDDLを評価) • Guan et al., 2023 • Smirnov et al., 2024 μ = 0.47 vs μ = 0.04 • Text2Worldの方が汚染率が低い • 既存研究:作成した自然言語の入力が LLMのtraining dataと(比較的)類似していた 9
データ分析 • ドメイン特性の抽出 • 8種類(PDDLのrequirements) • strips • typing • negative-preconditions • disjunctive-preconditions • equality • conditional-effects • action-costs • adl この2つが多い 10
実験 • 予備実験 • • • claude-3.5-sonnectでCohen κ = 0.1(人の評価とLLMの評価の一致度が低い) 評価するLLM • GPT-4 • GPT-3.5 • Claude-3.5 • LLama3.1 • DeepSeek-v3 • CodeLlaMA • LlaMA-2 • DeepSeek-R1 • OpenAI-o1 • OpenAI-o3 ゼロショットのCoTでシンボリックな世界モデルを生成するようにプロンプト 11
実験結果:ゼロショットCoT • 評価指標 • EXEC:実行可能性 • • SIM:構造的類似性 • • 各アクションのパラメータの正確性 F1-precond:前提条件 • • 述語の正確性 F1-param:パラメータ • • 生成されたPDDLと正解PDDLとの類似度 F1-pred:述語 • • 生成されたPDDLが実行可能か 前提条件の一致率 F1-eff:効果 • 効果(アクションの結果)の一致率 12
実験結果:ゼロショットCoT • • DeepSeek-R1 • F1-precond < 60, F1-eff < 60 → LLMが世界モデル化タスクに限界あり • exec, sim, f1:他のモデルより精度高 → 強化学習にもとづくLLMモデルが 能力を向上させている エラー訂正のおかげでexecが改善 • GPR-4では3回訂正試行後、48.5→72.3 13
エラー分析 • 構文エラー • • EXEC = 0(生成されたドメインが検証できない) UndifinedConstant, IncorrectParentheses • • UndifinedDomainName, UndifinedType • • 修正ステップが進むごとに減っている 残る 意味論的エラー • DisobeyDescription • • IncompleteModeling • • 世界モデルに必要十分なコンポーネントが欠如 RedundantSpecifications • • 説明の直接的な違反 不要な前提条件や効果 SurfaceDivergence • gold domain(正解PDDL)との意味的同値性を保つ表面レベルの差異 → 表現は違うが、意味的には同じ ということ 14
実験2:ゼロショットCoT+α • 実験1:ゼロショットのCot • 実験2:Cot + 5つの異なる手法 • Test-time Scaling • In-Context Learning • Fine-tuning • Agent Training • Inference with Concrete Description • 具体的な記述を用いた推論 15
実験2:ゼロショットCoT+α • Test-time Scaling • • • • 計算リソースが増えると精度向上 In-Context Learning • モデルによって改善度合いが異なる • claude-3.5-sonnect:向上 • gpt-4o-mini:低下 Fine-tuning • FT-Llama-3.1-70Bと GPT-4o-miniは同等の性能 • 8Bよりも70Bの方が改善 Agent Training • 向上 16
実験2:ゼロショットCoT+α • Inference with Concrete Description • • 具体的な記述を用いた推論 記述の種類 • 抽象的記述 • • 具体的記述:前提条件や効果を含む • • unlock <?curpos> <?lockpos> <?key> <?shape>: Allows the robot to unlock a door at place <?lockpos> using a key of a specific shape. unlock <?curpos> <?lockpos> <?key> <?shape>: Allows the robot to unlock a door at place <?lockpos> using a key of a specific shape if the robot is at place <?curpos>, the key matches the lock’s shape, the robot is holding the key, there is a connection between <?curpos> and <?lockpos>,and the destination is locked. After the action, the lock is no longer locked. 結果 • 青:抽象的記述のベーススコア • 緑:具体的記述による改善度 • 抽象的な記述から行動の動的関係を推論する能力は不十分 17
結論・限界 • • Text2Worldの提案 • LLMの世界モデリング能力を評価するために作られた数百のドメインからなるベンチマーク • 16のLLMに対しての評価を実施 限界 • ドメイン数の限界 • 手動アノテーションの人間の主観性による潜在的なバイアス 18
感想 • 実世界を操作可能な構造/表現として理解をしようとしている • • PDDLでは形式的なものは扱えるが、不確実性や部分観測が弱いのでは • • 単なるテキスト生成ではなく、言語から構造を捉える 因果が固定してしまっている 言語から因果を考えるのか、因果があって言語として表現できるのか • LLMをメインで考えるのであれば、言語から因果の構造を捉える精度が重要になる? 19