【DL輪読会】Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

1.9K Views

June 05, 25

#大規模言語モデル #世界モデル #ベンチマーク #PDDL #自然言語処理

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.3K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Text2World: Benchmarking Large Language Models for Symbolic World Model Generation 1 Eri Kuroda, Matsuo-Iwasawa Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 Text2World: Benchmarking Large Language Models for Symbolic World Model Generation • • • Authors: Hu Mengkang et al. @The University of Hong Kong • Conference: ACL2025 findings, ICLR2025 WM workshop • arXiv: https://arxiv.org/abs/2502.13092 • HP: https://text-to-world.github.io/ LLMが自然言語による説明から、コンピュータが理解して実行できる「記号的な世界モデル」をどれだけ正確に作り出せるかを評価するためのベンチマークの提案 ※ 本スライドの図表は元論文より引用 2

周辺研究：LLMと世界モデル • LLMの内部に世界モデルがあると主張する研究 • Probing LLM World Models: Enhancing Guesstimation with Wisdom of Crowds Decoding • • Disentangling World Knowledge from Linguistic Knowledge in Large Language Models • • 世界の知識（因果関係など）を持っているかの分析と調査 LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models • • VLMが視覚情報とテキスト情報を統合してどのように世界を理解しているか LLMは物理法則を持っているか LLMを世界モデルとみなしている研究 • WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents • • • Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents • • • ルールを学習することで、LLMからWMを構築（LLMを環境に適応させる）強化学習不要のMPC モデルベースのプランニング LLMがWebの構造や挙動に関する知識を内在的に持っていると仮定 Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation • これまでのLLMにはWMないが、行動のシミュレーションを追加することでWMのようにした 3

背景：世界モデルの重要性 • 世界モデルの重要性 • 予測と計画のために外部世界の内部表現を用いる（Ha+, 18） • 自律型機械の知能の核になる（LeCun, 22） • 本論文：記号的世界モデル（ symbolic world models, ドメインモデル）を対象 • • 現実世界の状況・ルール・因果関係を、明確な「記号（シンボル）」と論理的な関係で表現した内部モデル LLMから記号的世界モデルが生成できたら、人間と機械の仲介的な役割を担う 4

背景：評価における課題 • LLMを用いた記号的世界モデル生成の評価における課題点 • • • • ドメインが限られている • 既存研究：20未満のドメインで少ない • 一般化可能性、適用性が制限評価のランダム性 • LLMベースの評価方法に依存 → 追加の誤差を導入する必要あり • 人間のアノテーターとの間での一致度が低い（Cohen’s κ カッパ係数 = 0.10）間接的な評価 • 世界モデル：モデルベースの計画におけるエンドツーエンドの成功率で評価 • 具体的な失敗を見つけるのが難しい（事前条件、オブジェクトのあやまりなど）データ汚染 • LLMの訓練データを記憶している可能性があり、性能指標が水増し 5

概要図 • PDDL（Planning Domain Definition Language）をベースとしたText2Worldの提案 • PDDL – The Planning Domain Definition Language, Howe et al., 1998 6

https://www.cs.cmu.edu/~mmv/planning/readings/98aips-PDDL.pdf

予備知識：タスク定義 • M : N →D • • • • • D|= N • • M: マッピング関数（LLMで実装） D=<F, A>：シンボリックな世界モデル F：状態関数（述語として表現） A：可能な行動の集合 |= 意味的満足 N • • ドメインの全体的な目的を説明する一般的な記述 Nf = {f1,…,fn}：述語の集合 • • • シグネチャ：“(conn ?x ?y)” 説明：2つの場所 ?x と ?y の間の接続を示す Na = {a1,…am}：アクションの集合 • シグネチャ：“move <?curpos> <?nextpos>” • 説明：ロボットが場所<?curpos>から場所<?nextpos>へ移動する 7

ベンチマーク構築 • (a)：データ取得 • • • (b)：データファイリングと手動選択 • 各ファイルに対してPDDLを使って構文検証 • 重複の除去 • 40以上の述語、20以上のアクションの除去 • トークン長のフィルタリング（5000トークン以上は削除） (c1)：データアノテーション • • 1,801件のraw PDDL収集前ページNの表現に従い記述 (c2)：品質保証 • 2人のエキスパートが監督するレビューシステム • Fleiss κ（フライスのκ係数） = 0.82 • 最終的に103のドメインとゴールの説明を含むデータセット 8

データの汚染率 Data contamination • LLMはtraining dataを記憶する可能性がある（汚染） • LLMのtraining dataとText2Worldの潜在的な汚染をGPT-4で評価 • • • 最初20トークンから完全なPDDLドメインを生成 • PDDL固有のキーワードと変数を除外したトークン化された10-gram（最大4つの不一致）で計算 Prior Work（LLMのPDDLを評価） • Guan et al., 2023 • Smirnov et al., 2024 μ = 0.47 vs μ = 0.04 • Text2Worldの方が汚染率が低い • 既存研究：作成した自然言語の入力が LLMのtraining dataと（比較的）類似していた 9

10.

データ分析 • ドメイン特性の抽出 • 8種類（PDDLのrequirements） • strips • typing • negative-preconditions • disjunctive-preconditions • equality • conditional-effects • action-costs • adl この2つが多い 10

https://planning.wiki/ref/pddl/requirements

11.

実験 • 予備実験 • • • claude-3.5-sonnectでCohen κ = 0.1（人の評価とLLMの評価の一致度が低い）評価するLLM • GPT-4 • GPT-3.5 • Claude-3.5 • LLama3.1 • DeepSeek-v3 • CodeLlaMA • LlaMA-2 • DeepSeek-R1 • OpenAI-o1 • OpenAI-o3 ゼロショットのCoTでシンボリックな世界モデルを生成するようにプロンプト 11

12.

実験結果：ゼロショットCoT • 評価指標 • EXEC：実行可能性 • • SIM：構造的類似性 • • 各アクションのパラメータの正確性 F1-precond：前提条件 • • 述語の正確性 F1-param：パラメータ • • 生成されたPDDLと正解PDDLとの類似度 F1-pred：述語 • • 生成されたPDDLが実行可能か前提条件の一致率 F1-eff：効果 • 効果（アクションの結果）の一致率 12

13.

実験結果：ゼロショットCoT • • DeepSeek-R1 • F1-precond < 60, F1-eff < 60 → LLMが世界モデル化タスクに限界あり • exec, sim, f1：他のモデルより精度高 → 強化学習にもとづくLLMモデルが能力を向上させているエラー訂正のおかげでexecが改善 • GPR-4では3回訂正試行後、48.5→72.3 13

14.

エラー分析 • 構文エラー • • EXEC = 0（生成されたドメインが検証できない） UndifinedConstant, IncorrectParentheses • • UndifinedDomainName, UndifinedType • • 修正ステップが進むごとに減っている残る意味論的エラー • DisobeyDescription • • IncompleteModeling • • 世界モデルに必要十分なコンポーネントが欠如 RedundantSpecifications • • 説明の直接的な違反不要な前提条件や効果 SurfaceDivergence • gold domain（正解PDDL）との意味的同値性を保つ表面レベルの差異 → 表現は違うが、意味的には同じということ 14

15.

実験2：ゼロショットCoT+α • 実験1：ゼロショットのCot • 実験2：Cot + 5つの異なる手法 • Test-time Scaling • In-Context Learning • Fine-tuning • Agent Training • Inference with Concrete Description • 具体的な記述を用いた推論 15

16.

実験2：ゼロショットCoT+α • Test-time Scaling • • • • 計算リソースが増えると精度向上 In-Context Learning • モデルによって改善度合いが異なる • claude-3.5-sonnect：向上 • gpt-4o-mini：低下 Fine-tuning • FT-Llama-3.1-70Bと GPT-4o-miniは同等の性能 • 8Bよりも70Bの方が改善 Agent Training • 向上 16

17.

実験2：ゼロショットCoT+α • Inference with Concrete Description • • 具体的な記述を用いた推論記述の種類 • 抽象的記述 • • 具体的記述：前提条件や効果を含む • • unlock <?curpos> <?lockpos> <?key> <?shape>: Allows the robot to unlock a door at place <?lockpos> using a key of a specific shape. unlock <?curpos> <?lockpos> <?key> <?shape>: Allows the robot to unlock a door at place <?lockpos> using a key of a specific shape if the robot is at place <?curpos>, the key matches the lock’s shape, the robot is holding the key, there is a connection between <?curpos> and <?lockpos>,and the destination is locked. After the action, the lock is no longer locked. 結果 • 青：抽象的記述のベーススコア • 緑：具体的記述による改善度 • 抽象的な記述から行動の動的関係を推論する能力は不十分 17

18.

結論・限界 • • Text2Worldの提案 • LLMの世界モデリング能力を評価するために作られた数百のドメインからなるベンチマーク • 16のLLMに対しての評価を実施限界 • ドメイン数の限界 • 手動アノテーションの人間の主観性による潜在的なバイアス 18

19.

感想 • 実世界を操作可能な構造/表現として理解をしようとしている • • PDDLでは形式的なものは扱えるが、不確実性や部分観測が弱いのでは • • 単なるテキスト生成ではなく、言語から構造を捉える因果が固定してしまっている言語から因果を考えるのか、因果があって言語として表現できるのか • LLMをメインで考えるのであれば、言語から因果の構造を捉える精度が重要になる？ 19