【DL輪読会】Programmatic Video Prediction Using Large Language Models

657 Views

July 24, 25

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 51.8K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Programmatic Video Prediction Using Large Language Models Masaki Otsuki, Matsuo-Iwasawa Lab, M1 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Programmatic Video Prediction Using Large Language Models (2025) • 著者 – Hao Tang, Kevin Ellis, Suhas Lohit, Michael J. Jones, Moitreya Chatterjee • ICLR 2025 Workshop World Models • https://openreview.net/forum?id=pSjE6gXyRL 2

https://openreview.net/forum?id=pSjE6gXyRL

概要 ProgGen : 入力フレームから認識プログラム、動態予測プログラム、描画プログラムを LLMで生成し、予測の動画を生成する 3

概要 • 課題 – 動画の「次のフレーム」を予測するタイプの世界モデルは以下の課題を抱える • 膨大なデータ量 • 解釈性の欠如 • 汎化性能の低さ – 動画を生成する世界モデルでも、Physics-based なものは以下の課題を抱える • 物理法則や実験設定などを事前に定義するので、適用できる場面が限られる • 本研究の貢献 – LLMを用いて物理法則を記述したプログラムを生成することで人間が物理現象を事前に定義する必要がない 4

この論文を選んだ理由 • 個人的に世界モデルに関して詳しくない（LLMメイン） • LLM/VLMを用いて物理現象のプログラムを生成するというアプローチが直感的にもわかりやすく詳細が気になった 5

先行研究 Diffusionを用いて動画を生成 Stable Video Diffusion (2023) RaMViD (2022) 500,000件の10秒の動画などを学習 212年分の動画を学習 6

先行研究物理ベースの世界モデル Galileo (2015) - 入力された動画から質量、位置、摩擦等の物理変数を推定し、物理エンジンで続きを予測 7

先行研究 LLMによるコード生成を用いた世界モデル LLMPhy (2024) 対象の物理現象を先に決めてしまっている WorldCoder (2024) 離散的な状態しか表現できない 8

ProgGen 3つのPython プログラム Perception Program (P) RGBのフレームをstateに変換 Dynamics Program (D) Future state の予測を行う Rendering Program (R) StateをRGBのフレームに変換 9

10.

学習 LLM/VLMに物理定数（ポールの長さやカートの質量等）を予測させない。 LLMには物理定数を変数としたプログラムを書かせる。そのプログラムを実行して、物理定数の予測をL-BFGS等の最適化アルゴリズムを用いて行う。← これを学習と本論文では呼んでいる LLMの生成するpythonプログラム L-BFGS法 10

11.

実験① Phyworld-OOD Phyworldの一部を利用 1. 等速運動をするボール 2. 等速運動をする二つのボールの衝突合計20フレームで最初の3フレームを入力に使う実験設定 1. In distribution – 学習に使った動画でのボールの速度に近い 2. Out of distribution – 学習に使った動画でのボールの速度より速い 11

12.

結果 Phyworld-OOD • 大量のデータを用いて学習されたDiTよりも高いスコア • 物理ベースのGalileoよりも高いスコア – This is perhaps because of the constraints imposed by Galileo in assuming a Gaussian distribution on the state transition function 12

13.

実験② Cart Pole ポールの初期角度、カートの初速度、ポールの角速度を初期値として変更学習は行わず最初の10フレームから次の10フレームを予測 13

14.

結果 Cart Pole いずれも二つの画像の類似度を測る指標 14

15.

結果 Cart Pole 変数を後から変えて予測を行うことも可能 → 解釈性 15

16.

まとめ • 結論 – LLMを活用したプログラム合成によるビデオ予測手法「ProgGen」を提案 – 少量のデータで学習可能であり、特に未知の状況（ood）に対する高い汎化性能を示す – 生成されたプログラムは解釈可能であり、ユーザーによる編集や反実仮想的な推論が可能 • 限界と今後の展望 – 現状は比較的単純な物理環境での検証に留まっている – 複雑な実世界のビデオ（例: 人間の行動、流体など）に適用するには、よりリッチな状態を記述する必要があり、現在のLLM/VLMの能力ではまだ挑戦的 16