319 Views
July 24, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Programmatic Video Prediction Using Large Language Models Masaki Otsuki, Matsuo-Iwasawa Lab, M1 http://deeplearning.jp/ 1
書誌情報 • Programmatic Video Prediction Using Large Language Models (2025) • 著者 – Hao Tang, Kevin Ellis, Suhas Lohit, Michael J. Jones, Moitreya Chatterjee • ICLR 2025 Workshop World Models • https://openreview.net/forum?id=pSjE6gXyRL 2
概要 ProgGen : 入力フレームから認識プログラム、動態予測プログラム、描画プログラムを LLMで生成し、予測の動画を生成する 3
概要 • 課題 – 動画の「次のフレーム」を予測するタイプの世界モデルは以下の課題を抱える • 膨大なデータ量 • 解釈性の欠如 • 汎化性能の低さ – 動画を生成する世界モデルでも、Physics-based なものは以下の課題を抱える • 物理法則や実験設定などを事前に定義するので、適用できる場面が限られる • 本研究の貢献 – LLMを用いて物理法則を記述したプログラムを生成することで人間が物理現象 を事前に定義する必要がない 4
この論文を選んだ理由 • 個人的に世界モデルに関して詳しくない(LLMメイン) • LLM/VLMを用いて物理現象のプログラムを生成するというアプロー チが直感的にもわかりやすく詳細が気になった 5
先行研究 Diffusionを用いて動画を生成 Stable Video Diffusion (2023) RaMViD (2022) 500,000件の10秒の動画などを学習 212年分の動画を学習 6
先行研究 物理ベースの世界モデル Galileo (2015) - 入力された動画から質量、位置、摩擦等の物理変数 を推定し、物理エンジンで続きを予測 7
先行研究 LLMによるコード生成を用いた世界モデル LLMPhy (2024) 対象の物理現象を先に決めてしまっている WorldCoder (2024) 離散的な状態しか表現できない 8
ProgGen 3つのPython プログラム Perception Program (P) RGBのフレームをstateに変換 Dynamics Program (D) Future state の予測を行う Rendering Program (R) StateをRGBのフレームに変換 9
学習 LLM/VLMに物理定数(ポールの長さやカートの質量等)を予測させない。 LLMには物理定数を変数としたプログラムを書かせる。 そのプログラムを実行して、物理定数の予測をL-BFGS等の最適化アルゴリズムを 用いて行う。← これを学習と本論文では呼んでいる LLMの生成するpythonプログラム L-BFGS法 10
実験① Phyworld-OOD Phyworldの一部を利用 1. 等速運動をするボール 2. 等速運動をする二つのボールの衝突 合計20フレームで最初の3フレームを入力 に使う 実験設定 1. In distribution – 学習に使った動画での ボールの速度に近い 2. Out of distribution – 学習に使った動画で のボールの速度より速い 11
結果 Phyworld-OOD • 大量のデータを用いて学習されたDiTよりも高いスコア • 物理ベースのGalileoよりも高いスコア – This is perhaps because of the constraints imposed by Galileo in assuming a Gaussian distribution on the state transition function 12
実験② Cart Pole ポールの初期角度、カートの初速度、ポー ルの角速度を初期値として変更 学習は行わず 最初の10フレームから次の10フレームを予 測 13
結果 Cart Pole いずれも二つの画像 の類似度を測る指標 14
結果 Cart Pole 変数を後から変えて予測を行うことも可能 → 解釈性 15
まとめ • 結論 – LLMを活用したプログラム合成によるビデオ予測手法「ProgGen」を提案 – 少量のデータで学習可能であり、特に未知の状況(ood)に対する高い汎化性能を示す – 生成されたプログラムは解釈可能であり、ユーザーによる編集や反実仮想的な推論が可能 • 限界と今後の展望 – 現状は比較的単純な物理環境での検証に留まっている – 複雑な実世界のビデオ(例: 人間の行動、流体など)に適用するには、よりリッチな状態を記 述する必要があり、現在のLLM/VLMの能力ではまだ挑戦的 16