2K Views
July 29, 25
スライド概要
生成AIから世界モデルへ:実世界で動作する知能の実現に向けて 東京大学大学院工学系研究科 特任講師 鈴木雅大 2025/07/08 1
自己紹介 鈴木雅大(東京大学大学院工学系研究科 特任講師) 経歴 2015年3月 北海道大学情報科学研究科修了 2018年3月 東京大学工学系研究科修了 2018年4月〜2020年7月 東京大学大学院工学系研究科 特任研究員 2020年8月〜2024年12月 東京大学大学院工学系研究科 特任助教 2025年1月〜 東京大学大学院工学系研究科 特任講師 研究分野: 転移学習・マルチモーダル学習・深層生成モデル・世界モデル 受賞: 情報処理学会論文賞,情報処理学会論文誌ジャーナル 特選論文, 人工知能学会全国大会 学生奨励賞,WBAI奨励賞,東京大学工学系研究科長賞(研究)など. 活動など: Deep Learning基礎講座(「深層学習」)・サマースクール「深層生成モデル」・Deep Learning応用講座「世界モデル」などの講義担当 「深層学習(Goodfellow著)」「強化学習第2版(Sutton著)」の監訳・分担翻訳 2
背景:動画生成AI 近年,生成AI(generative AI)が着目されている. その中でも動画生成AIはここ1年で飛躍的な発展を遂げている. https://openai.com/index/sora/ こうした動画生成AIは世界モデルを持っていると主張されている. 世界モデル:環境の限られた観測情報から学習して,環境の将来を予測するモデル. 本日のメッセージ: 1. 動画生成AI=世界モデルではない. 2. 実世界で動作するAIを実現するには外界の潜在表現を獲得した世界モデルが重要 3
生成AIの基礎技術:生成モデル 生成モデル: データが未知の真の分布から生成されていると仮定し,その生成過程を確率分布によってモデル化し た数理モデルおよびその枠組み. 「データがどのようにできているか?」を明示的に設計することができ,モデルからデータを生成 (シミュレーション)することができる. 近づけるように学習 生成モデル (未知の)真の分布 ※楕円は確率分布の等高線 データ 4
生成モデルでできること 生成: 生成モデルが学習できれば,未知のデータを生成できる 「生成」モデルと呼ばれるのはここから 生成モデル 密度推定: データを入力すると,それがどれだけ生成モデルと違うかがわかる. 外れ値検出や異常検知に用いられる. 欠損値補完・ノイズ除去: 欠損やノイズのある入力を入れると「元のデータらしく」補完して くれる. http://jblomo.github.io/datamining290/slides/2013-04-26Outliers .html 5
生成モデルの重要な要素 生成モデルでは「生成」が着目されがち. 今回は以下のキーワード(専門用語)を押さえてください. 「潜在変数」と「推論」 6
生成モデルの重要な要素:潜在変数 潜在変数: データとは別に,データの背後にあると考える要因. 潜在変数は実際にはデータからは得られない. 観測データが画像などの場合は,その表現に対応する(潜在表現とも呼ばれる). 潜在変数(潜在表現) 生成モデル 例:ネコの写真をデータとすると,潜在 変数は「ネコ」や「カメラの向き」など の表現に対応 https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learningof-disentangled-representations-from-video-creative-ai-meetup ※自己回帰モデルなど,潜在変数を持たない生成モデルもあります. 7
生成モデルの重要な要素:推論 推論: データからその表現(潜在変数)を求める. (正確ではないが)結果(データ)から原因(潜在変数)を求めることに対応する. 潜在変数 生成モデル 推論 例:ネコの写真から,写っている動物(ネコ)やカメラの向きなどを求める. https://www.slideshare.net/lubaelliott/emily-denton-unsupervised-learningof-disentangled-representations-from-video-creative-ai-meetup 8
潜在表現と推論のイメージ 以下の画像を見たときに「机」や「椅子」があると認識できる. [Rao 99] 観測した画像自体はの不完全な2次元ピクセル情報であり,そこから「机」や「椅子」といっ た潜在表現を推論している. ヘルムホルツの無意識推論 [Hermholz 1867]:我々が外界を認識したとき,意識に上る前に,脳内で 帰納的な推論が自動的に働き、外界の原因(=潜在表現)を推定している 9
深層生成モデル データが複雑な場合(高解像度画像や動画など)単純な確率分布では直接表現できない. 従来の生成モデルは,複雑なデータを直接生成することは意図していなかった. 複雑な観測を扱うには?-> 深層ニューラルネットワーク 深層生成モデル(deep generative model) 生成モデルを深層ニューラルネットワークで表現した生成モデル. 現在の生成AIの根幹となる技術 潜在変数 生成モデル 10
深層生成モデルの種類 生成や推論,学習方法によって様々なモデルがある. 潜在変数 生成 推論 VAE 低コスト 可能(エンコーダ) 拡散モデル 高コスト(反復) 可能(拡散過程) GAN 低コスト エンコーダを導入すれば可能 フローベースモデル 低コスト 可能(逆変換) 自己回帰モデル 高コスト 潜在変数がない エネルギーベースモデル 高コスト(反復) モデルの設計による 生成モデル 推論 ※大規模言語モデルは,基本自己回帰モデルだが拡散モデルを用いているものもある 11
Variational Autoencoder Variational autoencoder(VAE) [Kingma+ 13, Rezende+ 14] データ𝐱から潜在変数𝐳に推論するエンコーダと潜在変数𝐳からデータ𝐱を再構成するデコー ダで構成される. 潜在変数の次元𝐳は入力𝐱よりも小さい. 元のデータを圧縮してから再構成できるように学習することで,潜在変数で良い表現が獲得でき るように学習する. 潜在変数 入力 𝐱 エンコーダ 𝐳 デコーダ (生成モデル) 再構成 𝐱 12
VAEからの生成 任意の潜在変数の値𝐳からデコーダによってデータ𝐱を生成 ここを 変化させる 潜在変数 𝐳 デコーダ (生成モデル) [Vahdat+ 20] [Kingma+ 13] 13
潜在変数の表現学習 潜在変数z上では,画像データの「良い表現」が獲得されている(表現学習). 潜在変数の空間上で足し算や引き算を行うと,対応する画像を生成することができる(左) 潜在変数のある値のみを変えると,特定の性質のみ変化して画像を生成できる(もつれを解く表現,右) 潜在変数は観測から抽象的な「概念」を獲得している 出典)https://slidetodoc.com/variational-autoencoders-alon-oring-28-05-18-recap/ [Higgins+ 17] 14
条件付き深層生成モデル テキスト情報などを入れて,対応する画像を生成する(条件付き生成モデル). テキスト情報 潜在変数 生成モデル [Mansimov+ 15] 15
マルチモーダル学習 我々はマルチモーダル情報を取り入れることで,単一のモダリティ情報よりも確実な情報処理 を行っている. ロボットも複数のセンサから様々な種類の情報を獲得している 動画,音声,角度や加速度情報,距離情報など https://www.softbank.jp/robot/consumer/products/spec/ 機械学習においても,マルチモーダルデータを活用して判断・予測を行いたい. ⇒ マルチモーダル学習 16
マルチモーダルVAE 我々は視覚だけでなく様々な情報から外界を認識して意思決定をしている. マルチモーダル学習 潜在変数では,複数の種類の情報を統合した抽象的な概念が獲得されていると考える. マルチモーダルVAE[Suzuki+ 17, Suzuki+ 22] 𝐱 𝐱 𝐳 𝐲 𝒚 [Shi+ 19] 17
マルチモーダルVAE マルチモーダルVAE[Suzuki+ 17, Suzuki+ 22] 潜在表現では異なるモダリティの情報を統合し,潜在表現を介することで双方向の変換ができる. 以下は,画像と属性情報を異なるモダリティとした場合 潜在表現空間 双方向の変換 18
マルチモーダルVAEの発展 A survey of multimodal deep generative models [Suzuki+ 22] 19
最近の深層生成モデル:拡散モデル 拡散モデル(diffusion model)[Sohl-Dickstein+ 15, Ho+ 20] 入力𝐱 0 を画像として,2種類の過程を考える. 拡散過程:画像𝐱 0 から𝐱 0 → ⋯ → 𝐱 𝑡 … → 𝐱 𝑇 のようにランダムノイズ𝐱 𝑇 を生成する. 生成過程(逆過程):ランダムノイズ𝐱 𝑇 から𝐱 𝑇 → ⋯ → 𝐱 𝑡 … → 𝐱 0 にように画像𝐱 0 に戻す. ノイズから画像データへの生成を深層ニューラルネットワーク(U-Net)で学習する. 反復的に生成することで,より高解像度で一貫した画像を生成することができる. 生成過程(逆過程) 𝐱𝑇 𝐱 𝑇−1 ・・・ ・・・ 𝐱𝑡 ・・・ ・・・ 拡散過程 𝐱1 𝐱0 ここを 変化させる U-Net ※実際には生成過程ではなくノイズ予測器などを深層ニューラルネットワーク(U-Net)で学習する. 20
潜在拡散モデルの生成例 大規模言語モデルと組み合わせて,文書から高解像度の画像を生成[Rombach+ 22] 条件付け生成モデルという. 21
Transformerを用いた拡散モデル Diffusion Transformer[Peebles+ 22] Transformer[Vaswani+ 17]: 自然言語処理の領域で広く利用される,自己注意機構を中心に構築された深層学習モデル. 並列計算効率性,スケーラビリティなどの利点がある. 潜在拡散モデルをU-NetからTransformer(vision transformer[Dosovitskiy+ 20])に変更. モデルサイズを大きくすることで性能向上(スケーラビリティ) 22
動画生成への拡張 画像生成と比べた動画生成の困難さ 動画は1フレームが画像の系列データなので,よりデータ収集や学習が困難. 特にテキストから生成する場合はデータの収集が困難 最近ではかなり大規模なテキスト付き動画データが登場している(WebVid-10Mなど). 時間方向の一貫性を保つ必要がある. 動画を生成する方法として大きく2種類ある 1. 動画全体生成:動画を1つのデータとして生成するように学習する 2. 次フレーム予測:現在や過去の画像から次の時刻の画像を生成(予測)するように学習する 生成モデル 生成モデル ※ 最近はハイブリッド型やこれ以外の方法も多い 23
最近の動画生成の試み 2021年以前はあまり高解像度の動画生成はできなかった [Kim+ 21] 2022年から拡散モデルを用いた動画生成が登場し大きく性能向上 [Zhu+ 24] 24
動画拡散モデル Video Diffusion Model[Ho+ 22] U-Netを時空間(3次元)に拡張(Video U-Net)して動画データを学習する. 時間と空間について交互にattentionと畳み込みを繰り返す. Imagen Video[Ho+ 22] VDNの後続研究.空間方向については各フレームで同じパラメータを共有する. 複数のモデルによって複数段階で時間と空間方向に高解像化している. https://imagen.research.google/video/ 25
動画拡散モデル SSM Meets Video Diffusion Models [Oshima+ 24] Video Diffusion ModelのU-Netのattentionを線形状態空間モデル(SSM)[Gu+ 21]に変更. SSM[Gu+ 21]:次元と時間の長さの両方について線形のメモリ使用量となる系列モデル メモリ使用量や計算量を抑えつつ同等の性能. 26
潜在拡散モデル 拡散モデルの課題:観測空間で生成モデルを学習しているため,生成コストがかかる. 潜在拡散モデル(latent diffusion model)[Rombach+ 22] VAEの潜在空間で拡散モデルを学習する. VAE側で画像表現に関する学習を行い,その表現である低次元の潜在空間で拡散モデルを学習するを ので,計算量を削減することができる. データ 𝐱 エンコーダ 潜在変数 拡散過程 𝐳0 再構成 𝐱 デコーダ 𝐳1 ・・・ ・・・ 𝐳𝑡 ・・・ ・・・ 𝐳 𝑇−1 𝐳𝑇 生成過程(逆過程) ※正確にはVAE部分はVQ-GAN[Esser+ 20]がベース. 27
潜在拡散モデルでの動画生成 Sora[Brooks+ 24] Diffusion Transformerを用いて動画モデルを学習(スケーラビリティ). 動画を潜在空間上にエンコードして時空間的なパッチの系列(Transformerの入力)として扱う. 2分間にわたって一貫性のある動画が作れる. https://openai.com/index/video-generation-models-as-world-simulators/ 29
より適切な動画生成に向けて 動画生成AIでは,未だに現実世界ではあり得ない動きなどを生成することがある. コンテンツの質(報酬)に基づいて拡散モデルの生成を制御する研究が進められている. 拡散モデルの生成過程で探索(ビームサーチ)することによって良い動画を生成する[Oshima+ 24] 探索なし 探索あり ※モデルはCogVideoX-5B [Yang+ 25]を利用 30
動画生成モデルから世界モデルへ Sora[Brooks+ 24]では,現実世界のシミュレータとして重要な要素が創発したと主張している. 3次元的な一貫性・長時間の一貫性・環境への相互作用・デジタル世界のシミュレーション https://openai.com/index/video-generationmodels-as-world-simulators/ 動画生成AIは世界モデルを内包している? 31
世界モデル 世界モデル(world model): 外界からの限られた観測を元に,世界の構造を近似するように学習するモデル. 観測から潜在表現を推論し,推論した表現から未来や未知のことを予測(生成)する. 将来が予測できることで,長期的な計画や意思決定をすることができる. 世界モデル 環境 近似 推論 観測 予測 表現 世界モデルの研究自体は,動画生成モデルとは別の文脈で研究されてきた. モデルベース強化学習の文脈では,世界モデルは外界と少ない相互作用でよい行動(方策)を獲得するために重要. 1990年頃起源で,2018年頃から本格的な研究が進められている[Ha+ 18]. 32
世界モデルによる予測 世界モデルによって想像や予測ができる 世界モデルは世界の構造を学習している. ある原因(潜在表現)の下で,どのような刺激が生じるか?(反実仮想) 一方,推論(認識・知覚)は予測とは逆の流れ. 外界の潜在変数を「認識」し,全体像を「想像」したり将来を「予測」する. 世界モデル 推論 予測 表現 33
世界モデルによる予測の例 バットを振ってボールに当てる ボールが飛び去る時間は,視覚情報が脳に到達してバットの振り方を決めて筋肉を動かす時間よりも 短い. 世界モデルによって無意識に予測を行い,それにしたがって筋肉を動かしている. 錯視 世界モデルの「予測」に基づき錯視が見える. 34
世界モデルによる予測と知能 「今までの記憶から未来を予測する力.それが知能である. 」 「On Intelligence(考える脳 考えるコンピュータ)」(Jeff Hawkins著)より これまでの観測や行動を使って将来の観測を予測している. 学習した脳の世界モデルによって未来をシミュレーションしているということ. 我々はこれを常に行っていると考えられる. 長期的な将来を予測することで,対策をして,恒常性を維持する. -> 知能における世界モデルの重要性 35
世界モデルのサーベイ論文 世界モデルのサーベイ論文を執筆 Advanced Roboticsで世界モデルに関する世界初のサーベイ論文を国内外の著名な研究者と執筆 (Best Survey Paper Awardを受賞) 学会誌「人工知能」における世界モデルの解説論文 36
世界モデルに関する教育・コミュニティ活動 JSAI のオーガナイズドセッション「世界モデルと知能」を主催. 2020年から昨年までに4回開催(今年5回目開催). Deep Learning応用講座「世界モデル」 「世界モデル・シミュレータ寄付講座(2021年7月〜) 」の活動の一環として2021年度から毎年開講. 世界モデルについて網羅的に扱う世界初?の講義で講義設計全般を担当. 国際会議で世界モデルに関するセッションを共催 IROS 2023 Workshop on World Models and Predictive Coding in Cognitive Robotics NEURO 2022 Organized Symposium, Advancement in World model and Deep Reinforcement Learning 国際論文誌での世界モデル特集号の共催(NGC,Advanced robotics) 37
世界モデルの基本的な構造 基本的なモデル構造 観測から潜在表現を推論する部分(エンコーダ)と,現在の表現と行動から次の時刻の表現を予測す る部分(遷移モデル) VAEなどでモデル化してend-to-endに学習する[Hafner+ 23] 潜在表現が良い表現(観測の余分な情報を省いた低次元な表現など)になっていれば,より容易に将 来予測ができたり,良い方策を獲得することができる. 世界モデルの上で方策(ある状態においてどういう行動を取るか)を学習する. 行動 遷移モデル 潜在表現 方策 エンコーダ 観測 https://github.com/google-research/dreamer [Kaiser+ 20] 38
世界モデルでできること 長期的な将来予測ができる: ある時刻にある行動をとるとどうなるのかを想像できる[Hafner+ 21] 環境との少ない相互作用で方策を学習できる: Minecraftにおけるダイアモンド収集タスクで,人間のデモンストレーションを使わずに達成[Hafner+ 23] ロボットの方策を世界モデルによる「夢」だけで学習することができる[Wu+ 22] 自動運転への応用[Hu+23] 39
世界モデルでできること 環境の潜在表現を獲得する: 世界モデルにおいて,自分がどのような世界にいるかを認識する [Gregor+ 19] 40
物体中心世界モデル 世界は,様々な物体から構成されている. 我々は外界からの刺激に基づき,関係性や階層性について教師なしで理解することができる. 物体中心世界モデル(object-centric world model) 画像などのデータから物体の表現を推論する世界モデル. [Greff+ 20] 物体の表現のうち,相互作用に関係する表現(位置など,dynamic表現)と関係しない表現(色など, global表現)を分離するモデルを提案[Nakano+ 22] プランニングタスクで高い性能. 41
多視点物体中心世界モデル 人間は1つの視点だけでなく,複数の視点から物体表現を獲得している 多視点物体中心表現学習 [Nanbo+ 2020]. 物体ごとの表現だけでなく空間の表現(global表現)も獲得する方法を提案[Kobayash, Suzuki+ 22] . 従来手法より推論の性能が向上したり,新規のシーン生成も可能. 42
世界モデルとマルチモーダル学習 従来の世界モデル研究では,単一モダリティ(主に画像)のみを扱っていた. 人間は様々なモダリティ情報を元に,脳内に抽象的な表現を獲得している. [Shi+ 19] 世界モデルにおけるマルチモーダル学習の重要性 43
Neuro-SERKET・WB-PGM Neuro-SERKET [Taniguchi, Suzuki+ 19] 深層生成モデルを含む確率的生成モデルによるマルチモーダル認知アーキテクチャの提案 VAE+GMM+LDA+ASRの例(数字の画像(MNIST)と音声から学習) 同様の枠組みで脳全体を確率的生成モデルで構築するwhole-brain PGM(WB-PGM)の提案 [Taniguchi, Suzuki+ 21] 今後の課題: 複雑な認知アーキテクチャを全て深層生成モデルで設計・学習することは可能か? そうした複雑な深層生成モデルを簡潔に実装することは可能か? 44
複雑な深層生成モデルを実装するためのライブラリ:Pixyz Pixyz [Suzuki+ 22]:深層生成モデルに特化した確率プログラミングライブラリ 複雑な深層生成モデルを簡潔に実装できることが特徴 PyTorch(深層学習ライブラリ)ベース Star数489,ダウンロード数37,422 直感的な実装を実現するために,DNNと確率モデルの設計が分離していることが特徴. DNNを意識せずに確率モデルを実装に集中できる. Model API (pixyz.models) 𝜃 ←𝜃−𝛼 Loss API (pixyz.losses) ℒ(𝑥; 𝜃, 𝜙) = −𝐸𝑞𝜙 (𝑧|𝑥)[log 定義した誤差関数をもとに学習 確率モデルの誤差関数を定義 Distribution API (pixyz.distributions) DNNから確率分布,確率モデルを定義 DNN modules (torch.nn.modules) Flow modules (pixyz.flows) 𝜕ℒ(𝑥; 𝜃, 𝜙) 𝜕𝜃 𝑝𝜃 (𝑥, 𝑧) ] 𝑞𝜙 (𝑧|𝑥) 確率モデル部分 𝑝 𝑥, 𝑧 = 𝑝 𝑥 𝑧 𝑝 𝑧 𝑞(𝑧|𝑥) Autoregression modules (pixyz.autoregressions) DNN部分 45
複雑な深層生成モデルを実装するためのライブラリ:Pixyz TD-VAE[Gregor+ 18]:深層生成モデルによる時系列モデルの一つ 従来の深層確率プログラミング言語では実装困難 Pixyzでの実装(確率モデリング部分のみ表示) 実装したモデルは 式として可視化できる 46
動画生成AIは世界モデルか? 世界モデルの目的は,未知の意思決定の結果を予測すること(反実仮想). 現状の動画生成AIでもある程度できているように見えるサンプルはある. Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field. https://openai.com/index/sora/ 「もっともらしい動画空間」は広いので,妥当な動画サンプルを数種類持ってくるだけでは不 十分. 実際にはうまく生成できない事例もある. 様々な未知の状況で適切に生成できないとシミュレータとして十分とは言えない. https://openai.com/index/video-generationmodels-as-world-simulators/ 48
動画生成AIは世界モデルか? 現在の動画生成AIは長時間の生成について課題がある. Soraは2分程度の動画生成はできるが数時間単位になると難しい. 人間は数日後や数年後のことを,ざっくりと想像することができる. このギャップはどこにあるのか? 人間は1分後ですら,完璧に予測できるわけではない. 意思決定において重要な抽象表現上で予測できれば十分 そもそも人間が持つ「世界モデル」とは主観的なものであり,客観的なものではない. [Sun+ 24] 49
補足:世界モデル研究の整理 世界モデルの重要な2つの要素. 観測から状態表現(外界を表す良い表現)を推論する. ある行動をしたときの将来を予測する. https://github.com/google-research/dreamer 現在の世界モデル研究は「観測予測」「状態予測」を軸として次のように分けることができる. 観測予測モデル:画像のピクセルなどの観測情報が予測できることを目的に学習. 大規模な観測データを使って,タスクに依存しない様々な観測予測を目指している. Transformerを使った自己回帰的な予測モデルなど.Soraなどの動画生成AIも含まれる. 状態予測モデル:画像から状態を推論し,状態上で予測を行うことを目的に学習. タスクが解きやすく,予測しやすいような表現を獲得することを目指している. LeCunが提案するJEPAなどの表現学習や,報酬予測ができるような表現を学習するTD-MPCなど. 状態空間モデル:観測予測と状態予測の両方を行うことを目的に学習. 観測レベルの予測とタスクが解きやすいような表現獲得の両方を実現することを目指している. Dreamerなどの基本的な世界モデル. 50
大規模言語モデルは世界モデルを内包しているか? 大規模言語モデルが世界モデルを内包していると主張する研究が出ている. [Gurnee+ 24] そもそも「言語」は人間の間でやりとりする際に生まれた「現実空間の潜在表現」の一形態 したがって,その言語空間の遷移を学習している大規模言語モデルが世界モデルを内包しているのは当然 [Taniguchi+ 24] 問題は,それを現実世界に「デコード」できるかということ 「歩く」の概念を理解しているLLMは現実世界で歩くことはできるのか? 51
現状のAIで十分なのか? 大規模言語モデルや深層生成モデルの性能が今後も向上し続けることは間違いない. テスト損失に対するスケーリング則[Kaplan+ 20]やGrokking[Power+ 22]などの現象. 汎用的な人工知能を実現するために,もはや何も課題はないという指摘も多い. 良質なデータは数年で枯渇するとも指摘されている[Villalobos+ 22]. 自然言語データは2026-2032年に枯渇すると指摘. 本来人工知能に求めていた方向性に進んでいるのか? 「自律的な人工知能」から「道具としての人工知能」へ 実世界とのインタラクションは人間が担当し,それぞれの目的を人工知能に投げて解決する. 「ロボットが自律的に部屋の中で作業をする」とは異なる世界? => 実世界で動くAIを作るためには? 52
実世界で動くAIの重要性 AIエージェントが進む一方で,日本が取り組むべきは「実世界で動くAI」 53
実世界で動くAIを作るために 大規模言語モデルでの成功を踏まえた大規模ロボット学習モデルの研究が進められている. 基本的な方針:画像・言語指示・行動のデータを大量に収集して学習する(Vision-LanguageAction (VLA)モデル). ロボット稼働データが集まる仕組みづくりとして一般社団法人AIロボット協会(AIRoA)を設立 ロボットの領域で基盤となるロボットAIモデルを開発.このモデルを各産業,業種,個別モデルとし て学習をすることでさまざまな産業へのアプリケーション創出につなげる. https://www.physicalintelligence.company/blog/pi0 https://www.airoa.org 54
実世界で動くAIを作るための課題 データ収集の困難性 言語はインターネット上で容易に集まるが,行動データは実際にロボットを稼働させるなどして取得 する必要がある. 学習したVLAモデルが汎化しない 「持つ」という動作を集めて学習しても,新しい環境や新しいロボットに対して汎化しない. 根本的な問題:現実世界は我々が想像しているよりも遥かに広い 現実世界は膨大な空間があり,さらに時間変化もしている. 言語空間のようにそのまま網羅するのは不可能. 55
実世界で動くAIを作るための世界モデル 実世界で動作できるAIを作るためには世界モデルが必要不可欠. 自分で世界を想像することで ただ現実世界をそのままシミュレートするモデルではなく,想定するタスクにうまく対処でき るような外界の潜在表現を獲得する世界モデル 現実世界で動くAIを実現する上で重要となる(+まだできていない)潜在表現の例 1. 複数種類の潜在表現 2. 時空間を抽象化した潜在表現 3.「操作」を抽象化した潜在表現 56
1. 複数種類の潜在表現 現在の世界モデルでは単一の潜在表現のみを推論する. しかし人間は解くべきタスクによって明らかに異なる潜在表現で遷移(予測)している 将棋が上手い人は,将来の動きを読みやすい潜在空間で思考している. タスクによって予測しやすい潜在表現を持っていて,使い分けたり統合している 関連する主張:ジェフ・ホーキンスの「1000の脳理論」 脳の約 15 万個の皮質コラムには,それぞれ独立に異なる座標系の「ミニ世界モデル」がある https://www.numenta.com/blog/2019/01/16/the-thousand-brains-theory-of-intelligence/ 57
2. 時空間を抽象化した潜在表現 現在の世界モデルでは1ステップごとに1つの行動を取る形になっている. しかし,人間は現実世界とは異なる時間レベルで予測や行動をとっている. 時間的抽象化(Temporal abstraction) 人間は,時間の幅の異なる様々な手順を統合して処理できる. 料理をする場合:料理=>野菜を切る=>手首の動き したがって人間は様々な時間幅の潜在表現を持っている. 関連する主張:ベルクソンのマルチタイムスケール そこから着想を得て「システム0/1/2/3」[Taniguchi+ 25]という理論を提唱 58
システム1とシステム2 「ファスト&スロー(by ダニエル・カーネマン)」より https://drive.google.com/file/d/1zbe_N8TmAEvPiKX mn6yZlRkFehsAUS8Z/view 古典的な人工知能は,探索やシンボルに基づく推論が中心的(システム2) 深層学習の登場や世界モデルの発展によって,(人間でいう)直感的な振る舞いを学習できるように なった(システム1) 世界モデルと古典的な人工知能の融合が重要になる (システム1側からシステム2を再構築する) 59
3.「操作」を抽象化した潜在表現 世界モデルでは「椅子」や「机」といった静的なエンティティ表現を獲得することはできる. しかし「歩く」「持つ」といった行動(操作)に対応する潜在表現が獲得できない. 正確には,認識はできても外界に対して「行動(操作)」という形でデコードすることができない. 大規模言語モデルでも「操作」に対応する処理を学習することが難しい. 例:足し算や掛け算の問題を学習するLLM +や ×というトークンを区別しても,演算規則を厳密に分離できない 与えられた数値に対して+をするとはこういうこと,というのを獲得できない したがって桁上げ・順序といった操作的部分が破綻しやすい. 最近は外部APIを呼び出して解決している(操作表現の獲得を放棄) 行動(操作)は「状態遷移の関数」であり,静的エンティティとは別種の潜在空間 これをデータからどのように分離して表現として学習するのか?(primitiveの獲得) 行動の場合は「2.時空間抽象化」とも関連している 60
現在の取り組み 学術変革A:予測と行動の統一理論の開拓と検証 脳の実験と連携して,生成モデル(世界モデル)に基づく予測や行動の原理を解き明かし,自律的AI の実現に繋げる(領域代表者:磯村拓哉) A02班研究代表(鈴木):自由エネルギー原理に基づく深層生成モデルに関する研究 マルチモーダル深層生成モデル[Suzuki+ 22]に基づき,行動表現を自律的に獲得する世界モデル 61
まとめ 動画生成AIと世界モデルとの関係について 本日のメッセージ(再掲): 1. 動画生成AI=世界モデルではない. 2. 実世界で動作するAIを実現するには外界の潜在表現を獲得した世界モデルが重要 62