>100 Views
July 04, 26
スライド概要
横浜国立大学公認プログラミングサークル Lumos LT会 における講演資料.
2026年7月4日(土) @横浜国立大学中央図書館メディアホール で開催.
World Model for Science 〜 予測を超えて その先の未来へ 〜 坪井 一馬 2026年7月4日(土) Lumos LT会 @ 横浜国立大学中央図書館 メディアホール
目次 • 自己紹介 • 「モデル」とは何か • 世界モデルとは何か • 世界モデルの具体例と可能性,課題 • 予測を超えて その先の未来へ • まとめ
自己紹介 3 坪井 一馬 (つぼい かずま) • INTP 論理学者 • 21歳 神奈川県出身 実家暮らし • 理工学部 化学・生命系学科 化学EP 4年 • 分子生成モデルを研究中です. 学科の友人との飲み会 ハイボールで笑顔 大学1年 @伊豆大島 別サークルの夏合宿 • 大学院はこのまま内部進学の予定です • 東京大学松尾・岩澤研究室でAI開発インターン • Lumosは2年生に加入し,3年生から本格的に活動. • HP開発等についても中心ではないですが関わっています. • プロジェクトを盛り上げたいという思いで運営に参画. • 以前所属のサークルでケーブルテレビ局の番組制作のリー ダーをしていました. 名古屋・矢場味仙 ビールと相性がいい! 宇都宮餃子の名店 本場は味が違う気が • 趣味は様々: 旅行/コーヒー/酒/ゲーム/ラーメン/激辛/ご当 地グルメ/名古屋メシ/喫茶店の雰囲気/離島でゆっくり流れ る時間を過ごす
詳細は「坪井 一馬」でAI検索 検索するごとに回答は多少変動 東京科学大学の「坪井 一馬」は別人 4 LinkedInもやっています 多くの方からご連絡をいただきます リンクは こちら
私の研究: 分子生成モデルの開発 5 有機化合物はめっちゃ多い! データベースはデカい! だから… 思いつきに頼らないで もっと「効率的」に もっと「良い」分子を 設計できたらいいなぁ これを作る そうだ AIを使おう!
メインは研究で,学会発表が決定しました 6 言語処理学会若手シンポジウム (YANS) 2026 日程 場所 2026年8月16日(日) - 8月18日(火) • 8月16日はハッカソンに参加の予定 仙台国際センター展示棟 • 仙台市青葉区青葉山,東北大の近くです! • JR仙台駅から地下鉄あるいは徒歩. 関連リンク • 公式ホームページのトップ 仙台国際センター公式HP • タイトル「有機化合物の構造情報および知識情報の埋め込み相互変換に基づくマルチモーダル 分子生成モデルの開発」で発表予定です.議論できるのが非常に楽しみです. • 旅費補助の選考に合格しましたので,学会参加費,宿泊費や交通費のほぼ全額を学会から出し てもらえることになりました.
7 「モデル」とは何か そもそも「モデル」とは何か? 科学,人工知能において「モデル」はどんな意味 を持つのか?
モデルって? 8 目的に応じて「対象」の「本質」を取り出したもの プラモデル ファッションモデル 大規模言語モデル LLM 対象: ガンダムなど 本質: 見た目 対象: 衣服 本質: 着用時の外見 対象: 言語 本質: その使われ方
科学とモデル 9 「現象をモデル化する」 「モデルを構築する」 ある「目的」に応じて 何か「対象」の「本質」を取り出すこと 例: 古典力学の運動方程式 加速度 # % 質量 " 水平面 考えられるべきこと 質量 " の物体に力 # を加えると, その力の方向に加速度 $ が生じて 物体が動く. ある目的に関係のあること • 目的: 物体に力を加えるとどうなる? • 対象: 物体に対する現象 • 本質: 方程式 "# = % という関係 考えないこと "# = % ある目的に関係のない(と仮定できる)こと • 物体の色は何か,形状はどうか? • 物体は何に使われるものなのか? • 考慮する方向に影響しない力: 重力など
人工知能とモデル 10 人工知能とは… 「知能」がある かのように振る舞う システム あくまで「知能」を再現するまでであり, 真に「知能」と等しいか?は別問題である. 対象を理解して 判断する能力 人工知能というシステムとしては「対象」の「本質」を取り出して判断できるものが 優れている → これこそが「モデル」である 例: ChatGPT いわゆる「生成AI」 大規模言語モデル 疑問に対して,その回答を 理解しているかのように振 る舞う 横浜国立大学は どこにありますか? 質問 神奈川県横浜市 保土ケ谷区常盤台 79-1にありますよ
人工知能とモデル 11 人工知能とは… 「知能」がある かのように振る舞う システム あくまで「知能」を再現するまでであり, 真に「知能」と等しいか?は別問題である. 対象を理解して 判断する能力 人工知能というシステムとしては「対象」の「本質」を取り出して判断できるものが 優れている → これこそが「モデル」である 例: 信用調査 • この人は返済する? • いくらまで貸す? • 不正利用しない? 対象を理解して 判断すること モ デ ル • • • • • • 年齢 性別 年収 出身大学の偏差値 自家用車の有無 1ヶ月間の外食額 信用調査のための「本質」を 理解しているかのように振る舞い予測する
人工知能と機械学習の整理 12 人工知能とは… 「知能」がある かのように振る舞う システム • 具体的なシステムとしては「対象」の「本質」を取り出して判断する「モデル」を 考えるのが適切である. • 「人工知能」と「モデル」をまとめて「AIモデル」などと呼ぶこともある. 機械学習とは… 「人工知能」を構築(学習)して運用する技術 例: 信用調査 • この人は返済する? • いくらまで貸す? • 不正利用しない? 対象を理解して 判断すること モ デ ル • • • • • • 年齢 性別 年収 出身大学の偏差値 自家用車の有無 1ヶ月間の外食額 機械学習は,これを構築・運用する技術 まとめて「機械学習モデル」と呼ぶことも
様々な機械学習の手法の紹介だけ 教師あり学習 13 強化学習 入出力の組を与えて,入力から正しい出力を 出せるように学習する. エージェントが報酬を最大化するために,その状態で どう行動すればよいかを学習する. 教師なし学習 深層学習 正解を与えずに,入力されるデータに隠れた 傾向を分析する.クラスタリングなど. 例: 信用調査 • この人は返済する? • いくらまで貸す? • 不正利用しない? 教師あり学習に基づいて 構築されたモデルで予測 人間の脳における情報処理をニューラルネットワーク としてモデル化した機械学習手法の総称. モ デ ル • • • • • • 深層学習が活用 されることも 年齢 性別 年収 出身大学の偏差値 自家用車の有無 1ヶ月間の外食額 教師なし学習で クラスタリング
14 世界モデルとは何か 世界モデルの定義と学習方法を説明する.
再掲: モデルって? 15 目的に応じて「対象」の「本質」を取り出したもの プラモデル ファッションモデル 大規模言語モデル LLM 対象: ガンダムなど 本質: 見た目 対象: 衣服 本質: 着用時の外見 対象: 言語 本質: その使われ方
世界モデルの定義 世界モデル (World Model) とは…[1] 16
世界モデルの定義 17 世界モデル (World Model) とは…[1] 我々が観測する「世界」の「構造」をモデル化したもの 何か行動をすると,自分の身の回りの環境, つまり自分が認知可能な「世界」がどう変わるのか 鉛筆を手に持っている人がいます 手を放す
世界モデルの定義 18 世界モデル (World Model) とは…[1] 我々が観測する「世界」の「構造」をモデル化したもの 何か行動をすると,自分の身の回りの環境, つまり自分が認知可能な「世界」がどう変わるのか 鉛筆を手に持っている人がいます 手を放す
世界モデルの定義 19 世界モデル (World Model) とは…[1] 我々が観測する「世界」の「構造」をモデル化したもの 何か行動をすると,自分の身の回りの環境, つまり自分が認知可能な「世界」がどう変わるのか 鉛筆を手に持っている人がいます 手を放す Q. 手を放すと鉛筆が落ちるのはなぜ? A. 地球には重力があるから.
世界モデルの定義 20 世界モデル (World Model) とは…[1] 我々が観測する「世界」の「構造」をモデル化したもの 何か行動をすると,自分の身の回りの環境, つまり自分が認知可能な「世界」がどう変わるのか 鉛筆を手に持っている人がいます 手を放す Q. 手を放すと鉛筆が落ちるのはなぜ? A. 地球には重力があるから. Q. 物理を知らない小学生でも, 手を放すと鉛筆が落ちるとわかるのはなぜ? A. 自分の過去の経験から,手を放すという 行動により,鉛筆が手から落ちるという 変化が起きることをわかっているから
世界モデルは獲得されている 鉛筆を手に持っている人がいます 手を放す 21 Q. 手を放すと鉛筆が落ちるのはなぜ? A. 地球には重力があるから. Q. 物理を知らない小学生でも, 手を放すと鉛筆が落ちるとわかるのはなぜ? A. 自分の過去の経験から,手を放すという 行動により,鉛筆が手から落ちるという 変化が起きることをわかっているから 我々は物理を勉強する前から「世界モデル」を獲得している 明確に入出力や正解のあるタスクが与えられなくても, 自分の周囲(世界)との相互作用によって,自分の行動でどういう変化が起こるか をわかっている.
世界モデルを学習する 22 通常の世界モデルはこれができるように学習すれば良い 明確に入出力や正解のあるタスクが与えられなくても, 自分の周囲(世界)との相互作用によって,自分の行動でどういう変化が起こるか をわかっている. 1. ある時刻 & における状態 '! と行動 (! から,関数 ) で次の時刻 & + 1 の状態 ',!"# を予測 2. 予測した状態 ',!"# と実際の状態 '!"# との誤差を小さくするように,関数 ) のパラメータ更新 #"!"# = %(#! , (! ) • かなり簡略化した説明です. 時刻 & + 1 の 予測された状態 • 予測を行う関数 " としては,深層 ニューラルネットワーク(DNN)が用 いられることが多い. 時刻 & の状態と行動を 引数とする何らかの関数 • 状態と行動は,潜在空間内での埋め 込み(ベクトル)として扱われること が多い.
23 世界モデルの具体例と 可能性,課題 実際の世界モデルとして,どのようなものがある かを紹介し,その可能性と課題を議論する.
前提として 24 • まずはよくある世界モデルについて紹介し,その後は他分野への応用を説明します. • 発表者の坪井がリサーチした範囲に限られます. • 坪井がもっと知見を深めたいので,技術トークは大歓迎です • 他にも良い事例などがあれば,坪井のSNS,Lumos内のコミュニティ等において教えていただける と大変嬉しいです! • 世界モデルという概念自体が「体系化されつつある」ものです. • ただし,軸として「何らかの行動でどういう変化が起こるかをモデル化する」という方向性が維持 されているものを選択しています. • 最近では「量子世界モデル」とか「バイオ世界モデル」みたいなのが提唱され始めています.新し い学術分野であるということを感じていただければと思います. • 物理やバイオなど幅広い領域の応用をご紹介します. • 坪井の専攻領域はケモインフォマティクス(化学情報学)ですが,ここでご紹介するのは化学への応 用にとどまりません. • 論文の図等を引用して簡潔な説明に留めております.詳細は論文を読んでください.
モデルの内部,潜在空間で夢を見る 25 • Dreamer[2][3] • 現実に比べて小規模なモデルの内部(潜在空間,状態空間)で,タスクを解くために,どのように行動 すればよいかをうまく「想像」できるようモデルを学習する. • 最も新しいモデル “Dreamerv3” を搭載したエージェントは,行動を組み合わせることで,マイクラ における最難関タスクであるダイヤモンドの採掘に成功する. • for Scienceとしては,科学者の「想像」をモデル化するうえで参考になる可能性がある. • DayDreamer[4] • Dreamerv2を現実のロボットに適用する.現実での動作で収集したデータから,モデル内で世界モ デルを効率的に学習する(現実で学習しない).邪魔が入っても立て直すことができる. • for Scienceとしては,自動実験ロボットにおけるアーム制御等に活用可能な可能性がある. Dreamerの仕組み DayDreamerにおける検証内容
自動運転 26 • GAIA-1[5] • 運転動画,シーンを条件づけるテキス ト,運転者の行動が入力されると,そ れに続くシーンを生成する. • 運転は実際に行って習得するものであ る.続くシーンの生成は「想像」した ものを「書き出す」ことに対応する. • 自動車学校に通っている感覚? • 仮想環境のミスは許されるが,現実の 自動運転ではミスが許されない. • for Scienceでは,物理世界で活躍しう る自動実験ロボットが不適切な行動を して事故を起こさないようにすること が重要. • 自動運転システムにおいてどのような 工夫がなされているかが参考になるの かもしれない.
仮想的な世界の生成 27 • Genie[6] • 動画から「操作できる世界」を学習する世界モデル. • 通常の動画生成とは異なり,動画中の「変化」から「行動」を推定し,現在の視覚状態と行動に基づ いて,その次の状態を生成する. • これにより,テキストや画像,スケッチから,ユーザやAIエージェントが操作可能な仮想環境を作ることが できる.ゲームへの応用がわかりやすい. • for Scienceとしては,何らかの動的な対象のシミュレーションにおいて,インタラクティブに操作 可能なシステムがあると,その研究にあるシミュレーションの価値や有用性が向上する.
応用: 物理法則に反さないモデリング PhysWorld: From Real Videos to World Models of Deformable Objects via [7] Physics-Aware Demonstration Synthesis 28 • 物体とそれを取り巻く環境を「物理法則に合うように」モデル化する. • タオルなど柔軟性のある物体は変形するが,そのような変形に対しても物理的に妥当性を保持 したモデリングができるようにしてある.
応用: 分子世界モデル 29 MOLWORLD: Molecule World Models for Actionable Molecular Optimization[8] • 分子自身とそれを取り巻く環境をモデル化し,分子の構造を変更することによる,その分子の 示す性質の変動を予測. • 実際のユースケース(分子設計)における条件の厳しさや実行可能性にも対処. 創薬における分子最適化は、標的特性が向上した分子を発見することを目的とし ていますが、実用的なリード最適化には、高い予測スコア以上のものが必要とな ることがよくあります。有用な候補は、実行可能である必要もあります。つまり、 既知の分子から有効な局所構造変換によって到達可能であり、進化する化学系列 内で妥当な改訂として解釈できる必要があります。既存のde novoおよび単一分 子最適化手法は、特に標的分子と、それらを既知の化合物に接続する中間分子の 両方が未知の場合、このような到達可能性を明示的にモデル化していません。本 研究では、実行可能な分子最適化を、ノードが分子、エッジが有効な局所変換を 符号化する分子転移グラフの逐次的な拡張として定式化します。私たちは、現在 の分子転移グラフを進化する探索状態として扱う、分子ワールドモデル誘導型フ レームワークであるMOLWORLDを提案します。MOLWORLDは、各反復において、 局所アンカーコンテキストを選択し、これらのコンテキストに基づいて候補分子 を生成し、その特性を評価し、学習したワールドモデルを使用して、許容可能な 候補を保持し、それらを分子転移グラフに挿入することによって、進化する分子 ワールドを更新します。拡張された分子世界は、その後の最適化を導きます。特 性最適化とドッキングベースのタスクに関する実験では、MOLWORLDが構造的 な連結性を大幅に強化しながら、高特性分子を発見し、実用的かつ段階的な分子 設計を支援することが示されています。
応用: 細胞シミュレーション 30 VCWorld: A Biological World Model for Virtual Cell Simulation[9] • 細胞をモデル化し,細胞に対する何らかの摂動(系に対する変動)に伴う変化を予測する. • 従来のモデル構築における前処理の「恣意性」や予測のブラックボックス性を排除. • 大規模言語モデル(LLM)を組み合わせながら反復的に推論しつつ世界モデルを構築,予測. 仮想細胞モデリングは、摂動に対する細胞応答を予測することを目的 としています。既存の仮想細胞モデルは、大規模な単一細胞データ セットに大きく依存し、遺伝子発現と摂動の間の明示的なマッピング を学習します。最近のモデルは、複数のソースからの生物学的情報を 組み込もうとしていますが、その一般化は、データ品質、カバレッジ、 およびバッチ効果によって依然として制約されています。さらに重要 なことに、これらのモデルはしばしばブラックボックスとして機能し、 解釈可能性や生物学的原理との整合性のない予測を提供するため、科 学研究における信頼性を損なっています。これらの課題に対処するた めに、構造化された生物学的知識と大規模言語モデルの反復推論機能 を統合して生物学的ワールドモデルをインスタンス化する、細胞レベ ルのホワイトボックスシミュレータであるVCWorldを発表します。 VCWorldは、データ効率の良い方法で動作し、摂動によって誘発さ れるシグナル伝達カスケードを再現し、明示的なメカニズム仮説とと もに、解釈可能な段階的な予測を生成します。薬剤摂動ベンチマーク において、VCWorldは最先端の予測性能を達成し、推論されたメカ ニズム経路は公開されている生物学的証拠と一致しています。
応用: まとめると… 31 • ロボットに仮想空間で練習させることができる • ???「夢の外へ連れてって 頭の中から世界へ 見下ろす町を歩き出せ」 • 我々は想像の中でどこへでもゆくことができる.それをロボットにもやらせる. • 世界モデルにおける仮想空間は高度なシミュレータになる. • 実世界での実機の大規模な訓練を必要としない.実世界を知って,そこから「世界」をモデル化させて データを取得させれば良い. • 自動実験ロボットの訓練やデータ取得において有用.現実世界での失敗は,時として社会的信頼を失墜さ せ,実世界の訓練には時間やコストを要するが,仮想空間では計算資源の許す限り何度でも失敗できる. • 専門家の「頭の中」を再現できるかもしれない • 専門家が何を考えてどういう仮説を立案しているかという「暗黙知」をモデル化することができる. • 自分のAIの中にノーベル賞級の研究者の「頭脳」のようなものが入るイメージ? 天才の解釈 AIの解釈
世界モデルの課題 32 世界モデル (World Model) とは…[1] 我々が観測する「世界」の「構造」をモデル化したもの 何か行動をすると,自分の身の回りの環境, つまり自分が認知可能な「世界」がどう変わるのか そもそも 「現象をモデル化する」 「モデルを構築する」 ある「目的」に応じて 何か「対象」の「本質」を取り出すこと 考えうる課題 • 物理世界に存在しうる不確実性への対処はどうするか? • 行動による影響として観測できなかった部分の影響は無視できるのだろうか? • 状況によって「不要」な情報の区別はどうすればいいのか?
課題への対処? 33 あくまで坪井の考察です • 物理世界に存在する不確実性への対処 • 確定的に予測するのではなく,確率的に予測することが重要.予測結果は信頼区間など統計的な指 標とともに提示するか,そもそも確率分布を生成,予測する. • 物理世界にも不確実性は存在するものの,モデルによる予測にも不確実性が存在する. • 行動による影響として観測できなかった部分の影響 • 観測できていない情報が何かわかっており,それが未来に何かしらの影響を及ぼす可能性があれば, 得られている観測に基づいて推定することが必要. • そもそも観測できなかった影響が何かわからないけど「何かまた別の影響がありそう」(潜在変数) なら,それが何として解釈できるかを理解する必要がある. • 状況によって「不要」な情報の区別 • モデルは「目的」のために「本質」を取り出すよう設計する必要があり,そこに主観的な要素が入 ることは否定できない. • 明確に「不要」なものが区別されているか統計的評価は難しいが,具体的な事例を見て,余計と思 われるものばかりに注目が向いている状況が散見される場合は,データとモデルを見直すべき
34 予測を超えて その先の未来へ 世界モデルとの出会い
1年前の自分には予測不可能 人生初 ポスター発表 35 • 東大松尾研究室の講座を通して知る • 「世界モデル」ってカッコよくないですか? • 実際に受講してみると,深層学習,強化学習,それらの 組み合わせ,ロボティクスで構成されていることを実感 する. • 最終課題で課題研究 • 偶然ですが,京大の人工知能研究会のB3と,慶應のB2と 一緒のチームになりました(学年は当時). • ロボットアームを言語指示で制御する上で,視覚情報を 取り出す部分がどう影響しているのかを実験して調査. ポスターは京大のB3の方に大体作ってもらいました. • 東大の山上会館において,2026/3/9にポスター発表を してきました.非常に緊張しました. この講座を受講していなければ… 今の自分は「世界モデル」を多分知らない!
懇親会で… 36 • 「世界モデル寄附講座2025」発表会終了後の東大内のレストランの懇親会 • 松尾研の特任講師の鈴木雅大先生(世界モデルの専門)とも話した. • 酒が入っているとはいっても,鈴木先生がとても楽しそうに現在地や夢を話しているのを 間近で見る.当時のメモは,今見てもとても大きな学びがあります. • 楽ではないと思いますが,夢を追いかけ続けて,酒を飲んで時々ノウハウを共有できる仕 事は,毎日が面白そうですよね…? プリミティブな概念っていうの は,外界との交流を通して獲得 させないとダメだよねぇ… 言語空間は有限だけど行動空間 は考えようとすると無限だから, LLMのノリだと無理じゃないか なっていう発想! など
得られた教訓 37 1年前の自分には予測できなかった 世界モデルを持っているはずの我々も予測できなかった! そんな「偶然」から生まれる「未来」にワクワクしよう そして… いろんな意味で さぁ皆さん 夢を見ましょう! 夢の外へ連れてって 頭の中から世界へ 見下ろす町を歩き出せ
まとめ • モデルとは「目的」に従って「対象」の「本質」を取り出し たものである. • 世界モデルとは,何かの「行動」によって自分の観測可能な 「環境」つまり「世界」がどう変わるのかをモデル化したも のである. • 世界モデルはロボティクスや自動運転への応用が主流である が,科学的な「世界」をモデル化する応用が多い. • 我々も世界モデルを持っているはずだが…それでも予測でき ない未来はあるので,いろんな意味を込めて,さあ夢を見ま しょう! • 夢の外へ連れてって 頭の中から世界へ 見下ろす町を歩き出せ 38
お知らせ 39 • 本日のスライドはDocswellにおいて一般公開し,画面録画も後日公開予定. • 以前のLT会のスライド,動画等は公開しているので,ぜひご覧ください! 機械学習との出会い そしてこれから リンク: LT会資料,説明動画 LLMって何? リンク: 実行結果ファイル,説明動画 私の現在の研究の大枠と 研究をしているきっかけについて説明 新歓のミニLTでのLLMの概要説明 コードベースで動かすLLMの雰囲気がわかる
参考文献 40 [1] 鈴木雅大. 自由エネルギー原理と深層学習─世界モデルを軸として─. 人工知能, 38(6), 796‒804, 2023. DOI: 10.11517/jjsai.38.6̲796. [2] Hafner, D., Lillicrap, T., Ba, J. & Norouzi, M. Dream to Control: Learning Behaviors by Latent Imagination. International Conference on Learning Representations (ICLR), 2020. arXiv:1912.01603. [3] Hafner, D., Pasukonis, J., Ba, J. & Lillicrap, T. Mastering diverse control tasks through world models. Nature, 640, 647‒653, 2025. [4] Wu, P., Escontrela, A., Hafner, D., Abbeel, P. & Goldberg, K. DayDreamer: World Models for Physical Robot Learning. Proceedings of The 6th Conference on Robot Learning, PMLR 205, 2226‒2240, 2023. [5] Hu, A., Russell, L., Yeo, H., Murez, Z., Fedoseev, G., Kendall, A., Shotton, J. & Corrado, G. GAIA-1: A Generative World Model for Autonomous Driving. arXiv preprint arXiv:2309.17080, 2023. [6] Bruce, J. et al. Genie: Generative Interactive Environments. Proceedings of the 41st International Conference on Machine Learning, PMLR 235, 4603‒4623, 2024. [7] Yang, Y., Zhang, Z., Zhang, X., Zeng, Y., Li, H. & Zuo, W. PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis. arXiv preprint arXiv:2510.21447, 2025. [8] Qiao, Y., Pan, B., Pang, H.-W., Zhang, P. Z., Zhang, L. & Zhao, L. MolWorld: Molecule World Models for Actionable Molecular Optimization. arXiv preprint arXiv:2605.08954, 2026. [9] Wei, Z., Ma, R., Wang, Z., Li, Z., Song, S. & Zheng, S. VCWorld: A Biological World Model for Virtual Cell Simulation. arXiv preprint arXiv:2512.00306, 2025. Accepted at ICLR 2026.