屋藤翔麻_LLMATCH第二期最終発表会

>100 Views

October 17, 25

スライド概要

■ 9/26(金)開催 LLMATCH [Season2] 最終成果発表会
2025年4月にスタートした第二期では、約6ヶ月にわたり39名の学生がLLMの研究開発に挑戦し、最先端の技術に取り組んできました。9/26(金)にオンラインにて、 "LLMATCH [Season2]" の最終成果発表会を行いました。

▼発表者(7名)
・石田憲太郎 「LLMを使ったカルテの構造化〜実臨床への応用〜」
・渡辺悠介 「医療診療ガイドラインエージェント」
・神楽坂やちま 「AGIに向けたLLMエージェントのための大規模Kaggleコンペを準備してみた」
・酒井ビルゲハン、ハーカン 「LLMの知識探索性能の言語間の一貫性を高める」
・牛尾久美 「日本語行政文書におけるGraphRAGの応用と評価」
・Mikey0130 「Laughing Across Cultures: Culturally Sensitive Robotic Stand-up Comedian with Multimodal Expressiveness」
・屋藤翔麻 「知識グラフで強化する生成エージェントの構造化記憶」

▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm

----
■ LLMATCHとは
「LLMATCH」という名称は、"Large Language Model Advanced Training & Challenging Hub" に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。

▼LLMATCHにおけるこれまでの成果
・マインクラフトのクリエイティブタスクを行うエージェントのOSS公開
・電子カルテの変換を補助するOSS公開
・ロボット系の国際学会(ICSR+2025)での発表1名
・社会科学系の国際学会(ISWC2025)で発表1名
・医療系の国際学会(ASGO2025)で発表、かつ学会誌にて論文アクセプト
・日本最大のがん治療学会にてシンポジストに選出
・5名の研究員を松尾研インターンとして採用

▼LLMATCHへの参加方法: 下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----

profile-image

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした10,000名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

屋藤翔麻 知識グラフで強化する 生成エージェントの構造化記憶 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 1

2.

1. Introduction: AIエージェントについて ● 最近話題のAIエージェント a. b. Github Coilot, Codex, Gemini CLIなど のコーディングエージェント Deep Research, ChatGPT エージェン トモードなどのタスク実行型 ● 今回扱うAIエージェント a. b. 「ペルソナ」を再現するエージェント コーディングや情報収集などタスク特 化でなく、人間らしさを再現するのが 目的 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 2

3.

2. Introduction: Generative Agents(Park et al., 2023)の課題 ● エージェントは行動や会話の履歴 をテキストで記録し続けます。( 図1のMemory Streamが記録) a. 記憶では「関連性・重要性・新しさ」 を基準に、必要な情報だけを抜き出す 仕組み(リトリーバル)が使われてい る。 ● その結果、メモリが膨大になる、 知識の抽出と共有が難しくなると いう問題が発生。 ● 今回、Generative Agentsに知識グ ラフを導入することで問題の解決 を図った。 図1: Generative Agentsのアーキテクチャ(図は Parkら (2023) より引用) 図2: Generative Agentsのサンドボックス環境(図は Parkら (2023) より引用) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 3

4.

3. Previous research: LLMを用いた社会シミュレーションの先行研究 1. LLM を用いて「システムに投稿するユー ザ(ペルソナ)」を自動生成し、社会動 態を観察する研究 ● Social Simulacra: Creating Populated Prototypes for Social Computing Systems - Joon Sung Parkら(UIST ’22) 1. LLM を「擬似的な経済主体(simulated economic agents)」として使う研究 ● Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? — John J. Horton (arXiv, 2023) 図3:サブレディットのスタイルを模したSimRedditのコンテンツページ。 (図はParkら(2022)より引用) 図4:GPT-3モデルに異なる社会的志向を与えた場合の選択結果 (図は Horton (2023) より引用) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 4

5.

4. Method: Generative Agents(Park et al., 2023) ● 人物(ペルソナ)が仮想街(例: The Ville)で生活・行動・会話で ペルソナのシミュレーション(テキ ストベース, LLMで処理)を行う。 ● ペルソナは 連想記憶(associative memory) に事実・出来事・関係 を蓄積し、 内部状態を持ちながら 計画 → 行 動 → 反省 を繰り返す(図5 ステッ プごとに時間が進んでいく) 図1(再掲): Generative Agentsのアーキテクチャ(図は Parkら (2023) より引用) 図5: Generative AgentsのJohn Linの朝の生活。(図は Parkら (2023) より引用) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 5

6.

5. Method: AriGraph(Anokhin et al., 2025)とは AriGraphは、大規模言語モデルエー ジェントのための知識グラフ型の世 界モデル。 1. Semantic memory(セマンティ ック記憶) ○ 観測テキストから三つ組を抽 出して、知識グラフとして保 持(図7が具体例)。 2. Episodic memory(エピソード記 憶) ○ 観測そのものをノードとして 保存。 図 6: AriGraph メモリを搭載した Ariadne エージェントのアーキテクチ ャ。(図はAnokhinら(2025)から引用) 例:有名人の文章からの三つ組抽出 観測文:"Albert Einstein, born in Germany, is known for developing the theory of relativity." 抽出される三つ組(subject, relation, object): ● ● 「Albert Einstein, country of birth, Germany」 「Albert Einstein, developed, Theory of Relativity」 図 7: 有名人の文章からの三つ組抽出の例 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 6

7.

6. Method: Generative AgentsにAriGraphを統合する方法 1. Generative Agentsの問題点 記憶は非構造化ログのため 、「非構造ログ偏重で想起 が不安定」「知識共有が弱 い」などの問題点があった( 図8がログの例) (次ページに続く) • 図8: Generative Agentsの実行中のログ ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 7

8.

7. Method: Generative AgentsにAriGraphを統合する方法 ● 提案: AriGraphで関係トリプレットを抽出・正規化 し、GA形式にエクスポート/注入。(図10参照) ● 小さな行動ナッジ(位置合わせ、ソフトトーク、滞 在延長、到着待ちなど、自然な交流を後押しする軽 い誘導)で相互作用を促す。 図9: Generative Agentsのメモリーストリームの概要(図は Parkら (2023) より引用) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 図10: Generative Agents→AriGraph→Generative Agents のパイプライン 8

9.

8. Method: 統合で苦労した点 実装上の工夫 ● コスト削減: GPT-3.5 turbo → GPT-5 nano へ切替。今回は双方ともGPT-5 nano。 (入力 $0.50 →$0.05 / 出力 $1.50→$0.40 per 1M tokens) ● 環境分離: 同環境で動作できなかったため 、GA と AriGraph を別環境で動作させ、通 信で接続 ● 安定化: KG導入だけでは指標が不安定 → 環境ナッジを適用 図11: GPT-4o APIを使用した際のトークン量と使用料金 図12: GPT-5 nanoを使用した際のトークン量と使用料金 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 9

10.

9. Evaluation: Generative Agentsの3つの評価指標 ● 評価指標: ○ A: 情報伝播(event前後のチャット/記述に キーワード出現があるエージェント数 i. 合格: しきい値以上(例: 2人) ○ B: 関係形成(first/last窓でのチャット同時出 現ペア数) i. 密度=実エッジ数 / 可能エッジ数(可能 エッジ数=N(N−1)/2)、増加=改善 ○ C: 協調(イベント時間帯にカフェ関連の記 述/チャットがある参加者数) i. 合格: しきい値以上(例: 1人または2人) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 図12: Generative Agentsのログの例 図13: B指標の評価ウィンドウ 図14: Generative Agentsが会話をしているサンドボックス場面 10

11.

10. Experiment: 実際に動かした様子 実在ログからの例(成立の根拠) ● movement ログ(成立直前〜成立) ○ (12:10:00): 3人のエージェントがカフェに集ま る旨の状態記述 ○ (12:15:00): 同上(カフェ での meeting/ch chatting 状態継続) ○ (12:49:30): 実会話の詳細。 Klaus Mueller.description = "meeting at the cafe and chatting @ the Ville:Hobbs 図15: Generative Agentsが集まっているサンドボックス場面 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 11

12.

11. Experiment: GA+AriGraphとオリジナルのGAの指標スコア比較 A(情報伝播),C(協調)指標 表1: シード統計まとめ (mock, 240 steps, seed=10) ● どちらも同じ B(関係形成)_lastの比較(mock, seed=10) ● GA+KGはナッジなしでlast windowが0になる。 ● ナッジ後、remote+prob 条 件でも GAのみ(0.67)と GA+AriGraph( prompt/auto KG+ remote+prob)が同一値 → KG導入でスコアは変化 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 12

13.

12. Result & Future work: まとめと今後の目標 結果 ● 延長ありでGA+AriGraphは同等スコア再現 a. 行動特性を損なわない“互換性保証”を確認 ● KGは安定化に有効だが、B(関係形成)指標の改善には単独では寄与せず 課題 ● 延長なし条件で不安定(短尺パリティ未解決) ● 長尺会話でのKG効果は未検証 今後 ● 短尺安定化(ナッジ+統計検証) ● 長尺条件でのKG比較(B/Cの持続・増分評価) 意義 ● 社会シミュレーション精度向上 ● 自然な交流の実現 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 13

14.

©︎MATSUO LAB, THE UNIVERSITY OF TOKYO