牛尾久美_LLMATCH第二期最終発表会

>100 Views

October 17, 25

スライド概要

■ 9/26(金)開催 LLMATCH [Season2] 最終成果発表会
2025年4月にスタートした第二期では、約6ヶ月にわたり39名の学生がLLMの研究開発に挑戦し、最先端の技術に取り組んできました。9/26(金)にオンラインにて、 "LLMATCH [Season2]" の最終成果発表会を行いました。

▼発表者(7名)
・石田憲太郎 「LLMを使ったカルテの構造化〜実臨床への応用〜」
・渡辺悠介 「医療診療ガイドラインエージェント」
・神楽坂やちま 「AGIに向けたLLMエージェントのための大規模Kaggleコンペを準備してみた」
・酒井ビルゲハン、ハーカン 「LLMの知識探索性能の言語間の一貫性を高める」
・牛尾久美 「日本語行政文書におけるGraphRAGの応用と評価」
・Mikey0130 「Laughing Across Cultures: Culturally Sensitive Robotic Stand-up Comedian with Multimodal Expressiveness」
・屋藤翔麻 「知識グラフで強化する生成エージェントの構造化記憶」

▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm

----
■ LLMATCHとは
「LLMATCH」という名称は、"Large Language Model Advanced Training & Challenging Hub" に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。

▼LLMATCHにおけるこれまでの成果
・マインクラフトのクリエイティブタスクを行うエージェントのOSS公開
・電子カルテの変換を補助するOSS公開
・ロボット系の国際学会(ICSR+2025)での発表1名
・社会科学系の国際学会(ISWC2025)で発表1名
・医療系の国際学会(ASGO2025)で発表、かつ学会誌にて論文アクセプト
・日本最大のがん治療学会にてシンポジストに選出
・5名の研究員を松尾研インターンとして採用

▼LLMATCHへの参加方法: 下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----

profile-image

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした10,000名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

牛尾久美 日本語行政文書における GraphRAGの応用と評価 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 1

2.

研究背景・目的 ■ 背景 • 日本政府の審議会・研究会の議事録には、政策決定がどのように形成されるかを理解するため に欠かせない情報が含まれている。 • 行政の透明性を高めるために公開されているが、フォーマットが統一されておらず、実務家や 一般市民にとって検索や活用が難しい。 • 政策決定の文脈・意図の理解には、従来以上に高度な情報抽出・検索・分析支援が必要。 • 従来のRAG:ベクトルベースの検索に依存 。複雑な関係性や構造文脈を十分捉えられない。 • GraphRAG:エンティティ(発言、参加者等)とその関係をナレッジグラフとして構造化し、 検索と生成の過程で文脈の一貫性を高め、複雑な関係の把握や多段階推論を可能にする。 しかし、英語以外の政策文書や行政会議の記録に適用した応用事例は限定的。 ■ 目的 • 金融庁「サステナブルファイナンス有識者会議」の議事録を対象に、発言メタデータを用いて 知識グラフを構築し、GraphRAGベースの質問応答システムの開発と評価を行う。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 2

3.

ナレッジグラフの構築 ■ 概要 • 金融庁「サステナブルファイナンス有識者会議」の議事録を対象に、GraphRAGベースの QAシステムと統合できるナレッジグラフを構築した。 • 単なる情報検索にとどまらず、会議の談話構造や話者ネットワークの分析にも利用できるよ う設計した。データの意味を保持しつつ、推論や他システムとの相互運用を可能にする拡張 性を備えている。 ■ グラフ構造 ノード Person:会議参加者(発言者・組織・役職など) Utterance:発言 Meeting:会議(日付・年度など) エッジ made_statement:人物 → 発言 participated_in:人物 → 会議 occurred_in:発言 → 会議 ■ オントロジー対応 • FOAF, Schema.org など国際的に標準化された既存語彙に対応可能な建付けにしている(例 :Person → foaf:Person, Meeting → Event, Utterance → Speech / CreativeWork)ため、将 来的にLinked Open Dataとの統合も可能。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 3

4.

QAシステムの構築 ■ 技術構成 • NetworkXを用いてMultiDiGraph構築。ノードに発言者・所属・日付等のメタデータが付与さ れているため、構造化データが得られる。 • LangChain + GPT-4oによるエージェントが自然言語クエリを解析し、必要な分析ツールを 動的に選択して実行する。 • 実装されている各種分析ツールにより、会議での発言に付随するメタデータに関する基本的 な検索・集計、特定のキーワードやテーマに関する発言の検索・集計、ネットワーク分析等 に対応可能。 • 最終的にエージェントはツールの出力を統合し、LLMによる自然言語応答を生成する。グラ フ推論とLLMによる解釈を統合しており、解釈可能・検証可能なデータに基づく応答を実現 した。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 4

5.

実験方法 • 金融庁「サステナブルファイナンス有識者会議」の議事録に関する質問50問(4タイプ)を 用意し、それに対する回答を評価する。 • ①採用手法単体のヒューリスティックな評価実験、②他手法との比較実験を実施した。 ※実際のQ&Aは日本語 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 5

6.

実験結果① – ヒューリスティックな回答評価 ● 質問タイプ別の正答率は、単純検索型が0.75、関係探索型が0.81と高い精度を示しており、 LangChainエージェントによるツール選択、逐次推論が有効に機能している。 ● 一方で、複雑分析型では0.33と精度が低く、網羅的な回答が求められる場合は処理時間も長 くなる傾向が見られた。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 6

7.

実験結果② – 他手法との比較 ■ 評価対象手法 ● 採用手法を含む以下の10種の検索・生成手法について性能比較を行った。 ○ BM25 (with/without Graph) ○ N-gram baselines ○ Vector-based methods (VectorEmbed, Vector+Graph) ○ Hybrid retrieval with reciprocal rank fusion (RRF) ○ Multiple GraphRAG variants (Hybrid, Hardened Hybrid, Seed+Neighbor) ○ Ontology-aware GraphRAG (adopted approach) ■ 評価指標 ● 検索評価:Recall@10, Precision@10, Hit Rate@10 ● 生成評価:Faithfulness, Groundedness, Coherence, LLM-judged Faithfulness, LLM-judged Groundedness, LLM-judged Coherence ● 全体精度:Exact Match Accuracy ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 7

8.

実験結果② – 他手法との比較 • 採用したOntology-aware GraphRAGは、Exact Match Accuracyで全手法を上回り、Faithfulnessや Coherence等の生成品質指標でも一貫して高い性能を示し、総合的に明確な優位性を確認した。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO

9.

まとめと今後の展望 ■ 本研究のまとめ • 金融庁の有識者会議議事録から構築したオントロジー指向のナレッジグラフをデータ基盤と して、日本語行政文書に対応可能なGraphRAGを用いたQAシステムを試作した。 • 質問タイプ別の正答率は、単純検索・関係探索で高い精度を示しており、LangChainエージ ェントによるツール選択、逐次推論が有効に機能している一方で、複雑な分析では精度が低 く、網羅的な回答が求められる場合は処理時間も長くなる傾向が見られた。 • 手法比較の結果、採用したOntology-aware GraphRAGは、Exact Match Accuracyで全手法を 上回り、FaithfulnessやCoherence等の生成品質指標でも一貫して高い性能を示し、総合的 に明確な優位性を確認した。 ■ 今後の方向性 • 検索をより高度にし、専門的なオントロジーを活用することで推論力向上を図る。 • 分析ツールの自動生成・拡張や応答の高速化、テキスト以外のデータへの対応も進め、実際 に使いやすい形のアプリケーションとして実用化に向けた改良を進める。 • 最終的には、国レベルの会議に限らず、地方自治体も含めて政策文書や行政記録の利用効率 化に資するQAシステムとして広く活用されることを目指したい。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 9

10.

©︎MATSUO LAB, THE UNIVERSITY OF TOKYO