159 Views
October 17, 25
スライド概要
■ 9/26(金)開催 LLMATCH [Season2] 最終成果発表会
2025年4月にスタートした第二期では、約6ヶ月にわたり39名の学生がLLMの研究開発に挑戦し、最先端の技術に取り組んできました。9/26(金)にオンラインにて、 "LLMATCH [Season2]" の最終成果発表会を行いました。
▼発表者(7名)
・石田憲太郎 「LLMを使ったカルテの構造化〜実臨床への応用〜」
・渡辺悠介 「医療診療ガイドラインエージェント」
・神楽坂やちま 「AGIに向けたLLMエージェントのための大規模Kaggleコンペを準備してみた」
・酒井ビルゲハン、ハーカン 「LLMの知識探索性能の言語間の一貫性を高める」
・牛尾久美 「日本語行政文書におけるGraphRAGの応用と評価」
・Mikey0130 「Laughing Across Cultures: Culturally Sensitive Robotic Stand-up Comedian with Multimodal Expressiveness」
・屋藤翔麻 「知識グラフで強化する生成エージェントの構造化記憶」
▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm
----
■ LLMATCHとは
「LLMATCH」という名称は、"Large Language Model Advanced Training & Challenging Hub" に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。
▼LLMATCHにおけるこれまでの成果
・マインクラフトのクリエイティブタスクを行うエージェントのOSS公開
・電子カルテの変換を補助するOSS公開
・ロボット系の国際学会(ICSR+2025)での発表1名
・社会科学系の国際学会(ISWC2025)で発表1名
・医療系の国際学会(ASGO2025)で発表、かつ学会誌にて論文アクセプト
・日本最大のがん治療学会にてシンポジストに選出
・5名の研究員を松尾研インターンとして採用
▼LLMATCHへの参加方法: 下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----
東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした10,000名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25
渡辺 悠介 医療診療ガイドライン AIエージェント ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 1
研究の動機 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO
研究の動機 ① 診療における診療ガイドラインの推奨表の検索が大変 ● 診療の中で治療方針を決めるために約100ガイド ラインを扱う。 ● ガイドラインはA4のPDF 300ページで構成。 ● その中に推奨表が100個程度記載 ● 推奨表は診療のエッセンスが記載されており推奨 表に基づいて治療方針を決定。 ● 合計約3万ページ中の約1万個の推奨表から関連度 が高い推奨表を見つけるのが大変 推奨表 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 3
研究の動機 ② Embedding modelを用いたRAGで診療ガイドラインAIを実装 ● しばしば関係無い文書をRetrieval してHallucinationが増加 ● 実業務で使うと、LLM の生成結果よりも取得した文書の方が重要。 ● 医学分野でのEmbedding modelのRetrievalの精度を検証したい。 ● 医学分野でRetrieval (文書取得)のより良い方法を探りたい。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 4
Background 医学ガイドラインと推奨表 ガイドラインの推奨表とは ● ガイドラインの中に治療方針決定のた めのエッセンス ● タイトルと短い本文で構成 ● タイトル、本文の特徴 ○ 略語が多い ○ 多義語が多い ○ 複合条件が多い ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 5
Background and objective ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO
Background ● 医学においては情報更新が頻繁に発生するため、最新知識を追加できるRAGは重要な技術 ● RAGにおいて、Retrieval (文書取得)の精度が低いことはハルシネーションの原因となる。 (2) ● 既存研究は、医学においてRAGを用いて生成した文章の精度向上を示してきたが (1)、 Retrieval (文書取得)そのものの精度は評価データセットがなく十分に検証されていない。 ● 医学分野でのLLMの評価データセットを作成することは困難なことが多い。 (1)Ke YH., Jin L., Elangovan K., et al. Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness. NPJ Digit Med 2025;8(1):187. (2)Huang L., Yu W., Ma W., et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv [CsCL] 2023. ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 7
Background ● Embeddingモデルは、RAGの文書のリランキングに一般的に使用されているが長距離依存 、略語・多義語の文脈依存、複合条件の解釈に弱いことが知られている(3)。反対にLLM はこれらの解釈に長けている。 ● 医学以外では推論能力の高いLLMによるリランキングがRetrievalの精度が高いことが報告さ れている(4)。 ● 医学分野において、文書取得精度を測る評価データセットはなく、EmbeddingモデルとLLM の文書リランキングの精度は十分に検証されていない。 (3) Weller O., Boratko M., Naim I., Lee J. On the theoretical limitations of embedding-based retrieval. arXiv [CsIR] 2025. (4) Large Language Models for Information Retrieval: A Survey. Available at: https://arxiv.org/html/2308.07107v5?utm_source. Accessed September 24, 2025. ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 8
Objective 1. 医学分野におけるRetrieval (文書取得)の評価データセットを作成する 1. EmbeddingモデルとLLMによるリランキングの精度比較を行う ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 9
Method ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO
Method 評価データセットの作成 評価データセット ● 医学的questionと、関連する推奨表番号の評価用の正解データセットを専門医が作成 ● 日本循環器学会 心不全ガイドラインの推奨表 (n= 88)をタイトルと本文をそれぞれテキ スト情報として取得。 ● 医学的question (n=50)と、その答えが書いてある表の対応するデータを作成する。 (データ例) Question : 収縮が低下した心不全に対して投与すべき薬を教えて answer_table_number (正解ラベル) : 22 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 11
Method 評価データセットの作成と評価方法 ● LLMとEmbedding モデルでそれぞれ推奨表をリランキングしてtop Kに正解のtable number が含まれる質問の割合を比較する。 (K = 1, 3, 5) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 12
Method LLMによるリランキング 88個の推奨表 1, 2, 3, ,,,,88 Step 1 - question と88個の推奨表の中からタイトルを参照して関連する5つの推奨表に 絞り込む # Instruction: あなたは優秀な医師です。{question}に対する解答が含まれる表の番号を5個選出してください 番号だけで解答してください。 {全ての推奨表番号と全ての推奨表のタイトル} Questionに関連する5つの推奨表 3, 44, 75, 80, 88 Step 2 - 5つの推奨表の本文とタイトルをLLMに渡してリランキングする。 # Instruction: あなたは優秀な医師です。以下に臨床的な質問と関連する可能性がある表があります。それぞれの表と質問の関連度が高い順に番号 を並べてください。 # Question: {question} # Predicted Tables: {5つの関連する推奨表の番号、タイトルと本文} Questionとの関連度順に 並び替えられた5つの推奨表 44, 3, 80, 75, 88 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 13
Method - Embedding modelによるリランキング ● 各文書をコサイン類似度に基づきリランキング ○ 推奨表のタイトル – 医学的question ○ 推奨表の本文 – 医学的question Embeddingモデル ● text-embedding-3-small (1536次元) ● text-embedding-3-large (3072次元) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 14
Result ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO
Result 推奨表のtoken数 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 16
Result LLM と embedding modelのリランキング精度 Model LLM GPT-5 類似度タイプ Top 1 Top 3 Top 5 – 94.0% 94.0% 96.0% Text-Question 68.0% 80.0% 86.0% Title-Question 66.0% 76.0% 80.0% Text-Question 50.0% 64.0% 78.0% Title-Question 62.0% 72.0% 76.0% text-embedding-large Embedding text-embedding-small ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 17
Result LLMとEmbedding のリランキング精度比較 LLMによるリランキングの精度がEmbeddingのリランキング精度よりも高かった。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 18
Discussion, Conclusion ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO
Discussion ● 医学分野におけるRetrieval (文書取得)の評価データセットを構築した。 ● 医学分野におけるRetrieval (文書取得)において、文書のリランキング精度はEmbeddingより もLLMが高精度であった。 ● 推奨表のタイトルが、本文の要約になっていることが ● 質問、文書に類似語、多義語が多く含まれる医学においては、Embedding が弱く、LLMの 推論能力が機能したと考えられた。 (3) ● 医療においてはLLM によるリランキングが文書検索の一つの方法になる可能性を示唆して いる。 (3) Weller O., Boratko M., Naim I., Lee J. On the theoretical limitations of embedding-based retrieval. arXiv [CsIR] 2025. ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 20
Limitation ● 今回の精度評価では、正解の推奨表は1つのquestionあたり1つにしたが正解ラベルを作成し たが、実際には一つのQuestionに対して複数の文書に解答が記載されている場合もある。 ● Questionと文書の組み合わせは一人の専門医により確認をしたが複数人での検証はしていな い。 ● 日本語以外でのデータセット作成や検証はしていない。 ● Chunkingの調整など一般的なEmbeddingの前処理の検証をしていない。(文書は1文書あたり 400 tokenと非常に少なかったため) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 21
Conclusion ● 医学分野におけるRetrieval (文書取得)の評価データセットを構築した。 ● 医学分野におけるRetrieval (文書取得)において、文書のリランキング精度はEmbeddingより もLLMが高精度であった。 Retrievalでいい方法などあれば教えてください。(Index RAGなど) ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 22
謝辞 小橋さん、Niinoさん、Sunataさん、TAの先生方 いつもご指導、ご支援いただきありがとうございます。 今後ともよろしくお願い致します。 ©︎MATSUO LAB, THE UNIVERSITY OF TOKYO 23
©︎MATSUO LAB, THE UNIVERSITY OF TOKYO