LLMATCH [Season1] 最終成果報告_渡辺悠介

550 Views

May 01, 25

スライド概要

◾️ 3/26開催 LLMATCH [Season1] 最終成果発表会
2024年12月にスタートしたLLMATCHでは、約4ヶ月にわたり30名の学生がLLMの研究開発に挑戦し、最先端の研究に取り組みました。3/26にオンラインにて、 “LLMATCH [Season1]” の最終成果発表会を行いました。

▼発表者
・石田憲太郎 「診療録からの構造化抽出〜自由記載データからの効率的な情報検索システムを目指して〜」
・渡辺悠介 「問診AI- 再現性の高いドメイン特化LLMの提案」
・吉田馨「ロボコンに向けたバスケットボールシミュレーションの分析と戦略の生成〜紆余曲折」
・tom11111111 「Gemini-2.0-Flash-Thinkingを用いたLLMエージェントによるマインクラフト建築」

▼発表資料はこちら
https://www.docswell.com/user/matsuo-lab_llm

▼発表動画はこちら
https://youtu.be/7Ik3LTcdks0

----
◾️ LLMATCHとは
「LLMATCH」という名称は、“Large Language Model Advanced Training & Challenging Hub” に由来し、学生の皆さんが持つLLM(大規模言語モデル)に関するアイデアを、研究として発展させることを目的としたプログラムです。
本プログラムでは、東京大学 松尾・岩澤研究室の研究員が、最大1年を目安に、参加者一人ひとりの関心やスキルに応じて、次のキャリアや挑戦につながる支援を行っています。
また、研究メンバーの活動を支える「アシスタント」ポジションも設けており、学生・社会人を問わず、コミュニティの一員として研究の進行をサポートしてくださる方を広く募集しています。

▼LLMATCHへの参加方法:
下記のリンクから「松尾研LLMコミュニティ」 Slackに入り、# llmatch_01_general チャンネルよりご参加ください。
https://linktr.ee/matsuolab_community
----

profile-image

東京大学松尾・研究室が運営する「松尾研LLMコミュニティ」でのイベント資料などを公開します。 ◾️ 松尾研LLMコミュニティとは 松尾研LLMコミュニティは、「大規模言語モデルについて知って学べるオンライン空間」として、東京大学松尾・岩澤研究室が運営するコミュニティです。 現在、学生を中心とした7800名以上が、原則無償で参加しています。 また、本コミュニティでは様々なイベント等を定期的に開催しております。 是非下記のリンクより参加申し込みをお待ちしております。 ◾️ 松尾研LLMコミュニティの各種リンク ・今後のイベント開催情報/参加申込;https://tr.ee/7d_W4DsImD ・松尾研LLMコミュニティ参加フォーム;https://tr.ee/RyDfuRzS55 ・過去イベントアーカイブ;https://tr.ee/wqdbFJJZ25

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2025/03/26 LLMATCH 問診AI 再現性の高いドメイン特化LLMの提案 京都大学大学院 循環器内科学 D1 渡辺 悠介

2.

2025/03/26 LLMATCH 問診AI 再現性の高いドメイン特化LLMの提案 京都大学大学院 循環器内科学 D1 渡辺 悠介

3.

問診とは LLMの問題 ドメイン特化LLMの現状 LLMは対話をできるか 今回作成したマルチエージェントLLM 2

4.

自己紹介 ✔ 心臓専門の内科医 (9年目) ✔ 外来中に命に関わる疾患を見落としそうにな り、問診の重要性を痛感。 3

5.

総合病院の救急受診から治療までのフロー 患者が治療をうけるまでのフロー 妊娠の可能性はありますか? 若年女性 腹痛 水は飲めますか? 内科疾患 総合内科医 問診 内科専門医の 問診 治療 最後の生理はいつ? 婦人科疾患 婦人科専門医 の 問診 治療 ✔ 総合内科医は診療科を振り分けるために広く浅い問診を ✔ 専門医は治療方針決定のために狭く深い問診を ✔ 専門医は総合内科医の問診が苦手なこともあり、診療科の選定の間違えは致命的になりうる 4

6.

患者がクリニック受診をする場合 患者が治療をうけるまでのフロー 検索 腹痛 クリニック 若年女性 腹痛 水は飲めますか? 内科疾患 患者の 自己判断 内科専門医の 問診 治療 最後の生理はいつ? 婦人科疾患 婦人科専門医 の 問診 治療 ✔ クリニック受診時は総合内科医の役割を患者がしている。 ✔ クリニックの医師 ≒ 専門医 は広く浅い問診が苦手 ✔ 患者の診療科の選定の間違えは致命的になりうる 5

7.

医師が最適な問診をすることの困難さ 問診スキル 網羅性 ✔ ✔ 様々な疾患を網羅している ✔ 聞き方の上手さ 専門性 ✔ 若手医師 ベテラン 医師 問診で重要なこと ベテラン医師 ✔ 専門科の患者ばかり診察する ✔ 幅広い疾患を網羅した問診ができない ✔ できなくても誰からもフィードバックを受 けない → 過学習状態かつ報酬関数なし 網羅性、専門性、聞き方を兼ね備えた問診をすることは難しい 6

8.

医療DXマップ 大 患者メリッ ト 患者中心 DX 技術中心 DX 総合診療科の問診 医療機関連携 AIによる治療アドバイス 画像診断 医者中心 DX 専門医の問診 文書作成 小 やりたくない やりたい 医者がやりたいか 7

9.

問診は特殊なことをしているのか? 8

10.

Q デートに誘う時なんて言うのがいいと思う?の返答として適切なものを 選んでください。 a. 「一緒に帰らない?」 b. 「今度、食事でもどうですか?」 c. 「焼き鳥食べたいかも。」 9

11.

User input: デートに誘うセリフを教えてください? a. 「一緒に帰らない?」 b. 「今度、食事でもどうですか?」 c. 「焼き鳥食べたいかも。」 Userについて「聞く」というプロセスがゼロショットでは出てこないのが LLMの人間らしくないし、それはやや弱点 10

12.

Q デートに誘う時なんて言うのがいいと思う? a. 「一緒に帰らない?」 b. 「今度、食事でもどうですか?」 c. 「焼き鳥食べたいかも。」 d. あなたはどんな人ですか? e. 相手はどんな人ですか? アドバイスをする (前頭前野) 定型的な質問による情 報探索をする (頭頂葉) ✔ 人は話し役と、聞き役を無意識に使い分けている。 ✔ アスペルガー症候群や高機能発達障害はこの判断ができない傾向。 11

13.

人間が相談を受ける時の思考過程と 人間の思考過程 LLMの思考過程 1. 聞き役か話や役かを判断 アドバイスし続ける。(以下GPTo1の 回答) 2. 最初は聞き役として定型的な質 問。 3. 情報が揃ってきたら話し役として アドバイス。 デートに誘うときは、相手が興味を持ちそうな内容や行きたい場所を提案するのがおすすめです。以下に例 文をいくつかご紹介しますので、参考にしてみてください。 1.自然に軽く誘いたい場合 1. 「今度、一緒にランチでもどう?」 2. 「よかったら、週末にカフェに行かない?」 2.相手の趣味や好みに合わせて誘う場合 1. 「○○が好きって言ってたよね?ちょうど面白そうなイベントがあるんだけど、一緒に 行ってみない?」 2. 「△△の新作映画が公開されるみたいだから、もしよかったら一緒に観に行かな い?」 3.特別感を出したい場合 1. 「ちょっといい雰囲気のお店を見つけたから、一緒に行きたいなって思ってるんだけ ど、どうかな?」 2. 「前から気になっていたレストランがあるんだけど、一緒に行けたらうれしいな」 4.季節のイベントやお出かけを絡める場合 1. 「お花見(紅葉・イルミネーション)に行きたいんだけど、よかったら一緒に行かな い?」 2. 「今度の休日、天気が良さそうだから散歩がてら○○を見に行きたいんだけど、一 緒にどう?」 5.ストレートに想いを伝えたい場合 1. 「○○さんともっといろいろ話してみたいから、今度二人で食事でも行かない?」 2. 「ずっと話してみたいと思ってたから、もし時間が合えばデートしてくれない?」 ポイント •相手の都合や予定を気遣う言葉(「もしよかったら」「予定が合えば」など)を添えると、相手も断りやすくなる のでプレッシャーを与えにくく、好感を持ってもらいやすいです。 •相手の反応を見ながら、負担にならない提案を心掛けましょう。 •デート自体の誘い方だけでなく、事前に少し雑談などで仲を深めておくと、誘いやすく・誘われやすくなりま す。 ぜひこれらの例文をアレンジして、相手との会話や状況に合わせて使ってみてくださいね。応援していま す! 12

14.

とあるLLMコンペでの評価セット 「咳がずっと出ます。重症ですか?」 これは、「デートに誘うセリフを教えてください。」と同じ粒度。 13

15.

恋愛相談 と 医療の問診は同じ構造 相談 追加質問 アドバイスの判断基準 アドバイス 恋愛相談 デートに誘いた いがなんていえ ばいい? あなたは誰? 相手はどんな人 ? ✔ 成人なら食事に誘う ✔ 子どもなら下校を誘う 「食事でもどうです か」がいいと思うよ。 医療問診 咳がでるのは重 症ですか? どのくらい続いてい ✔ 2週間以上続いていれば重症 る? の可能性あり 味が感じにくくありま ✔ 味覚障害があればコロナウイ せんか? ルス疑い 2週間以上つづいて いるので、重症かも しれないです。 医療問診と恋愛相談の違い ✔ ぬけもれが絶対あってはいけない。 ✔ 頻回の情報更新が必要 14

16.

ドメイン特化LLMの問題 15

17.

ドメイン特化型LLMの人のタスクへの適応上の問題点 ✔ 学習データの問題 – ドメインの学習データが集まらない – 学習データ更新が必要 – 学習データの中身の不透明性 ✔ (LLMに限らないが)質問が不明確である場合に正しく答えられない 16

18.

スケーリング則で進化した汎用LLM 最強の 計算資源・手法・学習データで 神LLMを作って信仰 17

19.

LLMの お金で解決する問題 vs お金で解決しない問題 お金で解決する ✔ 計算資源のスケーリング ✔ パラメータ数 ✔ 推論 ✔ 大量の一般的な学習データの収集 お金で解決しない ✔ ドメイン特化の学習データの収集 ✔ (もしかしたら合成データが解決?) 18

20.

ドメイン特化 LLM開発の現状 最強の 計算資源・手法 学習データで 神LLMを作って信仰 シングルタスクをこなす 「最強の学習データ」がないにもかかわら ず、この考え方でドメイン特化型LLMを作 ろうとして大量のComputing unitとお金が 溶けている? できたとして仕様変更が簡便ではない。 マルチエージェントSLM 大量の計算資源リソースは 使用しないが、頻回の仕様 変更は大変? 19

21.

プロダクトのコンセプト 最強の In context learning 計算資源・手法・学習デー タで の精度が高い マルチエージェントで 神LLMを作って信仰 LLMをこき使う ドメイン人材: 不要 大量の学習データ: 必要 ドメイン人材: 必要 大量の学習データ: 不要 シングルタスクをこなすマルチ エージェントSLM ドメイン人材: 必要 大量の学習データ: 必要 20

22.

学習データの透明性・更新 学習データの透明性 ✔ LLMに特定の薬や治療を勧めさせるような学習をさせてステルス マーケティングをされると困る。 学習データの更新 ✔ コロナの時に急に風邪症状の人に味覚障害の有無を確認したよう に、頻回の情報更新が必要 21

23.

人間が相談を受ける時の思考過程と作成するデータベース 一般的に相談された時に 人間の思考回路 事前準備 データベース 医療問診の思考回路 医療問診に必要な データベース 相談内容を カテゴライズ 質問のカテゴリーリスト 患者の相談を 「症状リスト」へ カテゴライズ 症状リスト 聞き役として 定型的な質問をする カテゴリーリスト -追加質問リスト 「症状-追加質問リスト」から 定型的な質問をする 症状-追加質問リスト 話し役として 判断基準から判断 判断基準文書 「緊急性・診療科の 判断基準」 から判断する 緊急性・診療科の 判断基準 22

24.

マルチエージェントLLM+DBデザイン ✔ LLM = GPT4o (将来的にはQwen32B?) – 速い、ICLが得意 マルチエージェント設計 User input 症状を構造化 抽出 (LLM) DB: Database ICL: In context learning User inputに 問診内容DBに対する回答 の有無の確認(LLM) 最初のuser input と問診 結果を要約 (summarize) User inputに回答の記載がな い問診を出力(非LLM) 要約と緊急性判断DBのICLで緊 急性判断 要約と受診推奨科判断DBのICL で受診推奨科判断 23

25.

入力内容と出力内容 ✔ 患者(User)の入力内容 – 症状 – 症状に対する追加の問診に対する回答 ✔ 出力 – 緊急性の有無を基準に沿ってLLMが出力 – 受診推奨科、鑑別診断をLLMが出力 24

26.

デモ 25

27.

まとめ 既存のスケーリング手法 今回作成したプロダクト 大量に必要なので不足 少量で十分 情報更新コスト ハイコスト 2秒で完了 データの透明性 不透明、大量にありすぎる 透明 100%の保証なし 100%の保証あり ドメイン人材 学習データさえあれば不要 絶対必要 開発コスト 高い (何千万-何億円?) 安い (かかっても100万円くらい?) 学習データ データ量 再現性 少量の学習データでIn-context learning を組み合わせることで 問診をして受診推奨診療科判定をするドメイン特化LLMを作成しました。 26

28.

様々なドメイン特化LLMへの横展開 一般的に相談され た時に人間の思考 回路 事前準備 データベース 恋愛相談 LLM 電化製品営業 LLM 公的文書 LLM 相談内容を カテゴライズ 質問の カテゴリーリスト 恋愛相談の カテゴリリスト 客が欲しい電化製品 の カテゴリリスト 国民質問のカテゴリ リスト 聞き役として 定型的な質問をする カテゴリーリスト -追加質問リスト 状況確認のための 追加質問リスト カテゴリごとの 必要な質問リスト カテゴリごとに必要な 質問リスト 話し役として 判断基準から判断 判断基準文書 アドバイス 判断基準文書 どの製品を進めるか の文書 どうすればいいかの 文書 27

29.

謝辞と今後 小橋さん、チームの皆様(@maharasaさん @KoWakutaさん @holy_KTQ さ ん@tmotoya さん@yochimachikaさん)ご協力ありがとうございました。 2期では、聞き役と話し役の予測を行うことで、人間の医師に近づけるように上手 に問診するようにします。 Mail: [email protected] 28