医療分野における大規模言語モデルの調査

121 Views

January 17, 25

スライド概要

医療分野への生成AI適応は着実に進んでいる。2023年、ChatGPTは米国医師免許試験で合格点をたたき出した。同様に、最近、日本でも日本企業(PFN)が独自モデルを構築して日本医師免許試験でGPT-4を上回る成績を挙げた。しかし、日米どちらも、医師免許試験で良い成績を上げたからと言って、医療現場への生成AI適応に直結する訳ではない。大きなマイルストーンを達成したのは喜ばしいことではあるが。・・そんなことから、久しぶりに医療分野に生成AI適応の情報をアップデートしてみる。

profile-image

定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

医療分野における大規模言語モデルの調査 ‐ その進歩, 応用分野, 課題 - B-frontier 研究所 高橋 浩 1

2.

目的 • 各種医療タスクのサポートにLLM を採用しようとする研究が急 増している。 • しかし細分化され過ぎていて医療分野へのLLM適応の全体像把 握が困難な状況にある。 • そこで、下記のようなニーズがあることが想定される。 ①医療関係者は医療LLM適応に関する包括的解説を望んでいる。 ②LLMを既存システムに統合する際の指針も求めている。 • この背景として、医療分野にはLLM導入を刺激する多くの適応 可能性が豊富に存在していることがある。 • 本稿は、このような認識から、① ②に該当する論文を厳選し、 これら論文からの知見を紹介することで、今後の医療分野に LLM導入の展望をクローズアップすることを目的とする。 2

3.

資料のポイント(+目次) 1. 医療関係者は医療LLMに関わる多様な側面をカバーした 1 包括的解説を望んでいる 医療LLMの包括的解説 開発について 採用について 課題と展開、など 前半 2. 医療関係者は医療LLMを既存システムに統合する際の指 2 針を求めている 医療LLMの機会と移行パス 医療LLMの可能性 医療LLMの既存システムへ融合の移行パス 後半 3

4.

前半 arXiv preprint arXiv:2311.05112, 2023. (オックスフォード大学臨床機械学習学部長) (北京大学兼務) (北京大学兼務) (現在Stony Brook 大学:米) (肩書:テンセント主席研究員) (中国杭州西湖大学教授) (肩書:Senior Medical Statistician) (ロチェスター大教授) 1. Oxford大学(英) 4名 2. Imperial College London大学(英) 1名 3. Waterloo大学(英) 1名 4. Rochester大学(英) 2名 5. Univ. College London(英) 1名 6. Western大学(ロンドンに本部を置くカナダの州 立大学) 1名 7. Univ. Georgia(米) 1名 8. 香港科技大学 (中国:広州) 1名 (北京大学兼務) 9. Alibaba(中国) 1名 10. ハーバード公衆衛生大学院(米) 1名 11. MIT(米) 1名 12. Yale大学(米) 1名 13. Tencent(中国) 2名 14. Amazon(米) 1名 15. Oxford Suzhou Centre for Advanced Research (OSCAR)(中国:蘇州) 1名(Oxford兼務) 4

5.

本論文を紹介する意味と背景 • 論文に記載の要旨 • さまざまな医療タスクのサ ポートにLLM 採用の研究が 急増している。 • その一方、包括的レビュー は依然として不足している。 • そこでLLM の開発と展開で 直面する課題と機会の詳細 な概要を提供する。 • 具体的な5つの質問に対処 • 効果的な医療 LLM 構築のた めの実用的ガイドラインを 目指す。 • オックスフォード大学に 研究所IBME(Institute of Biomedical Engineering) がある(右図)。 • David Clifton氏はここの 臨床機械学習学部 (Clinical Machine Learning)の学部長 • 研究者は世界中から来て いるが、LLM関係は中国 人が多い。 • 更にOSCAR(Oxford Suzhou Centre for Advanced Research)が 2018年に中国蘇州に設 立された。 • David Clifton教授はこ こも兼務している。 Oxford Institute of Biomedical Engineeringの外観 外壁にOXFORD SUZHOU(蘇州) の文字 。 オックスフォード大学初の物理科学および 工学科学研究の海外センター。OSCARは、 国際レベルの研究開発を行う研究所へと急 速に拡大されている。 5

6.

5つの質問 1. 医療 LLM を開発するための実践は何ですか? 2. 医療現場で LLM 導入医療タスクのパフォーマンスを 測定する方法は何ですか? 3. 医療 LLM は実際の診療でどのように採用されていま すか? 4. 医療 LLM の使用から生じる課題は何ですか? 5. 医療 LLM をより効果的に開発および展開するにはど うすればよいですか? 6

7.

医療用LLM導入の実践ガイドライン 5つの質問を位置付けるための地図 質問1:医療 LLM を開発するための実践は何か? ゼロからの 事前トレー ニング 汎用LLMへ のプロンプ トを通して 汎用LLMの 微調整 質問2:LLM 導入医療タスク のパフォーマンス測定 質問5:医療 LLM をより効果的 に開発および展開するには? マルチモー ダルLLM 過小評価さ れている専 門分野 医療エー ジェント 識別タスク 学際的コラ ボレーショ ン 今後の方 向性 (質問5) 質問4:医療 LLM 使用から生じる課題 幻覚 ドメイン データの制 限 評価ベンチ マークと指 標の欠如 新しい知識 への適応 倫理と安全 に関する懸 念 データの微 調整 原則: データ (質問1) 原則: 開発工程 (質問1) 新しいベン チマーク 事前トレー ニング用の データ 医療知識 ベース 行動の調整 規制上の課 題 生成タスク 医療業務 (質問2) 医療LLM パフォーマ ンス比較 質問3:実際の診療ではどのよ うに採用されているか? 課題 (質問4) 臨床応用 (質問3) 医療上の意 思決定 臨床コー ディング 臨床レポー トの生成 医療ロボッ ト 医療言語の 翻訳 医学教育 メンタルヘ ルスサポー ト 医療に関す る問い合わ せと対応

8.

質問1:医療 LLM を開発するための実践は何か? • 汎用LLMの医療への適応から出発する。 • 汎用LLMをモデル構造、パラメータ数、トレーニングデータのスケールで示す。 領域 双方向トレーニング: 特定トークンの左右両 方からコンテキスト統 合(正確な予測が重要 な感情分析など) 汎用LLM モデル構造 モデル パラメータ数(個) 事前トレーニング データスケール エンコードのみ BERT …Google RoBERTa DeBERTa 1億/3.4億 3.55億 15億 33億トークン 161GB 160GB デコードのみ GPT-2 …OpenAI Vicuna Alpaca Mistral LLaMA LLaMA-2 …Meta LLaMA-3 GPT-3 Qwen PaLM FLAN-PaLM …Google Gemini (Bard) GPT-3.5(ChatGPT) GPT-4(ChatGPT) Claude-3 15億 70億/130億 70億/130億 70億 70億/130億/330億/650億 70億/130億/340億/700億 80億/700億 67億/130億/1,750億 18億/70億/140億/720億 80億/620億/5,400億 5,400億 - 40GB LLaMA + 70K dialogues LLaMA+ 52K IFT 1.4兆トークン 2兆トークン 15兆トークン 0.3兆トークン 3兆トークン 0.78兆トークン - BART ChatGLM T5 FLAN-T5 UL2 GLM 1.4億/4億 62億 110億 30億/110億 195億 1,300億 160GB 1兆トークン 1兆トークン 0.78兆トークン 1兆トークン 0.4兆トークン 一方向トレーニング:テキ ストを一方向でのみ処理す るトレーニング(汎用の言 語生成で効果が大きく話題 になった領域) エンコード/デコード両方 入力シーケンス処理と出力 生成を同時実行:中国語、 英語バイリンガル質問応答 などの特定用途向け 非公開 • 現在利用可能な医療LLMを「ゼロから事前トレーニング」「汎用LLM微調整」「プロンプト」で示す。 (その1) (その2) (その3)

9.

医療 LLM-(その1) ゼロからの 事前トレー ニング • 豊富な医療知識を学習するため、EHR, 臨床ノート 医療文献なども含めてトレーニングを行う。 • 単一データセットあるいは複数データセットの組み合わせで実施する。 モデル パラメータ(個) 事前トレーニングデータスケール 1.1億 1.1億 1.25億 2.2億 3.3億 3.6億 15億 27億 62億 89億 BERT: • Googleによって開発 された自然言語処理 モデル(2018年公開) • 最大の特徴は双方向 性を持つことで文の 前後を考慮した文脈 理解ができる。

10.

医療 LLM-(その2) 汎用LLM の微調整 モデル パラメータ(個) 事前トレーニングデータスケール • 医療データを使用して汎 用LLMを微調整(FT:FineTuning)する。 • 主要な3つのFT案を示す。 (Supervised Fine-Tuning) • SFT(教師あり微調整):既 存の医療データセットで微 調整 (Instruction Fine-Tuning) • IFT(命令の微調整):追加 の(人間が作成した)命令を 含む医療データセットで微 調整 (Parameter-Efficient Fine-Tuning) • PEFT(パラメータ効率の良 い微調整):計算量やメモ リ使用量を大幅に削減する ことを目的とする。 10

11.

医療 LLM-(その3) 汎用LLMへ のプロンプ トを通して • プロンプト手法を医療分野分析に向けて効率的に適合させる。 • 主要な3つの適合手法を示す。 (Chain-of-Thought (CoT) Prompting) • CoT(思考連鎖):複雑な問 題に対処する際、中間ス テップ生成などを促進 モデル 汎用モデル 適合手法 (In-Context Learning) • ICL(コンテキスト内学 習):ワンショット/少数 ショット/ゼロショットの プロンプトなど (Retrieval-Augmented Generation) • RAG(検索拡張生成):外部 の知識を生成プロセスに統 合 11

12.

医療 LLM 開発のための実践:中間まとめ • 汎用LLM(OpenAI, Google, Meta系)のパラメター数や事前ト レーニングデータスケールは圧倒的に規模が大きい。 • 一方、BERT(Google製)などを基礎に「ゼロから事前トレー ニング」の取組みも多いが、パラメータ数やデータスケールは 小さい。 • 「汎用LLMの微調整」は、3手法(SFT, IFT, PEFT)だけでなく、 クローズ製品(OpenAI, Google)での発展やオープンソース (Metaと利用者)での工夫が続いている。 • 「プロンプト調整」も、3手法(CoT, ICL, RAG)は典型例であり、 医療現場に即して調整が工夫されている。 • 個別医療環境に何を選択すべきかの糸口の技術候補はあるが、 (主とし技術面からの情報なので)現実には実際に使ってみる ことが必要になる。 12

13.

質問2:LLM の医療タスクのパフォーマンスを測定 • 実践手段の次にはLLM適応の妥当性を評価する手段が必要になる。 • パフォーマンス測定のための典型的医療タスクを2つ定める。 識別タスク • 与えられた入力データに基づいてデータを特定クラスに分類する。 • 構造化/非構造化テキストから関連情報を分類、抽出 • タスク例:質問応答、エンティティ抽出、関係抽出、テキスト分類、など • 主な入力データには臨床上の質問、臨床メモ、医療文書、EHR、 医学論文などがある。 生成タスク • 与えられた入力データに基づいて新しいテキストを生成する。 • 医療テキストの要約、退院指示書生成などの医療テキストの生成、など • 読みやすさや分かり易さを実現するために、単語の置き換えや構 文の改善なども行う。 13

14.

質問応答を評価するためのデータセット例 • 医師免許試験形式の質問応答データセットが良く知られている。 • PubMedなど質問応答だけではないデータセットも存在する(PubMedQAはPubMed中の質問応 答部分を取り出したもの)。 • 目的あるい評価対象に合わせて、QA分野以外でも多数のデータセットが存在する。 医療分野の質問応答データセットの典型例 MedQA (USMLE) 米国医師免許試験(USMLE)形式の質問で構成。4択または5択 MedMCQA インドの医学部入学試験からの4択多肢選択問題で構成 igakuQA 過去 5 年間 (2018 ~ 2022 年) の日本医師免許試験から抽出された日本 の医療多肢選択式質問データセット PubMedQA 1,000の専門家によるラベル付けされた質問と回答のペアで構成 MMLU 57の医学関連領域からの試験問題で構成。4択の多肢選択式質問と回答 LiveQA 国立医学図書館(NLM)に人々が提出した医療に関する質問で構成。 Text Retrieval Challenge (TREC) 2017の一環。 MedicationQA 医薬品に関する消費者のよくある質問で構成。薬の焦点と相互作用に 対応する注釈も包含 HealthSearchQA 消費者がよく検索する 3375 件の質問で構成。 14

15.

GPT-3.5 turbo、GPT-4、タスク固有の 微調整済みモデルと人間(専門家)とのパフォーマンス比較 識別タスク 識別タスクを例に医療LLMの効果を計る。 パフォーマ ンス比較 • 質問応答では汎用 LLMはかなりの機能 レベルに達している。 (情報抽出) • 一部(PubMedQA)で は人間(専門家)を超 える所もある。 (エンティティ抽出) (自然言語推論) (エンティティ抽出) • 但し、識別タスクの 中でも質問応答以外 は汎用LLMのパ フォーマンスが落ち、 微調整モデル(BERT, LLaMAなど)の方が 上回る。

16.

GPT-3.5 turbo、GPT-4とタスク固有に微調整済みモデルとのパフォーマンス比較 パフォーマ ンス比較 生成タスク 生成タスクを例に医療LLMの効果を計る。 • 生成タスクではGPT4であっても全ての項 目で微調整モデルに 劣る。 • 質問応答への対応が 強力なのはクローズ ドモデル(正しい答え が複数候補中に存在) だからと推定される。 • 対照的に質問応答以 外の大半の処理は(適 切な候補が存在しな くても予測が必要な) オープンモデルであ り、質問応答と比較 して極端なパフォー マンスの差が出る。 16

17.

質問応答(USMLE:米国医師免許試験) のスコアを見た様々なモデルの経時的進捗 汎用LLMへのプロンプト ゼロからの事前トレーニング 人間(専門家)の水準 汎用LLMの微調整 人間(専門家)の水準 実線はオープンソースモデル(LLaMAなど)、破線は市販汎用モデル(OpenAI, Googleなど)を表している。 17

18.

医療タスクのパフォーマンス測定:中間まとめ • 汎用LLMは典型的な質問応答に対して強力で、人間(専門家)に 匹敵する性能に達している部分もある。 • 但し、質問応答以外になると、汎用LLMではまだ十分な性能が 得られず、タスク固有の 微調整モデルの方が良い結果を出す。 • 新しいテキスト生成のような、より実際の臨床現場に近い処理 では汎用LLMの能力はタスク固有の 微調整モデルに大きく差を つけられる。 • この相違の原因は、事前に設定されたクローズな質問か、オプ ション無しのオープンな質問かであり、現状では高性能を得よ うとすれば 微調整モデルに依存せざるを得ない部分がある。 • Meta社から強力なオープンソースLLMが提供されているので、 タスク固有の微調整は従来よりはやりやすくなっている。 18

19.

質問3:実際の診療でどのように採用されているか? • 医療LLMの殆どは研究&開発段階にあり、実際の臨床現場への 適応は限られている。 • 但し、幾つかの分野は初期の試みが始まっている(下記)。 • 臨床意思決定支援システム • 電子医療記録(EHR)分析で適切な参加者(患者)を特定 • 医療費請求と払い戻しの効率化/精度向上のための臨床コーディング • 患者データに基づいた一貫性のある医療レポートの自動作成 • LLMを医療ロボットと統合し意思決定や診察能力の強化 • 外国人患者向けに医療情報を複数言語に翻訳、など • これら医療アプリの全体イメージ図を次頁に示す。 • 医療LLMの機能, 評価, ガイドを次々頁に示す。 19

20.

① 医療上の意思決定 ② 臨床コーディング ③ 臨床レポートの生成 入院 テキスト要約 放射線レポート 退院時の概要 主訴: 急性虫垂炎 既往歴: 甲状腺機能低下症、 投薬でコントロール 退院時投薬: 術後ケアのための 抗生物質、レボチロキシンの 継続 退院時診断: 急性虫垂炎 局所性腹膜炎 主訴: 断続的な胸痛と息切れ。 過去 24 時間の出来事: 夜間の観察で頻脈が確認され、投薬で症状は改善。 評価: 高血圧と糖尿病を患う 72 歳の男性が心臓症状を呈して来院。ACS と AF の可能性が疑われる。 最も可能性の高い診断は何ですか? 急性冠症候群 (ACS) 心房細動 (AF) 心筋梗塞 (MI) 肺塞栓症 (PE) 自動コーディン グシステム 臨床コード K35.80 (詳細不明の 急性虫垂炎) E03.9 (詳細不明の 甲状腺機能 低下症) T81.4 (処置 後の感染症) 医療画像による生成 所見: 平坦な横隔膜を伴う、過 透明で過膨張した肺。肉芽腫。 小型の心臓。左がわずかに大き い、最小限の頂端キャッピング。 徴候: 顔面左側の圧迫 ④ 医療ロボット ⑤ 医療言語の翻訳 超音波スキャン 調査、対話、指導 手術のためのマルチエージェントプランナー ⑥ 試験準備 ケーススタディ 自然言語理解 説明 患者:本当に落ち込んでいます シナリオ生成 翻訳 質問応答 実用的な問題 パーソナライズ学習 家庭教師 自然言語生成 患者: 自分は十分でないと感じています 問い合わせ 相互作用 私はCOPDの急性増悪のため入院しましたが、現在は安定しており退 院できる状態です。自宅ではどのようなことに注意すべきでしょう か?今後の増悪を防ぐために何ができるでしょうか? セラピスト:それは残念ですね。 もう少し詳しく教えてください。 回答評価 一般人への翻訳 ⑧医療に関する問い合わせと対応 ⑦ メンタルヘルスサポート 医学教育 他言語への翻訳 定期的にフォローアップの診察を受けて状態を監視します。適度に運 動します(ウォーキング、太極拳など)。ただし、過度な運動は避け ます。感染を防ぐために、インフルエンザや肺炎の予防接種を受けま す。煙やほこりなどの刺激物にさらされないようにし、室内の換気を 良くします。症状が悪化した場合は、すぐに医師の診察を受けてくだ さい。私はCOPDの急性増悪のため入院しましたが、現在は安定して おり退院できる状態です。自宅ではどのようなことに注意すべきで しょうか?今後の増悪を防ぐために何ができるでしょうか?

21.

アプリケーション 1 2 3 4 5 医療上の意思決定 臨床コーディング 臨床レポートの生 成 医療ロボット 医療言語の翻訳 6 医学教育 7 メンタルヘルスサ ポート 8 医療に関する問い 合わせと対応 モデル アーキテクチャ モデル開発 パラメータ数(個) データスケール 付属情報 Dr. Knows GPT-3.5 ICL(その3) 154B 5820 notes UMLS知識グラフを統合して診断予測を改善 DDx PaLM-2 PaLM-2 FT(その2) & ICL(3) 340B - 広範な医療データセットを使って微調整 NYUTron BERT(その1) PT & FT(その2) 110M 7.25M notes, 4.1B tokens 3つの臨床タスクと2つの運用タスクを実行 Foresight GPT-2 PT & FT(その2) 1.5B 35M notes 疾患のリスク、医薬品の提案などに使用 TrialGPT GPT-4 - - 184 patients 適格性を忠実な説明で予測 PLM-ICD RoBERTa(その1) FT(その2) 355M 70,539 notes ドメイン固有のモデルで理解能力を増強 DRG-LLaMA LLaMA-7B FT(その2) 7B 25k pairs パラメータ効率の高い微調整手法を適応 ChatICD ChatGPT ICL(その3) - 10k pairs LLM-codex ChatGPT+LSTM ICL(その3) - - 国際疾病分類(ICD)規定のコーディングのプロンプト付き ChatGPTを使用 ImpressionGPT ChatGPT ICL & RAG(その3) 110M 184k reports 簡潔で情報量の多いレポート要約を生成 RadAdapt T5 FT(その2) 223M, 738M 80k reports パラメータ効率の高い微調整で最適化を実現 ChatCAD GPT-3 ICL(その3) 175B 300 reports MAIRA-1 ViT+Vicuna-7B FT(その2) 8B 337k pairs RadFM ViT+LLaMA-13B PT& FT(その2) 14B 32M pairs SuFIA GPT-4 ICL(その3) - 4 tasks ロボット手術へのLLM統合を試行 UltrasoundGPT GPT-4 ICL(その3) - 522 tasks 超音波ガイドの下で手術への革新的アプローチを指示 Robotic X-ray GPT-4 ICL(その3) - - - Medical mT5 T5 PT(その2) 738M, 3B 4.5B pairs Apollo Qwen PT & FT(その2) 1.8B-7B 2.5B pairs BiMediX Mistral FT(その2) 13B 1.3M pairs Biomed-sum BART(その1) FT(その2) 406M 27k papers - RALL BART(その1) FT (その2) & RAG(3) 406M 63k pairs - ChatGPT GPT-3.5/GPT-4 ICL(その3) - - ChatGPTは複雑な医療概念について説明と明確化が可能 Med-Gemini Gemini FT (その2) & CoT(3) PsyChat ChatGLM FT(その2) 6B 350k pairs クライアントの行動認識など5つで構成される心理的サポートを提供 ChatCounselor Vicuna FT(その2) 7B 8k instructions メンタルヘルスサポート提供に主眼をおいて設計 Mental-LLM Alpaca, FLAN-T5 FT (その2) & ICL(3) 7B, 11B 31k pairs 複数のメンタルヘルスを対象としたオープンソースLLM AMIE PaLM2 FT(その2) 340B >2M pairs 経験豊富な医師の思考プロセスをエミュレート可能 Healthcare Copilot ChatGPT ICL(その3) - - 患者とLLMのやり取り履歴データから会話の強化や相談要約が可能 Conversational Diagnosis GPT-4/LLaMA ICL(その3) - 40k pairs - 放射線写真に特化してトレーニングされたモデルで特定のサブドメイ ンで優れたパフォーマンスを発揮 これらは多言語LLMで、複数言語の広範な医療データセットでト レーニングされている。これを環境に応じて微調整 (その1,2,3全て活用) 医療画像を分析し詳細なレポート生成が可能。診断スキル向上も可能 21

22.

医療上の意思決定 臨床アプリの解説(1) ① 医療上の意思決定 • 医療従事者は医療LLMの活用によってより情報に基づいた適切 で健全な決定を下せる可能性がある。 ガイダンス • 医師は堅牢なLLMから始めて専門的医療知識でそれを強化するステッ プを順次推進する必要がある。 考察 • 但し、LLMを医療判断の唯一のツールとした場合、患者からの主観的テキスト入力 に依存する傾向が出る。 • その際は医療診断画像分析からの入力も欠落しがちになる懸念がある。 臨床コーディング ② 臨床コーディング • 診断, 手順, 治療情報などをコード化することで健康指標、治療結 果、請求のようなプロセス追跡や自動化を容易化できる。 ガイダンス • 国際疾病分類(ICD)コーディングに準拠した医療LLMを開発するこ とで医療従事者の手作業が削減され、請求、払い戻しなどのプロセス が効率化される可能性がある。 考察 • 入力テキストが長いと潜在的に大きな幻覚に悩まされる危険性がある。 • そこで、モデルの開発と評価のために充分な量と質のトレーニングデータを準備 することが必要になる。 22

23.

臨床アプリの解説(2) 臨床レポートの生成 ③ 臨床レポートの生成 • 多忙な臨床医にとって臨床レポート作成は面倒な作業であり、 レポート作成が不完全になったりエラーが発生しやすい。LLM は補助ツールとして機能し効率化とエラー削減に寄与する。 ガイダンス • 主として放射線レポートの作成などで高品質レポートを正確かつ効率 的に作成できる可能性がある。 考察 • LLMは人間であればしばしば採用する“仮定に基づく視点”が欠けているので、 これに起因する幻覚や「入力の文字通りの解釈」に依存する課題がある。 • LLM作成レポートは人間に比較して簡潔さに欠ける傾向がある。 医療ロボット ④ 医療ロボット • LLMは医療ロボットの補完技術として機能し、意思決定、コミュ ニケーション、相互作用、制御能力の強化を図れる可能性がある。 ガイダンス • このようなシステムは臨床の現場に導入可能かの評価が困難だが、シ ミュレーションデータの拡充などで実現性が増す可能性がある。 考察 • LLMに固有なエラーやバイアスリスクが特に重大な課題になる。 • 人間とロボットが共有するワークスペースは複雑で動的に変化するので、安全上 のリスクへの充分な対応が求められる。 23

24.

臨床アプリの解説(3) 医療言語の翻訳 ⑤ 医療言語の翻訳 • 別の言語への翻訳に加えて医療会話を非専門家へも分かり易く することでシームレスなコミュニケーションに貢献できる。 ガイダンス • 医療会話を非専門家向けに翻訳する場合は、技術言語とそれに対応す る一般言語の説明の両方のデータセットを準備する必要がある。 考察 • 翻訳と簡易化の両方で誤解が発生し有害な結果をもたらす可能性がある。 • 対策としては信頼性の低いWebなどの情報ソースで出力を歪めないように、教 科書や査読ジャーナル論文など専門的データを優先する配慮が必要である。 医学教育 ⑥ 医学教育 • LLMは説明による学習促進、言語翻訳支援、質問への回答、医学試験準 備の支援、個別指示提供など、さまざまな方法で医学教育に貢献できる。 ガイダンス • LLMを医学教育に統合することの有効性を評価するには定量的および 定性的な組み合わせを慎重に実施することが必要である。 考察 • 医学教育にLLMを使用すると倫理トレーニングの不足やデータに偏りが生じる 懸念がある。 • これらや幻覚へのリスクも含めて、厳格な事実確認や検証プロセスの確立によっ て、批判的思考や証拠に基づく実践を強化する必要がある。

25.

メンタルヘルスサポート 臨床アプリの解説(4) ⑦ メンタルヘルスサポート • LLMを(患者と医師の会話を一部代替する)会話の相 手として担わせることで、経済的負担を緩和させ身体 的制約がある患者への対応も拡大できる可能性がある。 ガイダンス • メンタルヘルスに焦点を当てたLLM評価には、自動化された評価尺度 と専門家による人間評価を組合わせる必要がある。 • 最も困難なのは感情的な理解の欠如と不適切あるいは有害な応答のリスクである。 考察 • 背景に、LLMは人間と同レベルの共感や人間とのつながりを提供できない可能 性がある。 医療に関する問い合わせと対応 ⑧ 医療に関する問い合わせと対応 • LLMは患者の問合せに回答したり医師の文書 作成を支援したりするタスクに適している。 ガイダンス • 評価には問合せ能力、会話の流暢さ、応答の正確さ、安全性など多方 面からの確認が必要である。 考察 • 現在は偏った出力や不正確な出力の可能性があり、これは不適切な医療アドバイ スや誤診につながるので、現場への導入は時期尚早と考えられている。 25

26.

医療LLMの採用が想定される医療タスク:中間まとめ • ⑥医学教育や⑧医療に関する問い合わせと対応は汎用 LLMベースの取組みが多い。(患者とのやり取り高度化をア ピールするGoogle開発のAMIEのようなものもある) • ⑤医療言語の翻訳や➆メンタルヘルスサポートは、多言語特有の個別 性と翻訳精度の問題、あるいはメンタルという特殊ニーズへの対応か ら独自アーキテクチャ採用の取組みが多い。 • 全体としては4グループに分かれる。 ✓ 汎用LLMを基礎に微調整やプロンプト工夫を図るもの…⑥、⑧ ✓ 医療アプリの特殊性から個別モデルの比率が高いもの…⑤、⑦ ✓ 狙いが複数個あり汎用LLMベースと個別アーキテクチャが共存してそれぞれ追求して いるもの…①医療上の意思決定、②臨床コーディング、③臨床レポートの生成 ✓ 試行の段階にあり、汎用LLMベースで挑戦を開始しているもの…④医療ロボット • 取組みの歴史の長短やデータ取集の事情(困難性の度合いや許容可能 なリスク)があり多様であるが、各方面で活発な取組みが行なわれて いる。 26

27.

質問4:医療 LLM 使用から生じる課題 幻覚 ① 幻覚 • 幻覚には事実情報と論理的に矛盾する出力を生成する内在的幻覚と生成された出 力が検証できない外在的幻覚がある。 • 後者の典型としてLLMが存在しない引用を偽造したり質問を回避することがある。 • 医療分野の幻覚は誤診, 不適切な治療, 有害な患者教育等を引き起こす懸念がある。 潜在的解決策 • 幻覚を軽減する策としては、トレーニング時の修正、生成時の修正、 モデルパラメータの重み等の調整が考えられる。 評価ベンチマークと指標の欠如 • 複数サンプルの抽出や信頼性スコアを使用して生成前に幻覚を識別、 あるいは外部リソースを利用して幻覚を軽減することも考えられる。 ② 評価ベンチマー • 現在のベンチマークと指標では医療LLMの全体的機能を評価する ことはできない。 クと指標の欠如 • 例えば、MedQAは質問応答タスクを広範にカバーしてはいるが、 信頼性、有用性、説明可能性、忠実性などの点で課題がある。 潜在的解決策 • 一般的に検索される健康関連質問で構成されるHealthSearchQAなどの 例はある。これはより人間に即したベンチマークを提供する。 • 真実性など、より多くのLLM固有の指標を評価するベンチマークもあ る(TruthfulQA, HaluEva, など)が、カバー範囲は充分ではない。 27

28.

ドメインデータの制限 ③ ドメインデ • 汎用LLMをトレーニングする際のデータセットと比較して、医療LLM 向けデータセットのサイズはかなり小さい。 ータの制限 • この限られたデータセットで多様な医療領域に対しトレーニングするの で、実際のタスクに必要なデータ需要に対しては極めて不十分になる。 潜在的解決策 • まずは小規模であっても正確さを確認されたデータセットを使用して 固有領域向けに性能と信頼性向上を目指す必要がある。 • また、固有領域に特定したLLMを使用して高品質データを生成し、こ れを出発点に外部情報との連携などで知識カバーレンジを拡大させる。 新しい知識の適応 ④ 新しい知識 • 一度トレーニングすると再トレーニングにはコストがかかる。しかし、 薬の新しい副作用や新しい病気への対応などで、医療分野ではLLM更 への適応 新が必要になる可能性が高い。 • その際、古い知識をバイアスなどを発生させずに適切に「忘れさせ る」ことや追加知識の適時性を保つことはかなり難しい。 潜在的解決策 • モデル変換(例えばパラメータの変更)で、モデル知識を変更させる ことが考えられる。しかし、これは一般化が難しいか不充分でモデ ルによっても異なる。 • 他の案としては、プロンプトで外部知識ソースを活用することも考 えられる。 28

29.

行動の調整 ⑤ 行動の調整 • 医療LLMは一般的人間と医療専門家間の行動を極力一致させるように努 力されて来たが、依然として十分ではない。 • 例えば、相談に対するLLMの回答は人間の専門家の回答ほど簡潔でも専 門的でもない。 潜在的解決策 • 現在の解決策としては、指示の役割調整、人間のフィードバックによ る強化学習(RLHF)、プロンプトチューニングなどがある。 倫理と安全に関する懸念 • しかし、いずれも高スキル人材を必要とし、コストもかかる。対応策 としては限界があるので、可能な範囲で試みる必要がある。 ⑥ 倫理と安全に • 医療業界は生物医学論文の執筆にChatGPT使用を承認していない。 関する懸念 • 医療実践の補助としてLLMを使用する場合も、説明責任が困難な状況 にある。 • LLMがトレーニングデータから個人を特定できることもあり、医療 LLM実装時の重大が脆弱性になっている。 潜在的解決策 • 直ぐに解決策が見つかる状況にはない。倫理的、法的懸念の原因を 解明するための研究が進められている。 29

30.

規制上の課題 ⑦ 規制上の • LLMの規制環境は、規模の大きさ、幅広い適応性、アプリケーション間 のバラツキにより大きな課題を有している。 課題 • 従来は特定の医療ニーズを満たすため特定利害関係者に対応する調整が 行なわれてきた。 • しかし、医療LLMの汎用性により、いずれは幅広い利害関係者グループ に渡る調整が必要になる。しかし、そこに向けての道筋はまだ見えない。 潜在的解決策 • 医療業界内と医療業界外の双方でLLMの使用を規制する案を策定し普 及させる必要がある。 • 叩き台の提案は出ている。それには、医療現場でのLMM対応アプリ ケーションの評価、データとアルゴリズムの透明性の義務、リスクの 評価と軽減するプロセスの具体化、監視を行うための技術の改良、な どが盛り込まれている。 30

31.

医療 LLM 使用から生じる課題:中間まとめ • 課題の性格により大きく3グループに分かれる。 LLMの方式 的特性に起 因するもの ①幻覚、⑥倫理と安全に関する懸念: 医療分野で の運用上特 に重要になる もの ②評価ベンチマークと指標の欠如、③ドメインデータの制限、④新 しい知識への適応: 公共サービス 故特に重要 性が大きくな るもの ⑤行動の調整、⑦規制上の課題: • LLM処理がブラックボックスである以上、幻覚や倫理と安全性の懸念は つきまとう。 • 医学系データの収集には限界があるにもかかわらず、医療サービスの性 質故に、真実性の重視、最新知識による対応が強く求められている。 • 新たな医療サービスとして一般患者と医療従事者間の適切な相互理解が 重要になるが、適正な状態に辿り着くまでには、習熟までの時間やリテ ラシー教育などの費用も掛かる。 31

32.

質問5:医療 LLM をより効果的に開発および展開するには? • LLMはチャットボットや検索システムを通じて多くの人々の生活に影響を与えているが、 医療への適応は初期段階にある。 • しかし、一般の人や患者に良いサービスを提供するための方法を模索する研究者や実践 者は多数登場している。代表的な取組みを示す。 今後の方向性 開発 新しいベンチ マーク 1. 2. 3. 包括的なベ ンチマーク の開発 臨床スキル の評価 倫理と公平 性の考慮 展開 マルチモーダ ルLLM 1. 2. 3. 視覚と言語 の統合 視覚、音声、 言語の統合 時系列デー タの LLM 医療エージェント 1. 医療におけるマ ルチエージェン トコラボレー ション 2. LLM による専 門的なロールモ デリング 3. フィードバック ループによる継 続的な学習 過小評価の専門 分野でのLLM 学際的なコラボ レーション 1. 1. 2. 3. 専門分野に おける代表 者の不足 スポーツ医 学における 可能性 身体活動教 育における 役割 医療専門家 の積極的な 関与 2. 実世界での テストと評 価 3. LLM リス クの評価と 軽減 32

33.

開発フェーズ 新しいベンチマーク ① 新しいベン • LLM評価に医学試験用QAを使用することは適当ではない。 • 試験に合格することと臨床環境で求められる能力は大きく異なる。 チマーク • そこで、さまざまな現実の臨床シナリオを効果的に反映するベンチマー ク作成と医療への応用の適合性を正確に測定する手段が必要になる。 マルチモーダルLLM ② マルチモー • 視覚とテキストの両方を含むタスクを実行できるマルチモーダルLL Mは新たな医療の可能性を拓く。 ダルLLM • 但し、さまざまなドメインやモダリティに渡って効果的にトレーニン グを行おうとすると、少ないデータは更に選別される可能性があり、 効用に対するコスト負担は増大する。 • 現在はまだ入手できていないマルチモーダルデータの安全な収集など を探索する活動も必要になる。 33

34.

展開フェーズ 医療エージェント ③ 医療エー ジェント • LLMを外部ツールやマルチモーダル知能と統合し、環境との対話、 フィードバックからの学習などで、人間のような複雑なタスクの処理を 目指す方向性がある。 • 但し、医療分野はCTスキャン、超音波、心電図、血液検査など多種の 役割と意思決定があり、適切な展開ステップを踏む必要がある。 過小評価されている専門分野 ④ 過小評価さ • 現在は「リハビリテーション療法」や「スポーツ医学」などの分野への LLM適応は遅れている。 れている専 • これらの取組みは広範な健康成果向上などの可能性があり、重要性が高 門分野 まっている。 学際的コラボレーション ⑤ 学際的コラ • 医療における安全性と有効性の確保には医療コミュニケーションと技術 コミュニケーション間のコラボレーションが不可欠である。 ボレーショ • これからは医療専門家が医療LLMの作成と展開にも積極的に参加するこ ン とが望まれる。 34

35.

効果的に開発や展開を行うには:中間まとめ • 現場での臨床シナリオを適切かつ効果的に反映したベンチマークの 開発、およびそれに準拠して開発した医療LLMの適合性を測定する 手段の開発が急がれる。 • 医療LLMのスムーズな展開には外部ツール(CTスキャンなど)との 統合を進めたり、医療従事者と技術専門家間のコミュニケーション の活性化も欠かせない。 • 新たな医療分野の裾野を拡大させるため、リハビリテーション分野 やスポーツ医学分野への医療LLM展開も健康医療の充実にとって重 要性を増している。 35

36.

後半 追加質問1:今後の医療 LLM の可能性と開発の機会は? • 全体を俯瞰し医療現場でLLMを活用する際のLLMの長所と限界を探る。 • 医療、教育、研究などの環境全体に対して革新的LLMを実装することの有 用性を確立しようとした試みはほとんどない。 • 3領域のポイントを以下に示す。 医療アプリケーション • 医師国家試験に合格したからと言ってLLMが実際の患者からの質問に 適確に対応できる訳は無い。さまざまな不適切事例が登場している。 • 患者はLLMと医師から提供される情報を区別できないこともLLMベー スの自律的サービスの展開を妨げる。 教育アプリケーション • LLMはまだ低レベルで学んでいる学生に対しては有用なツールとなる 可能性がある(例えば、学生により詳細な質問に導くようにレベルを下 げながら質問を提示してゆく、など)。 • しかし、LLMの頻繁な間違いと不確実性は本格教育への適応を妨げる。 研究アプリケーション • LLMの不正確さは研究においても自律的展開を妨げる。 • 但し、大量の臨床テキストデータの効果的分析など適した分野はある。 • 医療分野向けにLLMを実装する際の障壁の一覧を次頁に示す。

37.

LLM の限界と将来の開発でどのように克服できるかの戦略 制限 正確性 記述 • • • • 最新性 • • 一貫性 • • 透明性と解釈可能性 • • 倫理的な懸念 • • 課題緩和に向けた戦略例 GPT-3 は 570 ギガバイトのデータに制限されている。 モデルは「理解」するようにトレーニングされておらず、 単語間の確率的な関連性の学習に限定されている。 トレーニング データは、検証も確認もされていない Web サイトや書籍から取得されている。 • • • • トレーニング データの検証 不確実性インジケーターの検証 医療精度を最適化するための微調整 インテリジェントなプロンプト (思考連鎖(CoT)な ど) による自己改善 GPT トレーニング データセットには、2021 年 9 月以降 に作成されたコンテンツは含まれていない。 すべての事前トレーニング データセットは、必ず任意の 日付で「カットオフ」される。 • より新しいソースからトレーニング データを収集 する。 リアルタイムのインターネットにアクセス する (例: Bing AI、Sparrow、BlenderBot 3)。 入力クエリや出力に利用される情報を理解するのではな く、単語間の学習された関連性に基づいて出力をモデル 化している。 あたかも真実であるかのように提示される捏造された事 実がある。 • モデルが入力クエリとアーキテクチャデータおよびアル ゴリズムから回答を生成するまでのプロセスが不明瞭で ある( 「ブラックボックス」問題)。 生成された応答でトレーニングデータセットのどの部分 が活用されているかが不明瞭である。 • • • 真の意味的知識を開発するために、モデル アーキ テクチャとトレーニング戦略を再開発する。 不正確な情報の表示を排除するための微調整を行 う。 • モデルの回答に貢献したデータセットの一部を引 用するために必要な出力を行う。 説明可能な人工知能の研究開発 回答は危険、差別的、または不快なものである可能性が • ある。 • プライバシーおよびセキュリティ侵害のリスクがある。 • モデル出力の結果に対する説明責任が確立されていない。 望ましくない出力の発生を減らすための微調整 ガバナンス システムと監督機関の確立 ユーザーが危険な応答を報告できるレポートシス テムの導入 37

38.

表の解説 正確性: • トレーニングデータは領域固有の精度が検証されていない上に、質 問対応時にリアルタイムにアクセスできないため根本的制約がある。 最新性: • 医学分野は特に研究や革新が急激で、最新のコンテンツが不足する と不正確さが診察や研究に悪影響を与える懸念が大きい。 一貫性: • LLMは質問に対してもっともらしいフレーズを生成するが、必ず しも正確でない回答を生成する能力を開発している可能性もある。 透明性と解釈可能性: • LLM 処理は「ブラック ボックス」のため、処理と意思決定の解釈 は困難であり、説明の代表性も不明なままである。 倫理的な懸念: • 偏ったデータでトレーニングされたモデルを使用すれば偏りが永続 化するリスクがある。医療では特に安全基準と倫理的配慮に対する 危険な低下につながる可能性がある。 • これらを踏まえた制限事項、開発の機会、潜在的使用例を次頁図に示す。

39.

LLM アプリケーションの制限、研究開発の優先順位、 および潜在的な使用例 管理タスク(手紙、退院サマ リーなど)、意思決定支援 (半自律型)、マルチモーダル 統合など 開発の機会 開発の機会 • 正確性 • 正確性 • •最新性 最新性 • •一貫性 一貫性 • •透明性/解釈可能性 透明性/解釈可能性 • •倫理 倫理 不確実性 不確実性 指標 指標 自己啓発 自己啓発 批評的評価、ライティング ガバナンスと報 ガバナンスと報 告システム 告システム 実践的な研究と 実践的な研究と モデルの検証 モデルの検証 オンデマンドのインタラク ティブな指導(例:ソクラテ ス式チューター)、教材制作 39

40.

今後の医療LLM研究開発の方向性:中間まとめ • 各種の制限はLLMの有用性を向上させるための指針を与えてもいる。 • 関連情報として次のような観察も指摘できる。 • 医療メモ、科学文献、Web情報に頻繁に発生するエラーはLLMの性能を妨げ続ける。 • データセットの品質は二次検証で改善される可能性はあるが、分量が膨大なため、 完全に品質を評価することはできない。 • 捏造された事実やその他のエラーでLLMの信頼が損なわれないように、特にハイレ ベルの医療環境では綿密に監視する必要がある。 • この監視能力の強化はコストとトレードオフになる。 • また、人間による監視はリスクを軽減し責任ある個人(医師、専門家)を特定でき るが、個人が責任を負い続ける場合はLLMの利用は半自律型AIに限定されることに なる。 • 結局、現在、具体的に医療現場におけるLLM応用の実験的研究は殆ど行われ ておらず、初期段階にあると思われる。 • 個別課題対応の更なる研究進展によって、今後の展望が拓けてくる。

41.

追加質問2:医療 LLM を基礎としたアプリ統合と管理の移行パスは? 医療分野における医療LLMへの移行パス • 医療LLMという高度な技術を臨床現場に統合してゆく旅は長い。 • このプロセス実行でタスクを自動化し、関連情報を生成することで 医療サービスに革命をもたらす可能性はある。 • 各種自動化によって、臨床医の時間は大幅に節約され患者ケアに集 中できるようになるし、管理上の負担も軽減させる。 • 患者データを分析して健康状態を予測し潜在的健康リスクを特定す るなど、臨床医に有用な情報提供も可能性はある。 • しかし、AIシステムが信頼できる成果を生み出すためには、適切な プロセスを愚直に踏むことが求められる。 • 以降で4つのプロセスの詳細を述べる。 ① 受け入れと採用 ② データとリソース ③ 技術統合 ④ ガバナンス 41

42.

①:受け入れと採用 有用性の認識: • 特定システムを使用することで仕事の効率がどれだけ向上すると考えられるか? • 例:患者の病歴、現在の健康状態、類似病歴から患者の予測モデル生成、などから 使い易さの確認: • 特定システムの使用が便利で手間が掛からないとどれだけ考えられるか? • 例:ユーザーインタフェース、出力の明確化、技術サポートのレベル、などから 使用に対する姿勢: • 前向きな姿勢がAIシステムがどれだけ上手く使用できるかの実証に繋がる。 • 例:サービスの魅力度、費用対効果、スピード、パーソナライズ、などから 使用に対する行動の意図: • AIシステムを使用する意図を明確に持つと、安全且つ十分なサポートの下でAIシ ステムを既存ワークフローに統合して実際の使用に繋がりやすくなる。 実際のシステム使用: • 日常の医療環境でAIシステムをどれだけ使用できると考えられるか? • 継続的なサポートとユーザーからのフィードバックでAIシステムを継続的に監視 し改善に導くことができる。

43.

②:データとリソース ユースケースの特定 • 病状によってAIモデルの洗練度が変わるので、適切なユースケースを特定する。 • 例:ガンの診断画像とか、特定ユースケースを理解することでデータ準備を深める。 データ収集 • モデルのトレーニングに必要なデータ収集の入念な準備が必要になる。 • 組織内のさまざまなソースからのデータ収集に新しいデータ収集を加える。 データのクリーニングと前処理 • 収集したデータの品質と一貫性を確保するための処理を厳密に行う。 • 例:重複の削除、欠損値の処理、形式の標準化、など データの注釈とラベル付け • ローカルデータを使用したLLM微調整のためなどで、データに注釈をつけてラ ベル付けする必要がある場合がある。 データの保存と管理 • 大量のデータを処理するための堅牢なデータ保管および管理のシステムがいる。 • 例:DWH、クラウドのストレージ設定、データ管理プラットフォーム、など 計算リソース • GPUやクラウドサービスのため、かなりの計算能力とリソースがいる。 • 独自モデルのトレーニングを意図する場合は特に重要

44.

③:技術統合 • 医療LLMは理解と実装が一般に複雑である。 • また、技術の成熟度、信頼性、既存モデルへの統合の容易さは技術採用の重 要な要素になる。 • 従って、医療LLMを病院または医療情報システムに統合するには、システム のニーズの理解からAIソリューションの実装、維持までの幾つものステップ を踏む必要がある。 • 最初のステップ:実装の焦点領域を特定 • 次のステップ:適切な医療LLMモデルの選択 • 次のステップ:収集したデータによるトレーニング • 次のステップ:トレーニングとテスト完了後に医療情報システムに統合(既存システム とのインタフェース開発も含む) • 次のステップ:統合後、機能性、使い易さ、信頼性確保のための徹底的なテスト • 保守フェーズ:定期的メンテナンス(性能低下時の再トレーニングも含む) • 次のステップ:医療専門家からの定期的フィードバックを収集して改善を実施

45.

④:ガバナンス データの可用性 • 臨床医学ではプライバシーの懸念や規制によりデータ収集が制限され、モデルを効果 的にトレーニングすることが困難になる場合がある。 トレーニングデータの偏り • トレーニングデータが特定の人口統計グループに依っている場合、偏った結果を 生成する可能性がある。 透明性 • 臨床分野では特にデータの出所、著作権状態、同意ポリシーなどで透明性が欠如し ている場合、法的、倫理的な盲点が残存する危険性がある。 モデルの解釈可能性 • 医師がモデルの出力を信頼し適切に解釈できなければ臨床上の意思決定に組み込 むことが困難になる可能性がある。 不正確な生成 • 医療LLMが臨床医に過度に信頼されると、患者の安全に重大なリスクをもたら す場合がある。 規制と倫理の問題 • 医療LLMの使用は患者のプライバシー、データの所有権、説明責任などの規制 と倫理の問題を引き起こす。 検証 • 従って、大規模なデータセットと厳密なテストが必須だが、これには時間と費用 がかかる。

46.

医療LLMの移行パス 受け入れと採用 利害関係者の意識と教育を向上さ せることで、医療LLMの受け入れ と採用の可能性が高まる。 データと リソース 技術統合 データとリソース 医療LLMを効果的に活用するには、 データとリソースの適切な準備が 必要である。 技術統合 効果的な統合には、組織のニーズ とインフラストラクチャの理解が 必要である。 ガバナンス ガバナンス構造を確立することで、 医療分野における医療LLMの統合 から生じるリスクを軽減できる。 受け入れ と採用 医療LLM統合 ガバナンス

47.

医療LLM統合と管理に向けた移行パス:中間まとめ • 世界中の医療システムは、手頃な価格、アクセス範囲、一貫性が充 分でない品質の危機に直面している可能性がある。 • 医療LLMは、責任ある実装を通じて、現在の体系的失敗(あるいは不 充分性)を修正できるソリューション提供の可能性がある。 • しかし、この実現には、妥当な価格、使い易さ、リスクに関わる障 害を予測しながら受け入れ、など、難しい課題がある。 • ① 戦略的なパイロットシステムの開始、② 反復的なスケールの拡大、 ③ イノベーション推進などとともに、④ 倫理を重視したガバナンス 確保にも充分配慮した着実な歩みが必要になる。 47

48.

全体まとめ • 多様な医療LLM適応の取組みが行われている。中には、質問応答 (USMLE:米国医師免許試験など) の成功回答率上昇のように、一見 画期的進歩が達成されたかのように見えるものもある。 • しかし、これらが医療現場の改善に直接繋がる路を切り拓く訳では ない。医療現場はより複雑で曖昧であり、簡単ではない。 • 根本問題の一つは、汎用LLMが得意な事務処理の合理化などを除く と、適用を目指す医療現場は細分化されており、その場面に関わる データが決定的に不足していることがある。 • また、かなり適切な結果を生成できるようになったとしても、それ を最終的に検証するデータが設計できない(集められない)。 • 従って、現実的には医療LLMが医師を支援する妥当な路線を深堀り して行くことになる。しかし、これにはスキルも時間もかかる。 • 現在、より広範な活用の仕方がないか、より正確で信頼性の高い医 療LLM活用法が見出せないか、世界中で活発な研究と努力が続けら れている。 48

49.

編集後記 • 医療向けLLM活用の論文は膨大で、分野別では最大の比 率を占める(右図参照)。 • 医療分野23%(太枠), 他に関連分野(細枠)も合計すると36% • 従って、全体を包括するレビュー論文のニーズはあった。 • 今回、このニーズに合う論文が見つかったので、医療 LLMの開発と展開に関する課題と機会を提供した。 • 本論文はできるだけ効果的な医療LLM構築のための実用的実践ガイドラインを目 指すと謡っていたが、果たしてどれ程有用であったか? • また、このような趣旨の論文が、オクスフォード大学にあるInstitute of Biomedical Engineeringという研究所の臨床機械学習学部(Clinical Machine Learning)学部長David Clifton氏を中心に多数の中国人研究者の連合体で作成され ていたのも興味深かった。(著者は合計19名) • 内容は良く構造化されていた。本稿の質問1~質問5対応はこの論文による。 • また、この趣旨に合致する若干の論文を私見で追加した(追加質問1,2)。 • 全体としては、できるだけ医療従事者が医療LLMに取組む際に有用になる内容を 一覧できることを目指したが、2023年段階での情報なので一部古くなっている部 49 分はある。

50.

文献 前半 後半 50