2.3K Views
December 21, 23
スライド概要
OpenAI CEOサム・アルトマン氏の解任劇の延長で生成AIは「開発か倫理か」が再度問い直されている。しかしその一方、ChatGPTの競合製品に取組んでいる各ベンチャー企業の攻勢も活発化し、いよいよ生成AI製品の市場への提供・拡大は佳境に入った。その中で、OpenAI社は方式、ソースコードを公開しない「クローズ型」だが、この向こうを張って「オープン型」生成AIの団体も立ち上がった。これには日本で加わったメンバーもおり、いよいよ生成AIのビジネス/生活の両方で本格展開や活用が火ぶたを切られた雰囲気がある。・・このような活動の先駆けとして、逸早く多数の研究論文が登場しているが、中でも、生成AI活用場面の多さもあって、医療(ヘルスケア)分野関係の論文の多さが目立つ。そんなことから、医療分野向けの論文の内容に、今後拡大する各種機関や企業の生成AI活用に示唆を与える情報やヒントがあるのではないか?このような問題意識から情報をピックアップし資料を作成してみた。
定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。
医療分野にChatGPT & AI適用の未来 医療へのChatGPT & AIの適用 B-frontier 研究所 高橋 浩 B-frontier 研究所 高橋 浩
自己紹介 - B-frontier研究所代表 高橋浩 • 略歴: • 元富士通 • 元宮城大学教授 • 元北陸先端科学技術大学院大学 非常勤講師 • 資格:博士(学術)(経営工学) • 趣味/関心: • 温泉巡り • 英語論文の翻訳 • それらに考察を加えて情報公開 • 主旨:“ビジネス(B)の未開拓地を研究する” 著書: 「デジタル融合市場」 ダイヤモンド社(2000),等 • SNS: hiroshi.takahashi.9693(facebook) @httakaha(Twitter)
目的 • ChatGPTは洗練されたアルゴリズムで反復プロセスの 自動化や顧客サービスの向上を実現させており、 • 各業界ではどのような影響を受けるのか、どのような 未来が描けるのかを検討することが極めて重要になっ ている。 • 中でも医療分野は言語入力に対し人間のように回答で きるChatGPTの機能が幅広く有効になる業界である。 • そこで、医療分野にChatGPT & AI適用がもたらす未 来をつぶさに検討することを本稿の目的とする。 3
目次 1. 未来の医療ビジョン 第1節: 1.はじめに、 2.生成医療AIモデル、 3.医療情報学 第2節: 2. 医療分野にChatGPT適応の状況 1.米国医師免許試験、 2.マルチモーダル、 3.臨床意思決定支援 第3節: 3. 今後に向けて 1.臨床現場への適応、 2.倫理面への考慮、 3.おわりに 4
第1節 未来の医療ビジョン 1. はじめに ChatGPTは医療を変革するか? • 人間のような会話で人々を引き付けるChatGPTの機能 は言語とコミュニケーションが人間の経験と幸福に如何 に重要であるかを思い起こさせてくれる。 • 結果、言語を通じた効果的なコミュニケーションは患者 と医療従事者の関係を含め、医療サービスの高度化と患 者の生活の質の向上に貢献できる。 • 共感的にテキストを書き換えるようにトレーニングされ た言語モデルによって、適切なメンタルヘルスサポート が提供されるかもしれない。 5
ChatGPTは医療を変革するか?(続) • 同様の文脈で、言語モデルは個別医療アプローチにも役 立つ。 • 病状にもよるが、患者から受け取った入力の複雑性を軽 減し、個々の患者のニーズに合わせて特別に調整された 医療サービスの提供は可能である。 • ただし、現状は、臨床向けに実用化に踏み切れるレベル には達していない。 • ChatGPTを一般の人々に医療アドバイスの情報源として 使用することをアピールするのにも懸念がある。 • そこで、「医療分野にChatGPT & AI適用の未来」を全体 的に検討する。 6
医療の未来を再定義するLLM • 人間の言葉を理解し生成できる大規模言語モデル (LLM)の台頭は次のようなサービス転換を示唆する。 ✓アップグレードされた臨床サービス ✓カスタマイズされた治療計画 ✓患者とのより優れた出会い • 臨床分野では、LLMは病気の判定と治療を変え、医療 専門家より正確かつ便利に判断が下せる可能性がある。 • ChatGPTは、個別ケアを通じて慢性疾患を管理できる 可能性がある。 • LLMは仮想の臨床パートナーとして機能し、医療事業 者を通じて患者を指導できる可能性がある。 ・・・医療サービスイメージを次頁図に示す。 7
AIベースの多重医療(ラフスケッチ) 診断と処方の支援または自動化 リアルタイムの優先順位付け 早期診断 個別化された投薬とケア 医用画像に関する洞察 処方箋の監査 患者データ分析 手術ロボット AIベース 多重医療 市場調査 創薬 価格とリスク 遺伝子の分析と編集 運用 機器と薬剤の有効性の比較 顧客サービス チャットボット ブランド管理とマーケティング 不正行為の検出 8
例示1 患者ケア(「個別化されたケア」) • LLM 出現により個別ケアが現実となる可能性が出てきた。 • 個別化医療は、患者を一般的な症例ではなく、独自の存在 として扱うことを目指す。 • 個別化医療の重要な要素は、遺伝情報の統合である。 • LLM は個人の遺伝データを分析し、その遺伝的素因を判 断できる。 • ライフスタイルも個人の健康に影響を与える重要な要素に なる。 • 個別化には、1)個人の毎日の習慣、2)食事の選択、3)運動習慣、 4)ストレスレベル、などが含まれる。 • そこから、1)遵守される可能性が高い食事の変更、2)運動療法、 3)ストレス軽減の技術の提案などが可能になる。 9
例示2 患者ケア(「病気の診断と治療」) • LLM の利点の 1 つは、広範な臨床情報とデータをフィル タリングできることである。 • 前提として検査と臨床規則を常に最新の状態に保つ必要がある。 • 副作用や病歴を膨大な量の症例と対比しておく必要がある。 • LLM は人間の認識を逃れる可能性や特殊性を捉えたり、 分析ミスを軽減したりもできる。 • 結果、遺伝的傾向、生活様式、病歴など、患者の臨床プロ フィールを考慮して、個別化した治療計画を提案できる。 • 但し、道徳的かつ実際的な熟考が必要になる。 • 情報セキュリティ、同意、方向性の明確さ、倫理面、など • 全体として、医療サービスへのLLMの 取り込みは、病気 の分析と治療の基本要素を変える。 10
例示3 患者と医者の相互作用 • 患者と医療提供者間の効果的なコミュニケーションは、質の高 い医療を提供するための基礎である。 • 医療エコシステムへの LLM導入により、患者、医者間の相互 作用にダイナミックな変化が生じ得る。 • 情報発信の強化 • LLM は患者が医療情報にアクセスする方法に革命をもたらす。 • 予約スケジュール設定や管理のサポート • チャットボットや仮想アシスタントによって、1)予約のスケジュール、2)処 方箋の取得、3)再診のリマインダー受け取り、等ができる。 • 言語の壁の克服 • リアルタイム言語翻訳や通訳サービスによって、医療における言語の壁を克 服できる。 • 患者の関与の強化 • 継続的サポートとモニタリングを提供することで、患者の関与を強化できる。 11
2.生成医療AIモデル そこで、生成医療AI基礎モデルを構想する • 現在の医療AIモデルの大部分はタスク固有のモデル開発ア プローチを取っている。 • しかし、それでは多様な医療サービス提供には限界がある。 • そこで、非常に柔軟で各タスク(画像データ、電子医療記 録、検査結果、ゲノミクス、グラフ、医療テキスト、等) に統一して利用可能なAIを考え、生成医療AIと呼称する。 • これは、タスク固有のラベル付きデータをほとんど、また は全く使用せず、様々な医療タスクを実行可能なものとす る。 12
生成医療AI基礎モデルの構想(続) • 生成医療AIモデルは開発の初期段階にあるが、次のような 問題があり、依然としてタスク固有モデルから脱却できて いない。 1)大規模で多様な医療データセットへのアクセスの難しさ 2)医療領域の複雑さ 3)開発が始まって間がない • 新たな方向性はタスク固有パラダイムを如何に破壊するか にある。そのため、下記などの動向も取込む。 • マルチモーダルアーキテクチャ、明示的ラベル不要の自己教師あ り学習、コンテンツ内学習、など • これらの動向も取込んで生成医療AI基礎モデルを構想する。 ・・・概要を次頁図に示す。 13
生成医療AI モデルのパイプライン マルチモーダルな自己教師付きトレーニング 医療分野の知識 テキスト 文献 柔軟なインタラクション 出版物 質疑応答 音声 イメージ 電子 カルテ シグナル オーミクス 生成医療AI 臨床 ノート グラフ 知識 グラフ 複数の知識源を使った推論 マルチモーダル な入出力 ダイナミックなタスク仕様 アプリケーション 患者向け インタラクティブ チャットボット なメモ取り 拡張された手順 放射線医学レポート テキストから タンパク質の生成 ベッドサイドでの 意思決定サポート 14
生成医療AIモデルで想定する仕組み 柔軟なインタラクション • 生成医療AIは顧客からの質問を通じてモデルを操作できる 機能を提供し、さまざまな対象者がAIの洞察を容易に受け 取れるようにする。 - 動的タスク仕様: 新しい問題をそのままで解決するように学習させ、 モデルの再トレーニングをすることなしに新たなタ スクに動的に対応する。 - マルチモーダルな入出力: ユーザーは質問に多様で複雑な医療情 報を含めることができる。 医学分野の知識 • そのために、ナレッジグラフなどの構造を利用して、生成 医療AIモデルが医療概念と各要素との関係などを推論でき るように医学知識を深く学習させる。 15
生成医療AI で想定される 3 つの潜在的アプリケーション 1. ベッドサイドでの意思決定サポート 生データから患者の現 在の状態を要約し、患 者の潜在的な将来状態 を予測して治療上の決 定の推奨案を提出する。 2. 根拠のある放射線医学レポート 患者の病歴を考慮しな がら、異常と関連する 正常所見の両方を自動 的に作成する。 3. 手順の強化 これまでに遭遇したこと のない現象であっても医 療分野の知識とコンテキ ストを活用して、稀な異 常値の所見を段階的推論 で説明する。 16
生成医療AIによるパラダイムシフトと想定される課題 新たなパラダイム コントロール性: ユーザーは出力形式を細かく制御できるた め、複雑な医療情報へのアクセスと理解が 容易になる。 適応性: コンテキスト内学習を通じて変化に対応で きるため、例えば病院は少数のプロンプト を提供するのみで新たな状況に対応できる。 実現可能性: 既存の大規模AIモデルあるいは小規模の医 療専門モデルと連携した環境構築を目指す。 17
生成医療AIによるパラドックスシフトと想定される課題(続) 想定される課題 実現性検証 前例のない多用途をこなすため、検証が非常に困難にな る。 正確性検証 異常に複雑な入力・出力を処理するため臨床医がその正 しさを判断することが困難になる。 社会的偏見 従来からのバイアスへの懸念(特定の患者グループを過 小評価、など)がより顕著になる。 プライバシー 臨床測定値、行動軌跡データ、感覚データなど、豊富な 患者特性データを扱うのでより重大なリスクをもたらす。 規模 データ収集とモデルトレーニングに関するコストが増大 する。 18
3.医療情報学 前提となる医療および健康分野データの特徴 • 生成医療AIモデル(前項)でも触れたように、医療や健康の現 場ではマルチモーダルが一般的である。 • そして、マルチモーダルデータの規模はコミュニティが深層 学習の時代を受け入れて以来、拡大の一途を辿っている。 • このような環境は大規模生成AIモデルの開発と評価に有力な 基盤を提供する。 • そこで、次の点について論述する。 • 大規模生成AIモデルの分類 • 大規模生成AIモデルのこれまでと今後 • 医療情報学における大規模生成AIモデルの応用 19
大規模生成AIモデルの分類 • 便宜的に大規模言語モデル(LLM)、大規模ビジョンモデル(LVM)、 大規模マルチモーダルモデル(LMM)があるものとし、これら全 体を表す場合には大規模生成AIモデル(LAM)とする。 • 次の4つの特徴(側面)がある。 A) サイズが増加する(例:パラメータ数は数十億以上に上る) B) 大規模データを使用したトレーニングを行う(例:LLMで数兆 個のデータ、LVMで数十億個の画像、など) C) 複数のモダリティのデータを処理できる。 D) 複数の下級タスク(特に、ゼロショット、ワンショット、数 ショットのタスク)で良好なパフォーマンスを発揮できる。 ・・概要を次頁以降の2つの図で示す。 20
大規模生成 AI モデルのこれまで(と今後) A) モデル・サイズ B) データ・スケール モデルのパラメータ数は増加する傾向にある(LLM では数百億個が一般的)。 一般領域の大規模AIモデル 医療情報学における大規模 AI モデル データはスケールアップしているが、医療データの規模 は一般的なドメインデータに比べてはるかに小さい。 G-L : 一般の言語モデル M-L : 医療向け言語モデル G-V :一般のビジョンモデル M-V : 医療向けビジョンモデル 従来のAIモデルの状況: 1) スケールモデルのサイズが 限定的 2) 限定的なトレーニング/事前 トレーニング 3) 限定された生成機能 21
大規模 生成AI モデルの(これまでと)今後 C) モダリティの数 D) 下流タスクでの多用途性 モデル容量の増加とマルチモーダル学習の進 歩により、大規模 AI モデルが処理できるモダ リティの数が拡大している。 大規模な AI モデルは生成的/創発的なインテリジェンスを 示し、複数の下流タスク(特に、ゼロショット、ワンショッ ト、および少数ショットの質問)で優れたパフォーマンス を示すことができる。 今後のAI モデルの方向性: 1) モデルサイズが大型化 2) 大規模なトレーニング/事前 トレーニングの実施 3) 大規模な生成機能の拡充 22
大規模生成AIモデルの応用1(バイオインフォマティクス) • LLM では環境が異なれば、言語は異なる解釈を持つことが できる。タンパク質は生命の言語と解釈できる。 • LAMはタンパク質の構造決定を加速できる可能性がある。 • 特に、LLM は、RNA やタンパク質配列を含む大規模データ に隠された生物学的特性をモデル化するのに有効である。 • AlphaFold2 はタンパク質の構造を予測する先駆けとなった。 • AlphaFold2 は単一タンパク質鎖でトレーニングされている にもかかわらず、多量体を予測する能力を示している。 • この延長で、LAMは創薬など関連アプリケーションのプロセ ス高速化に利用することが期待されている。 23
大規模生成AIモデルの応用2(医用画像処理1) • LAM は医療診断と意思決定で重要な役割を果たすことが予 測されている。 • ゼロショット胸部 X 線トランスフォーマーである CheXzero は複数病状の分類で放射線科医師レベルのパフォーマンスを 実証した。 • 複数診断ネットワークを ChatGPT と統合したChatCAD は、 医療画像CADに LLM を適用する事例を実証した。 • HeartBEiTは、850 万件の心電図で事前トレーニングした基 礎モデルで、心臓診断の説明可能性を向上させた。 • LAMは在宅の人々に遠隔診断や医療相談サービスも提供でき る。 24
大規模生成AIモデルの応用3(医用画像処理2) • 医療画像技術の導入は患者の診断と治療プロセスに大きな影 響を与えている。 • CT、MRI などの医療画像の使用により、LVM開発を加速さ せるマルチモーダル、マルチソースの医療ビジョンデータが 大量に生成された。 • それにもかかわらず、LVM にはいくつかの妥協点がある。 • 例えば、LVMやLMM をトレーニングする際、トレーニング 時間を短縮し、計算コストを削減するため、医用画像サイズ を制限したりすることがよくある。 • 当然、サイズの縮小は情報損失を伴う。 • 現在のLVMと十分な訓練を受けた医師の間ではパフォーマン ス(および特性)に適性の差異が生じる可能性もある。 25
大規模生成AIモデルの応用4(医療情報学) • HER(電子医療情報) や PubMedなど公的医療テキスト・ データが豊富になったことにより、研究は LAMを設計、提 案できる段階に差し掛かっている。 • LAMサイズをスケールアップすることで、さまざまな医療言 語タスクの改善があることが明らかになった。 • パラメータ効率化適応技術により、米国医師免許試験に優れ た正解率の解答を生成する例も登場した。 • 結果、臨床領域向けに明示的にトレーニングされていないに もかかわらず、数回ショット設定で臨床情報を十分に抽出で きることが明らかになり、臨床医が EHR の文書化に費やす 時間を大幅に削減できる見通しが出てきた。 26
第2節 医療分野にChatGPT適応の状況 • 本節では、前節で述べた「未来の医療ビジョン」がどの 段階にあるのか、どのような課題が存在するのかを推測 するために、次の3つの項目あるいは分野の検討状況を 扱う。 • 取組みの要点、制約事項と今後の課題を示す。 1. 米国医師免許試験対応 2. マルチモーダル 3. 臨床意思決定支援 27
1. 米国医師免許試験対応 • 大規模言語モデルが優れた機能を実証しているとしても、 医療/臨床分野で求められる品質基準は高い。 • 現在どの程度の水準にあるかを認識するため、PaLM (5,400億パラメター)をベースとして米国医師免許試験 への対応を検討した取組みを紹介する。 • 要点: • 6個の医療関連質問回答データセット(この中に米国医師免許試験問題も 包含)に健康関係質問回答セットも加えて共通ベンチマークを作成 • PaLMを医療向けに調整したFlan-PaLMを作成 • Flan-PaLMを当該ベンチマークで評価(米国医師試験への精度は67.6%) • しかし、消費者(患者)からの質問に対しては重大なギャップがあること が判明 • これを解決するため新調整技術によってFlan-PaLMを再調整したMedPaLMを作成 • かなり機能水準が向上したが、それでも依然として臨床医には劣る段階 28
医療/健康にLLMが適性かの検討の枠組み • 大規模言語モデルは医療情報から診察に必要な有用知識 を大規模に学習できる点で大きな期待が持たれている。 • しかし、“幻覚”と言われる、1)説得力のある医療上の誤っ た情報の伝達、2)健康格差を悪化させる可能性のある偏見 などを組み込む可能性がある。 • そこで、医療における大規模言語モデルの可能性を評価 するため、医療質問応答を検討する。 • 医療上の質問に対して質の高い回答を提供するには、医 療の背景を理解し、適切な医療知識を想起して専門家の 情報に基づいて推論する必要がある。 • 医療用に調整されたFlan-PaLM は多肢選択式の質問では 好成績を収めたが、患者からの質問には好成績を収めら れなかった。この課題への見通しを探索する。 29
検討のためのモデリング • LLMを医療向けに調整するモデリング: • PaLM:汎用LLM(ChatGPTなどと同じ) • Flan-PaLM: • 医療分野は安全性が重要なため、モデルを分野固有のデータに適応させて調 整したもの • 問題:医療データは不足しているので、大量データを前提とした既存のアプ ローチだけでは難しく、精度が今一つ向上せず • Med-PaLM: • 解決の方向性:医療分野に特化したプロンプトの最適化を進める。 • 採用したプロンプト最適化の戦略例: • どのような少数ショットのプロンプトが効果が大きいかを確認 • 思考の連鎖(人間の思考を疑似して、複数のステップでの推論を強化) • 自己一貫性の考慮、ほか • Med-PaLMにおいて一層医療分野に適応するプロンプトの最適化 を推進した結果、かなりの改善が見られた。 • 次頁にFlan-PaLM、Med-PaLMと臨床医のパフォーマンス比較を 示す。 30
臨床医とFlan-PaLM、Med-PaLMとの 理解力、検索力、推論能力の比較一覧 正しい理解の証拠 正しさの評価 誤った理解の証拠 正しい知識取得の証拠 不正な知識取得の証拠 正しい推論の証拠 誤った推論の証拠 読解力、知識の取得、推論ステップの不正確さの評価 臨床医の回答は 97.8% のスコアを獲得した。一方、Flan-PaLM のスコアは 76.3% にすぎなかった。 Med-PaLM は誤った理解の確率が 5.0% の水準(95%程度のスコア)でかなり改善された。 31
制限事項と今後の課題 制限事項 • 今回の検討では、患者からの質問が充分取込まれておらず、あらゆる臨床 環境への対応としては不充分であった。 • 評価した質問応答モデルの数と、それらを評価した臨床医や一般人(患者) の人数も限定的であった。 今後の課題 • 臨床レベルに達していない状況克服のため、LLM新機能の開発が必要で ある。 • 例:不確実性を検出し、関与する人間に効果的に関連情報を伝える機能、など • 公平性に関する考慮を充分行う必要がある。 • バイアスを評価する現在のアプローチが限定的なので改善要 • 潜在的障害や公平性を包括的に評価する機能も不備なので改善要 • より豊富な要素を包含したLLMの評価フレームワーク開発が必要である。 • 現状では多様な臨床環境に対応する臨床知識を踏まえたレベルに達していない。 • 安全性、信頼性、有効性、プライバシーを確保するための大幅な追加研究 が必要である。 • 例:さまざまな臨床環境で使用するための厳格な品質評価、など 32
2. マルチモーダル • 医療は本質的にマルチモーダルであり、テキスト、画像、ゲ ノミクスなど、多様な媒体を包括的に扱うことが期待される。 • このような取組みを行うジェネラリスト生成医療AI (generalist biomedical AI)の取組みを紹介する。 • 要点: • 医療質問応答だけでなく、マンモグラフィー、皮膚画像読影、放射線レ ポート、ゲノム変異呼出しなど、14種のタスクを包含した共通ベンチ マークMultiMedBenchを作成 • 先述のMed-PaLMを当該ベンチマーク向けに調整したMed-PaLM Multimodel(略称Med-PaLM M)を作成 • Med-PaLM Mによって現実の臨床言語、画像処理、ゲノミクスなどの 医療データを解釈 • Med-PaLM Mの限界を調査するため、Med-PaLM M生成の胸部X線レ ポート結果と放射線科医師の判断とを比較 • わずかに放射線医師の方が正解率が高い結果が得られた。 33
マルチモーダル処理検討の枠組み • マルチモーダルデータを扱う各種タスクを同一AIモデルで処理する基礎モデルが 登場。この環境に向けてMultiMedBenchを構築 • これを活用して大規模ジェネラリスト生成AI モデル Med-PaLM Mを作成 皮膚科 MultiMedBench マンモグラフィー 医療質問 応答 ゲノミクス マンモグラフィー分類 医療視覚 質問応答 レントゲン写真 医用画像の 分類 皮膚科分類 ゲノム変異 呼出し Med-PaLM M 放射線科レ ポート要約 放射線科レ ポート作成 放射線科 レポート 医療視覚の 質問応答 放射線科レ ポート作成 ゲノム変異 呼出し 医療知識 病理学 MultiMedBench のモダリティとタスク 医療質問応答 放射線科レ ポート要約 :過去最高のスペシャリスト モデルの能力 : Med-PaLM Mの能力 34
パフォーマンスの比較手法 • Med-PaLM Mはタスク固有のカスタマイズを行わずに MultiMedBenchの複数タスクを処理できるモデルである。 • パフォーマンス比較は下記の2種が行なわれた。 A) Med-PaLM Mによるタスク処理と各専門AIモデルによ るシングルタスク処理間での比較: • 従来の専門AIモデルの中から最先端パフォーマンスのモデルを 選び、それとMed-PaLM Mとの比較を行った。 B) Med-PaLM Mによる処理と医師による処理の比較 : • 胸部X線レポートのMed-PaLM Mによる作成結果と放射線科医 師による判断との比較を実施した。 • 課題は、胸部X線画像から結核の有無を予測する問題 • Med-PaLM Mは結核を明示的に予測するようなトレーニングはされてい ない。 35
パフォーマンス比較の結果 A)• Med-PaLM M vs 専門AIモデル • 従来の専門AIモデル中で最先端パフォーマンスのモデルと 比較しても、同等あるいはそれ以上のパフォーマンスを 達成した。 • 12タスク中5タスクで既存の最先端パフォーマンスを上回った。 B)• Med-PaLM M vs 放射線科医師 • 4人の放射線科医師と比較しても、同等のパフォーマンス を達成した。 • 246症例に対して、Med-PaLM M生成結果と医師判断を比較し たところ、ほぼ同等レベルとの判断結果であった。 36
制限事項と今後の課題 制限事項 • ベンチマークのMultiMedBenchにはデータ・サイズなどで制 限がある。従って最適評価範囲は限定されており、多様な条 件への対応としては不充分であった。 • 一般用途向けに比べて医療データは定常的に不足しているの で、根本的な困難性を抱えている。 • 加えて、データの少ないモダリティが全体のパフォーマンス のボトルネックになるので、定常的に実施したいことと、少 ないモダリティ・データの収集が両立し難いことがある。 今後の課題 • モダリティの多様性の条件やデータサイズの制限の緩和が望 まれる。 • 多様なモダイティを活用した何らかのスケーリングを達成す る方式の開発が望まれる。 37
3. 臨床意思決定支援 • ChatGPTから多様な提案を受けられるのなら、それを 臨床医の意思決定に活用できないかとの問いは多くの関 心を集めている。 • そこで、ChatGPTからの提案と人間作成の提案を比較 した取組みを紹介する。 • 要点: • • • • 7つの項目について提案を生成するようにChatGPTに依頼 同じ項目に対して臨床医にも提案作成を依頼 合計してChatGPT提案36件、臨床医提案29件が提示 それらを独立の5人の臨床医が提案元を区別せずに下記視点などで分析 • 有用性、受容性、関連性、理解の容易性、など • 提案はスコア化され、最もスコアの高い上位20件の内、9件はChatGPT 提案であった。 • また、ChatGPT提案は独自の視点を保有しており、例えば、非常に理解 し易いなどがあった。これは将来の人間との役割分担を示唆する。 38
臨床意思決定支援検討の背景 • 電子医療記録(HER)の導入が進んでおり、医療データが着実に 蓄積されて来ている。 • その延長で各種アラートの膨張と、それに対する臨床医の意 思決定が、患者およびタスク固有の情報に基づいて提案され、 現場で処置される環境充実が可能な方向に向かっている。 • しかし、医療関係データ増大とアラート数の膨張は、これら を適切に処理する仕組みがないと、医療従事者の対応限界が 発生し、アラート疲れに直面する懸念がある。 • そこで、ChatGPTによる推奨提案と現場の臨床医とのコラボ レーションによる適切な対応とアラート疲れの解消が期待さ れる。 • その前提として、ChatGPT提案と医師提案の双方のレベル評 価と特性の把握が今後の活動の重要な出発点になる。 39
ChatGPT提案と医師提案の比較手法 • 場所を特定して実施: 選択されたアラートの一覧 VUMC(バンダービルト大学医療センター) • 電子医療記録(HER)はEpic Systemsを使用 • これから抽出した7つのアラート (右図)を分析 • 7つのアラートに対してChatGPT と医師から受け取った提案を5人 (医師4名+薬剤師1名)で評価 • 評価の仕方は各提案を提案元を除 き評価基準を定めて実施 • 5段階のアンケート形式でスコア化 • 参加者は情報学のトレーニングを受 け、専門分野に通暁している医師/薬 剤師 内容 1 免疫抑制された患者に対するウイルスワク チン注射の防止 2 手術後の吐き気や嘔吐の危険因子を持つ患 者の特定 3 気管支炎の小児に対する気管支拡張薬の不 適切使用または胸部X線写真の特定 4 1日6回を超える頻度で人工涙液を処方され た患者の特定 5 生後 8 週間を超えアレルギーを記録してい るもののの特定 6 妊娠中患者に対する非ステロイド性抗炎症 薬の注文の阻止 7 過去 7 日間に患者の国際正規化比 (INR) が 得られなかった場合、ワルファリンの注文 確認時に薬剤師に通知 40
結果 AI が生成した提案のスコア 1. 理解: この提案は理解できる。 2. 関連性: この提案には関連する概念が含まれている。 3. 有用性: この提案には、アラートの改善に役立つ概念が 含まれている。 4. 承認: この提案は編集せずに承認できる。 5. ワークフロー: この提案に基づいて、このアラート外の 臨床ワークフロー/プロセスへの変更を推奨する。 6. バイアス: この提案はバイアスにつながる可能性がある。 7. 反転: この提案は反転される (たとえば、提案された除 外は包含される必要がある)。 8. 冗長性: この提案は、既存のアラート論理と重複する。 全く同意しない 同意しない どちらともいえない 同意する 強く同意する 人間が生成した提案のスコア • ChatGPT生成提案と人間生成提案に 大きな差はなかった。 • 若干の違いの一例はChatGPT提案の 方が理解が容易で関連性が高かった。 • 逆に、ChatGPT提案の方が有用性と 受容性が低かった。 全く同意しない 同意しない どちらともいえない 同意する 強く同意する 41
制限事項と今後の課題 制限事項 • ChatGPTはプロンプトに敏感なため最適形式でのプロンプト 実行が試みられていないかもしれない。 • 評価は意思決定する専門家の観点から行い、必ずしも患者の 臨床処置の最終結果からのフィードバックは行われていない。 • ChatGPTは2021年以降の情報を学習していないので、その後 の医療ガイドラインや医薬品提案を踏まえていない。 今後の課題 • ChatGPTでは扱われていない医療事項データセットや専門論 文の追加など学習のレベルアップが必要である。 • アラート疲れの問題解決にChatGPT提案による補完は有用な 方向性の一つだが、ChatGPT提案の有用性が今一つ低いので 改善の余地がある。 42
第2節のまとめ 米国医師免許試験対応: • 多岐選択式質問には好成績を修められたが、患者からの多様な質 問では良い成績を修めることができなかった。 • プロンプト最適化で臨床医水準に近づけたがまだ差を残している。 マルチモーダル: • 4人の放射線医師との胸部X線レポートからの判断(結核有無判 定)では同等の成果をおさめられたが、汎用性については検証が 得られていない。 臨床意思決定支援: • 少数の選択されたアラートに対してではあるが、AIが生成した提 案が人間の提案と遜色ないことが確認された。人間の提案と異な る性格も確認されたので、人間を補完する可能性がある。 全体:限られた条件においてではあるが、人間の水準に近い成果 が得られつつある。 43
第3節 今後に向けて 前半(1.,2.)で、臨床に関わるその他の話題と倫理への取組みについて述べる。 1. 臨床現場への適応 • 医療サービスの中核である臨床対応へのLLM活用を再考する。 • 主として次の2側面に焦点をあてる。 • 臨床意思決定への支援 ① 鑑別診断リストの作成、意思決定およびその最適化、 癌スクリーニング、など関連するアプリケーションと 今後の方向性 ②• 医薬品開発の中核プロセスである臨床試験(治験)への対応 患者と治験のマッチング強化 臨床試験計画の合理化 技術文書作成の支援 患者からの認識的同意、など 44
① 臨床上の意思決定支援アプリケーションの例 • 臨床上の意思決定は複雑なプロセスであり、その過程で 認知バイアスや推論の誤りなどが発生する。 • 但し、現在使用可能なアプリケーションはChatGPTの優 れた特性を示していることも多い。 • 鑑別診断リストの作成:ChatGPTによって作成したリ ストの方がより高い診断精度を示した。 • 意思決定およびその最適化:既存臨床事例を入力し学 習した上での各種診断の提案の方が精度が高く理解し 易い提案になっていることも多い。 • 癌スクリーニング:乳癌スクリーニングは従来の方式 よりも精度が高かった。 45
臨床意思決定支援の方向性 • 次のような方向性が想定される。 ◆リアルタイム監視と予測分析:ウェアラブル装置のデータ などから患者データをモニタリングすることで症状悪化の早 期検出と介入が可能になる。 ◆精密医療と個別化された治療:遺伝情報など患者固有の データを分析しカスタマイズすることで、治療の推奨案を患 者毎に個別に提案できるようになる。 ◆遠隔医療:バーチャル世界での患者と医師のやりとりが促 進されることで自宅でのセルフケア支援ができるようになる。 ◆既存の医療システムとの統合:電子医療情報(HER)システム と既存システムを統合することで、幅広い情報に基づく高レ ベルの医療サービスが提供できるようになる。 • 但し、プライバシー、倫理、偏見、差別などの潜在的悪影 響を過小評価してはいけない。 46
② ChatGPTの臨床試験作業への貢献 • 臨床試験の実施には多大なリソース投入と深い専門知識 を持つスタッフの関与が必要である。 • 人的リソースとともに財政的負担も極めて大きい。 • この文脈の元に、臨床試験における高度ドキュメントの 作成、洞察に富んだ要約レポートの作成、複雑なテキス ト出力の自動化などで、ChatGPTは革新的な貢献を成し 得る領域は多い。 • このような視点からポイントとなる実施項目を次頁表に 示す。 47
臨床試験への大規模言語モデルの応用 応用分野 患者と治験のマッチングの 強化 臨床試験計画の合理化 フリーテキストの活用に関 するアプリケーション テクニカルライティングの 支援 認識上の同意の提供 詳細 LLM を使用して事前スクリーニ ングを自動化し、適格性基準の評 価を合理化し、出力の段階的な推 論を生成する。 大量のテキストデータを処理し、 簡単な説明から一貫したテキスト を生成し、臨床試験の結果を予測 する。 フリーテキストからのデータコー ディングの一貫性と精度を強化す る。 医療文書の作成を自動化し、表形 式のデータと自由形式のテキスト 間で変換を行う。 LLMを利用したチャットボット を通じて同意の理解を向上させ、 知識不足を補うテキストを生成す る。 関連する事例 医療プロファイルと適格基 準の相互参照 試験レベルの適格性スコア の予測 臨床試験データの要約 基準の説明の作成 試験結果の予測 電子医療記録の分類 演繹分析を必要とするテキ ストデータのコーディング 患者の退院概要の作成 放射線医学レポートの要約 LLM は最新の情報に基づ いて回答を提供 知識を評価し、ギャップを 埋める 48
2. 倫理面への考慮 ChatGPT利用に伴うリスク • 臨床現場でのChatGPT使用時にはプライバシー、倫理、 偏見、差別などの潜在的悪影響の評価が重要になる。 • また、ChatGPTトレーニング時に使用されたデータに起 因するバイアス再現への懸念もある。 • ChatGPT使用中に患者情報を保証するには暗号化、アク セス制御など、セキュリティ対策も必要になり、患者 データは匿名化が求められる。 • データ保護規定、患者プライバシー法、など関連する法 律、規制、ガイドラインの遵守も必要になる。 • そこで、医療分野にChatGPT適用の考え方を検討する。 49
医療分野にChatGPT適応の考え方 • 多様な切り口がありうるが、本節では主に次の2点に焦 点を当てる。 ① データ管理ワークフロー変革の取組み ② リスクと限界の評価ならびに責任ある設計、 開発、展開のための倫理的、技術的、文化 的アプローチ 50
① データ管理ワークフローの変革 • 基本的には医療分野にChatGPT適応は、「多くのワーク フローに大幅な効率向上をもたらす可能性があるものの、 誤った情報をもっともらしく提供する懸念のある不完全 なツール」と見做す必要がある。 • 根本的なLLMの仕組みから、ChatGPTは「確率的なオウム」で はないかと、激しい論争が巻き起こされたこともある。 • 従って、ChatGPTの生成内容を鵜呑みにすることは出来 ず、処理プロセスの操作インタフェース、入力/出力の両 方で、人間による厳格な監視とアクションが必要になる。 • しかし、このような制約を付してもなお、ChatGPTを活 用して効果を挙げられそうな箇所は多数に登る。 51
② 倫理的、技術的、文化的な様々のアプローチ • 生成AI技術を医療分野で有用かつ安定したツールに導くために は次のような点に焦点をあてる必要がある。 ◆説明責任:生成 AI アプリケーションが倫理的にリリースされ使用者も 納得できるフレームワーク提供が必要である。 ◆公平性:モデルのバイアスを軽減する措置が講じられ、倫理的に責任 ある AI 開発環境が提供されるべく相互に調整が必要である。 ◆データのプライバシーと選択:障害発生時に備えトレーニングデータ の選択と管理のための法的、倫理的枠組みを整備しておく必要がある。 ◆透明性: LLM は本質的に作業の背後にあるロジックを示せないので、 信頼性の高い作業を行えない状況を如何に担保するかを考慮する必要が ある。 ◆説明可能性:役割を担う人間に重要なデータポイントを提供し、生成 AI システムの設計機能を担えるような準備が必要である。 ◆価値と目的の調整:機械が人間の価値観や目的に従わない、または違 反する場合があるので、このような場合に生じる倫理的、実存的リスク を説明あるいは調整する枠組みが必要である。 52
3. おわりに 医療分野にChatGPT & AIが適用された未来 • 生成医療AIモデル(1節-2.)で想起したような未来が徐々に具体 的な姿を現し出してはいる。 • 今後の道程は長く険しそうだが、一方で実証研究の先端(2節) では刺激的で将来に期待を持てそうな結果も生み出している。 • このような進捗の延長線上に次のような未来の登場が期待(想 定)される。 • マルチモーダルな生成医療AIシステムが多様な医療 シーンに導入され、患者の幸福が増進される未来 • 多種のガイドラインが制定され、患者、医療従事者双 方が新たな環境に適応したリテラシーを身に付け、安 全が担保される未来 53
今後に向けて(暫定まとめ) • 医療分野へのChatGPT & AI適用は有望であり、臨床実践への パラダイム変革を起こす可能性を秘めている。 • 一方、臨床への適応を妨げる障壁も多く存在している。 • 基本的にはLLMはまだ症状と治療間の複雑な関係を理解する ために必要な医学的専門知識や背景理解が欠けている。 • 従って、ChatGPTからの推奨提案の品質は押しなべて低い。 • 但し、ChatGPTは現在手動入力が主だが、電子医療情報 (HER)などからデータを自動入力する形態に移行すれば、診断 精度、治療計画、退院への対応などが飛躍的に向上する可能 性もあり、より進んだ役割を担えるかもしれない。 • このような努力と患者のプライバシー確保など倫理面の課題 解決の両立をどのように確保するかが重要である。 • その一環として各種規制やガイドライン整備、教育の充実と リテラシーの向上が重要になってくる。 54
補足:“医療分野へのChatGPT活用” 探索の意義 • 医療業界は、ChatGPT適用可能な場面が多い、テキスト、画 像、音声などマルチモーダル環境が既に存在していることな どから、最初に多面的データを複雑に組合わせてサービス見 直しが進みそうな格好の場を提供している。 • この傾向は、ChatGPT適応の他業界/他企業でも追随する可能 性があり、医療業界の取組みは大きな示唆を与える。 • 従来は相関が分からなかった多方面のモダリティも、各種 データを全て入力してLLM活用を試みることで、異なる取組 みの方向性や洞察が示唆される可能性がある。 • そして、最終的には殆どの業界の既存サービスはLLMベース のデータ活用循環によって、多くの場合、サービス見直しが 発生する可能性がある。 • このような視点から医療業界の取組みを探索することは極め て意義深いと考える。 55
文献