[DL Hacks]Privacy-preserving generative deep neural networks support clinical data sharing

111 Views

March 23, 18

#AC-GAN #医療データ #データプライバシー #データ生成 #データ共有

スライド概要

2018/02/05
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.7K

各ページのテキスト

Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones, Zhiwei Steven Wu, Chris Williams, James Brian Byrd, Casey S. Greene 古賀樹 2018.1.29 理学部情報科学科 1

CONTENTS • Introduction • GAN (AC-GAN) • Evaluation • Conclusion 2

INTRODUCTION 3

書誌情報 Privacy-preserving generative deep neural networks support clinical data sharing Brett K. Beaulieu-Jones (1), Zhiwei Steven Wu (2) , Chris Williams(1), James Brian Byrd (3), Casey S. Greene(1) (1)Perelman School of Medicine, University of Pennsylvania (2)School of Engineering and Applied Sciences, University of Pennsylvania (3)University of Michigan Medical School • www.biorxiv.org に投稿された preprint の論文 • 2017年7月に初版が投稿された 4

論文の目的 • 医療データを個人が特定できない形で生成することで研究者同士が医療データをシェアできるようにすること • 単に匿名化しただけでは個人が特定できないとは言えない • 医療データの生成方法としてGAN (AC-GAN)を採用 5

医療データの特徴 • • (今回) 臨床データ(病院での検査結果) • 時系列データ • 欠損値が多い画像データ(レントゲン写真など)、ゲノムデータなども最近は扱われる 6

医療データシェアの現状・問題点 • 研究などに用いられる医療データはシェアされないことが多い • データシェアをすることのメリットを検証するために、医療データを用いたコンペが開催されることもある (ex: SPRINT Data Analysis Challenge) • データがシェアされる際に、同意書の記入や倫理審査が必要 • 審査に時間的、人員的コストが多くかかってしまう 7

現状への解決策 • Gibbs Sampler を用いたデータ生成 Perturbed Gibbs Samplers for Generating Large-Scale Privacy-Safe Synthetic Health Data • GAN を用いたデータ生成 (<-今回紹介) 「プライバシーの保護がなされているか」は「差分プライバシー」によって判断される 8

(参考) 差分プライバシー * Neighboring dataset: あるデータセットと1要素のみ異なるデータセット = “post-processing” をしても差分プライバシーは満たされる 9

10.

今回の論文の優位性 • 論文では直接言及されていない • 複雑な分布からのデータ生成はGANの方が(Gibbs Samplerなどに比べて)強い…？ • Goodfellow氏もGANによる医療データ生成の可能性について言及している 10

11.

GAN (AC-GAN) 11

12.

今回のデータ生成について • SPRINT Clinical Trail Data • intensive treatment group: 収縮期血圧を < 120mmHg に standard treatment group: 収縮期血圧を < 140mmHg に • • 患者が intensive / standard treatment group のどちらにいたのか • 収縮期血圧、拡張期血圧、薬の処方回数を12計測分 (3 x 12) • データ数(N): 6502 (train: 6000, test: 502) 上のようなデータを、groupを指定してAC-GAN(既存手法)により生成する 12

13.

AC-GAN • Conditional Image Synthesis With Auxiliary Classiﬁer GANs (ICML 2017) https://arxiv.org/abs/1610.09585 • 通常のGANにClassの情報を付加する 13

https://arxiv.org/abs/1610.09585

14.

AC-GAN 損失関数は以下 14

15.

今回のAC-GANの構成(工夫) • Generator • • Input: noise + label(intensive / standard) Discriminator • Output: real / fake + label(intensive / standard) 15

16.

今回のGANの構成(工夫) • 通常のACGANに加えてプライバシーの保護 (差分プライバシー)を行う必要本物のデータに直接触るのはDiscriminatorのみ (generator は “post-processing” なので気にしなくて良い) privateなdiscriminatorでは以下を逆伝播の勾配に対して行う (比較のため以下を行わない non-private な discriminator を用意する) • L2ノルムをclipする • clipの閾値の大きさに比例した分散を持つ正規分布からサンプリングされた値を足す 16

17.

EVALUATION 17

18.

評価方法 • データの分布 • データの相関 • 臨床医によるデータの評価 • 機械学習による分類タスク性能 • 異なるデータセットでの検証 • 差分プライバシーの評価 18

19.

データの分布 Logistic回帰とRandom Forestのスコアが良い5 epochずつ(計10 epoch分)のgeneratorから生成されたデータ(D)が最も良い 19

20.

データの相関 Privateな生成データはノイズはあるが傾向をある程度掴んでいる (Spearman correlation = 0.8787, p-value = 7.692-204) 20

21.

臨床医によるデータの評価どの程度本物に見えるかを臨床医が0-10点で評価 21

22.

機械学習による分類タスク性能 treatment group の分類タスクの結果 22

23.

機械学習による分類タスク性能 23

24.

異なるデータセットでの検証 MIMIC Critical Care Databaseでの結果 24

25.

差分プライバシーの評価 (ε, δ)は生データにアクセスする度に累積して大きくなる (計算方法は Deep learning with differential privacy を参照) top 10 epoch を選ぶ際の(ε, δ)と合わせて(2.5, 10^-5)を達成 25

26.

CONCLUSION 26

27.

結論・今後の展望 • AC-GANで医療データを(2.5, 10^-5)-差分プライバシーの下で元データの特徴を「ある程度」残したまま生成できる • そもそもGANを使う必要性、優位性がどの程度あるのかについての調査 • 一般に当てはめるときにテンソルのshapeをどのように決めればいいかについての検討 27