[DL輪読会]Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?

132 Views

July 21, 17

スライド概要

2017/7/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

20170721 DL 会 医学系研究科 山口亮平

2.

論文を選んだ理由 • 医療画像の分類をCNNで行なっているが、学習がうまくいかな い • サンプル数の少なさ、データの極端な偏り(正例:負例=20:1 など)が避けられない。 • 異なる領域の画像認識に、ImageNetのような一般画像認識で 学習したネットワークを使用する転移学習が有用かどうか?に 興味があった。 • 転移学習って、どの層まで転移学習すれば良いのか?も知りた い。

4.

論文概要 • 単に「Fine Tuningした方が良いか」ではなく、「どの深さまでFine Tuning(FT)すべきか」まで考察する。 全層FT vs 一部だけFT vs FTなし、で比べる。 • FTの及ぼす影響を、サンプル数を変えて考察する。 • やや一般画像とは性質が異なる医療画像に対して、Alexnetからの FTが有用かどうかを考察する。 • タスクとしては、detection,classification,segmentationを含む、4 種類の実験を行なった。

5.

実験 • 次の四種類のタスクに対して、FTの影響を確認した。 • 全てに対してAlexNetを用いた(caffe使用) • Train80% Validation 20% の cross-validation • Validation accuracyが最小になったら学習終了 • FTしない場合、weightの初期値はガウシアン分布 • 学習の際は、downsamplingして正例負例を同じ数にした • 学習率/減衰率は以下のTableⅡのように固定(探索的に決めた)

6.

実験 • 次の四種類のタスクに対して、FTの影響を確認した。 • 全てに対してAlexNetを用いた(caffe使用) • Train80% Validation 20% の cross-validation • Validation accuracyが最小になったら学習終了 • FTしない場合、weightの初期値はガウシアン分布 • 学習の際は、downsamplingして正例負例を同じ数にした • 学習率/減衰率は以下のTableⅡのように固定(探索的に決めた)

7.

実験1: 内視鏡でポリープdetection

8.

実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。

9.

実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。

10.

実験A: 内視鏡でポリープdetection • 内視鏡・・・動画になっているので、フレーム画像を選ぶ • 候補領域(candidate)をhandcraftで抽出 • Candidateの中でpatchを少しずつずらしていきながら、ポリー プである確率を平均して算出。 • FROC カーブにて評価 • patch数はtrainingで100,000個。

11.

実験A 結果;どの層までFTするとよいか?

12.

実験A 結果 Hand-craftはまったくダメ FTは全層したものがもっとも良い性能を示した。

13.

実験A結果;サンプル数による影響

14.

実験A結果;サンプル数による影響 サンプル数が少なければ少ないほど、 FTの影響は大きい

15.

実験B“ 肺塞栓のdetection • 肺のCTから、病変をdetectionする。 • Augmentationなどを行い、81000枚のtrain画像

16.

実験B“ 肺塞栓のdetection • 肺のCTから、病変をdetectionする。 • Augmentationなどを行い、81000枚のtrain画像 • 2チャンネルの画像を入力とする(AlexNetに合わせるため、二 つ目のチャンネルを二個使用)

17.

実験B“ 肺塞栓のdetection 入力画像

18.

実験B“ 肺塞栓のdetection 3チャンねる

19.

実験B結果

20.

実験B結果 Sensitivityが高いのは、やはりconv1-fc8;FT Handcraftが割と健闘している(handcraft featureの特異 性が高いとのこと)

21.

実験B結果;サンプル数による影響

22.

実験B結果;サンプル数による影響 サンプル数が少なければ少ないほど、 FTの影響は大きい

23.

実験C:内視鏡画像が適切かどうか classification task

24.

実験C:内視鏡画像が適切かどうか classification task ❌❌❌

25.

実験C:内視鏡画像が適切かどうか classification task • Training 40,000枚の画像 • ランダムに切り出し、適切である確率の平均値を算出

26.

実験C 結果

27.

実験C 結果 FT;conv5-fc8が精度がもっとも性能がよかった(全層FTするよりも!) 理由;おそらく、ImageNetで学習されていた浅い層で学習された特徴が、この タスクに適していた→だから浅い層のFTは余計なものだった可能性あり

28.

実験C;サンプル数の影響 サンプル数が少なければ少ないほど、 FTの影響は大きい

29.

結論 • 医療画像へのFTは有用。 • サンプル数がすくなければ少ないほど、FTは有用。 • FTの元になった画像群と、分類しようとする画像群との間との、 類似性が影響している可能性あり。