>100 Views
January 09, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年度後期 第12回輪読会 【物体検出】 U-Net 京都大学 工学部 4回生 河田 賢斗 1
アジェンダ 本スライドは、U-Netに関する論文(https://arxiv.org/abs/1505.04597) をもとに構成する ■ Introduction ■ Network Architecture Training Training –概要 Training –Data Augmentation Experiments Conclusion 2
Introduction 100万枚もの訓練用の画像を有する ImageNet のデータセットによって数百万ものパラメー タと8つのレイヤを有する大規模なネットワークが訓練されたことにより(by Krizhevsky et al.) 畳み込みネットワークの進展(breakthrough) が見られた →以来、より大規模かつ深層なネットワークが訓練されてきている 畳み込みネットワークの主な用途は「classification tasks(クラス分類)」である →特に、生物医学的な画像処理では「localization」の概念が大切 (各ピクセルにクラス分類用 ラベルをあてはめたい) → Ciresan はラベルを予測したいピクセルの周辺に patch (local region) をinput ととして与え ることで、slidimg-window 方式のネットワークを訓練した (EM segmentation challenge at ISBI 2012 にて大差で勝利) ただし、欠点が2つ浮上 A. ネットワークの速度が非常に遅いこと B. 「localization accuracy」(ミクロな正確性) と「use of context」(文脈の考慮) を同時に満足 し難い 3
Introduction 近年の手法では多数のレイヤからの出力を考慮する分類器が提案されている 本論文では、「fully convolutional network」と呼ばれるネットワークを構築する →非常に少ない訓練用画像を用いて、より正確性の高い分類結果を出力する (構造の詳細は次ページのFig1を参照) 4
Introduction 5
Introduction Fig1について (入力画像) 572×572 pixel →ネットワークを通じて特徴が抽出される (出力画像) 388×388 pixel →画像中の各ピクセルに対応するセグメンテーションラベルを表示 (処理の流れ) A. エンコーダ部分(contracting path) (Fig1の左側) 1. conv 3×3, ReLU 2. Max Pool 2×2 (畳み込みとダウンサンプリングのセット) B. ボトルネック部分(bottleneck) 最も抽象度の高い特徴マップ(解像度は最も低い)に達する→チャネル数が最大となる C. デコーダ部分(expanding path)(Fig1の右側) 1. アップサンプリングで解像度を元に戻す 2. contracting path で得られた解像度の特徴マップを、スキップ接続により結合 3. conv 3×3, ReLU (畳み込みとReLUで特徴を再構築) 6
Introduction U-Net の名前の由来について U-Netでは左側(contracting path) で解像度を縮小して抽象的な特徴を学習することに対して、右側 (expanding path) で特徴を復元させて、高解像度の詳細を取り戻す 上で詳細を記載したとおり、 contracting path 及び expanding path では 3×3の畳み込み(conv 3×3)と2×2のプーリング(左側 では max pooling・右側ではup-conv) の操作が繰り返される →収縮部分(左側)と拡張部分(右側)が対称的に配置されるため、全体として「U字型」の構造となる Upsampling 部分で特徴チャネルを多く持つ U-Netでは、expanding path (右側の拡張部分) で解像度を元に戻す際にも多くの特徴チャネ ルを維持する →低解像度層(Fig1では下部層)で学習した抽象的で広域的な情報を、高解像度層(Fig1では上 部層) にしっかりと反映することが出来る これにより、画像全体の意味をセグメンテーションに利用可能となる 7
Introduction 特徴的な事柄 U-Net は全結合層を持たない (効率的な計算・位置関係を保持・任意のサイズの入力画像を処理可能) 有効畳み込みを使用する (畳み込み演算にて、完全な文脈が得られる部分(有効領域)のみを利用する) 入力画像にて完全なコンテキストが得られる領域のみを segmentation の対象とする →サイズの大きな画像を over-tile strategy (Fig2) を使用してセグメントすることが可能となる (画像の境界部分におけるピクセルを予測するためには、入力画像を反転して情報を補う手法が 有効である) Fig2は次ページを参照 8
Introduction 9
Introduction データ拡張 訓練データが不足しているため、elastic deformations (弾性変形) を用いる (利点) Invariance to deformation (変形に対する不変性) を学習することが出来る →変形が含まれているデータ画像セットを必要としない ∴生物医学分野のセグメンテーションにおいて非常に有用である (組織や臓器の変形(CTスキャンやMRI)は一般的/変形を効率的にシミュレーション可能) Dosovitskiy により、不変性を学習するためにデータ拡張が重要であることが示された 10
Introduction 同じクラス内に属する接触している物体について 同じクラス内であるため、接触部の境界が不明瞭であるケースが多い Ex. HeLa cells (Fig3) (※Fig3は次ページで表示) →接触部で物体を分離することが困難である →重み付き損失関数を利用し、接触部の境界部に損失関数上で大きな重みを与える 結果として多様な生物医学的なセグメンテーションにU-Netを適用可能となる 本論文では、 A. 電子顕微鏡(EM)で撮影されたスタック(画像群)の segmentation に関する結果 (Ciresan et al. のネットワークを圧倒した) B. ISBI cell tracking challenge 2015 において光学顕微鏡の画像を用いた細胞 の segmentation に関する結果(2D透過光データセットにより大差をつけて優勝) 11
Introduction 12
Network Architecture U-Net の Architecture について Fig1に示す通り、左側(contracting path) と右側(expansive path) に大別出来る Contracting path : 従来の畳み込みネットワークの構造に類似 3×3の畳み込み → ReLU関数 → 2×2 max-pooling (downsampling) downsampling の各ステップではチャネル数を2倍してゆく Expansive path : up-conv 2×2 (upsampling) → concatenation (連結) with the correspondingly cropped (同じ解 像度やスケール) feature map from contracting path → 2つの 3×3 conv & ReLU (畳み込み) 解像度を一致させるため (畳み込みでは境界ピクセルが失われてしまう) cropping が重要 最終層では、 64成分の特徴ベクトルを目的のクラス数に map するため1×1 の畳み込みが用 いられる ネットワーク全体では 23もの畳み込み層を有する シームレスな segmentation を可能にするためには (Fig2参照)、全ての2×2 max-pooling 操 作が、入力タイルの幅(x方向)と高さ(y方向)が偶数である層に適用されるようinput tile size (入力タイルサイズ) を設定する必要がある 13
Training –概要 訓練について 入力画像とセグメンテーションマップを用いて Caffe (Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadar rama, S., Darrell, T.: Ca e: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]) の stochastic gradient descent (確率的勾配降下法) によりネットワークを訓練する 大きなバッチサイズよりも大きな入力タイルを優先してバッチサイズを1とする (GPUメモリを最大限に活用し、overhead を最小限に抑えるため) 高いモメンタム (0.99) を採用しており、多くの過去の training samples が現在の最適化ス テップにおける更新を決定づける (高いモメンタム値を設定することで過去の勾配情報が大きく影響を与える) エネルギー関数は、最終の特徴マップに基づき各ピクセル毎の soft-max とクロスエントロ ピー損失関数を組み合わせて計算される soft-max : 14
Training –概要(右辺) の はピクセルの位置 activation) での特徴チャネル における活性化値を示す(denote the はクラスの数を表し、 (左辺)の値は近似的な最大値である Cross-entropy 損失を導入することで、モデルが出力したクラス確率(soft-max関数による)と1 との値のズレを計算する(以下に損失関数を添付する) は各ピクセルに与えるweight map (重みマップ/分布)であり、訓練時に各ピクセルにおけ る重要度を与えるために導入されている における正解ラベル に対応するクラスの予測確率であり、確率が 0 に 近い場合は損失が大きくなり、反対に 1 に近づくと損失が小さくなる ( ) はピクセル 15
Training –概要 トレーニングを始める前に正解データに基づき重みマップを先に計算する (訓練データセットにおいてクラス毎のピクセル数に偏りがあるため、これを補正する & 接 触する細胞間の境界に高い重みを与えて重要度を高める) (Fig 3 c, d 参照) 接触している細胞の分離境界(Fig 3 参照) を形態学的演算 (morphological operations)により計算 し、(接触している細胞を分離させるための境界を生成する) 重みマップ(weight map)を算出する (以下に式を添付する) ※重みマップでは、データセット内で頻度の少ないクラスや細胞間の接触部での重みを高い 値と設定することが大切である 𝑤 はクラス間での重みのばらつきを均衡化するための重みであり、𝑑 及び 𝑑 は各々最も 近い細胞、2番目に近い細胞の境界との距離である 16
Training –概要 重みの初期化について 多くの畳み込み層を有し、ネットワーク内に様々な経路がある場合、重みに関する初期化の 設定はとても大切である (ネットワーク上のある部分では過剰な活性化が生じる可能性がある一方で、他の部分は全 く寄与しない可能性もある) 畳み込み層とReLU層が交互に配置されたネットワークの場合、初期の重みは標準偏差が のガウス分布から得られる (ここで、 は1つのニューロンに対する入力ノード数である) 17
Training – Data Augmentation Data Augmentation (データ拡張) の重要性 データ拡張は、U-Net に対して不変性及びロバスト性の特性を与える 特に顕微鏡画像に関しては、変形やグレー値に対するロバスト性及び移動や回転に対する不 変性が求められる 訓練用のサンプル画像に対する random elastic deformation (ランダムに線形変形特性を与え る) は、セグメンテーション用のネットワークを訓練する上で重要な概念である 18
Training –Experiment 実験結果 3つの異なる segmentation task に u-net を適用する A. 電子顕微鏡内のニューロン segmentation データセット (EM segmentation challenge (WWW:Webpageof the em segmentation challenge, http://brainiac2.mit.edu/ isbi_challenge/) ) と得られた segmentation の図はFig2 で示すとおり 訓練データは 512×512 ピクセルの 30 枚におよぶショウジョウバエの幼虫における腹側神 経索 (VNC)に関する画像 →各画像には、細胞(白色)及び膜(黒色)に対応するセグメンテーションマップが付随して いる ※ test set は公開されているが、それらのsegmentation マップは公開されていない ※ 評価は膜の確率マップを organizer に送信することで行われる (評価は確率マップを 10 の異なるレベルで閾値化し、ワープ誤差/ ランド誤差 / ピクセ ル誤差 を計算することで実行される) 19
Training –Experiment 実験結果 3つの異なる segmentation task に u-net を適用する A. ①電子顕微鏡内のニューロン segmentation データセット (EM segmentation challenge (WWW:Webpageof the em segmentation challenge, http://brainiac2.mit.edu/ isbi_challenge/) ) と得られた segmentation の図はFig2 で示すとおり 訓練データは 512×512 ピクセルの 30 枚におよぶショウジョウバエの幼虫における腹側神 経索 (VNC)に関する画像 →各画像には、細胞(白色)及び膜(黒色)に対応するセグメンテーションマップが付随して いる ※ test set は公開されているが、それらのsegmentation マップは公開されていない ※ 評価は膜の確率マップを organizer に送信することで行われる (評価は確率マップを 10 の異なるレベルで閾値化し、ワープ誤差/ ランド誤差 / ピクセ ル誤差 を計算することで実行される) 20
Training –Experiment EM segmentation challenge の結果(Warping Error 順に並び替え) 以下のTable1が結果を示した表である 21
Training –Experiment Sliding-window 方式の畳み込みネットワークの方式(by Ciresan et al.) よりも顕著によいパ フォーマンスを示す (Table1のIDSIAを参照) Rand error の観点では、本データセットを用いるアルゴリズムにおいてより良い結果を残す ものは、Ciresan による確率マップに適用された、高度にデータセット特化した後処理方法 B. 光学顕微鏡による画像での細胞の segmentation task 本タスクはISBI cell tracking challenge 2014 & 2015 の一部である ISBI tracking challenge 2015のIOUに関する結果を表示する 22
Training –Experiment ② 1つ目のデータセット “PhC-U373”(位相差顕微鏡により記録されたポリアクリルミド基質 中の Glioblastoma-astrocytoma が含まれる) ※ 35もの annotated training set を有する ここでは、IOUの値が約0.92となり second-best と比較しても顕著な結果を残す ③ 2つ目のデータセット ”DIC-HeLa” はDIC顕微鏡により記録されたガラス上のHeLa細胞で ある ※20ものannotated training image を有する ここでは、IOUの値が77.5%であり second-best と比較しても大幅に良い精度を示す 以上①~③の3種類にわたるsegmentation task による結果において、 U-Netが最も精度の高い 結果を示す 23
Conclusion 種々の生医学的なセグメンテーションタスクに対して非常によいパフォーマンスを示す Elastic deformation (弾性変形) によるデータ拡張(data augmentation) により 注釈つき訓練画 像の枚数を抑えることができ、かつNVidia Titan GPU(6GB) による訓練時間はわずか10時間 程度である 様々なタスクへU-Net を活用することが期待される 24