[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

>100 Views

July 19, 19

スライド概要

2019/07/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 DEEP LEARNING JP [DL Papers] “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

2.

書誌情報 2 タイトル: Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. Wakasugi, Panasonic Corp.

3.

背景 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要 ➢ 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない ➢ Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用 ➢ 具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した. ➢ 左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015. Wakasugi, Panasonic Corp.

4.

関連研究:Bayesian Modeling 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義 点推定 ➢ 予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算. ➢ 計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. ベイズ推定 Wakasugi, Panasonic Corp.

5.

関連研究:Dropout as a Bayesian Approx. 5 Dropoutをベイズ近似とみなし,不確実性を算出 NNの計算過程をベイズ推定で記述 ➢ NNのパラメータ𝜔が周辺化対象 ➢ dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 [1] より引用 Dropoutを確率過程とみなす [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015. Wakasugi, Panasonic Corp.

6.

関連研究:Multiplicative Normalizing Flows 6 𝑊の生成過程を計算容易かつ複雑な形式で定義 𝑾の事前分布を潜在変数𝒛を使って定義 ➢ 𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017. Wakasugi, Panasonic Corp.

7.

提案手法:変分近似としての目的関数 7 変分近似の目的関数を,mini-batchで学習できるように式変形 𝒑(𝝎|𝑫)を𝒒𝜽 (𝝎)で近似するときの目的関数 ➢ 一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016. Wakasugi, Panasonic Corp.

8.

提案手法:BNによる学習 8 通常のBNにおける目的関数を導出 目的関数(損失項+正則項) ➢ ➢ 一般的な目的関数の表式. 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形 ➢ ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) mini-batchで学習する場合の目的関数 ※notationの変更 Wakasugi, Panasonic Corp.

9.

変分近似とBNの等価性 9 第2項の微分が一致すれば,同様の学習をしているとみなせる 変分近似の目的関数 ➢ ➢ 順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す. Ωとして、weight decayを考える. ➢ 各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価 ➢ 𝑞𝜃 (𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞𝜃 (𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 → Wakasugi, Panasonic Corp.

10.

予測の不確実性の計算 10 BNの学習によって,𝑞𝜃 (𝜔)を求め,予測の分散を算出 ベイズ推定 BNによる期待値と共分散の計算 ➢ 左記ベイズ推定の式に相当する計算を実施可能 ➢ 具体的には,下記のようにして,𝑞𝜃 (𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞𝜃 (𝜔)の代わりとする →yの期待値,共分散を算出 Wakasugi, Panasonic Corp.

11.

性能評価指標 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価 Predictive Log Likelihood Continuous Ranked Probability Score ➢ これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化. ➢ Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値. Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. ➢ ※𝐹(𝑦)は累積密度分布 Wakasugi, Panasonic Corp.

12.

比較結果 12 UCIデータセットを用いて,2指標について性能を比較 ➢ ➢ • 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 既存手法を上回ったという主張だが,解釈が難しい. MCBN(Monte Calro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows) Wakasugi, Panasonic Corp.

13.

Uncertaintyの解析と可視化 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認 ➢ 左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い ➢ 右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した 理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい ➢ Wakasugi, Panasonic Corp.

14.

推論時のサンプリング回数の影響 14 mini-batchのサンプリング回数を変えたときのPLLを検証 mini-batchのサンプル回数毎のPLL ➢ ➢ ResNet32,Cifar10,batch size32で検証 サンプリング回数を増やすと,PLLが向上(かつ収束) Wakasugi, Panasonic Corp.

15.

まとめ 15 ➢ BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現 ➢ 提案手法の理論検証および実験検証を行い,有効性を示した. ➢ BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい. Wakasugi, Panasonic Corp.

16.

雑感 • Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか. 16 Wakasugi, Panasonic Corp.