[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

258 Views

July 19, 19

#deep learning #Deep Learning #Uncertainty Estimation #Batch Normalization #Variational Approximation #Deep Neural Network

スライド概要

2019/07/19
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.7K

各ページのテキスト

1 DEEP LEARNING JP [DL Papers] “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 2 タイトル： Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者： Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由： Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り，図・表・式は上記論文より引用したものです． Wakasugi, Panasonic Corp.

背景 3 深層学習を病気の診断や自動運転に適用する際，不確実性の推定は重要 ➢ 関連手法として，dropoutをガウス過程とみなし，不確実性を推定する方法[1]が提案されているが，現在ではdropoutを使ったアーキテクチャは少ない ➢ Batch Normalization（BN）を使い，不確実性を推定する手法を提案 mini-batch毎に規格化定数（平均，分散）が変動することを利用 ➢ 具体的には，変分近似とBNの等価性を示し， BNを使って分散が計算できることを示した． ➢ 左図は，提案手法により推定された信頼区間． [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015. Wakasugi, Panasonic Corp.

関連研究：Bayesian Modeling 4 点推定を行う深層学習において，確率モデルの導入と周辺化を行い，予測分布を定義点推定 ➢ 予測関数のパラメータの生成分布を導入し，さらに周辺化を行うことで，予測分布を計算． ➢ 計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算．ベイズ推定 Wakasugi, Panasonic Corp.

関連研究：Dropout as a Bayesian Approx. 5 Dropoutをベイズ近似とみなし，不確実性を算出 NNの計算過程をベイズ推定で記述 ➢ NNのパラメータ𝜔が周辺化対象 ➢ dropoutをベルヌーイ分布からのサンプリングとみなし， dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 [1] より引用 Dropoutを確率過程とみなす [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015. Wakasugi, Panasonic Corp.

関連研究：Multiplicative Normalizing Flows 6 𝑊の生成過程を計算容易かつ複雑な形式で定義 𝑾の事前分布を潜在変数𝒛を使って定義 ➢ 𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど)，かつ，計算が容易． [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017. Wakasugi, Panasonic Corp.

提案手法：変分近似としての目的関数 7 変分近似の目的関数を，mini-batchで学習できるように式変形 𝒑(𝝎|𝑫)を𝒒𝜽 (𝝎)で近似するときの目的関数 ➢ 一般的な式変形に加え、mini-batch(size M)の場合の目的関数に変形 ※ただし，このような式変形は先行文献[3]に習ったとのこと． mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016. Wakasugi, Panasonic Corp.

提案手法：BNによる学習 8 通常のBNにおける目的関数を導出目的関数（損失項+正則項） ➢ ➢ 一般的な目的関数の表式．変分近似の場合と同様に，mini-batch(size M)の場合の目的関数に変形 ➢ ネットワークパラメータを𝜃, 𝜔に分割．前者はバイアス，重みなど，後者はBNの平均分散を表す．（𝜏は先行文献に習って使われているが，本論分では特に言及はされない） mini-batchで学習する場合の目的関数 ※notationの変更 Wakasugi, Panasonic Corp.

変分近似とBNの等価性 9 第2項の微分が一致すれば，同様の学習をしているとみなせる変分近似の目的関数 ➢ ➢ 順序が逆転しているが変分近似の目的関数においても，𝜔 はBNの平均分散を指す． Ωとして、weight decayを考える． ➢ 各unitが無相関などの簡単な制約を課すと， 𝑝 𝜔 がガウス分布になることが示される． →一般的なネットワークにおいて両者が等価 ➢ 𝑞𝜃 (𝜔)はmini-batch毎に計算される平均分散に相当し，それ自身が同分布からのサンプリングとみなせる． BNの目的関数論理の流れの補足：変分近似において，𝑝 𝜔 に適当な制約を置く（無相関，ガウス分布など） →l2正則付きの，一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞𝜃 (𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 → Wakasugi, Panasonic Corp.

10.

予測の不確実性の計算 10 BNの学習によって，𝑞𝜃 (𝜔)を求め，予測の分散を算出ベイズ推定ＢＮによる期待値と共分散の計算 ➢ 左記ベイズ推定の式に相当する計算を実施可能 ➢ 具体的には，下記のようにして，𝑞𝜃 (𝜔)のサンプリング（相当？）を実施．学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞𝜃 (𝜔)の代わりとする →ｙの期待値，共分散を算出 Wakasugi, Panasonic Corp.

11.

性能評価指標 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価 Predictive Log Likelihood Continuous Ranked Probability Score ➢ これそのままでは，評価指標には出来ないため， Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化． ➢ Constant Uncertaintyは共通のUncertaintyでPLLまたはCRPSを最適化した値． Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値． ➢ ※𝐹(𝑦)は累積密度分布 Wakasugi, Panasonic Corp.

12.

比較結果 12 UCIデータセットを用いて，2指標について性能を比較 ➢ ➢ • 最大100と考えると，かなり性能が悪いが，そもそもLower Boundといっても最適化した値なので難しい Lower Bound（Constant Uncertainty）を優位に超えているものを*で表記既存手法を上回ったという主張だが，解釈が難しい． MCBN（Monte Calro Batch Normalization，提案手法） MCDO（Monte Calro Dropout） MNF（Multiplicative Normalizing Flows） Wakasugi, Panasonic Corp.

13.

Uncertaintyの解析と可視化 13 Uncertainty-errorプロットとセグメンテーション時の可視化で，有効性を確認 ➢ 左２列は，灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い ➢ 右２列は異なるデータセットに対し提案手法で Uncertaintyを可視化した理論上batch-sizeが大きいほうが良く，メモリの関係で最右列のほうが良い推定になっているらしい ➢ Wakasugi, Panasonic Corp.

14.

推論時のサンプリング回数の影響 14 mini-batchのサンプリング回数を変えたときのPLLを検証 mini-batchのサンプル回数毎のPLL ➢ ➢ ResNet32，Cifar10，batch size32で検証サンプリング回数を増やすと，PLLが向上（かつ収束） Wakasugi, Panasonic Corp.

15.

まとめ 15 ➢ BNに基づくUncertaintyの推定方法を提案し，従来法を上回る性能を実現 ➢ 提案手法の理論検証および実験検証を行い，有効性を示した． ➢ BNを使っていれば適用可能で，アーキテクチャの修正や，再学習が不要．計算コストも小さい． Wakasugi, Panasonic Corp.

16.

雑感 • Uncertaintyは重要ではあるが，その定量評価は難しい． • ベイズ最適化や強化学習の枠組みであれば比較しやすいが，それはしていなかった．先行文献では強化学習を使った検証もしている． • 全体としては，決定論的なＮＮにおいて，ランダム性を含む処理を考えて，そこを変分ベイズとして扱って，予測分布を計算可能にしている，というところか． 16 Wakasugi, Panasonic Corp.