600 Views
January 18, 19
スライド概要
2019/01/18
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] “SOM-VAE: Interpretable Discrete Representation Learning on Time Series (ICLR2019)” Naoki Nonaka http://deeplearning.jp/ 1
書誌情報 • 会議:ICLR 2019 (Poster; 9, 6, 6) • 著者:Vincent Fortuinら(ETH) • 引⽤:1件(2019/01/15時点) • 著者実装:https://github.com/ratschlab/SOM-VAE (図表は紹介する論⽂中のものを使⽤) 2019/1/17 2
概要 問題:時系列データの表現学習アルゴリズムは解釈が難しい 滑らかに変化し,低次元空間で表させるようにしたい 深層⽣成モデル:表現学習として成功している ⾃⼰組織化写像(SOM):離散的で時間的な滑らかさを持つ空間を導出できる ⾃⼰組織化写像 + 深層⽣成モデル (優れた精度でクラスタリングができ,滑らかで解釈可能な表現を得られる) 2019/1/17 3
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) n SOM-VAE-prob SOM + VAEに加えて,時系列性を考慮するために,マルコフモデルを加える n SOM-VAE マルコフモデルなしの⼿法 2019/1/17 4
提案手法: 2019/1/17 ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) 5
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) VAE 2019/1/17 6
提案手法: 2019/1/17 ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) 7
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) e1 対応 e2 e3 … … Embeddingの辞書 2019/1/17 ek 格子点 8
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) zq が || ze - e ||2を最小にする e と 一致するときに1,それ以外で0となる分布 -> || ze - e ||2を最小にする e を返す(Deterministic) zq は ze に最も近いembedding集合E内の点となる 2019/1/17 9
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) SOM-VAEの損失関数 2019/1/17 10
SOM-VAEの損失関数:3項からなる 再構成誤差を測る項: xqとxeの2つの再構成誤差からなる Encodingと対応するSOMの点が近くなるようにする SOMに関わる損失 2019/1/17 11
SOM-VAEの損失関数:3項からなる 再構成誤差を測る項: xqとxeの2つの再構成誤差からなる :zq(x) がInformativeな表現となるようにする :ze(x) がInformativeな表現となるようにする Encodingと対応するSOMの点が近くなるようにする 2019/1/17 12
SOM-VAEの損失関数:3項からなる zq(x) の近傍(上下左右)のノードもzeに近づくようにする => 近接するノードが似た値を取るようになる sg:勾配停止演算子 順伝播時:出力を変化させない 逆伝播時:勾配を0にする 2019/1/17 13
提案手法: ⾃⼰組織化写像(SOM) + 深層⽣成モデル(VAE) n SOM-VAE-prob SOM + VAEに加えて,時系列性を考慮するために,マルコフモデルを加える n SOM-VAE マルコフモデルなしの⼿法 2019/1/17 14
Smoothness over Time 2019/1/17 15
Smoothness over Time マルコフモデルにおける状態 zq(xt-1) から状態 zq(xt) までの遷移の確率 この項では,マルコフモデルにおける遷移確率の対数を大きくしようとする すなわち,時系列上で近接する状態間の遷移が起こりやすいようにしている 2019/1/17 16
Smoothness over Time 状態 zq(xt-1) からembeddingの各点への遷移を考え, embedding内の各点と ze(xt) のノルムの期待値を取る 2019/1/17 17
実験 MNIST、Fashion-MNIST、これら2つのデータセットを線形補間する ことで作成した時系列データ、カオス力学系から得られた時系列、 実世界の医療データで検証。 確認したこと 1. 他の手法と比較して優れたクラスタリング性能 2. クラスタリングの性能を向上させると同時に,最尤解と同等の 時間的確率モデルをクラスタリングと同時に学習できる 3. カオス力学系についての解釈可能な表現を学習し, 実医療データでパターンを発見 2019/1/17 18
評価指標:purity vs. NMI データが属する真のクラスラベル集合 アルゴリズムで分類されるラベルの集合 Purity • Nは総データ数 • 各クラスタにどの程度正しい データを割り当てられるかの精度 • クラスタ数を増やせば⾼くなる 2019/1/17 NMI (Normalized Mutual Information) • Hはエントロピー,Iは相互情報量 • クラスタ数を考慮して精度を評価 できる 19
実験 1.クラスタリング性能の評価 2.マルコフモデルを加えた影響の評価 1.マルコフモデルの性能 2.クラスタリング性能への影響 3.⼈⼯の時系列データを⽤いた検証 4.実世界時系列データを⽤いた検証 2019/1/17 20
クラスタリング性能の評価 • ⽐較⼿法 – – – – – k-means VQ-VAE SOM (Standard) GB-SOM (勾配計算によるSOM) SOM-VAE • 評価基準 – Purity – NMI (Normalized Mutual Information) 2019/1/17 21
クラスタリング性能の評価 *付きは著者らの手法 n (SOM-VAE vs. VQ-VAE) => SOMによりクラスタリング精度が改善 n (SOM-VAE vs. GB-SOM) => VAEによりクラスタリング精度が改善 n (SOM-VAE vs. gradcopy) => 勾配複製よりも再構成誤差にzeを加える方が良い n (GB-SOM vs. minisom) => 勾配情報により学習した方が従来のSOMより良い n no_grads: 勾配複製なし,zeもなし = Encoderに情報が戻らない 2019/1/17 22
実験 1.クラスタリング性能の評価 → 優れたクラスタリング性能 2.マルコフモデルを加えた影響の評価 1.マルコフモデルの性能 2.クラスタリング性能への影響 3.⼈⼯の時系列データを⽤いた検証 4.実世界時系列データを⽤いた検証 2019/1/17 23
導入した確率モデルの評価とクラスタリングに対する影響を検証 MNISTとFashion-MNISTの画像から時系列データセットを作成 • 各時系列は64フレーム • 線形補間により作成 • ⼀つの画像を起点に,連続的に滑らかに4つの異なる画像への変化 2019/1/17 24
導入した確率モデルの評価とクラスタリングに対する影響を検証 導入した確率モデルの評価 1.作成したデータで学習 2.SOM-VAEのweightを全て固定 3.マルコフ遷移⾏列に対して最尤推定値を算出 (負の対数尤度は0.25) 4.再度学習セットをモデルに通し、観測される全遷移の回数を計測 (負の対数尤度は0.24) 再学習を⾏なった場合と提案⼿法での学習で同程度の負の対数尤度 2019/1/17 25
導入した確率モデルの評価とクラスタリングに対する影響を検証 クラスタリングに対する影響 導⼊によってもクラスタリングの精度は低下しない 2019/1/17 26
実験 1.クラスタリング性能の評価 → 優れたクラスタリング性能 2.マルコフモデルを加えた影響の評価 1.マルコフモデルの性能 → 個別で⾏う最尤推定と同程度 2.クラスタリング性能への影響 → 性能は変化なし(低下しない) 3.⼈⼯の時系列データを⽤いた検証 4.実世界時系列データを⽤いた検証 2019/1/17 27
人工の時系列データを用いた検証 現実的なカオス時系列(Lorenz systemによる人工的な軌跡)から 解釈可能な表現を学習できるか検証 Lorenz system u x, y, zの3つの変数と p, r, bの3つの定数からなる u 3つの定数がわずかに異なるだけで、 得られる結果が異なる 潜在的な状態を計算でき、かつ実際に観測される値には⾮常にノイズが多い モデルが潜在的な状態を学習できるかの検証に適している 2019/1/17 28
人工の時系列データを用いた検証 Lorenz system n 2つのAttractor basinが存在する Attractor basin n Attractor basinにより決まる2つのマクロ状態 がある n 点が決まるとAttractor basinとの距離を元に マクロ状態を決定できる n 2つの状態間の遷移はカオス的に起こる マクロ状態を潜在的な状態,実際に観測される座標をノイズが⼊ったデータ 潜在表現が捉えられる = 解釈可能な表現が学習できた 2019/1/17 29
人工の時系列データを用いた検証 ノイズの⼊った観測データ (捉えたい)潜在状態 類似 類似 SOM-VAEは,k-meansよりも潜在状態を捉えている => 解釈しやすい潜在状態を学習できている 2019/1/17 30
実験 1.クラスタリング性能の評価 → 優れたクラスタリング性能 2.マルコフモデルを加えた影響の評価 1.マルコフモデルの性能 → 個別で⾏う最尤推定と同程度 2.クラスタリング性能への影響 → 性能は変化なし(低下しない) 3.⼈⼯の時系列データを⽤いた検証 → 解釈可能な表現を学習 4.実世界時系列データを⽤いた検証 2019/1/17 31
実世界データでの検証 複雑な実世界のタスクで,解釈可能な表現学習ができていることを⽰す 集中治療室における患者のVital sign計測値の時系列に対して,提案⼿法を適⽤ 将来状態のクラスタリング評価とクラスタリング結果の可視化 2019/1/17 32
実世界データでの検証 SOM-VAE-probで将来状態に関するクラスタリングの精度が高い => うまく将来の状態も考慮してクラスタリングできている 2019/1/17 33
実世界データでの検証 クラスタリングの可視化 • k-meansは近接している領域が似ていない • VQ-VAEは使われていない(⽩)領域が多い • SOM-VAE-probでは,近接している領域が似ていて、全体が使われている 2019/1/17 34
実世界データでの検証 (d)と(c)は対応するmap (c上で⾊が⻩⾊に近いほど、危険な状態) 同⼀の開始点(=似た状態でICUに⼊室する患者)の軌跡を可視化 (●が⼊室時,★が退出時) • 緑:平均的に低いスコア領域を推移し、退室している(回復) • ⾚:平均的にスコアが⾼い領域を推移し、最終的に死亡している Þ 可視化で将来状態のシナリオを想定する⼿助けが可能(?) 2019/1/17 35
実験 1.クラスタリング性能の評価 → 優れたクラスタリング性能 2.マルコフモデルを加えた影響の評価 1.マルコフモデルの性能 → 個別で⾏う最尤推定と同程度 2.クラスタリング性能への影響 → 性能は変化なし(低下しない) 3.⼈⼯の時系列データを⽤いた検証 → 解釈可能な表現を学習 4.実世界時系列データを⽤いた検証 → 解釈可能な表現を学習 2019/1/17 36
まとめ nSOMと深層⽣成モデルを組み合わせた,解釈可能な 時系列表現学習のモデルを提案 n実世界の医療データを含むデータで有効性を検証 2019/1/17 37
福島県立医科大学HPより https://www.fmu.ac.jp/home/masui/anesthesiologists/apache.html 38
… … … … … … … … … … … … 39