[DL Hacks] Probabilistic Recurrent State-Space Models

633 Views

November 12, 19

スライド概要

2019/11/11
Deep Learning JP:
http://deeplearning.jp/hacks/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Probabilistic Recurrent State-Space Models” <LT> Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

2.

アジェンダ • • • • • • • • 論文緒言 システム同定問題とは? State-Space-Model 予備知識:Gaussian Process, Sparse Gaussian Process Gaussian Process State-Space-Model(GP-SSM): Probabilistic Recurrent State-Space-Model(PR-SSM) 実験結果 まとめ 2

3.

論文緒言 • “Probabilistic Recurrent State-Space Models” (PMLR 2018) Andreas Doerr12, Christian Daniel1, Martin Schiegg1, Duy Nguyen-Tuong1 , Stefan Schaal23, Marc Toussaint4, Sebastian Trimpe2 1Bosch Center for Artificial Intelligence, Renningen, Germany 2Max Planck Institute for Intelligent Systems, Stuttgart/T¨ubingen, Germany 3University of Southern California, Los Angeles, USA 4Machine Learning and Robotics Lab, University of Stuttgart, Germany • 要旨 – 時間系列のパターン学習やシステム同定(データからダイナミックモデルを学習する)に State-Space-Model(SSM)が有用である. – 既存のLSTMを使用した決定論なSSMやGaussian Processベースの確率論的SSMなどに対して、確 率論的(Probabilistic)でRecurrentなSSM(PR-SSM)を提案し.互角あるいは上回る確からしさで 時間系列を推定可能であることを示した. – さらに、データ規模が大きい場合に、本方式が既存方式に対し性能を凌駕することを示した. • 紹介するにあたっての動機 – 視覚神経系における重畳音源分離のメカニズムに、聴覚情景物体の時間系列の予測が必要. 3

4.

システム同定問題 • システム同定問題=入力時間系列から時間系列を出力するシステムのダ イナミックスをモデル化し、そのモデルを解明する問題 • やりたいこと:時間系列入力と出力から、ダイナミクスを学習し、新た な入力に対する出力を推論したい • 応用: モデルベース制御、強化学習に使うモデル システム (ダイナミクス は?) 入力時間系列 出力時間系列 4

5.

システム同定方法 • Autoregressive(History-based) method:→本論文のスコープ外 𝑦𝑡+1 = 𝑓(𝑦𝑡:𝑡−ℎ , 𝑢𝑡:𝑡−ℎ ): 時刻𝑡 + 1の観測値がそれ以前の複数の入出力に依存する – 利点: 𝑦𝑡+1 の推論が比較的平易な構造 – 問題点: ノイズに弱い • State-Space-Model:→本論文で扱う マルコフ確率過程ベース 時間t+1の状態は、その一つ前の時間tの状態にのみ依存する – 利点:①コンパクトな構造、②ノイズに強い、③明示的な潜在状態に依存する多く の制御問題を説明するのに有利 – 問題点:①線形の場合は解きやすいが、非線形の場合は学習が大変 5

6.

State-Space-Model(SSM) • システムを記述する手法の一つ • システム入力:𝑢𝑡 • マルコフ潜在状態: 𝑥𝑡 – 時間t+1の状態は、その一つ前の時間tの状 態にのみ依存する • • • • 遷移関数モデル:𝑓(・) 観測関数モデル:𝑔(・) システム出力: 𝑦𝑡 ノイズ: ε𝑡 、 γ𝑡 𝑦𝑡+1 𝑦𝑡 γ𝑡+1 γ𝑡 𝑔(・) 𝑔(・) 𝑥𝑡 𝑓𝑡+1 𝑥𝑡+1 𝑓(・) 𝑥𝑡+1 = 𝑓 𝑥𝑡 , 𝑢𝑡 + ε𝑡 𝑦𝑡 = 𝑔 𝑥𝑡 + γ𝑡 • やりたいこと:入手可能な情報{𝑢𝑡 と𝑦𝑡 } から、観測できない潜在状態𝑥𝑡 を推測す る 𝑢𝑡 ε𝑡+1 6

7.

Gaussian Process ベースのSSM • 遷移関数モデル: 𝑓(・) – 𝑓(・)にGaussian Processを使う – 𝑓(・) がLinearの場合 • Kalman Filter/Smoother(有名な古典的な解手法) – 𝑓(・) がNon-Linearの場合 • 決定論的: (例)LinearやNon-Linear(LSTM)などを使う→本論文のScope外 – 問題点: – Natural Language Processing(NLP)やText Understandingに使われている • 確率論的: (例)変分推論(Variational Inference)などを使う → 本論文で扱う – 利点:①モデルバイアスが小さい、②不確実性に関する評価が理論的に可能、③システム制御に好ま れる – 問題点:①non-linearなのでロバストな学習方法を得るのが難しかった.特に、潜在状態の次元数が 大きいと. • 観測モデル:𝑔(・) – 𝑔(・)は、特にGaussian Processでなくとも、線形なシステムでもよい – 既に、𝑓(・)に、システムの複雑性を凝縮できると仮定できるから 7

8.

本論文提案手法:Probabilistic Recurrent SSM(PR-SSM) • 𝑓(・)はGaussian ProcessでNon-Linearとし、確率論的に解く • 𝑓(・)の推定には、Variational inference を使い𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑎𝑙 確率分布𝑞(・) を導入、Stochastic Gradient ELBO Optimizationを使う • 𝑓(・) に時間的にRecurrentな近似をおこなう – 時間的な推論にRecurrentなモデルを使う→ハイパーパラメータが時間系列の長さ に依存しないようにする • 潜在状態の初期値を、入力系列と出力系列の最初の数サンプルから別途 認識モデルを使って推定する 8

9.

Gaussian Process(GP) • GPは、マップ関数𝑓(・):𝑅𝐷 → 𝑅を介して – – – 𝑋 = 𝑥1 , ⋯ , 𝑥𝑁 : 入力時間系列、 𝑓 = [𝑓 𝑥1 , ⋯ , 𝑓 𝑥𝑁 ]: 出力時間系列 𝑓の条件付き同時分布が、 – 𝑝 𝑓 𝑋 = 𝑁 𝑓 𝑚𝑥 , 𝐾𝑋,𝑋 • • • 𝑁(): ガウシアン分布 𝑚𝑥 :平均関数 𝐾𝑋,𝑋 ∶分散関数 𝑋 = 𝑥1 , ⋯ , 𝑥𝑁 GP 𝑓 = [𝑓 𝑥1 , ⋯ , 𝑓 𝑥𝑁 ]: 𝐾𝑥1 <D(次元数)=1の場合> 𝑓 𝑥 1 となるプロセスを言う。 • この時、新たに𝑥 ∗ が与えられた場合は,マップされる値𝑓 ∗ は 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 = 𝑁 𝑓 ∗ 𝜇, 𝜎 2 ) −1 𝜇 = 𝑚𝑥 ∗ + 𝑘𝑥 ∗,𝑋 𝐾𝑋,𝑋 𝑓 − 𝑚𝑥 −1 𝜎 2 = 𝑘𝑥 ∗ ,𝑥 ∗ − 𝑘𝑥 ∗ ,𝑋 𝐾𝑋,𝑋 𝑘𝑋,𝑥 ∗ 𝐾𝑥2 𝑓 𝑥2 𝑥1 𝑥2 𝑓 𝑥𝑁 𝐾𝑥𝑁 𝑚 𝑥 : 𝑥𝑁 𝑥 𝑃(≪ 𝑁)でも、𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 は𝑝 𝑓 ∗ 𝑥 ∗ , 𝑧, 𝜍 で近似可能 の確率分布に従う • 計算コストの削減に、GP Sparsificationを行う 𝑃(≪ 𝑁)個の擬似入力系列𝜍 = [𝜍1 , ⋯ , 𝜍𝑁 ]とGPマップ値𝑧 = [𝑧1 , ⋯ , 𝑧𝑝 ], 𝑧𝑖 = 𝑓 𝜁𝑖 で𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 を置き換え可能.この時,新たな𝑥 ∗ に対応する𝑓 ∗ は, 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 ≈ 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑧, 𝜍 𝑝 𝑧 = 𝑁(𝑧|𝑚𝜍 , 𝐾𝜍,𝜍 ) 𝑧𝑖 = 𝑓 𝜁𝑖 𝐾𝜁𝑖 𝜁1 𝜁2 𝜁P 𝜁 の確率分布に従う 9

10.

PR-SSM • 同時確率分布を以下で示す 𝑦𝑡+1 𝑦𝑡 として𝑢𝑡 を𝑥ො𝑡 内に含めて, γ𝑡+1 γ𝑡 𝑔(・) 𝑔(・) 観測モデル 𝑥𝑡 ノイズモデル 遷移関数モデルのGP Spacification 表現 𝑓𝑡+1 𝑥𝑡+1 𝑓(・) とあらわす.ここで, 𝑢𝑡 :𝑧は要素が𝑥𝑡 の次元数分あり である.遷移関数モデルは、独立な潜在状態𝑧𝑑 毎に、 で表現できる. ε𝑡+1 10

11.

PR-SSM • 観測モデル: ここで、𝐶 ≜ I, 0 ∈ 𝑅𝐷𝑦 ×𝐷𝑥 , 𝐼: 単位行列 • プロセスノイズ: 11

12.

PR-SSM • PR-SSMの最適化学習:𝑝(𝑦1:𝑇 )の対数尤度を最大にしたい:Variational 推 定を行いELBOを最大にするVariational密度関数𝑞(𝑥1:𝑇 , 𝑓2:𝑇 , 𝑧)を求める. :ELBO これは、 観測モデル サンプリング で近似可能 𝑥෤𝑡 をサンプリングする手段は, 𝑁(𝑥෤𝑡 |𝜇, 𝜎 2 )からサンプリング 𝑞 𝑧 が𝑧 の真 𝑑 𝑑 を最大にする𝑞(𝑧𝑑 )を求める.の事前確率𝑝 𝑧𝑑 に近づ く→ 0になる ただし, 周辺化 12

13.

PR-SSM • 学習後,新たな入力系列𝑢1:𝑇 と潜在状態の初期値𝑥1 が与えられた時のシ ステムの観測値予想 𝑥෤𝑡 をサンプリングする手段は, 𝑁(𝑥෤𝑡 |𝜇, 𝜎 2 )からサンプリング 13

14.

潜在状態の初期化 • 𝑥𝑡 の初期状態𝑥1 を意味あるデータに設定する→その後の予測 が正しくなる確率が高くなる. • 観測データと入力,各々の最初の𝐿個を認識ネットワーク ℎ(・)に入れて、ガウシアン分布の平均、分散を推測する. 14

15.

実験条件 • データセット – 小規模データセット:学習軌跡長が短いデータセット: Actuator, Ballbeam, Drivers, Furnace, Dryer – 大規模データセット:ロボットアームのデータ: Sarcos • 学習方法 – データをフルに使った確率的勾配下降法 – データをミニバッチにした確率的勾配下降法 15

16.

実験1 • PR-SSM学習をせずに出力を推定した場合(左側)とフルデータを使った勾配下降法で学習した後に推定し た場合(右側)の比較(左下) • 初期状態𝑥1 を事前に観測値から認知モデルで予測有り無し比較(右下) • 認知モデルを使って、初期状態を設定した方(下段)が、使わない(上段)と比較して、時間経つと分 散が少なくなる 16

17.

実験2 PR-SSMは、すべてのデータで好成績を得ている 17

18.

実験3 • 長時間・大規模データの対応:PR-SSMのみが安定して使える手法。GP-NARXでも対応できなデータが多 数あり. 18

19.

まとめ及び感想 • まとめ – 本研究では、GaussianプロセスとRecurrent型Variational Inferenceを用いた、確 率モデルの時系列信号生成システム同定を提案した. • 感想 – GP概念とGP Sparsification導入時のVariational推論の理解がまだ分かっておらず 苦戦している – Githubに、著者作成のpythonコードがあるが、時間がなく、手付かず https://github.com/boschresearch/PR-SSM 19

20.

END 20