[DL Hacks] Probabilistic Recurrent State-Space Models

1.6K Views

November 12, 19

#deep learning #Deep learning #State-Space-Model #Gaussian Process #Probabilistic Recurrent State-Space Model #System Identification

スライド概要

2019/11/11
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Probabilistic Recurrent State-Space Models” <LT> Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ • • • • • • • • 論文緒言システム同定問題とは？ State-Space-Model 予備知識：Gaussian Process, Sparse Gaussian Process Gaussian Process State-Space-Model(GP-SSM)： Probabilistic Recurrent State-Space-Model(PR-SSM) 実験結果まとめ 2

論文緒言 • “Probabilistic Recurrent State-Space Models” (PMLR 2018) Andreas Doerr12, Christian Daniel1, Martin Schiegg1, Duy Nguyen-Tuong1 , Stefan Schaal23, Marc Toussaint4, Sebastian Trimpe2 1Bosch Center for Artificial Intelligence, Renningen, Germany 2Max Planck Institute for Intelligent Systems, Stuttgart/T¨ubingen, Germany 3University of Southern California, Los Angeles, USA 4Machine Learning and Robotics Lab, University of Stuttgart, Germany • 要旨 – 時間系列のパターン学習やシステム同定（データからダイナミックモデルを学習する）に State-Space-Model(SSM)が有用である． – 既存のLSTMを使用した決定論なSSMやGaussian Processベースの確率論的SSMなどに対して、確率論的（Probabilistic)でRecurrentなSSM（PR-SSM)を提案し．互角あるいは上回る確からしさで時間系列を推定可能であることを示した． – さらに、データ規模が大きい場合に、本方式が既存方式に対し性能を凌駕することを示した． • 紹介するにあたっての動機 – 視覚神経系における重畳音源分離のメカニズムに、聴覚情景物体の時間系列の予測が必要． 3

システム同定問題 • システム同定問題＝入力時間系列から時間系列を出力するシステムのダイナミックスをモデル化し、そのモデルを解明する問題 • やりたいこと：時間系列入力と出力から、ダイナミクスを学習し、新たな入力に対する出力を推論したい • 応用：モデルベース制御、強化学習に使うモデルシステム（ダイナミクスは？）入力時間系列出力時間系列 4

システム同定方法 • Autoregressive(History-based) method：→本論文のスコープ外 𝑦𝑡+1 = 𝑓(𝑦𝑡:𝑡−ℎ , 𝑢𝑡:𝑡−ℎ )：時刻𝑡 + 1の観測値がそれ以前の複数の入出力に依存する – 利点： 𝑦𝑡+1 の推論が比較的平易な構造 – 問題点：ノイズに弱い • State-Space-Model：→本論文で扱うマルコフ確率過程ベース時間t+1の状態は、その一つ前の時間tの状態にのみ依存する – 利点：①コンパクトな構造、②ノイズに強い、③明示的な潜在状態に依存する多くの制御問題を説明するのに有利 – 問題点：①線形の場合は解きやすいが、非線形の場合は学習が大変 5

State-Space-Model（SSM) • システムを記述する手法の一つ • システム入力：𝑢𝑡 • マルコフ潜在状態： 𝑥𝑡 – 時間t+1の状態は、その一つ前の時間tの状態にのみ依存する • • • • 遷移関数モデル：𝑓(・) 観測関数モデル：𝑔(・) システム出力： 𝑦𝑡 ノイズ： ε𝑡 、 γ𝑡 𝑦𝑡+1 𝑦𝑡 γ𝑡+1 γ𝑡 𝑔(・) 𝑔(・) 𝑥𝑡 𝑓𝑡+1 𝑥𝑡+1 𝑓(・) 𝑥𝑡+1 = 𝑓 𝑥𝑡 , 𝑢𝑡 + ε𝑡 𝑦𝑡 = 𝑔 𝑥𝑡 + γ𝑡 • やりたいこと：入手可能な情報{𝑢𝑡 と𝑦𝑡 } から、観測できない潜在状態𝑥𝑡 を推測する 𝑢𝑡 ε𝑡+1 6

Gaussian Process ベースのSSM • 遷移関数モデル： 𝑓(・) – 𝑓(・)にGaussian Processを使う – 𝑓(・) がLinearの場合 • Kalman Filter/Smoother（有名な古典的な解手法) – 𝑓(・) がNon-Linearの場合 • 決定論的：（例）LinearやNon-Linear（LSTM）などを使う→本論文のScope外 – 問題点： – Natural Language Processing（NLP）やText Understandingに使われている • 確率論的： (例）変分推論（Variational Inference）などを使う → 本論文で扱う – 利点：①モデルバイアスが小さい、②不確実性に関する評価が理論的に可能、③システム制御に好まれる – 問題点：①non-linearなのでロバストな学習方法を得るのが難しかった．特に、潜在状態の次元数が大きいと． • 観測モデル：𝑔(・) – 𝑔(・)は、特にGaussian Processでなくとも、線形なシステムでもよい – 既に、𝑓(・)に、システムの複雑性を凝縮できると仮定できるから 7

本論文提案手法：Probabilistic Recurrent SSM(PR-SSM) • 𝑓(・)はGaussian ProcessでNon-Linearとし、確率論的に解く • 𝑓(・)の推定には、Variational inference を使い𝑉𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛𝑎𝑙 確率分布𝑞(・) を導入、Stochastic Gradient ELBO Optimizationを使う • 𝑓(・) に時間的にRecurrentな近似をおこなう – 時間的な推論にRecurrentなモデルを使う→ハイパーパラメータが時間系列の長さに依存しないようにする • 潜在状態の初期値を、入力系列と出力系列の最初の数サンプルから別途認識モデルを使って推定する 8

Gaussian Process(GP) • GPは、マップ関数𝑓(・)：𝑅𝐷 → 𝑅を介して – – – 𝑋 = 𝑥1 , ⋯ , 𝑥𝑁 : 入力時間系列、 𝑓 = [𝑓 𝑥1 , ⋯ , 𝑓 𝑥𝑁 ]: 出力時間系列 𝑓の条件付き同時分布が、 – 𝑝 𝑓 𝑋 = 𝑁 𝑓 𝑚𝑥 , 𝐾𝑋,𝑋 • • • 𝑁(): ガウシアン分布 𝑚𝑥 :平均関数 𝐾𝑋,𝑋 ∶分散関数 𝑋 = 𝑥1 , ⋯ , 𝑥𝑁 GP 𝑓 = [𝑓 𝑥1 , ⋯ , 𝑓 𝑥𝑁 ]: 𝐾𝑥1 <D(次元数)=1の場合> 𝑓 𝑥 1 となるプロセスを言う。 • この時、新たに𝑥 ∗ が与えられた場合は，マップされる値𝑓 ∗ は 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 = 𝑁 𝑓 ∗ 𝜇, 𝜎 2 ) −1 𝜇 = 𝑚𝑥 ∗ + 𝑘𝑥 ∗,𝑋 𝐾𝑋,𝑋 𝑓 − 𝑚𝑥 −1 𝜎 2 = 𝑘𝑥 ∗ ,𝑥 ∗ − 𝑘𝑥 ∗ ,𝑋 𝐾𝑋,𝑋 𝑘𝑋,𝑥 ∗ 𝐾𝑥2 𝑓 𝑥2 𝑥1 𝑥2 𝑓 𝑥𝑁 𝐾𝑥𝑁 𝑚 𝑥 : 𝑥𝑁 𝑥 𝑃(≪ 𝑁)でも、𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 は𝑝 𝑓 ∗ 𝑥 ∗ , 𝑧, 𝜍 で近似可能の確率分布に従う • 計算コストの削減に、GP Sparsificationを行う 𝑃(≪ 𝑁)個の擬似入力系列𝜍 = [𝜍1 , ⋯ , 𝜍𝑁 ]とGPマップ値𝑧 = [𝑧1 , ⋯ , 𝑧𝑝 ]， 𝑧𝑖 = 𝑓 𝜁𝑖 で𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 を置き換え可能.この時，新たな𝑥 ∗ に対応する𝑓 ∗ は， 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑓, 𝑋 ≈ 𝑝 𝑓 ∗ 𝑥 ∗ , 𝑧, 𝜍 𝑝 𝑧 = 𝑁(𝑧|𝑚𝜍 , 𝐾𝜍,𝜍 ) 𝑧𝑖 = 𝑓 𝜁𝑖 𝐾𝜁𝑖 𝜁1 𝜁2 𝜁P 𝜁 の確率分布に従う 9

10.

PR-SSM • 同時確率分布を以下で示す 𝑦𝑡+1 𝑦𝑡 として𝑢𝑡 を𝑥ො𝑡 内に含めて， γ𝑡+1 γ𝑡 𝑔(・) 𝑔(・) 観測モデル 𝑥𝑡 ノイズモデル遷移関数モデルのGP Spacification 表現 𝑓𝑡+1 𝑥𝑡+1 𝑓(・) とあらわす．ここで， 𝑢𝑡 ：𝑧は要素が𝑥𝑡 の次元数分ありである．遷移関数モデルは、独立な潜在状態𝑧𝑑 毎に、で表現できる． ε𝑡+1 10

11.

PR-SSM • 観測モデル：ここで、𝐶 ≜ I, 0 ∈ 𝑅𝐷𝑦 ×𝐷𝑥 , 𝐼: 単位行列 • プロセスノイズ： 11

12.

PR-SSM • PR-SSMの最適化学習：𝑝(𝑦1:𝑇 )の対数尤度を最大にしたい：Variational 推定を行いELBOを最大にするVariational密度関数𝑞(𝑥1:𝑇 , 𝑓2:𝑇 , 𝑧)を求める．：ELBO これは、観測モデルサンプリングで近似可能 𝑥෤𝑡 をサンプリングする手段は， 𝑁(𝑥෤𝑡 |𝜇, 𝜎 2 )からサンプリング 𝑞 𝑧 が𝑧 の真 𝑑 𝑑 を最大にする𝑞(𝑧𝑑 )を求める．の事前確率𝑝 𝑧𝑑 に近づく→ ０になるただし，周辺化 12

13.

PR-SSM • 学習後，新たな入力系列𝑢1:𝑇 と潜在状態の初期値𝑥1 が与えられた時のシステムの観測値予想 𝑥෤𝑡 をサンプリングする手段は， 𝑁(𝑥෤𝑡 |𝜇, 𝜎 2 )からサンプリング 13

14.

潜在状態の初期化 • 𝑥𝑡 の初期状態𝑥1 を意味あるデータに設定する→その後の予測が正しくなる確率が高くなる． • 観測データと入力，各々の最初の𝐿個を認識ネットワーク ℎ(・)に入れて、ガウシアン分布の平均、分散を推測する． 14

15.

実験条件 • データセット – 小規模データセット：学習軌跡長が短いデータセット： Actuator, Ballbeam, Drivers, Furnace, Dryer – 大規模データセット：ロボットアームのデータ： Sarcos • 学習方法 – データをフルに使った確率的勾配下降法 – データをミニバッチにした確率的勾配下降法 15

16.

実験１ • PR-SSM学習をせずに出力を推定した場合（左側）とフルデータを使った勾配下降法で学習した後に推定した場合（右側）の比較（左下） • 初期状態𝑥1 を事前に観測値から認知モデルで予測有り無し比較（右下） • 認知モデルを使って、初期状態を設定した方（下段）が、使わない（上段）と比較して、時間経つと分散が少なくなる 16

17.

実験２ PR-SSMは、すべてのデータで好成績を得ている 17

18.

実験３ • 長時間・大規模データの対応：PR-SSMのみが安定して使える手法。GP-NARXでも対応できなデータが多数あり． 18

19.

まとめ及び感想 • まとめ – 本研究では、GaussianプロセスとRecurrent型Variational Inferenceを用いた、確率モデルの時系列信号生成システム同定を提案した． • 感想 – GP概念とGP Sparsification導入時のVariational推論の理解がまだ分かっておらず苦戦している – Githubに、著者作成のpythonコードがあるが、時間がなく、手付かず https://github.com/boschresearch/PR-SSM 19

https://github.com/boschresearch/PR-SSM

20.

END 20