27.1K Views
September 04, 23
スライド概要
Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical data. J Math Psychol. の2節までをまとめたものです.周辺メッセージパッシングなど分かりにくかった部分には補足数式が追加してあります.
Active inference 2 能動的推論 2 Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical dataのまとめ+補⾜数式 藤⽥ ⼀寿 Active inferenceの理解に必要そうな内容をまとめたものです.グラフィカルモデルに関しては他の⽂献(PRML; Forney and Vontobel, 2011など)で予習しましょう.間違いがあるかもしれないので,Active infefenceや⾃由エネルギー原理に本気で取 り組みたい⼈は元論⽂を読みましょう. 数式が⾮常に分かりにくかったので独⾃解釈の数式を追加しています.
Multi armed bandit
Multi armed bandit • それぞれの試⾏で,あなたは2つのスロットマシンのどちらかを選ぶ. • しかし,スロットマシンの当たる確率は分からない. • 当たれば4ドルもらえるが,はずれれば0ドルもらえる. • あなたはすぐさまスロットマシンを選ぶか,当たりそうスロットマシ ンについてのヒントを聞くことが出来る. • しかし,ヒントを聞いたら,当たっても2ドルしか獲得できない. リスクを取るべき か,ヒントを尋ね るべきか.
Multi armed banditにおける状態と結果の例 • 隠れ状態の要素1:Context • 左のマシンはより当たりやすい. • 右のマシンはより当たりやすい. • 隠れ状態の要素2:選択状態 • 始める • ヒントを聞く • 右を選ぶ • 左を選ぶ • 結果のmodality 1:ヒント • ヒントなし • 左のほうがより当たりやすい • 右のほうがより当たりやすい • 結果のmodality 2:結果 • 始める • 負ける • 勝つ
Multi armed bandit 当たり 当たり 右のスロットマシン を選ぶ 右のスロットマシン を選ぶ ハズレ ハズレ 当たり 当たり 左のスロットマシン を選ぶ 左のスロットマシン を選ぶ ハズレ ハズレ どれを選 んでも変 わりない かな. 右の⽅が 当たる ヒントを聞く 左の⽅が 当たる 結果を踏 まえて, ⾏動しよ う. 右の⽅が 当たる ヒントを聞く 左の⽅が 当たる エージェントは⾏動し結果を得ることで,状態に対する考え⽅(信念)が更新される.
POMDPSとは
POMDPとは • POMDPはPartially Observable Markov Decision Process(部分観測(部分的に観 測可能な)マルコフ決定過程)の略である. • POMDPでは,観測,状態,⽅策を含む特定の種類の⽣成モデルが与えられる. • POMDPの⽬的は,観測を条件とするときの状態と⽅策に対する事後信念を推論 することである. • POMDPという⽤語は2つの主要な概念を⽰している. • 部分観測可能性 • これは観測によって隠れ状態に関する確率的な情報しか得られないことを意味する. • 例えば,ヒントの観測が,どちらかのスロットマシンの当たる可能性がより⾼いことを⽰す かもしれない. • マルコフ性 • 意思決定するとき,遠い過去の状態に関するすべての関連した知識が現在の状態に関する信 念に暗黙のうちに含まれることを意味する. • マルコフ性の想定は破られることがあるが,それはモデリングをより容易にし,多くの場合 ⼗分である.
POMDPでは𝑡と𝝉の時刻がある? • POMDP は試⾏と各試⾏内の時刻𝜏を含む. • 𝝉はエージェントが信念を持つ時刻を⽰す. • これは、各新しい観察が提⽰される時刻を⽰す変数𝒕とは別である. • なぜ,この区別が必要なのか. 頭の中ではいつでも(どの時刻𝒕においても )過去についても未来についても(どんな 時刻𝝉についても)推論することが可能だが ,観測は時刻𝒕に⾏われる.観測結果によっ て過去と未来すべての信念が変わる. • 例1: • あなたは,はじめに2つの部屋(緑の部屋と⻘の部屋)のどちらかにいるが,壁の⾊が何⾊か分からないとする. • 後に,あなたが⽬を開けて部屋が⻘く塗られていることを知るとき,⽬を開ける前どこにいたのかについての信念が変わ る.(過去についての信念が変わる) • 例2: • ある時刻𝑡でヒントを観察すると,次の時刻でスロットマシンの当たる可能性に関する信念を更新することができる.(未 来についての信念が変わる) • 形式的なモデルでは,これは時刻𝑡 = 2で新しい観察をした後に時刻𝜏 = 1における⾃分の状態に関する信念 が変化するケースである(つまり,例1の場合). • つまり,active inferenceにおいて𝒕と𝝉を含むということは,エージェントがすべての時刻𝝉における状態 についての信念をそれぞれの時刻𝒕のときに更新することを要求している. • これは,現在新たな観測(𝑡 = 2)をしたとき過去の状態(𝜏 = 1)についての信念を更新するretrospective inferenceと,現在新たな観測(𝑡 = 2)の観測をしたときに未来の状態(𝜏 = 3)についての信念を更新する prospective inferenceを同時に可能にする.
Active inferenceで使⽤する 変数と因果グラフ
グラフィカルモデル • Active inferenceの⽂献において,POMDPsはグラフィカルモデルで 表現される. • グラフィカルモデルは,モデルの変数が他の変数にどのように依存し ているかを視覚的に表す⼿法である. • グラフィカルモデルにおいて,円(ノード)は変数に対応する. • ノード間をつなぐ⽮印はノードで表される変数間の依存関係を表す. • 例えば,𝑠) ノードから𝑜) ノードへの⽮印は𝑜) の値が𝑠) の値に依存しているこ 𝐷 とを意味する. • エッジ上にある四⾓は条件付き関係を媒介する因⼦を意味する. 𝑠 𝐀 𝑜
結果 𝑜! ,隠れ状態 𝑠!
結果 𝑜! • 𝑜! は時刻𝜏のときの結果を表すベクトルである. • Banditとの対応:結果のモダリティ • ヒント:これはヒントを聞いて得られる結果(ヒントなし,右のほうが良さそう ,左のほうが良さそう). • 報酬:これはスロットマシンをひいて得られる結果(はじめ,負け,勝ち). • 観測された⾏動:これはエージェントが⾏動すると得られる結果(始める,ヒン トを受け取る,右を選ぶ,左を選ぶ). • 𝜏 > 𝑡の𝑜) のすべての要素は0である. • 観測していない未来の結果は無い(0である). • 観測すると𝑜) は確定し,それを変更することは出来ない.
結果 𝑜! を2つの部屋の例で考える1 • 2つの部屋(緑の部屋と⻘の部屋)のどちらかにいるが,壁の⾊が何⾊ か分からないとする. • 後に,あなたが⽬を開けて部屋が⻘く塗られていることを知るとき, ⽬を開ける前どこにいたのかについての今の信念が変わる. • この例では, 「⾊」が観測モダリティである. • 観測は「⻘」または「緑」である可能性がある. • すなわち,観測ベクトルは各⾊に対して1つの要素を持つベクトルであ る. • 𝑜) = 𝑜⻘) ,𝑜緑) *
結果 𝑜! を2つの部屋の例で考える2 • 時刻𝑡 = 1のとき.時刻𝜏 = 2の観測された⾊はまだ分からない. • つまり,𝑡 = 1のときの観測ベクトルは, 0 0 • となる.もし,𝑡 =2のとき⻘を観測したとすると, • 𝑜!"# = 1 0 • に更新される. • 𝑜!"# = • このベクトルはすべての未来(𝑡 > 2)において変更できない. • つまり,⼀度観測が⾏われると,それを忘れることができない. • これは,すべての時刻の状態についての信念はこれらの観測ベクトルを更新したと きのそれぞれの時刻𝑡において更新されることを可能にしている.
時刻𝜏のときの隠れ状態 𝑠! • 𝑠! :時刻𝜏のときの隠れ状態.ベクトルであり,それぞれの状態要素の 可能な状態(視覚と聴覚の状態のような,独⽴した集合)の値で構成 される. • Banditとの対応 :隠れ状態の要素 • Context(左のほうがより良い vs 右のほうがより良い) • 選択(始める,ヒントを受け取る,右を選ぶ,左を選ぶ) • 選択した結果ではない.
ベクトル𝐷,⾏列𝐀とStatic perception
ベクトル𝐷: 𝒑 𝒔𝟏 • このベクトルは,初期の隠れ状態についての信念をエンコードする. • 試⾏の最初の時刻(𝜏 = 1 )では,モデルはカテゴリの状態に関する priorから始まる. • priorは𝐷で記述されるベクトルにより表される. • 1つの可能な状態につき1つの値を持つ. • 状態要因が複数ある場合,1つの要因につき1つの𝐷ベクトルが存在する. • 例: • エージェントは物体の位置とその正体について別々の信念を持つ. • エージェントは,どのスロットマシンが良いかという信念と利⽤可能な選 択の状態(例えば、ヒントを取った状態)についての信念を持つ. エージェントはまだ何もしていないが,スロットマシンの当たる度合い(確率?)と,どの⾏動をとるかの 傾向(確率?)についてエージェントは頭の中で想定している.
⾏列𝐀: 𝑝 𝑜! 𝑠! • 尤度関数𝑝 𝑜! 𝑠! は⾏列𝐀で表される. • この⾏列は時刻𝜏における隠れ状態と観測可能な結果の関係についての信念である(すなわち,特定 の時点における特定の隠れた状態が与えられた場合に特定の結果が観測される確率). • Active inferenceの⽂献で⼀般的に使われているPOMDP構造では尤度は試⾏中の時点に渡って⼀定 であると仮定されている.したがって,𝜏の値が異なっても⾏列は異なることはない(ただし,必要 に応じてこれを調整できる)ことに注意する. • また,尤度は⽅策間で同⼀であると仮定される.したがって,𝜋に関するインデックス付けはない. • 𝐀は時刻𝝉における状態ごとに1列,時刻𝝉において可能な観測ごとに1⾏で構成される. • 複数の結果モダリティがある場合,結果モダリティごとに1つの𝐀が存在することになる. • 例えば,視覚⼊⼒と聴覚⼊⼒がある場合,それぞれに対して1つずつ必要となる. • Banditの例:ヒントの観測についてのモダリティと,報酬の観測についてのモダリティを考慮すること ができる.
Static perception=Baysian inference • Static perception=Baysian inference • 𝒔: 状態(ベクトル) 𝐷 • 𝒐: 観測(ベクトル) • 𝐀: 状態と結果をマップする尤度(⾏列) • 𝐷: 初期状態のprior(ベクトル) 𝑠 𝐀 𝑜 • 更新式 • 𝒔 = 𝜎 ln 𝐷 + ln 𝐀* 𝒐 この𝑠はSoftmax関数で規格化された状態に対するposterior(条件付き確率). • 𝜎はsoftmax関数(総和を1に規格化し確率にする)
計算例 𝒔 = 𝜎 ln 𝐷 + ln 𝐀" 𝒐 を2種類の状態と観測しか無い場合について具体的に計算してみる. # 𝑝(𝑠 = 1) 𝑝 𝑜=1 𝑠=1 𝑝 𝑜=1 𝑠=2 𝒔 = 𝜎 ln + ln 𝒐 𝑝(𝑠 = 2) 𝑝 𝑜=2 𝑠=1 𝑝 𝑜=2 𝑠=2 𝑝(𝑠 = 1) 𝑝 𝑜=1 𝑠=1 𝑝 𝑜=2 𝑠=1 = 𝜎 ln + ln 𝒐 𝑝(𝑠 = 2) 𝑝 𝑜=1 𝑠=2 𝑝 𝑜=2 𝑠=2 𝑝 𝑜=1 𝑠=1 𝑝 𝑠=1 𝑝 𝑜=2 𝑠=1 𝑝 𝑠=1 = 𝜎 ln 𝒐 𝑝 𝑜=1 𝑠=2 𝑝 𝑠=2 𝑝 𝑜=2 𝑠=2 𝑝 𝑠=2 𝒐が1だとすると𝒐 = 1 0 " . 𝑝 𝑜 = 1, 𝑠 = 1 𝑝 𝑜 = 2, 𝑠 = 1 1 𝑝 𝑜 = 1, 𝑠 = 1 𝑠 = 𝜎 ln = 𝜎 ln 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 2, 𝑠 = 2 0 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 1, 𝑠 = 1 𝑝 𝑜 = 1, 𝑠 = 1 + 𝑝(𝑜 = 1, 𝑠 = 2) = 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 1, 𝑠 = 1 + 𝑝(𝑜 = 1, 𝑠 = 2) 更新式にSoftmaxやlnがあるが,計算してみるとベイズ推論の式になっていることが分かる.
計算例 𝐷= 𝑝(𝑠 = 1) 0.5 = 𝑝(𝑠 = 2) 0.5 状態sが1と2の場合はそれぞれ五分五分の可能性であると思っている.思ってい るだけなので確率ではなく信念という. 𝑝(𝑜 = 1 ∣ 𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 0.9 𝐀= = 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0.1 𝒐= 1 0 0.2 0.8 𝐷 𝑠 𝐀 𝑜 観測結果なので起こったか起こってないか(0か1か)しか無い. 𝑜 = 1のときの尤度のみ残る. 0.5 0.9 0.1 1 0.5 0.9 0.5×0.9 0.45 + ln = 𝜎 ln + ln = 𝜎 ln = 𝜎 ln 0.2 0.8 0 0.2 0.5 0.5 0.5×0.2 0.1 $ $ exp ln 0.45 exp ln 0.1 0.45 0.1 0.82 = = = 0.18 exp ln 0.45 + exp 0.1 exp ln 0.45 + exp 0.1 0.45 + 0.1 0.45 + 0.1 𝑠 = 𝜎 ln 四⾓は因⼦,丸は変数.
どこから更新式が出てくるか? 論⽂の数式だけでは分からないので独⾃の解釈を追加
まず具体的に考える 状態𝑠が1か2のどちらかの値を取るとする.観測結果も1か2のどちらかの値を取るとする. 𝐷= 𝑝(𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 1 0 1 0 ,𝐀= , 𝒔% = , 𝒔# = , 𝒐% = , 𝒐# = 𝑝(𝑠 = 2) 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0 1 0 1 状態𝑠が1,観測結果が1である同時分布 𝑝 𝑠 = 1, 𝑜 = 1 は 𝑝 𝑠 = 1, 𝑜 = 1 = 𝐷 $ 𝒔%×𝒔%$ 𝐀$ 𝒐% 𝑝(𝑜 = 1 ∣ 𝑠 = 1) 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 1 1 = 𝑝 𝑠=1 𝑝 𝑠=2 ×1 0 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0 0 1 𝑝 𝑜=2 𝑠=1 =𝑝 𝑠=1 × 𝑝 𝑜=1 𝑠=1 =𝑝 𝑠=1 𝑝 𝑜=1 𝑠=1 0 となる. この例で,どれがベクトルと⾏列の関係がわかってくる.次に⼀般的に考える.
条件付き確率(posterior)
状態𝑠 = {𝑠! , … , 𝑠" , … , 𝑠# },観測結果𝑜 = 𝑜! , … , 𝑜$ , … 𝑜% とする. ベイズ定理からposteriorは
𝑝 𝑠" ∣ 𝑜$ =
𝑝 𝑜$ ∣ 𝑠" 𝑝 𝑠"
𝑝 𝑜$ ∣ 𝑠" 𝑝 𝑠"
=
∑" 𝑝 𝑜$ ∣ 𝑠" 𝑝 𝑠"
𝑝 𝑜$
と書ける.
規格化されていないposterioを𝑝0 𝑠" ∣ 𝑜$ とすると(要するに同時分布なのだが)
𝑝0 𝑠" ∣ 𝑜$ = 𝑝 𝑜$ ∣ 𝑠" 𝑝 𝑠"
ここで1
𝒑(𝑠 ∣ 𝑜$ ) = 𝑝0 𝑠! ∣ 𝑜$
… 𝑝0 𝑠# ∣ 𝑜$
& , 𝒔 は one-of-K coding (つまり, 𝒔 は要素𝑚だけ1それ以外は0のベクトル)
"
"
とする,𝒐$ は one-of-K codingとする.
Posteriorベクトルは
1 𝑠 𝑜$ = 𝑝0 𝑠! ∣ 𝑜$
𝒑
1 𝑠 𝑜$ ≡ ln 𝑝0 𝑠! ∣ 𝑜$
ln 𝒑
… ln 𝑝0 𝑠# ∣ 𝑜$
ln 𝒑
1 𝑠 𝑜$ = ln 𝑝 𝑜$ ∣ 𝑠! 𝑝 𝑠!
= ln 𝑝 𝑠!
… ln 𝑝 𝑠#
= ln 𝐷 + ln 𝐀' 𝒐$
&+
… 𝑝0 𝑠# ∣ 𝑜$
𝑝 𝑜$ ∣ 𝑠! 𝑝 𝑠!
… 𝑝 𝑜$ ∣ 𝑠# 𝑝 𝑠#
&
& とすると
… ln 𝑝 𝑜$ ∣ 𝑠# 𝑝 𝑠#
ln 𝑝 𝑜$ ∣ 𝑠!
& =
& =
… ln 𝑝 𝑜$ ∣ 𝑠#
ln 𝑝 𝑜$ ∣ 𝑠! + ln 𝑝 𝑠!
& = ln 𝐷 + ln
… ln 𝑝 𝑜$ ∣ 𝑠# + ln 𝑝 𝑠#
𝑝 𝑜=1 𝑠=1
⋮
𝑝 𝑜=1 𝑠=𝑀
&
… 𝑝 𝑜=𝑁 𝑠=1
⋱
⋮
… 𝑝 𝑜=𝑁 𝑠=𝑀
𝒐$
条件付き確率(posterior) よってposteriorベクトルは 𝒑 𝑠 𝑜' は 𝒑 𝑠 𝑜' = 1 𝑝9 𝑠) ∣ 𝑜' ∑( 𝑝9 𝑠( ∣ 𝑜' = 1 exp ln 𝑝9 𝑠) ∣ 𝑜' ∑( exp ln 𝑝9 𝑠( ∣ 𝑜' = 1 @ 𝑠 𝑜' 1, … , 1 ⋅ exp ln 𝒑 = 1 1, … , 1 ⋅ exp ln 𝐷 + ln 𝐀" 𝑜 … 𝑝9 𝑠* ∣ 𝑜' # … exp ln 𝑝9 𝑠* ∣ 𝑜' exp ln 𝑝9 𝑠) ∣ 𝑜' … 𝑝9 𝑠* ∣ 𝑜' # # exp ln 𝐷 + ln 𝐀" 𝑜 規格化項(分⺟)は ln 𝐷 + ln 𝐀" 𝒐のexpをとったものの総和である.つまりこれはソフトマックス関数 となっている.よって 𝒑 𝑠 𝑜' = 𝜎 ln 𝐷 + ln 𝐀" 𝒐
グラフによる解釈 因⼦グラフの同時分布は因⼦の積で求まるから, 𝑝 𝑠( , 𝑜' = A 𝑓+ = 𝐷,! 𝐴-" ,! = 𝑝 𝑠( 𝑝 𝑜' 𝑠. + ここで𝑓+ は因⼦,𝐷, は状態𝑠の要素, 𝐴-, は状態𝑠,観測𝑜の要素である.次にこれの対数をとっ てみると 𝑝 𝑠( , 𝑜' = A exp ln 𝑓+ = exp D ln 𝑓+ = exp ln 𝐷,! 𝐴-" ,! = exp ln 𝐷,! + ln 𝐴-" ,! + + 条件付き確率(posterior) 𝑝 𝑠( ∣ 𝑜' は exp ln 𝐷,! + ln 𝐴-" ,! 𝑝 𝑠( , 𝑜' 𝑝 𝑠( , 𝑜' 𝑝 𝑠( ∣ 𝑜' = = = = 𝜎 ln 𝐷,! + ln 𝐴-" ,! ∑( 𝑝 𝑠( , 𝑜' 𝑝 𝑜' ∑( exp ln 𝐷,! + ln 𝐴-" ,! よってPosteriorベクトルは 𝒑 𝑠 𝑜' = 𝜎 ln 𝐷,# + ln 𝐴-" ,# , … , 𝜎 ln 𝐷,# + ln 𝐴-" ,$ # # 𝐷 𝑠 𝐀 # = 𝜎 ln 𝐷,# , … , 𝐷,$ + ln 𝐴-" ,# , … , 𝐴-" ,$ = 𝜎 ln 𝑝 𝑠) , … , 𝑝 𝑠* # + ln 𝑝 𝑜' 𝑠) , … , 𝑝 𝑜' 𝑠* # = 𝜎 ln 𝐷 + ln 𝐀# 𝒐' 𝑜
変分⾃由エネルギーの最⼩化問題として考える 変分⾃由エネルギーは 𝐹 = D 𝑞 𝑠 ln (∈* 𝑞 𝑠 = D 𝑞 𝑠 ln 𝑞 𝑠 − D 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 = D 𝑞 𝑠 ln 𝑞 𝑠 − D 𝑞 𝑠 ln 𝑝 𝑜 ∣ 𝑠 𝑝 𝑠 𝑝 𝑜, 𝑠 (∈* (∈* (∈* (∈* = D 𝑞 𝑠 ln 𝑞 𝑠 − D 𝑞 𝑠 ln 𝑝 𝑠 + ln 𝑝 𝑜 ∣ 𝑠 (∈* (∈* 状態は離散的で個数は有限だから 𝑞 𝑠 はベクトル𝒔 = 𝑞 𝑠! , … , 𝑞 𝑠# ' で表現できる. よって,変分⾃由エネルギーは 𝐹 = 𝒔' ln 𝒔 − 𝒔' ln 𝐷 + ln 𝐀' 𝒐" 𝒋 = 1, … , 1 ! 𝒔' 𝒋 = 1の条件のもとで𝐹を最⼩化する𝒔を求める.ここでラグランジュの未定乗数法を⽤いる.ラグランジアンは 𝐿 = 𝐹 + 𝜆 1 − 𝒔' 𝒋 この微分は ln 𝒔 + 𝒋 − ln 𝐷 + ln 𝐀& 𝒐$ − 𝜆𝒋 = ln 𝒔 − ln 𝐷 + ln 𝐀& 𝒐" + 1 − 𝜆 𝒋 = 0 となる.よって exp ln 𝐷 + ln 𝐀' 𝒐$ 𝒔= exp 1 − 𝜆 𝒋 𝐷 となる.𝒔の各要素の和は1に規格化されてなければならないので exp 1 − 𝜆 𝒋 = 𝒋& exp ln 𝐷 + ln 𝐀& 𝒐$ よって𝒔は 𝒔 = 𝜎 ln 𝐷 + ln 𝐀& 𝒐$ となる.𝑞 𝑠 ≈ 𝑝 𝑠 𝑜 とするので, 𝒔はposterioである. 𝑠 𝐀 𝑜
メッセージパッシングで考える 先の結果からposterioは 𝑝 𝑠P ∣ 𝑜Q = 𝜎 ln 𝐷R2 + ln 𝐴S3R2 である.つまりposterioは,ソフトマックス関数に因⼦𝐷からのメッセージ ln 𝐷R2 と因⼦𝐴から のメッセージ ln 𝐴S3R2 の和を⼊⼒して得られた値だと考えることができる.もしくは,メッセ ージの和をソフトマックス関数で規格化したものだと解釈できる. ln 𝐷%" 𝐷 𝑠 ln 𝐴&#%" 𝐀 𝑜 メッセージとは,ノード間でやり取りする何か. 何かは,解くべき問題やモデルにより異なる.
⽅策𝜋,⾏列𝐁",! とDynamic perception
⽅策 𝜋 • 𝜋は,それぞれの⽅策の予測価値を反映した⽅策についての分布をエンコ ードするベクトル. • それぞれの⽅策は⼀連の可能な⾏動のである. • ⾏動は異なった状態への遷移(𝑩T,! )と対応する. • それぞれの状態要素のときのエージェントにより,それは選ばれる. • ⽅策はこの分布からサンプリングすることにより選ばれる. • Banditとの対応:許される⽅策は次の決定を含む. • スタート状態に居座る • ヒントを得る.そして,左を選ぶ. • ヒントを得る.そして,右を選ぶ. • すぐさま左を選ぶ(そして,スタート状態に戻る). • すぐさま右を選ぶ(そして,スタート状態に戻る).
遷移⾏列𝐁𝝅,𝝉 : 𝑝 𝑠!BC 𝑠! , 𝜏 • この⾏列は,隠れ状態がどのように時間発展するかについての信念を エンコードする(遷移確率). • ⾏列𝐁",! は, 𝜏 の状態ごとに1列,𝜏 + 1の状態ごとに1⾏で構成される. • ある状態遷移が⽅策間で同⼀である場合,それらは単⼀の⾏列で表す ことができる. • 状態遷移が⽅策に依存する場合,可能な⽅策ごとに1つの𝐁",! ⾏列が存 在する. • Banditの例:ヒントを得たときの状態への遷移や,2つのマシンのうち 1つを選択したときの状態遷移がある.
Dynamic perception • 𝐁! : 遷移⾏列 • これは,どのように状態が時間変化するかを記述している. • 下付きの添字は試⾏における時刻𝜏を表す. • 𝐁!$% は𝐁! のempirical prior(経験的事前確率)になっている. • つまり, 𝐁)+, は𝜏 = 1における𝐷と同じ役割を果たす. 更新式 𝒔!6) = 𝜎 1 ln 𝐷 + ln 𝐁!7 𝒔!8) 2 + ln 𝐀" 𝒐! 1 𝒔)9!9# = 𝜎 ln 𝐁!:) 𝑠!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! 2 1 𝒔!6# = 𝜎 ln 𝐁!:) 𝒔!:) + ln 𝐀" 𝒐! 2 𝐁'(は 𝐁' を転置し,列について規格化したものである. 更新式の導出は周辺メッセージパッシングのところで⾏う. 𝐷 𝑠) 𝐁 𝑠4 𝐁 𝑠5 𝐀 𝐀 𝐀 𝑜) 𝑜4 𝑜5
⾏列C と Dynamic perception with policy selection
⾏列𝐂: 𝑝(𝑜! ∣ 𝐶) • この⾏列は,ある観察された結果が他の結果よりも好まれる度合いをエン コードしている(技術的には結果に対する事前期待としてモデル化され る). • 𝐂は時刻ごとに1列,可能な観察ごとに1⾏で構成される. • 複数の結果モダリティがある場合,モダリティごとに1つの𝐂が存在する. • 𝐂の値の各列は,ソフトマックス関数を通し適切な確率分布に変換するこ とに注意する. • Banditの例:𝐂は⼤きな報酬に対する強いpreference,⼩さな報酬に対す る中程度のpreference,そして無報酬に対する低いpreferenceを表現する.
Dynamic perception with policy selection • それぞれの⽅策(𝜋)はそれぞれ異なった⼀連の⾏動を伴う. • ⼀連の⾏動は,状態間の異なった遷移(異なった𝐁F,G )に対応する. • 𝐺は期待⾃由エネルギーで,事前preferences 𝐂 に依存している. • 𝐺の値に基づき,状態についてのuncertaintyを最⼩化するであろう⽅策を 最も⾼い確率にし,最も好みの観測が起こる確率を最⼤化する. 𝐂 更新式 𝒔;,!6) = 𝜎 𝑠;,!<) = 𝜎 1 7 ln 𝐷 + ln 𝐁;,! 𝒔;,!8) 2 + ln 𝐀" 𝒐! 1 7 ln 𝐁;,!:) 𝒔;,!:) + ln 𝐁;,! 𝒔;,!8) 2 + ln 𝐀" 𝒐! 𝐺; = D 𝐀𝒔;,! ⋅ ln 𝐀𝒔;,! − ln 𝐂! − diag 𝐀" ln 𝐀 ⋅ 𝒔;,! ! 𝐷 𝐺 𝜋 𝑠) 𝐁 𝑠4 𝐁 𝑠5 𝐀 𝐀 𝐀 𝑜) 𝑜4 𝑜5 𝜋 = 𝜎 −𝐺 更新式の導出は読者の皆さんにお任せします.
⾏列𝐁",! ,遷移⾏列𝐁と Dynamic perception
ベクトル𝐸 • ⽅策𝑝 𝜋 に関する事前信念は列ベクトル𝐸(⽅策ごとに 1 ⾏) に符号化され る. • ⽅策𝜋ごとに事前信念がある.⽅策は𝑛個あればベクトル𝐸の要素も𝑛個ある. • これは,習慣・癖の影響をモデル化するために使⽤することができる. • 例えば,あるエージェントが過去に何度も特定の⽅策を選択した場合,これが, その⽅策が再び選択されるより強く期待を導く. • Exploitタスクの例では,𝐸は,参加者が(以前の報酬学習とは無関係に)別の スロットマシンを選ぶ可能性が⾼いという単純な選択バイアスをモデル化する ために使⽤することができる. • しかし,このような事前信念と,観測する前にどの⾏動を選ぶかを決める ⽅策についての初期の分布と区別することが重要である. • また,⽅策選択の分布は𝑬, 𝑮, 𝜸 に依存し,習慣と将来期待される結果が それぞれ初期選択に影響を与える.
パラメタ𝜸 • 期待⾃由エネルギー𝐺が⽅策選択を制御する度合いは,さらなるパラメータ𝛾によって調 節される. • このパラメータは⽅策に対して期待⾃由エネルギーの推定精度を表す. • これは,⽅策を推論する際の信頼度についての事前信念をエンコードしたものと考える ことができる.これは,しばしば「事前⽅策精度」パラメータと呼ばれる. • しかし,これは⽅策𝜋に対する事後信念の精度と同じものではないことに注意する必要 がある.これは𝜋がベクトル𝐸(癖)と𝐹(変分⾃由エネルギー)にも依存するからであ る.例えば,𝛾が低くても𝜋が正確である可能性があることを意味する(Hesp et al., 2020). • このため,𝛾は⽅策精度パラメータそのものではなく、期待⾃由エネルギーの精度パラ メータとして考えた⽅がよい. • 癖がない場合(すなわち,Eが平坦な分布の場合),𝛾の値が低いと⽅策選択のランダム 性が⾼くなる.強い癖が存在する場合,𝐺の影響が𝐸よりも⼩さくなるため,低い𝛾は癖 が⽅策選択に与える影響を⼤きくする. • 𝛾がハイパーパラメータ𝛽の更新を通し更新されるモデルもある.
Dynamic perception with flexible policy selection • このモデルでは期待⾃由エネルギーの精度の𝛾が含まれる. • 𝑝 (𝛾)はshapeパラメータが1で,rateパラメータがβで指定されたガ ンマ分布 Γ に対応する。 • なお,この⽣成モデルに𝛾は確率変数であるが,𝛾( はガンマ分布の統 計量(期待値)(すなわち、固定スカラー)であり次のスライドで⽰ す⽅程式に基づいて更新される. 𝛽 𝐂 𝐺 • 𝛾 の値は,⽅策選択に対するエージェントの確信度を表し,⽅策に対 する事後分布𝜋 に対する𝐺の寄与度を調整する. • 𝛾も,新しい観測の後に,その観測に関連する⽅策に対する変分⾃由 エネルギー𝐹に基づいて𝛽の値を更新することにより最適化される. 𝐸 𝛾 𝜋 𝐷 𝑠) 𝐁 𝑠4 𝐁 𝑠5 • つまり,新しい観測が⽅策に対する事前信念 (𝜋+ ;すなわち𝐺に基づ く) と⼀致しない場合,エージェントは⽅策に対するposterior (𝜋) を 導くときに,𝐺に対してより低い期待精度𝛾を割り当てることになる. 𝐀 𝐀 𝐀 • また,⽅策に対する事前分布𝐸も含まれ,習慣形成のモデルとして⽤ いることもできる. 𝑜) 𝑜4 𝑜5 • また,𝛾が⼩さいほど (すなわち,𝐺に関するモデルベースの信念の 信頼度が低いほど),𝐸の持つ習慣が⽅策選択に与える影響が強くな る.
Dynamic perception with flexible policy selection
• それぞれの⽅策(𝜋)はそれぞれ異なった⼀連の⾏動を表す.
• ⼀連の⾏動は状態間の異なった遷移(異なった𝐁;,! )に対応する.
• 𝐺は期待⾃由エネルギーで,事前preferences 𝐂 に依存している.
• 𝐺の値に基づき,状態についてのuncertaintyを最⼩化するであろ
う⽅策を最も⾼い確率にし,最も好みの観測が起こる確率を最⼤
化する.
更新式
𝐹; = D 𝒔;,! ⋅ ln 𝒔;,! −
!
1
7
ln 𝐁;,!:) 𝒔;,!:) + ln 𝐁;,!
𝒔;,!8)
2
𝜋- = 𝜎 ln 𝐸 − 𝛾, 𝐺
𝜋 = 𝜎 ln 𝐸 − 𝐹 − 𝛾, 𝐺
𝑝 𝛾 = Γ 1, 𝛽
𝐸 𝛾 = 𝛾, = 1/𝛽
𝛽 = 𝛽 − 𝛽=>?@AB /𝜓
𝛽=>?@AB = 𝛽 − 𝛽C + 𝜋 − 𝜋C ⋅ (−𝐺)
更新式の導出は読者の皆さんにお任せします.
𝛽
𝐂
𝐺
− ln 𝐀" 𝒐!
𝐸
𝛾
𝜋
𝐷
𝑠)
𝐁
𝑠4
𝐁
𝑠5
𝐀
𝐀
𝐀
𝑜)
𝑜4
𝑜5
まとめ • 𝒐! :時刻𝜏に観測された結果を表すベクトル • 𝒔! :時刻𝜏のときの隠れ状態を表すベクトル • ⾏列𝐀: 𝑝 𝑜U 𝑠! ,時刻𝜏における隠れ状態と観測可能な結果の関係についての信念 である).時刻𝜏における状態ごとに1列,時刻𝜏において可能な観測ごとに1⾏で構 成される. • 遷移⾏列𝐁 : 𝑝 𝑠!V% 𝑠! ,隠れ状態がどのように時間発展するかについての信念を エンコードする.𝜏の状態ごとに1列,𝜏 + 1の状態ごとに1⾏で構成される. • ⾏列𝐂: 𝑝(𝑜! ∣ 𝐶),ある観察された結果が他の結果よりも好まれる度合い.𝐂は時刻 ごとに1列,可能な観察ごとに1⾏で構成される. 𝐶の値の各列は,ソフトマックス 関数を通し適切な確率分布に変換する • ベクトル𝐷:: 𝒑 𝒔𝟏 • ベクトル𝐸:⽅策𝑝 𝜋 に関する事前信念,⽅策ごとに 1 ⾏ • パラメタ𝜸:期待⾃由エネルギーの推定精度
Forney-style(正規)因⼦ グラフとメッセージ伝播
Active inferenceと因⼦グラフ • 推論を⾏うためには⽣成モデルを反転させなければならない. • Active inferenceでは,それぞれの新しい観測結果が与えられたときに最も 可能性の⾼い状態と⽅策を推論する. • そこで,ベイズ推論のための⼀連のメッセージパッシングアルゴリズム を導き出し,可視化するために活⽤できる正規因⼦グラフが重要になる. 𝐸 = ⽣成モデルを反転させる. 当たり前ではあるが,原因となる状態𝑠があって,そこから観測𝑜が ⽣じる.条件付き確率で書けば,𝑝 𝑜 𝑠 となる.これを⽣成モデル という.知りたいのは状態なので,観測結果𝑜から状態を推論するこ とになる.つまり状態から観測の逆,観測から状態の流れになる. これを⽣成モデルを反転させると⾔っている. 𝐷 = 𝐁 = 𝐁 = 𝐀 𝐀 𝐀 𝑜$ 𝑜% 𝑜&
正規因⼦グラフ • 正規因⼦グラフは、正⽅形のノードとエッジ(正⽅形のノードを結ぶ 線)から構成される。 • 正⽅形のノードは関数(すなわち,因⼦または条件付き確率分布)だ と考えられる. • Parr et al. 2019では,同時分布を作る因⼦(事前および条件付き確率分 布)と説明している. • その関数は,ある⼊⼒(例えば、状態や観測に対する信念の⼗分統計 量)を取り込み,その情報を何らかの⽅法で変換して出⼒(例えば、 因⼦で指定された条件付確率の⼗分統計量)を⽣成する. ⽣成モデル 𝑝(𝑤, 𝑥, 𝑦, 𝑧) ⽣成モデルの因⼦ 𝑝 𝑤 𝑥 𝑝 𝑥 𝑦, 𝑧 𝑝 𝑦 𝑝 𝑧 3 4 1 2 正規因⼦グラフ • これらの⼊⼒と出⼒は「メッセージ」と呼ばれる. • エッジは変数と関連付けられている. • エッジが1つの正⽅形ノードにのみ接続する場合はハーフエッジと呼ば れる. • 変数が1つの因⼦にしか現れない場合,ハーフエッジになる (Friston et al., 2017). • これは外部変数と結びついている(Forney and Vontobel, 2011). Smithらの論⽂では,エッジは⼗分統計量だ ,共通変数だ ,推論されるべき変数の近似posteriorだとか⾔ったりしている (p16). どっちなんだ(つまるところ同じ意味なのだが).このスライドではForney and Vontobel 2011に従い変数ということにする. 4 2 𝑧 𝑥 1 𝑤 𝑦 3
正規因⼦グラフ • ⾊付きノードは観測可能データを意味する. • 2つのノードを結ぶエッジは,これらのノードがメッセージを交換し, それぞれがそのエッジで表される値に寄与していることを⽰す. 𝐸 ⽣成モデル 𝑝(𝑤, 𝑥, 𝑦, 𝑧) = ⽣成モデルの因⼦ 𝑝 𝑤 𝑥 𝑝 𝑥 𝑦, 𝑧 𝑝 𝑦 𝑝 𝑧 1 𝐷 = 𝐁 = 𝐁 3 2 4 = 正規因⼦グラフ 𝐀 𝐀 𝐀 4 2 𝑧 𝑥 𝑜$ 𝑜% 𝑜& 1 𝑤 𝑦 3
正規因⼦グラフ • 等号のついた四⾓はデルタ関数因⼦を介して隣接するエッジを関連付ける 1 𝑝 𝑥 = 𝑁 0, 𝐼 (Parr et al, 2019). • =は次のような因⼦である. 1, if 𝑥 = 𝑥 X = 𝑥′′ • 𝑓" 𝑥, 𝑥 , 𝑥 = ? 0, otherwise • これをδ関数で書くと X 2 𝑝 𝑦! ∣ 𝑥 = 𝑁 𝐴!𝑥 + 𝑎!, Σ! 3 𝑝 𝑦" ∣ 𝑥 = 𝑁 𝐴"𝑥 + 𝑎", Σ" XX 1 Σ! 𝐴!, 𝑎! • 𝑓" 𝑥, 𝑥 X , 𝑥 XX = 𝛿 𝑥 − 𝑥 X 𝛿 𝑥 − 𝑥 XX • 要は=でつながるそれぞれの変数は等しいという意味である. 𝑥7 𝑥 = 𝑥 77 𝑦! 2 Σ" 𝑥 3 = 𝑦" 𝐴 " , 𝑎"
正規因⼦グラフ • 正規因⼦グラフの各エッジはベイズネットと因⼦グラフの円形のノー ドで表される変数ノードに対応し,正規因⼦グラフの四⾓ノードは因 ⼦グラフの四⾓のノードで表される因⼦ノードに対応する. 正規因⼦グラフ ベイズネット 𝑦 3 4 𝑧 2 𝑥 2 4 𝑧 2 𝑥 𝑤 𝑤 3 4 𝑧 2 𝑥 1 1 𝑦 因⼦グラフ 1 𝑤 𝑦 3
正規因⼦グラフ • 正規因⼦グラフは⽣成モデルの因数分解を表す. • ⽣成モデルはPOMDPの観測,状態,⽅策の時間的な同時確率分布 𝑝(𝑜,:9 , 𝑠,:9 , 𝜋)として正式に定義されていることを思い出す. • 因⼦分解とは,この同時確率をいくつかの条件付き独⽴分布の積とし て定義できることを意味する. • POMDPでは,因数分解により各状態は前の時間ステップでの状態と⽅策 にのみ依存すると仮定する(いわゆるマルコフ性). 因⼦は確率でなくても良い.
𝑝(𝑜C:O , 𝑠C:O , 𝜋)の因数分解 & & 𝑝 𝑜!:& , 𝑠!:& , 𝜋 = 𝑝 𝑠! 𝑝 𝜋 𝑝 𝑠- 𝑠! , 𝜋 𝑝 𝑜! 𝑠! … = 𝑝 𝑠! 𝑝 𝜋 Z 𝑝 𝑜. 𝑠. Z 𝑝 𝑠. 𝑠.0! , 𝜋 𝑝 𝑜!:& , 𝑠!:& ∣ 𝜋 = 𝑝 𝑠! 𝑝 𝑜! & & 𝑠! 𝑝 𝑠- ./! 𝑠! , 𝜋 𝑝 𝑜- 𝑠- … & ./& = 𝑝 𝑠! Z 𝑝 𝑜. 𝑠. Z 𝑝 𝑠. 𝑠.0! , 𝜋 = 𝒔! ⋅ 𝐷 Z 𝒐. ⋅ 𝐀𝒔. Z 𝒔. ⋅ 𝐁1,. 𝒔.0! ./! ./- ./! 𝜋 ./- 上記の因⼦分解が正しいか具体的に確かめてみる. 𝑠! の状態が1だとした場合, 𝒔! ⋅ 𝐷 = 1 0 … ⋅ 𝑝 𝑠! = 1 𝑝 𝑠! = 2 … ' = 𝑝 𝑠! = 1 𝑜! の観測が 1だとした場合, 𝑝 𝑜! = 1 𝑠! = 1 𝑝 𝑜! = 1 𝑠! = 2 … 1 𝒐! ⋅ 𝐀𝒔! = 1 0 … 𝑝 𝑜! = 2 𝑠! = 1 ⋱ ⋮ 0 ⋮ ⋮ … 𝑝 𝑜! = 1 𝑠! = 1 = 1 0 … 𝑝 𝑜. = 2 𝑠. = 1 = 𝑝 𝑜! = 1 𝑠! = 1 ⋮ 𝒔- の状態が2だとした場合, 𝑝 𝑠- = 1 𝑠! = 1 𝑝 𝑠- = 1 𝑠! = 2 … 1 𝒔- ⋅ 𝐁1,- 𝒔! = 1 0 … 𝑝 𝑠- = 2 𝑠! = 1 ⋱ ⋮ 0 ⋮ ⋮ … 𝑝 𝑠- = 1 𝑠! = 1 = 1 0 … 𝑝 𝑠- = 2 𝑠! = 1 = 𝑝 𝑠- = 1 𝑠! = 1 ⋮ 𝐷 𝑠) 𝐁 𝑠4 𝐁 𝑠5 𝐀 𝐀 𝐀 𝑜) 𝑜4 𝑜5 行列𝐀: 𝑝 𝑜# 𝑠$ 遷移行列𝐁 : 𝑝 𝑠$%! 𝑠$ 𝜏の状態ごと に1列,𝜏 + 1の状態ごとに1⾏で構成 される. sとoの太字はone-of-K codingと思って.
変分メッセージパッシング
変分メッセージパッシング • 変分メッセージパッシング(variational message passing)は,active inferenceにおい て基本となるもので,状態について事後分布の近似推論を実⾏する . • 最近の能動推論の実装では,より洗練されたアルゴリズム(marginal message passing)が使 われている. • これは,変分メッセージパッシングで⽣じる過信の問題(すなわち,事後信念があまりにも早くあまりにも 正確になりすぎること)に対してよりロバストである. • VFEの最⼩化を通しモデルを反転させる(すなわち、状態と⽅策に関する近似事後分布 を推論するために観測を条件とする)ためには,いくつかの単純化した仮定が必要であ る(すなわち,ほとんどの現実のケースで厳密な推論は実⾏不可能であるためである). • 変分メッセージパッシングは近似posteriorが(独⽴)分布の積に因⼦分解すると仮定 する平均場近似に基づく. • POMDPにおける平均場近似は,近似posteriorが⽅策に関する事前分布と各時点にお ける各⽅策の下で期待される状態に関する分布に因⼦分解されると仮定している. • 𝑝 𝑠%:_ 𝑜%:_ , 𝜋 ≈ 𝑞 𝑠%:_ , 𝜋 = 𝑞 𝜋 ∏_! 𝑞 𝑠! 𝜋
変分メッセージパッシングによる近似posteriorの推論 • この因⼦分解を⽤いると変分メッセージパッシングにより,グラフの各辺における近似posterior 𝑞 𝑠. 𝜋 を推論し,先ほどの式で⼤域的posterior 𝑞 𝑠!:& 𝜋 に結合することができる.変分メッセージパッシングは 以下のステップでまとめることができる. 1. グラフのすべての隠れ変数(すなわち,すべてのエッジ)の近似posterior 𝑞(𝑠1,. )の値を初期化する. 𝜇⃗ 𝑠T,! 2. 観測変数(ここでは𝑜. )の値を固定する。 3. 推論したい隠れ変数(ここでは𝑠1,. )に対応するエッジ(𝑉)を選択する. 4. 𝑉に接続する各因⼦ノードが送信するメッセージ𝜇(𝑠1,. )を計算する. 𝑓 𝜇⃖ 𝑠T,! 𝑠F,) 𝑓 5. 接続された各因⼦ノード𝑁から𝑉にメッセージを渡す(𝜇%→4 と書くことが多い). 6. 𝑞 𝑠1,. ∝ 𝜇⃗ 𝑠1,. 𝜇⃖ 𝑠1,. のルールに従って𝑉で表される近似posteriorを更新する.ここで,⽮印の表記は同じ エッジに到着した2つの異なる要因からのメッセージを⽰す. 各𝜇の上の⽮印は2つの異なる因⼦ノードから同じエッジ に伝達されるメッセージを区別するために使⽤される. 1. 𝑞 𝑠C,' が適切な確率分布に対応するように,これらのメッセージの積を正規化する。 2. この新しい𝑞 𝑠C,' を使って,接続された要因によって送信されるメッセージを更新する(次のメッセージパッシングのラ ウンドのために). 7. 各エッジについてステップ4-6を順次繰り返す。 8. ステップ3-7を更新の差が許容できるほど低い値に収束するまで(すなわち,すべてのエッジについて安定 した事後信念を得ることができるまで)繰り返す.
メッセージの交換 • 能動的推論モデルの因⼦グラフは,メッセージを交換するために3つの 因⼦ノードを必要とする箇所がある. • 3つ以上の因⼦がメッセージを交換する場合,それぞれの因⼦からの エッジが等号ノードに接続しなければならない. • この場合,それぞれのメッセージの積をとり,これが他の接続された 因⼦へ送られる. 𝑓 • 𝜇⃗ 𝑠F,) ∝ 𝜇⃗, 𝑠F,) 𝜇⃗H 𝑠F,) … 𝜇⃗I 𝑠F,) 𝜇⃗` 𝑠T,! 𝜇⃗% 𝑠T,! 𝑓 𝑓 = 𝜇⃗a 𝑠T,! 𝜇⃗# 𝑠T,! 𝑓
メッセージとその規格化 • 隠れ状態𝑠",! に対して各メッセージは各因⼦の指数関数化された期待対 数値𝜇⃗ 𝑠",! ∝ exp 𝐸& ln 𝑔 𝑠",! を伝達する. • ここで𝑔 𝑠",! は各因⼦が表す関数を表す. • 観測された変数の場合,メッセージは単にその因⼦の既知の値を伝え る.これは簡単に計算できる(例えば,このチュートリアルで扱う POMDPではメッセージは単に𝑨'𝒐である). • これらのメッセージを組み合わせることで関連するエッジで表される posteriorを近似することができる. • 各エッジのposterior 𝑞 𝑠",! は,次のラウンドのメッセージパスの前 に,ソフトマックス関数で正規化される.
POMDPの例 • これらの更新規則を⽤いてPOMDPモデルの状態に対する近似posterior の更新式が得られる. • Message1: ln 𝜇⃗𝐁𝝅,𝝉G𝟏→(I,J = 𝐸6 𝑠.0! 𝜋 ln 𝑝 𝑠. 𝑠.0! , 𝜋 𝐶𝑎𝑡 ⋅ : カテゴリカル分布 ⾏列𝐀: 𝑝 𝑜# 𝑠$ 遷移⾏列𝐁 : 𝑝 𝑠$%! 𝑠$ ベクトル𝐷 : 𝑝 𝑠! ベクトル𝐸 : 𝑝(𝜋) • Message2: ln 𝜇⃖ 𝐁𝝅,𝝉→(I,J = 𝐸6 𝑠.7! 𝜋 ln 𝑝 𝑠. 𝑠.7! , 𝜋 4 𝐸 = 𝑠1,! • Message3: ln 𝜇𝐀→(I,J = ln 𝑝 𝑜. 𝑠. 3 • これらのメッセージとBayesの定理との間には直接的な関係がある. 𝐷 2 1 = • メッセージ1は前の時点の事前情報(右向きの⽮印)に対応する. • メッセージ2は未来の時点からの事前情報(左向き⽮印:例えば、時点2の観測 結果を受けて、時点1の状態を遡及的に推論することができる)に対応する. • メッセージ3は、現在の時点における観測の尤度に対応する(⽮印表記なし;こ こでは,すべてのπの値に対して同じであると仮定する). 3 1 2 𝐁 1 𝑠1,< 𝑠1,= 3 2 𝐁 = 𝐀 𝐀 𝐀 𝑜$ 𝑜% 𝑜& • 例えば,𝑠C,K の事後値に対応するエッジ(グラフの中央)を取ると,この事後値 は、事前値(𝐵C,'LM と 𝐵C,' )を尤度(𝐴)で統合し、正規化して適切な確率分布 に戻したものに相当する(つまり、ベイズの定理と同様).これらのメッセー ジに⾏列表記を採⽤する場合,信念の更新は次のように書くことができる: N N • 𝒔C,' = 𝜎 ln 𝐁C,'LM 𝒔'LM + ln 𝐁C,' 𝒔'OM + ln 𝐀N 𝒐' 𝐓 • なお、 ln 𝐁1,𝝉0𝟏 𝒔.0! は、𝜏 = 1の初期状態𝐷に関する事前情報で置き換え られる. これは,変分メッセージパッシングである点に注意する.
因⼦グラフとメッセージパッシング
1
• 上:因数分解された⽣成モデルを構成する因⼦.⿊四⾓の中の
数字は式と下の正規因⼦グラフで表される⽣成モデルの因⼦と
の対応関係を⽰す.ここでCat()はカテゴリカル分布を⽰す.
• 中段: 変分メッセージパッシングから導かれる状態に対する近
似posteriorの信念更新式(このメッセージパッシングと周辺
メッセージパッシングの違いに注意).丸数字は更新⽅程式内
の項と下のパネルの因⼦グラフに⽰された各因⼦間で渡される
メッセージとの対応を⽰している.
• 下段: 因数分解されたPOMDPの正規化因⼦グラフ表現.ベイ
ズネット表現とは異なり,ノード(⼤きな⽩い箱)は因⼦を表
し,エッジ(各箱を結ぶ線)は因⼦間のメッセージとして渡さ
れる近似posteriorの⼗分統計量を表す(すなわち,エッジは,
各時点の各⽅策に対する状態のposterior 𝑠;,! のように,接続す
る因⼦に関わる共通変数を表す.
𝑝 𝑜. ∣ 𝑠. = 𝐶𝑎𝑡 𝐀
2 𝑝 𝑠.7! ∣ 𝑠. , 𝜋 = 𝐶𝑎𝑡(𝐁1,. )
3 𝑝 𝑠! = 𝐶𝑎𝑡(𝐷)
4 𝑝 𝜋 = 𝐶𝑎𝑡(𝐸)
1
N
𝒔C,' = 𝜎 ln 𝐁C,'LM 𝒔C,'LM + ln 𝐁C,'
𝑠C,'OM + ln 𝐀𝐓 𝒐'
𝐶𝑎𝑡 ⋅ : カテゴリカル分布
⾏列𝐀: 𝑝 𝑜# 𝑠$
遷移⾏列𝐁 : 𝑝 𝑠$%! 𝑠$
ベクトル𝐷 : 𝑝 𝑠!
ベクトル𝐸 : 𝑝(𝜋)
4
𝐸
=
𝑠;,)
3
𝐷
𝑠;,5
2
1
=
3
1
カテゴリカル分布
𝒙 = 𝑥$, 𝑥%, … , 𝑥' , 𝑥( ∈ 0,1 , 𝑖 ∈ {1,2, … , 𝐾}, ∑( 𝑥( = 1, 𝑝(𝒙) = ∏( 𝜇 𝑥( )!
3
2
2 𝐁 1
=
𝑠;,4
2 𝐁
=
3
𝐀
𝐀
𝐀
𝑜$
𝑜%
𝑜&
⽅策の推論 • 能動的推論の下では,⽅策は,その好ましい観測を⽣成し情報利得を最⼤化する(と期待される)能⼒ に基づいて選択される. • ある⽅策の下での状態遷移は,もし,その状態遷移が現在の観測の確率 ln 𝑝 𝑜! 𝜋 と,その⽅策を条件 とする将来の観測の期待確率𝐸H 𝑜! , 𝑠! 𝜋 ln 𝑝 𝑜! 𝜋 を最⼤化するのであれば,より確率が⾼いとみなす ことが出来る. • ここで将来の観測は推論される必要のある確率変数として扱われる(つまり,将来の観測は,まだモデルに 与えられていない). • これらの分布を推論するには、正規因⼦グラフの分配関数を評価する必要がある.これは次のスライド の⾚い点線で囲まれたエッジで表される変数(つまり確率)の和をとることを意味する.例えば、⽅策 を条件とした現在の観測の確率𝑝 𝑜! 𝜋 と⽅策を条件とした予想される将来の観測の確率 ∑, 𝑝 𝑜! , 𝑠! 𝜋 を求めるには、以下の和を評価する必要がある: • ln 𝑝 𝑜! 𝜋 = ln ∑, 𝑝 𝑜! , 𝑠! 𝜋 • 𝐸H 𝑜!<A , 𝑠!<A 𝜋 ln 𝑝 𝑜!<A 𝜋 = 𝐸H 𝑜!<A , 𝑠!<A 𝜋 ln ∑, 𝑝 𝑜!<A , 𝑠!<A 𝜋 • このような総和はしばしば難解である.その代わりに変分⾃由エネルギーと期待⾃由エネルギーを評価 する.
⽅策の推論 • これまで⾒てきたように、このような総和はしばしば難解である.その代わりに、⾃由エネルギー関数VFEとEFEを評価する.これらは必要 な確率に近似しており,効果的な計算が可能だからである. 4 • − ln 𝑝 𝑜* 𝜋 ≈ 𝐹+,* • −𝐸- 𝑜*./ , 𝑠*./ 𝜋 ln 𝑝 𝑜*./ 𝜋 𝐸 1 = ≈ 𝐺+,* 2 𝜋 𝐁 • そして,⽅策に対するposteriorは、状態に対するposteriorと同様の⽅法で計算することができる. • 具体的には,⾏列因⼦ノード𝐁+,*0$ と𝐁+,* とベクトル因⼦ノード𝐸から⽅策についてのposteriorを表すエッジに送られるメッセージを以下の ように表現できる. • 𝑞 𝜋 ∝ 𝜇1→+ ⋅ 𝜇⃗3",$%& →+ ⋅ 𝜇⃖3",$ →+ • Message1: ln 𝜇1→+ = ln 𝐸 • Message2: ln 𝜇⃗3",$%& →+ = 𝐹+,* • Message3: ln 𝜇⃖3",$ →+ = 𝐺+,* 2 3 𝐁 • ここでも,過去と未来の時点からのメッセージはそれぞれ右向き,左向きの⽮印で表し,⽅策の事前分布を伝えるメッセージは⽮印表記な しで表す.これらのメッセージを受け渡し,その結果をソフトマックス関数で正規化すると(精度項γを抑えた)⽅策のposteriorの式が得 られる. • 𝜋 = 𝜎(ln 𝐸 − 𝐹 − 𝐺) • ただし,この場合は反復的なメッセージパッシングを⾏う必要がないことに注意が必要である.1度のメッセージパッシングと上式とは等 価である. • つまり,⽅策に対する推論はメッセージパッシングの観点から発⾒的に⾒ることができるが(状態推論における変分メッセージパッシングと の整合性を説明するため),このように記述する必要はない(また、メッセージは双⽅向ではないなどの相違点もある)。
メッセージパッシングと⽅策選択 • 上:これらの式は因数分解された⽣成モデルを構成する因⼦を表す.四⾓の 中の数字は下の正規因⼦グラフで表される因⼦と対応している. 1 • 中央:⽅策に対する事後推定を⾏うための信念更新式.丸数字は更新⽅程式 内の項と因⼦グラフに⽰された各因⼦間で受け渡されるメッセージとの対応 を⽰す. 3 𝑝 𝑠! = 𝐶𝑎𝑡(𝐷) 2 𝑝 𝑠.7! ∣ 𝑠. , 𝜋 = 𝐶𝑎𝑡(𝐁1,. ) 4 𝑝 𝜋 = 𝐶𝑎𝑡(𝐸) 1 • 下: ⽅策に対する推論の⽂脈におけるメッセージパッシングの正規因⼦グラ フ表現. • ⾚い点線はグラフの分配関数を⽰す.これは⽅策に条件付けされた現在の観測の確率 − ln 𝑝 𝑜' 𝜋 ≈ 𝐹C,' ,および⽅策に条件付けされた将来の観測の期待確率 − 𝐸W 𝑜'XY , 𝑠'XY 𝜋 ln 𝑝 𝑜'XY 𝜋 ≈ 𝐺C,' に対する⾃由エネルギーの近似を構築するため 𝐺ともにマイナスだから,𝜋を⼀つの後でかけばこれらは分⺟になる.カノニカル分布のアナロジーから考えれば分配 に使⽤される. 𝐹,関数と⾔えるのだろう. 𝑝 𝑜. ∣ 𝑠. = 𝐶𝑎𝑡 𝐀 2 𝜋 = 𝜎 ln 𝐸 − 𝐹C,' − 𝐺C,' 𝐶𝑎𝑡 ⋅ : カテゴリカル分布 ⾏列𝐀: 𝑝 𝑜# 𝑠$ 遷移⾏列𝐁 : 𝑝 𝑠$%! 𝑠$ ベクトル𝐷 : 𝑝 𝑠! ベクトル𝐸 : 𝑝(𝜋) • このメッセージパッシングとしての⽅策についての推論の表現はヒューリスティック なものであり,状態についてのposteriorに関するメッセージパッシングのアナロジー を意味しているに過ぎない.これは,1度の計算でposteriorに⾄り(反復計算しない), メッセージは双⽅向ではなく,そして𝐹C,' と𝐺π,τ は⽅策の因⼦ではないからである. • このグラフ表現では𝐺C,' に関するすべての依存関係を説明することは出来ない.なぜな らば, 𝐺C,' は2つの異なるタイプの予測された将来の観測𝑝 𝑜'XY 𝜋 と𝑝 𝑜'XY 𝐶 に 依存するからである. 4 𝐸 𝜋 • 因⼦𝐹C,' と𝐺C,' は、2つの遷移確率因⼦(𝐵C,'LM と𝐵C,' )から送られるメッセージとなる. これらは等号ノードで統合される. • これらのメッセージは更に𝐸から送信されたメッセージと統合され,さらにソフト マックス関数を適⽤される.これは⽅策に関するposteriorになる. 3 2 3 𝐷 = 𝐁 𝜋 1 = 𝜋 3 = 𝐁 = 2 1 𝐀 𝐀 𝐀 𝑜$ 𝑜% 𝑜&
周辺メッセージパッシング • 周辺メッセージパッシングは変分メッセージパッシングの計算有効性と,より計算コストが⾼いが適 切な条件下で(近似ではなく)正確な推論を実⾏できる信念伝播と呼ばれる別の広く使われているア ルゴリズムとの間の⼀種の妥協案である(詳細についてはParr et al., 2019参照). • 周辺メッセージパッシングの完全な説明は難しいためここでは取り扱わない. • しかし周辺メッセージパッシングの主な結果として状態のposteriorの導出がある.周辺メッセージ パッシングにより求められたposteriorは次の式で表される. • 𝒔;,! = 𝜎 ) 4 7 ln 𝐁;,!:) 𝒔;,!:) + ln 𝐁;,! 𝒔;,!8) + ln 𝐀" 𝒐! • 上記のように,𝐁;,!:) 𝒔;,!:) は𝜏 = 1の初期状態𝐷に関するpriorに置き換えられることに注意する. • 遷移信念(𝐁;,! )の影響をスケールするために1/2を加えた結果,遷移確率の精度が低下する. • これにより,変分メッセージパッシングで起こりうるposteriorの精度の過⼤評価を防ぐことができ る. 7 • また,𝐁;,! は𝐁;,! の正規化された列(すなわち、合計が1になる列)の転置を⽰すことに注意する.こ こで紹介するように,この修正はややアドホックな印象を与えるかもしれないが,変分メッセージ パッシングと同様に周辺メッセージパッシングの更新⽅程式は原理的な⽅法で導出することができる (Parr et al., 2019).
隠れマルコフモデルにおける 周辺メッセージパッシング Parr et al. (2019) Neuronal message passing using Mean-field, Bethe, and Marginal approximations を参考にしている独⾃解説.間違っているかもしれません.
隠れマルコフモデル • Smith et al. 2022の図5におけるDynamic perceptionは隠れマルコフモデル(HMM)である. • HMMには観察可能な結果(𝑜! )と隠れ状態(𝑠! )という 2 種類の確率変数がある. • 隠れ状態は時間とともに変化し,各状態は前回の隠れ状態にのみ依存する(マルコフ連鎖,マルコフ 過程). • このスパースな依存性により,効率的なローカルなメッセージパッシングスキームを導き出すことが できる. • これは変数に関する信念の計算に使⽤されるメッセージが変数のマルコフブランケットの構成要素のみ から得られるためである. • HMM内の特定の隠れ状態のマルコフ ブランケットには,直前の状態,直後の状態,および現在可能な 観測結果が含まれる. マルコフブランケット 𝐷 𝑠$ 𝐁 𝑠% 𝐁 𝑠& 𝐷 = 𝐁 = 𝐁 = 𝐀 𝐀 𝐀 𝐀 𝐀 𝐀 𝑜$ 𝑜% 𝑜& 𝑜$ 𝑜% 𝑜& 因⼦グラフ マルコフブランケット ノードを孤⽴させるための最⼩のノード集合 正規因⼦グラフ
マルコフブランケットのみ考えよう 𝑠$ 𝑓$ 確率変数:𝑠) , 𝑠4 , 𝑠5 , 𝑜4 同時分布: 𝑝 𝑠) , 𝑠4 , 𝑠5 , 𝑜4 = 𝑝 𝑠5 𝑠4 𝑝 𝑠4 𝑠) 𝑝 𝑠) 𝑝 𝑜4 𝑠4 条件付き周辺分布(posterior) 𝑝 𝑠4 ∣ 𝑜4 を求める. 𝑝 𝑠) , 𝑠4 , 𝑠5 , 𝑜4 𝑝 𝑠5 𝑠4 𝑝 𝑠4 𝑠) 𝑝 𝑠) 𝑝 𝑜4 𝑠4 𝑝 𝑠4 ∣ 𝑜4 = D = D ∑,# ,,[ ,,Z 𝑝 𝑠5 𝑠4 𝑝 𝑠4 𝑠) 𝑝 𝑠) 𝑝 𝑜4 𝑠4 𝑝 𝑜4 ,# ,,Z = 1 D 𝑝 𝑠4 𝑠) 𝑝 𝑠) 𝑍 ,# ,# ,,Z D 𝑝 𝑠5 𝑠4 𝑠% 𝑓% 𝑔% 𝑜% 𝑝 𝑜4 𝑠4 ,Z 同時分布は因⼦の積で求まるとすると𝑝 𝑠) , 𝑠4 , 𝑠5 , 𝑜4 = 𝑓) 𝑠) , 𝑠4 𝑓4 𝑠4 , 𝑠5 𝑓5 𝑠4 , 𝑜4 ここで, 𝑠4 の条件付き周辺分布 𝑝 𝑠4 ∣ 𝑜4 を考える.周辺分布は 𝑝 𝑠) , 𝑠4 , 𝑠5 , 𝑜4 を周辺化すれば求まる. 𝑝 𝑠) , 𝑠4 , 𝑠5 , 𝑜4 1 𝑝 𝑠4 , 𝑜4 = D = D 𝑓@ 𝑠) , 𝑠4 𝑓U 𝑠4 , 𝑠5 𝑓V 𝑠4 , 𝑜4 𝑝 𝑜4 𝑍 ,# ,,Z 1 = D 𝑓) 𝑠) , 𝑠4 𝑍 ,# ,# ,,Z D 𝑓4 𝑠4 , 𝑠5 𝑔4 ,Z カッコでくくられたそれぞれの項をメッセージとみなす.よって,メッセージは 𝜇W\ →,[ 𝑠4 = ∑,# 𝑓@ 𝑠) , 𝑠4 , 𝜇W] →,[ 𝑠5 = ∑,Z 𝑓U 𝑠4 , 𝑠5 , 𝜇W^ →,[ 𝑠4 = 𝑝 𝑜4 𝑠4 つまり,条件付き周辺分布はメッセージの積を規格化すれば求まる. 𝑝 𝑠4 ∝ 𝜇W\ →,[ 𝜇W] →,[ 𝜇W^ →,[ 𝑠&
隠れマルコフモデルの条件付き周辺分布 図のグラフィカルモデルはマルコフブランケットのみ抽出したものである.⼀般的に考える. 𝑝 𝑠! ∣ 𝑜! はメッセージの積から求まるから 𝑝 𝑠! ∣ 𝑜! ∝ 𝜇WJG# →,J 𝜇WJ →,J 𝜇[^ →,J それぞれの因⼦からくるメッセージは 𝜇WJG# →,J 𝑠! = D 𝑓!:) 𝑠!:) , 𝑠! 𝜇,JG# →WJG# 𝑠!:) = D 𝑝 𝑠! 𝑠!:) 𝜇,JG# →WJG# 𝑠!:) ,JG# ,JG# 𝜇WJ →,J 𝑠! = D 𝑓! 𝑠! , 𝑠!8) 𝜇,J_# →WJ 𝑠!8) = D 𝑝 𝑠!8) 𝑠! 𝜇,J_# →WJ 𝑠!8) ,J_# ,J_# 𝜇[J →,J 𝑠! = 𝑔! 𝑠! , 𝑜! 𝜇-J →[J 𝑜! = 𝑝 𝑜! 𝑠! 𝑜! はleafノードなので 𝜇-J →[J 𝑜! = 1である. 隣接する変数ノードが受け取るメッセージは 𝜇,JG# →WJG# 𝑠!:) = 𝜇WJG[ →,JG# 𝑠!:) 𝜇[JG# →,JG# 𝑠!:) 𝜇,J_# →WJ 𝑠!8) = 𝜇WJ_[ →,J_# 𝑠!8) 𝜇[J_# →,J_# 𝑠!8) 𝑠*0$ 𝑓/0$ 𝑠* 𝑔* 𝑜* 𝑓*7$ 𝑠*7$
変分メッセージパッシング 変分メッセージパッシングは先のスライドと同じ形の式になる.しかし,因⼦ノードから状態ノードへの メッセージは因⼦と信念の積とする.つまり,leafノードからメッセージを順番に伝播させるのではなく, 信念からメッセージを計算する. 条件付き周辺分布𝑞 𝑠! ∣ 𝑜! は因⼦の積から求まるから 𝑞 𝑠! ∣ 𝑜! ∝ 𝜇WJG# →,J 𝜇WJ →,J 𝜇[J →,J それぞれの因⼦からくるメッセージは 𝜇WJG# →,J 𝑠! = D 𝑓!:) 𝑠!:) , 𝑠! 𝑞 𝑠!:) = D 𝑝 𝑠! 𝑠!:) 𝑞 𝑠!:) = 𝐸H ,JG# [𝑝 𝑠! 𝑠!:) ] ,JG# ,JG# 𝜇WJ →,J 𝑠! = D 𝑓! 𝑠! , 𝑠!8) 𝑞 𝑠!:) = D 𝑝 𝑠!8) 𝑠! 𝑞 𝑠!8) = 𝐸H ,J_# [𝑝 𝑠! 𝑠!8) ] ,J_# ,J_# 𝜇[J →,J 𝑠! = D 𝑔! 𝑠! , 𝑜! = D 𝑝 𝑜! 𝑠! -J -J 変分メッセージパッシングではメッセージを伝播させないため,マルコフブランケット内のメッセージの やり取りだけで周辺信念を計算することができる.よって,並列処理が可能となる. ⼀⽅で,𝑞 𝑠! ∣ 𝑜! を求めるには繰り返し計算が必要となる.
周辺メッセージパッシング 周辺メッセージパッシングも信念はメッセージの積から求めることができる. 𝑞 𝑠! ∝ 𝜇WJG# →,J 𝜇WJ →,J 𝜇[^ →,J それぞれの因⼦から来るメッセージは次のように書ける. ln 𝜇WJG# →,J 𝑠! = 1 ln D 𝑝 𝑠! 𝑠!:) 𝑞 𝑠!:) 2 ,JG# ln 𝜇WJ →,J 𝑠! = 1 ln D 𝑝 𝑠!8) 𝑠! 𝑞 𝑠!8) 2 ,J_# ln 𝜇[^ →,J 𝑠! = ln D 𝑝 𝑜! 𝑠! -J 変分メッセージパッシングのメッセージとほぼ同じであるが,状態に由来する因⼦ノードからのメッセー ジが1/2乗になっている.1/2は周辺⾃由エネルギーと関係する.
周辺メッセージパッシングのための変分⾃由エネルギー 変分⾃由エネルギーは, 𝐹 = D 𝑞 𝑠 ln ,∈] 𝑞 𝑠 𝑞 𝑠 𝑞 𝑠 = D 𝑞 𝑠 ln = − D 𝑞 𝑠 ln 𝑝 𝑜 + D 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 𝑝 𝑠∣𝑜 𝑝 𝑜 𝑝 𝑠∣𝑜 ,∈] ,∈] = − ln 𝑝 𝑜 + 𝐷^_ 𝑞 𝑠 , 𝑝 𝑠 𝑜 Evidence ,∈] Divergence また, 𝐹 = D 𝑞 𝑠 ln ,∈] 𝑞 𝑠 = D 𝑞 𝑠 ln 𝑞 𝑠 − D 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 = −𝐻 𝑞 𝑠 𝑝 𝑜, 𝑠 ,∈] ,∈] − D 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 ,∈] Entropy Energy であった.過去と未来の観測から得られる時刻𝜏の観測𝑜! と状態𝑠! に関する経験的priorは𝑝(𝑜! , 𝑠! ∣ 𝑜) , … , 𝑜# ) であるから変分⾃由エネルギーは 𝐹 𝜏 = −𝐻 𝑞 𝑠! − D 𝑞 𝑠! ln 𝑝 𝑜! , 𝑠! ∣ 𝑜) , … , 𝑜# = −𝐻 𝑞 𝑠! − 𝐸H ,J ln 𝑝 𝑜! , 𝑠! ∣ 𝑜) , … , 𝑜# ,∈] 𝑠*0% 𝑓/0% 𝑠*0$ 𝑓/0$ 𝑠* 𝑓* 𝑠*7$ 𝑓*7$ 𝑠*7% 𝑔*0% 𝑔*0$ 𝑔* 𝑔*7$ 𝑔*7% 𝑜*0% 𝑜*0$ 𝑜* 𝑜*7$ 𝑜*7%
経験的priorの数式の詳細 𝜏 = 1,2,3 の場合の,観測𝑜#と状態𝑠#の経験的priorは 𝑝 𝑜#, 𝑠# ∣ 𝑜%, 𝑜` = X 𝑝 𝑜#, 𝑠%, 𝑠#, 𝑠` ∣ 𝑜%, 𝑜` R`,Ra = X 𝑝 𝑜# ∣ 𝑠# 𝑝 𝑠# 𝑠%, 𝑠` 𝑝 𝑠% 𝑜% 𝑝 𝑠` 𝑜` R`,Ra 𝑠% 𝑓% 𝑠# 𝑓# 𝑠` 𝑔% 𝑔# 𝑔` 𝑜% 𝑜# 𝑜`
経験的priorの数式の詳細
𝜏 = 1, … , 𝑇 の場合の,観測𝑜! と状態𝑠! の経験的priorは
𝑝 𝑜! , 𝑠! ∣ 𝑜) , … , 𝑜!:) , 𝑜!8) , … , 𝑜#
=
D
𝑝 𝑜! , 𝑠) , … , 𝑠!:) , 𝑠!8) , … , 𝑠# ∣ 𝑜) , … , 𝑜!:) , 𝑜!8) , … , 𝑜#
,# ,…,,`G# ,,`_# ,…,,a
=
D
𝑝 𝑠) ∣ 𝑜) 𝑝 𝑠4 ∣ 𝑠) , 𝑜4 … 𝑝 𝑠! 𝑠!:) , 𝑠!8) 𝑝 𝑜! 𝑠! … 𝑝 𝑠# 𝑜#
,# ,…,,`G# ,,`_# ,…,,a
=
D
𝑝 𝑠!:) ∣ 𝑜) , … , 𝑜!:) 𝑝 𝑠!8) ∣ 𝑜!8) , … , 𝑜# 𝑝 𝑠! 𝑠!:) , 𝑠!8)
,`G# ,,`_#
経験的priorは過去の経験的prior 𝑝 𝑠!:) 𝑜!:) , … , 𝑜) と未来の経験的prior 𝑝 𝑠!8) 𝑜!8) , … , 𝑜# か
ら出来ているので,過去と未来に分けて考えても良さそうな気がする.
こんな感じで周辺化され
ていく
>
> 𝑝 𝑠M, 𝑠K ∣ 𝑜M, 𝑜K … 𝑝 𝑠' 𝑠'LM, 𝑠'OM 𝑝 𝑜' 𝑠' … 𝑝 𝑠c 𝑜c
%8,…,%9:;,%9<;,…,%= %;
=
>
%8,…,%9:;,%9<;,…,%=
𝑝 𝑠K ∣ 𝑜M, 𝑜K … 𝑝 𝑠' 𝑠'LM, 𝑠'OM 𝑝 𝑜' 𝑠' … 𝑝 𝑠c 𝑜c
過去と未来の経験的prior ここで推論したい確率変数の周りで,過去と未来の領域に分けて考えることにする. 過去と未来からの経験的priorは 𝑝 𝑜! , 𝑠! 𝑜) , … , 𝑜!:) = 𝑝 𝑜! 𝑠! 𝑝 𝑠! 𝑜) , … , 𝑜!:) = 𝑝 𝑜! 𝑠! D 𝑝 𝑠! , 𝑠!:) 𝑜) , … , 𝑜!:) ,JG# = 𝑝 𝑜! 𝑠! D 𝑝 𝑠! 𝑠!:) 𝑝 𝑠!:) 𝑜) , … , 𝑜!:) = 𝑝 𝑜! ,JG# 𝑝 𝑜! , 𝑠! 𝑜!8) , … , 𝑜# = 𝑝 𝑜! 𝑠! 𝑝 𝑠! 𝑜!8) , … , 𝑜# = 𝑝 𝑜! 𝑠! 𝐸> 𝑠!:) 𝑜) , … , 𝑜!:) 𝑝 𝑠! 𝑠!:) 𝑠! D 𝑝 𝑠! , 𝑠!8) 𝑜!8) , … , 𝑜# ,J_# = 𝑝 𝑜! 𝑠! D 𝑝 𝑠! 𝑠!8) 𝑝 𝑠!8) 𝑜!8) , … , 𝑜# = 𝑝 𝑜! ,J_# 𝑠*0$ 𝑓/0$ 𝑠* 𝑓* 𝑠*7$ 𝑔*0$ 𝑔* 𝑔*7$ 𝑜*0$ 𝑜* 𝑜*7$ 過去 未来 𝑠! 𝐸> 𝑠!8) 𝑜!8) , … , 𝑜# 𝑝 𝑠! 𝑠!8)
経験的priorから過去と未来の変分⾃由エネルギーを求める 過去からのforwards free energyは 𝐹Y = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. ln 𝑝 𝑜. , 𝑠. 𝑜! , … , 𝑜.0! (∈* (∈* = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. ln 𝑝 𝑜. (∈* (∈* = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. (∈* ln 𝑝 𝑜. 𝑠. 𝐸Z 𝑠.0! 𝑜! , … , 𝑜.0! 𝑠. (∈* = −𝐻 𝑞 𝑠. − 𝐸6 (> ln 𝑝 𝑜. 𝑠. 𝑝 𝑠. 𝑠.0! + ln 𝐸Z 𝑠.0! 𝑜! , … , 𝑜.0! 𝑝 𝑠. + ln 𝐸Z 𝑠.0! 𝑜! , … , 𝑜.0! 𝑝 𝑠. 𝑠.0! 𝑠.0! 未来からのbackwards free energyは 𝐹Y = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. ln 𝑝 𝑜. , 𝑠. 𝑜! , … , 𝑜.0! (∈* (∈* = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. ln 𝑝 𝑜. (∈* (∈* = D 𝑞 𝑠. ln 𝑞 𝑠. − D 𝑞 𝑠. (∈* = −𝐻 𝑞 𝑠. ln 𝑝 𝑜. (> − 𝐸6 (> ln 𝑝 𝑜. 𝑠. 𝑠. 𝐸Z 𝑠.7! 𝑜.7! , … , 𝑜& 𝑠. 𝑝 𝑠. 𝑠.7! + ln 𝐸Z 𝑠.7! 𝑜.7! , … , 𝑜& 𝑝 𝑠. + ln 𝐸Z 𝑠.7! 𝑜.7! , … , 𝑜& 𝑝 𝑠. 𝑠.7! 𝑠.7!
経験的priorを近似する 経験的priorを𝑞 𝑠!:) ≈ 𝑝 𝑠!:) 𝑜) , … , 𝑜!:) 過去からのforwards free energyは と近似する. 𝐹b = D 𝑞 𝑠! ln 𝑞 𝑠! − D 𝑞 𝑠! ln 𝑝 𝑜! , 𝑠! 𝑜) , … , 𝑜!:) ,J = −𝐻 𝑞 𝑠! ,J − 𝐸H ,J ln 𝑝 𝑜! 𝑠! ≈ −𝐻 𝑞 𝑠! − 𝐸H ,J ln 𝑝 𝑜! 未来からのbackward free energyは 𝑠! + ln 𝐸> 𝑠!:) 𝑜) , … , 𝑜!:) + ln 𝐸H ,JG# 𝑝 𝑠! 𝑝 𝑠! 𝑠!:) 𝑝 𝑠! 𝑠!8) 𝑠!:) 𝐹b = D 𝑞 𝑠! ln 𝑞 𝑠! − D 𝑞 𝑠! ln 𝑝 𝑜! , 𝑠! 𝑜) , … , 𝑜!:) ,J ,J = −𝐻 𝑞 𝑠! − 𝐸H ,J ln 𝑝 𝑜! 𝑠! ≈ −𝐻 𝑞 𝑠! − 𝐸H ,J ln 𝑝 𝑜! 𝑠! + ln 𝐸> 𝑠!8) 𝑜!8) , … , 𝑜# + ln 𝐸H ,J_# 𝑝 𝑠! 𝑠!8)
周辺⾃由エネルギー それぞれの変分⾃由エネルギーをミックスした新たな変分⾃由エネルギー,すなわち周辺⾃由エネルギー を次のように定める. 1 𝐹 = 𝐹b + 𝐹c 2 1 = f−𝐻 𝑞 𝑠! − 𝐸H ,J ln 𝑝 𝑜! 𝑠! + ln 𝐸H ,JG# 𝑝 𝑠! 𝑠!:) + −𝐻 𝑞 𝑠! 2 − 𝐸H ,J ln 𝑝 𝑜! 𝑠! + ln 𝐸H ,J_# 𝑝 𝑠! 𝑠!8) g 1 = f−𝐸H ,J ln 𝑝 𝑜! 𝑠! + ln 𝐸H ,JG# 𝑝 𝑠! 𝑠!:) 2 − 𝐸H ,J ln 𝑝 𝑜! 𝑠! + ln 𝐸H ,J_# 𝑝 𝑠! 𝑠!8) g − 𝐻 𝑞 𝑠! 1 1 = −𝐸H ,J ln 𝐸H ,JG# 𝑝 𝑠! 𝑠!:) + ln 𝐸H ,J_# 𝑝 𝑠! 𝑠!8) + ln 𝑝 𝑜! 𝑠! − 𝐻 𝑞 𝑠! 2 2
ほしいのは状態𝒔𝝉 のposteriorではなかったのか 周辺⾃由エネルギーが最⼩とする周辺分布𝑞 𝑠A を求めたい周辺分布としよう 周辺⾃由エネルギーは 1 1 𝐹 = −𝐸B C[ ln 𝐸B C[\] 𝑝 𝑠A 𝑠ADE + ln 𝐸B C[^] 𝑝 𝑠A 𝑠AFE + ln 𝑝 𝑜A 2 2 状態は離散的で取りうる状態は有限だとすると、𝑞 𝑠A はベクトルで書ける. 𝑠A ここで隠れ状態が𝑀個あるとしたときの周辺分布ベクトルを𝒔A = 𝑞 𝑠A,E , … , 𝑞 𝑠A,G 例えばエントロピーは − 𝐻 𝑞 𝑠A H とする. − 9𝑞 𝑠A ln 𝑞 𝑠A 𝑑𝑠A → − < 𝑞 𝑠A ln 𝑞 𝑠A = −𝒔IA ln 𝒔A H と書ける.ここで ln 𝒔A = ln 𝑞 𝑠A,E , … , ln 𝑞 𝑠A,G とする.よって周辺⾃由エネルギーは次のよう になる. 1 𝐹 = −𝒔IA ln 𝐁ADE 𝒔ADE + ln 𝐁AJ 𝒔AFE + ln 𝐀H 𝒐A + 𝒔IA ln 𝒔A 2 周辺分布を求める問題は周辺⾃由エネルギーを最⼩にするベクトルを求める問題になった.ここ で, 𝐁AJ は 𝐁A を転置し,列について規格化したものである.
なぜ,周辺⾃由エネルギーがそのような形になるのか
なぜ変分⾃由エネルギーが次のようになるのか?
1
𝐹 = −𝒔c'
ln 𝐁'LM 𝒔'LM + ln 𝐁'( 𝒔'OM
2
まず期待値 𝐸W %>:; 𝑝 𝑠' 𝑠'LM を変形する.
𝐸W %>:; 𝑝 𝑠'
𝑠'LM
= > 𝑝 𝑠'
%>:;
𝑝 𝑠',M 𝑠'LM,M , … , 𝑝 𝑠',M 𝑠'LM,d
⋮
𝑝 𝑠',d 𝑠'LM,M , … , 𝑝 𝑠',d 𝑠'LM,d
次に, 𝐸W %><; 𝑝 𝑠'
𝐸W %><; 𝑝 𝑠'
𝑠'OM
𝑠'OM
𝑝 𝑠'OM,M ∣ 𝑠'
= > 𝑝 𝑠'
,…,
𝑠'LM 𝑞 𝑠'LM = 𝑝 𝑠' 𝑠'LM,M , … , 𝑝 𝑠'
𝒔'LM
𝒔'LM
=
𝑝 𝑠',M 𝑠'LM,M
⋮
𝑝 𝑠',d 𝑠'LM,M
𝑠'LM,d
… 𝑝 𝑠',M 𝑠'LM,d
⋱
⋮
… 𝑝 𝑠',d 𝑠'LM,d
𝒔'LM
𝒔'LM = 𝐁'LM 𝒔'LM
を変形する.
𝑝 𝑠'OM ∣ 𝑠'
𝑝 𝑠'OM ∣ 𝑠'
𝑝 𝑠'OM ∣ 𝑠'
𝑞 𝑠'OM = >
𝑞 𝑠'OM = >
𝑞 𝑠'OM
∑
𝑝 𝑠'OM
∑%> 𝑝 𝑠'OM ∣ 𝑠'
%> 𝑝 𝑠' , 𝑠'OM
%><;
%><;
%><;
𝑝(𝑠' )
𝑝(𝑠' )
𝑠'OM 𝑞 𝑠'OM = >
%><;
=
+ ln 𝐀N 𝒐' + 𝒔c' ln 𝒔'
𝑝 𝑠'OM,d ∣ 𝑠'
𝒔'OM
∑%> 𝑝 𝑠'OM,M ∣ 𝑠'
∑%> 𝑝 𝑠'OM,d ∣ 𝑠'
𝑝 𝑠'OM,M ∣ 𝑠',M
𝑝 𝑠'OM,d ∣ 𝑠',M
,…,
∑%> 𝑝 𝑠'OM,M ∣ 𝑠'
∑%> 𝑝 𝑠'OM,d ∣ 𝑠'
⋮
𝑝 𝑠'OM,M ∣ 𝑠',d
𝑝 𝑠'OM,d ∣ 𝑠',d
,…,
∑%> 𝑝 𝑠'OM,M ∣ 𝑠'
∑%> 𝑝 𝑠'OM,d ∣ 𝑠'
𝑝 𝑠'OM,M ∣ 𝑠',M
∑%> 𝑝 𝑠'OM,M ∣ 𝑠'
=
⋮
𝑝 𝑠'OM,M ∣ 𝑠',d
𝒔'OM
∑%> 𝑝 𝑠'OM,M ∣ 𝑠'
𝒔'OM
𝑝 𝑠'OM,d ∣ 𝑠',M
∑%> 𝑝 𝑠'OM,d ∣ 𝑠'
⋱
⋮
𝑝 𝑠'OM,d ∣ 𝑠',d
…
∑%> 𝑝 𝑠'OM,d ∣ 𝑠'
…
𝒔'OM = 𝐁'( 𝒔'OM
これで周辺⾃由エネルギーのベクトル,⾏列での表記に納得がいったと思う.
𝐁! を転置し,列について規格化したもの
周辺⾃由エネルギーから周辺分布をどう求めるか posteriorは周辺⾃由エネルギーを最⼩にするのだから,𝒔"! 𝒋 = 1の条件のもとで周辺⾃由エネルギーの微 分を0にする周辺分布を求めれば良い. ここで,ラグランジュの未定乗数法を⽤いる.ラグランジアンは 1 𝐿 = 𝐹+𝜆 1 − 𝒔" 𝒋 = −𝒔#! ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! + 𝒔#! ln 𝒔! + 𝜆 1 − 𝒔" 𝒋 2 ラグランジアンの微分は 𝜕𝐿 1 𝒋 = 1, … , 1 ! =− ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! + ln 𝑠! + 1 − 𝜆𝒋 = 0 𝜕𝒔! 2 1 ln 𝒔! = ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! − 1 − 𝜆 𝒋 2 1 exp ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! 2 𝒔! = exp 1 − 𝜆 𝒋 ベクトル 𝒔! の要素の和は1に規格化されていなければならないので, 1 exp 1 − 𝜆 𝒋 = 𝒋" exp ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! 2 よって 1 𝒔! = 𝜎 ln 𝐁!:) 𝒔!:) + ln 𝐁!7 𝒔!8) + ln 𝐀" 𝒐! 2 これで,周辺⾃由エネルギーがposteriorが求まった.
予測誤差の式
予測誤差最⼩化
• 能動的推論の強みの⼀つは予測誤差の最⼩化という⽣物学的にもっともらしいインスタン スを備え
ていることである.
• 能動推論で説明される予測誤差には、「状態」予測誤差と「結果」予測誤差の2種類があり,それぞ
れ 𝐹; と𝐺; の⽅程式に基づいている.
• 状態予測誤差は,メッセージパッシングアルゴリズムに基づき,状態に関する信念更新を駆動する.
• 結果予測誤差は⽅策選択を駆動する.
• 状態予測誤差は,状態𝑠;,! に関する信念が更新されるとき𝐹; が時間とともにどのように変化するかを
追跡する(すなわち, 𝑭𝝅 の減少は状態予測誤差の減少に対応する).
• これらの予測誤差は周辺メッセージパッシングスキームに基づいている.
!
_
• 𝒔1,. = 𝜎 - ln 𝐁1,.0! 𝒔1,.0! + ln 𝐁1,.
𝒔1,.7!
+ ln 𝐀' 𝒐.
• これは能動推論POMDPの因⼦グラフにおける正⽅形のノードとエッジの間のメッセージパッシングに
対応する.
• この⽅程式は3種類のメッセージ(メッセージ1: ln 𝐁.0! 𝒔.0! ,メッセージ2: ln 𝐁._ 𝒔.7! ,メッセージ3:
ln 𝐀' 𝒐. )を使って,脳が状態𝑠1,. のposteriorを推論するために最⼩化しようとする状態予測誤差信号の
観点から再定式化できる.
脳との対応 • 特定のニューロン集団の発⽕率は,継続的に更新される状態𝑠;,! に関するposteriorを表す. • シナプス結合強度のパターンは,⾏列𝐀および𝐁;,! のような因⼦として実装される. • そして,それらは関数として実装され,発⽕率としてエンコードされた⼊⼒メッセージを変換する (Parr and Friston, 2018). • ニューロン・ダイナミクスをシミュレートするために,周辺メッセージパッシングに基づき常微分⽅ 程式を設定することができる.それは,補助変数として状態予測誤差(𝜀;,! )を導⼊することで,変 分⾃由エネルギーにおける勾配降下を⾏う. • この予測誤差は各隠れ状態の対数事前確率(すなわち,前の時間ステップからのposterior)とメッ セージパッシングのラウンド後の各隠れ状態の対数確率(すなわち,新しい観測を受け取ったとき) との差をスコア化したものである. • 各観測で状態に関するposterior beliefが安定した値に収束するまで,メッセージパッシングが何回も繰 り返される. • 測定可能な神経反応に関する実験的予測に到達するために,状態に関する対数posteriorを「脱分 極」または「膜電位」を表す変数𝑣;,! に代⼊することで𝑣;,! を変わりに使うことができる; 𝑣;,! = ln 𝑠;,! .
状態予測誤差 ! _ • 𝜺1,. ← - ln 𝐁1,.0! 𝒔1,.0! + ln 𝐁1,. 𝒔1,.7! + ln 𝐀' 𝒐. − ln 𝒔1,. • 𝒗1,. ← 𝒗1,. + 𝜺1,. • 𝒔1,. ← 𝜎 𝒗1,. • 膜電位𝒗1,. の更新式は,各反復更新による𝒗1,. の変化が予測誤差𝜺1,. に対応することを⽰す. • この誤差項は変分⾃由エネルギーの変化率に対応することに注意したい. • 𝜺C,' = − ef? e𝒔?,> • 更新された𝒗1,. は続いソフトマックス関数にかけられ,状態𝒔1,. に関する更新された事後分布を返す. • この⼀連の更新⽅程式の重要な点は,状態予測誤差項𝜺1,. の値が最⼩化されるまで𝒔1,. の値が変化し続ける(すな わち,⽅程式が継続的に繰り返される)ことにある.⾔い換えれば,⽅程式は𝒔1,. の値を(最急降下の⽅向に) 𝜺1,. の最⼩値が得られるまで変化させるように設定され,その結果得られる𝒔1,. の値は状態に関する近似posterior に対応する.これは𝜺1,. = 0が誘引固定点であり,系は𝜺1,. = 0に向かって変化する傾向があり,いったんこの値 に達すると,そこに留まるからである. • これで⽣物学的にもっともらしい予測誤差最⼩化スキームが得られる.これにより,状態に関する事後推論を⾏ うことができ,⽐較的単純なニューラルネットワークで実装できる. • つまり,𝜺1,. を最⼩化する状態𝒔1,. に対する事後信念を⾒つけることで𝐹1 は最⼩化され, 𝒔1,. は安定した事後信念 となる。
結果予測誤差 • 状態予測誤差とは対照的に,結果予測誤差は⽅策に関する信念が更新されるにつれて𝐺C が時間とともにどのように変化するかを 追跡する(すなわち,𝐺C の減少は結果予測誤差の減少に対応する). • ⾔い換えれば,この種の予測誤差が最⼩化されると,状態に関する不確実性(uncertainty)(すなわち、曖昧性(ambiguity))と予 測と好ましい結果の間の期待される差の両⽅を最⼩化する⽅策を決められる. • しかし,状態予測誤差とは異なり,結果予測誤差はメッセージパッシングスキームと直接結びついていない. • 𝜁C,' = 𝐀𝒔C,'LM ⋅ ln 𝐀𝒔C,'LM − ln 𝐂' − 𝑑𝑖𝑎𝑔 𝐀N ln 𝐀 ⋅ 𝒔C,'LM • この予測誤差は,2種類の予測誤差の混合として理解するのが最も適切である. • 𝐀𝒔C,'LM ⋅ ln 𝐀𝒔C,'LM − ln 𝐂' は好ましい結果(すなわち, 𝐂' によって指定された結果に対するpreferencesを符号化した確率分 布)と,ある⽅策の下で期待される結果(すなわち,𝐀𝒔C,'LM は,ある⽅策の下で期待される観測𝒐C,' に対応する)との間の期待 される差に対応する.したがって,これは事前preferencesによって予測された結果に関する(各⽅策の下での)期待予測誤差 と考えることができる. • 𝑑𝑖𝑎𝑔 𝐀N ln 𝐀 ⋅ 𝒔C,'LM は, 特定の⽅策を採⽤した場合に観測結果がどの程度信念を更新すると期待されるかに対応する(すなわ ち,エントロピーの項であり,エントロピーが⼩さいほど,より⼤きな情報利得を伴う). • したがって,状態予測誤差と同様に,この項を最⼩化することは不確実性を最⼩化する. • 状態予測誤差の場合とは異なり,結果予測誤差にはupdate( ← )表記を使⽤していないことに注意する.これは現在の能動推論 の定式化では,結果予測誤差は反復的に最⼩化されるのではなく各⽅策に対して単純に⼀度計算されるからである. • これら2つの項は変分⾃由エネルギーにおけるリスク(𝐷hi 𝑞 𝑜' ∣ 𝜋 ∥ 𝑝 𝑜' ≈ 𝐀𝒔C,'LM ⋅ ln 𝐀𝒔C,'LM − ln 𝐂' )および曖昧さ (𝐸W 𝑠 𝜋 𝐻 𝑝 𝑜' 𝑠' ≈ −𝑑𝑖𝑎𝑔 𝐀N ln 𝐀 ⋅ 𝒔C,'LM )の項の⾏列形式と⾒なせる.