Active inference 2 (能動的推論2)

1.

Active inference 2 能動的推論 2 Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical dataのまとめ＋補足数式藤田一寿 Active inferenceの理解に必要そうな内容をまとめたものです．グラフィカルモデルに関しては他の文献（PRML; Forney and Vontobel, 2011など）で予習しましょう．間違いがあるかもしれないので，Active infefenceや自由エネルギー原理に本気で取り組みたい人は元論文を読みましょう．数式が非常に分かりにくかったので独自解釈の数式を追加しています． Ver. 20250610

2.

Multi armed bandit

3.

Multi armed bandit • それぞれの試行で，あなたは2つのスロットマシンのどちらかを選ぶ． • しかし，スロットマシンの当たる確率は分からない． • 当たれば4ドルもらえるが，はずれれば0ドルもらえる． • あなたはすぐさまスロットマシンを選ぶか，当たりそうスロットマシンについてのヒントを聞くことが出来る． • しかし，ヒントを聞いたら，当たっても2ドルしか獲得できない．リスクを取るべきか，ヒントを尋ねるべきか．

4.

Multi armed banditにおける状態と結果の例 • 隠れ状態の要素1：Context • 左のマシンはより当たりやすい． • 右のマシンはより当たりやすい． • 隠れ状態の要素2：選択状態 • 開始 • ヒントを聞く • 右を選ぶ • 左を選ぶ • 結果のmodality 1：ヒント • ヒントなし • 左のほうがより当たりやすい • 右のほうがより当たりやすい • 結果のmodality 2：結果 • 開始 • 負ける • 勝つ

5.

Multi armed bandit 当たり当たり右のスロットマシンを選ぶ右のスロットマシンを選ぶハズレハズレ当たり当たり左のスロットマシンを選ぶ左のスロットマシンを選ぶハズレハズレどれを選んでも変わりないかな．右の方が当たるヒントを聞く左の方が当たる結果を踏まえて，行動しよう．右の方が当たるヒントを聞く左の方が当たるエージェントは行動し結果を得ることで，状態に対する考え方（信念）が更新される．

6.

POMDPSとは

7.

POMDPとは • POMDPはPartially Observable Markov Decision Process（部分観測（部分的に観測可能な）マルコフ決定過程）の略である． • POMDPでは，観測，状態，方策を含む特定の種類の生成モデルが与えられる． • POMDPの目的は，観測を条件とするときの状態と方策に対する事後信念を推論することである． • POMDPという用語は2つの主要な概念を示している． • 部分観測可能性 • これは観測によって隠れ状態に関する確率的な情報しか得られないことを意味する． • 例えば，ヒントの観測が，どちらかのスロットマシンの当たる可能性がより高いことを示すかもしれない． • マルコフ性 • 意思決定するとき，遠い過去の状態に関するすべての関連した知識が現在の状態に関する信念に暗黙のうちに含まれることを意味する． • マルコフ性の想定は破られることがあるが，それはモデリングをより容易にし，多くの場合十分である．

8.

POMDPでは𝑡と𝝉の時刻がある？ • POMDP は試行と各試行内の時刻𝜏を含む． • 𝝉はエージェントが信念を持つ時刻を示す． • これは、各新しい観察が提示される時刻を示す変数𝒕とは別である． • なぜ，この区別が必要なのか．頭の中ではいつでも（どの時刻𝒕においても）過去についても未来についても（どんな時刻 𝝉についても）推論することが可能だが，観測は時刻𝒕に行われる．観測結果によって過去と未来すべての信念が変わる． • 例1： • あなたは，はじめに2つの部屋（緑の部屋と青の部屋）のどちらかにいるが，壁の色が何色か分からないとする． • 後に，あなたが目を開けて部屋が青く塗られていることを知るとき，目を開ける前どこにいたのかについての信念が変わる．（過去についての信念が変わる） • 例2： • ある時刻𝑡でヒントを観察すると，次の時刻でスロットマシンの当たる可能性に関する信念を更新することができる．（未来についての信念が変わる） • 形式的なモデルでは，これは時刻𝑡 = 2で新しい観察をした後に時刻𝜏 = 1における自分の状態に関する信念が変化するケースである（つまり，例1の場合）． • つまり，active inferenceにおいて𝒕と𝝉を含むということは，エージェントがすべての時刻𝝉における状態についての信念をそれぞれの時刻𝒕のときに更新することを要求している． • これは，現在新たな観測(𝑡 = 2)をしたとき過去の状態(𝜏 = 1)についての信念を更新するretrospective inferenceと，現在新たな観測(𝑡 = 2)の観測をしたときに未来の状態(𝜏 = 3)についての信念を更新する prospective inferenceを同時に可能にする．

9.

Active inferenceで使用する変数と因果グラフ

10.

グラフィカルモデル • Active inferenceの文献において，POMDPsはグラフィカルモデルで表現される． • グラフィカルモデルは，モデルの変数が他の変数にどのように依存しているかを視覚的に表す手法である． • グラフィカルモデルにおいて，円（ノード）は変数に対応する． • ノード間をつなぐ矢印はノードで表される変数間の依存関係を表す． • 例えば，𝑠𝜏 ノードから𝑜𝜏 ノードへの矢印は𝑜𝜏 の値が𝑠𝜏 の値に依存しているこ 𝐷 𝑠 とを意味する． • エッジ上にある四角は条件付き関係を媒介する因子を意味する． 𝐀 𝑜

11.

結果 𝑜𝜏 ，隠れ状態 𝑠𝜏

12.

結果 𝑜𝜏 • 𝑜𝜏 は時刻𝜏のときの結果を表すベクトルである． • Banditとの対応：結果のモダリティ • ヒント：これはヒントを聞いて得られる結果（ヒントなし，右のほうが良さそう，左のほうが良さそう）． • 報酬：これはスロットマシンをひいて得られる結果（はじめ，負け，勝ち）． • 観測された行動：これはエージェントが行動すると得られる結果（始める，ヒントを受け取る，右を選ぶ，左を選ぶ）． • 𝜏 > 𝑡の𝑜𝜏 のすべての要素は0である． • 観測していない未来の結果は無い（0である）． • 観測すると𝑜𝜏 は確定し，それを変更することは出来ない．

13.

結果 𝑜𝜏 を2つの部屋の例で考える1 • 2つの部屋（緑の部屋と青の部屋）のどちらかにいるが，壁の色が何色か分からないとする． • 後に，あなたが目を開けて部屋が青く塗られていることを知るとき，目を開ける前どこにいたのかについての今の信念が変わる． • この例では，「色」が観測モダリティである． • 観測は「青」または「緑」である可能性がある． • すなわち，観測ベクトルは各色に対して1つの要素を持つベクトルである． • 𝑜𝜏 = 𝑜青𝜏 ，𝑜緑𝜏 T

14.

結果 𝑜𝜏 を2つの部屋の例で考える2 • 時刻𝑡 = 1のとき．時刻𝜏 = 2の観測された色はまだ分からない． • つまり，𝑡 = 1のときの観測ベクトルは， 0 0 • となる．もし，𝑡 =2のとき青を観測したとすると， • 𝑜𝜏=2 = 1 0 • に更新される． • 𝑜𝜏=2 = • このベクトルはすべての未来(𝑡 > 2)において変更できない． • つまり，一度観測が行われると，それを忘れることができない． • これは，すべての時刻の状態についての信念はこれらの観測ベクトルを更新したときのそれぞれの時刻𝑡において更新されることを可能にしている．

15.

時刻𝜏のときの隠れ状態 𝒔𝜏 • 𝒔𝜏 ：時刻𝜏のときの隠れ状態．ベクトルであり，それぞれの状態要素の可能な状態（視覚と聴覚の状態のような，独立した集合）の値で構成される． • Banditとの対応：隠れ状態の要素 • Context（左のほうがより良い vs 右のほうがより良い） • 選択（始める，ヒントを受け取る，右を選ぶ，左を選ぶ） • 選択した結果ではない．

16.

ベクトル𝐷，行列𝐀とStatic perception

17.

ベクトル𝐷: 𝒑 𝒔𝟏 • このベクトルは，初期の隠れ状態についての信念をエンコードする． • 試行の最初の時刻（𝜏 = 1 ）では，モデルはカテゴリの状態に関する priorから始まる． • priorは𝐷で記述されるベクトルにより表される． • 1つの可能な状態につき1つの値を持つ． • 状態要因が複数ある場合，1つの要因につき1つの𝐷ベクトルが存在する． • 例： • エージェントは物体の位置とその正体について別々の信念を持つ． • エージェントは，どのスロットマシンが良いかという信念と利用可能な選択の状態（例えば、ヒントを取った状態）についての信念を持つ．エージェントはまだ何もしていないが，スロットマシンの当たる度合い（確率？）と，どの行動をとるかの傾向（確率？）についてエージェントは頭の中で想定している．

18.

行列𝐀: 𝑝 𝑜𝜏 𝑠𝜏 • 尤度関数𝑝 𝑜𝜏 𝑠𝜏 は行列𝐀で表される. • この行列は時刻𝜏における隠れ状態と観測可能な結果の関係についての信念である（すなわち，特定の時点における特定の隠れた状態が与えられた場合に特定の結果が観測される確率）． • Active inferenceの文献で一般的に使われているPOMDP構造では尤度は試行中の時点に渡って一定であると仮定されている．したがって，𝜏の値が異なっても行列は異なることはない（ただし，必要に応じてこれを調整できる）ことに注意する． • また，尤度は方策間で同一であると仮定される．したがって，𝜋に関するインデックス付けはない． • 𝐀は時刻𝝉における状態ごとに1列，時刻𝝉において可能な観測ごとに1行で構成される． • 複数の結果モダリティがある場合，結果モダリティごとに1つの𝐀が存在することになる． • 例えば，視覚入力と聴覚入力がある場合，それぞれに対して1つずつ必要となる． • Banditの例：ヒントの観測についてのモダリティと，報酬の観測についてのモダリティを考慮することができる．

19.

Static perception=Baysian inference • Static perception=Baysian inference • 𝒔: 状態（ベクトル） 𝐷 𝑠 • 𝒐: 観測（ベクトル） • 𝐀: 状態と結果をマップする尤度（行列） • 𝐷: 初期状態のprior（ベクトル） 𝐀 𝑜 • 更新式 • 𝒔 = 𝜎 ln 𝐷 + ln 𝐀T 𝒐 この𝑠はSoftmax関数で規格化された状態に対するposterior(条件付き確率)． • 𝜎はsoftmax関数（総和を1に規格化し確率にする）

20.

計算例 𝒔 = 𝜎 ln 𝐷 + ln 𝐀T 𝒐 を2種類の状態と観測しか無い場合について具体的に計算してみる． 𝑇 𝑝(𝑠 = 1) 𝑝 𝑜=1 𝑠=1 𝑝 𝑜=1 𝑠=2 𝒔 = 𝜎 ln + ln 𝒐 𝑝(𝑠 = 2) 𝑝 𝑜=2 𝑠=1 𝑝 𝑜=2 𝑠=2 𝑝(𝑠 = 1) 𝑝 𝑜=1 𝑠=1 𝑝 𝑜=2 𝑠=1 = 𝜎 ln + ln 𝒐 𝑝(𝑠 = 2) 𝑝 𝑜=1 𝑠=2 𝑝 𝑜=2 𝑠=2 𝑝 𝑜=1 𝑠=1 𝑝 𝑠=1 𝑝 𝑜=2 𝑠=1 𝑝 𝑠=1 = 𝜎 ln 𝒐 𝑝 𝑜=1 𝑠=2 𝑝 𝑠=2 𝑝 𝑜=2 𝑠=2 𝑝 𝑠=2 𝑜 = 1だとすると𝒐 = 1 0 T ． 𝑝 𝑜 = 1, 𝑠 = 1 𝑝 𝑜 = 2, 𝑠 = 1 1 𝑝 𝑜 = 1, 𝑠 = 1 𝑠 = 𝜎 ln = 𝜎 ln 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 2, 𝑠 = 2 0 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 1, 𝑠 = 1 𝑝 𝑜 = 1, 𝑠 = 1 + 𝑝(𝑜 = 1, 𝑠 = 2) = 𝑝 𝑜 = 1, 𝑠 = 2 𝑝 𝑜 = 1, 𝑠 = 1 + 𝑝(𝑜 = 1, 𝑠 = 2) 更新式にSoftmaxやlnがあるが，計算してみるとベイズ推論の式になっていることが分かる．

21.

計算例 𝐷= 𝑝(𝑠 = 1) 0.5 = 𝑝(𝑠 = 2) 0.5 状態sが１と２の場合はそれぞれ五分五分の可能性であると思っている．思っているだけなので確率ではなく信念という． 𝑝(𝑜 = 1 ∣ 𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 0.9 𝐀= = 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0.1 𝒐= 1 0 0.2 0.8 𝐷 𝑠 𝐀 𝑜 観測結果なので起こったか起こってないか（０か１か）しか無い． 𝑜 = 1のときの尤度のみ残る． 0.9 0.1 1 0.9 0.5 0.5 0.5 × 0.9 0.45 + ln = 𝜎 ln + ln = 𝜎 ln = 𝜎 ln 0.2 0.8 0 0.2 0.5 0.5 0.5 × 0.2 0.1 T T exp ln 0.45 exp ln 0.1 0.45 0.1 0.82 = = = 0.18 exp ln 0.45 + exp 0.1 exp ln 0.45 + exp 0.1 0.45 + 0.1 0.45 + 0.1 𝑠 = 𝜎 ln 四角は因子，丸は変数．

22.

どこから更新式が出てくるか？論文の数式だけでは分からないので独自の解釈を追加

23.

まず具体的に考える状態𝑠が1か2のどちらかの値を取るとする．観測結果も1か2のどちらかの値を取るとする． 𝐷= 𝑝(𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 1) ,𝐀= 𝑝(𝑠 = 2) 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 1 1 0 0 , 𝒔1 = , 𝒔2 = , 𝒐1 = , 𝒐2 = 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0 1 0 1 状態𝑠が1，観測結果が1である同時分布 𝑝 𝑠 = 1, 𝑜 = 1 は 𝑝 𝑠 = 1, 𝑜 = 1 = 𝐷T 𝒔1 × 𝒔1T 𝐀T 𝒐1 𝑝(𝑜 = 1 ∣ 𝑠 = 1) 𝑝(𝑜 = 2 ∣ 𝑠 = 1) 1 1 = 𝑝 𝑠=1 𝑝 𝑠=2 × 1 0 𝑝(𝑜 = 1 ∣ 𝑠 = 2) 𝑝(𝑜 = 2 ∣ 𝑠 = 2) 0 0 1 𝑝 𝑜=2 𝑠=1 =𝑝 𝑠=1 × 𝑝 𝑜=1 𝑠=1 =𝑝 𝑠=1 𝑝 𝑜=1 𝑠=1 0 となる．この例で，どれがベクトルと行列の関係がわかってくる．次に一般的に考える．

24.

条件付き確率（posterior）状態𝑠 = {𝑠1 , … , 𝑠𝑚 , … , 𝑠𝑀 }，観測結果𝑜 = 𝑜1 , … , 𝑜𝑛 , … 𝑜𝑁 とする．ベイズ定理からposteriorは 𝑝 𝑠𝑚 ∣ 𝑜𝑛 = 𝑝 𝑜𝑛 ∣ 𝑠𝑚 𝑝 𝑠𝑚 𝑝 𝑜𝑛 ∣ 𝑠𝑚 𝑝 𝑠𝑚 = σ𝑚 𝑝 𝑜𝑛 ∣ 𝑠𝑚 𝑝 𝑠𝑚 𝑝 𝑜𝑛 と書ける．規格化されていないposterioを𝑝෤ 𝑠𝑚 ∣ 𝑜𝑛 とすると（要するに同時分布なのだが） 𝑝෤ 𝑠𝑚 ∣ 𝑜𝑛 = 𝑝 𝑜𝑛 ∣ 𝑠𝑚 𝑝 𝑠𝑚 ここで෥ 𝒑(𝑠 ∣ 𝑜𝑛 ) = 𝑝෤ 𝑠1 ∣ 𝑜𝑛 … 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 𝑇 ， 𝒔𝑚 は one-of-K coding (つまり， 𝒔𝑚 は要素𝑚だけ1それ以外は0のベクトル) とする，𝒐𝑛 は one-of-K codingとする． Posteriorベクトルは ෥ 𝑠 𝑜𝑛 = 𝑝෤ 𝑠1 ∣ 𝑜𝑛 𝒑 ෥ 𝑠 𝑜𝑛 ≡ ln 𝑝෤ 𝑠1 ∣ 𝑜𝑛 ln 𝒑 … ෥ 𝑠 𝑜𝑛 = ln 𝑝 𝑜𝑛 ∣ 𝑠1 𝑝 𝑠1 ln 𝒑 = ln 𝑝 𝑠1 … ln 𝑝 𝑠𝑀 = ln 𝐷 + ln 𝐀T 𝒐𝑛 𝑇 ln 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 𝑇 = 𝑝 𝑜𝑛 ∣ 𝑠1 𝑝 𝑠1 … 𝑝 𝑜𝑛 ∣ 𝑠𝑀 𝑝 𝑠𝑀 𝑇 とすると … ln 𝑝 𝑜𝑛 ∣ 𝑠𝑀 𝑝 𝑠𝑀 + ln 𝑝 𝑜𝑛 ∣ 𝑠1 𝑇 … 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 𝑇 = ln 𝑝 𝑜𝑛 ∣ 𝑠1 + ln 𝑝 𝑠1 … ln 𝑝 𝑜𝑛 ∣ 𝑠𝑀 𝑇 = ln 𝐷 + ln … ln 𝑝 𝑜𝑛 ∣ 𝑠𝑀 + ln 𝑝 𝑠𝑀 𝑝 𝑜=1 𝑠=1 ⋮ 𝑝 𝑜=1 𝑠=𝑀 𝑇 … 𝑝 𝑜=𝑁 𝑠=1 ⋱ ⋮ … 𝑝 𝑜=𝑁 𝑠=𝑀 𝒐𝑛

25.

条件付き確率（posterior）よってposteriorベクトルは 𝒑 𝑠 𝑜𝑛 は 𝒑 𝑠 𝑜𝑛 = 1 𝑝෤ 𝑠1 ∣ 𝑜𝑛 σ𝑚 𝑝෤ 𝑠𝑚 ∣ 𝑜𝑛 = 1 exp ln 𝑝෤ 𝑠1 ∣ 𝑜𝑛 σ𝑚 exp ln 𝑝෤ 𝑠𝑚 ∣ 𝑜𝑛 = 1 ෥ 𝑠 𝑜𝑛 1, … , 1 ⋅ exp ln 𝒑 = 1 1, … , 1 ⋅ exp ln 𝐷 + ln 𝐀T 𝑜 … 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 𝑇 … exp ln 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 exp ln 𝑝෤ 𝑠1 ∣ 𝑜𝑛 … 𝑝෤ 𝑠𝑀 ∣ 𝑜𝑛 𝑇 𝑇 exp ln 𝐷 + ln 𝐀T 𝑜 規格化項（分母）は ln 𝐷 + ln 𝐀T 𝒐のexpをとったものの総和である．つまりこれはソフトマックス関数となっている．よって 𝒑 𝑠 𝑜𝑛 = 𝜎 ln 𝐷 + ln 𝐀T 𝒐

26.

グラフによる解釈因子グラフの同時分布は因子の積で求まるから， 𝑝 𝑠𝑚 , 𝑜𝑛 = ෑ 𝑓𝑖 = 𝐷𝑠𝑚 𝐴𝑜𝑛𝑠𝑚 = 𝑝 𝑠𝑚 𝑝 𝑜𝑛 𝑠m 𝑖 ここで𝑓𝑖 は因子，𝐷𝑠 は状態𝑠の要素， 𝐴𝑜𝑠 は状態𝑠，観測𝑜の要素である．次にこれの対数をとってみると 𝑝 𝑠𝑚 , 𝑜𝑛 = ෑ exp ln 𝑓𝑖 = exp ෍ ln 𝑓𝑖 = exp ln 𝐷𝑠𝑚 𝐴𝑜𝑛𝑠𝑚 = exp ln 𝐷𝑠𝑚 + ln 𝐴𝑜𝑛𝑠𝑚 𝑖 𝑖 条件付き確率(posterior) 𝑝 𝑠𝑚 ∣ 𝑜𝑛 は exp ln 𝐷𝑠𝑚 + ln 𝐴𝑜𝑛 𝑠𝑚 𝑝 𝑠𝑚 , 𝑜𝑛 𝑝 𝑠𝑚 , 𝑜𝑛 𝑝 𝑠𝑚 ∣ 𝑜𝑛 = = = = 𝜎 ln 𝐷𝑠𝑚 + ln 𝐴𝑜𝑛𝑠𝑚 σ𝑚 𝑝 𝑠𝑚 , 𝑜𝑛 𝑝 𝑜𝑛 σ𝑚 exp ln 𝐷𝑠𝑚 + ln 𝐴𝑜𝑛𝑠𝑚 𝐷 𝑠 よってPosteriorベクトルは 𝒑 𝑠 𝑜𝑛 = 𝜎 ln 𝐷𝑠1 + ln 𝐴𝑜𝑛𝑠1 , … , 𝜎 ln 𝐷𝑠1 + ln 𝐴𝑜𝑛𝑠𝑀 𝑇 𝑇 𝐀 𝑇 = 𝜎 ln 𝐷𝑠1 , … , 𝐷𝑠𝑀 + ln 𝐴𝑜𝑛𝑠1 , … , 𝐴𝑜𝑛𝑠𝑀 = 𝜎 ln 𝑝 𝑠1 , … , 𝑝 𝑠𝑀 𝑇 + ln 𝑝 𝑜𝑛 𝑠1 , … , 𝑝 𝑜𝑛 𝑠𝑀 𝑇 = 𝜎 ln 𝐷 + ln 𝐀𝑇 𝒐𝑛 𝑜

27.

変分自由エネルギーの最小化問題として考える変分自由エネルギーは 𝐹 = ෍ 𝑞 𝑠 ln 𝑠∈𝑆 𝑞 𝑠 = ෍ 𝑞 𝑠 ln 𝑞 𝑠 − ෍ 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 = ෍ 𝑞 𝑠 ln 𝑞 𝑠 − ෍ 𝑞 𝑠 ln 𝑝 𝑜 ∣ 𝑠 𝑝 𝑠 𝑝 𝑜, 𝑠 𝑠∈𝑆 𝑠∈𝑆 𝑠∈𝑆 𝑠∈𝑆 = ෍ 𝑞 𝑠 ln 𝑞 𝑠 − ෍ 𝑞 𝑠 ln 𝑝 𝑠 + ln 𝑝 𝑜 ∣ 𝑠 𝑠∈𝑆 𝑠∈𝑆 状態は離散的で個数は有限だから 𝑞 𝑠 はベクトル𝒔 = 𝑞 𝑠1 , … , 𝑞 𝑠𝑀 T で表現できる．よって，変分自由エネルギーは 𝐹 = 𝒔T ln 𝒔 − 𝒔T ln 𝐷 + ln 𝐀T 𝒐𝑚 𝒋 = 1, … , 1 𝑇 𝒔T 𝒋 = 1の条件のもとで𝐹を最小化する𝒔を求める．ここでラグランジュの未定乗数法を用いる．ラグランジアンは 𝐿 = 𝐹 + 𝜆 1 − 𝒔T 𝒋 この微分は ln 𝒔 + 𝒋 − ln 𝐷 + ln 𝐀𝑇 𝒐𝑛 − 𝜆𝒋 = ln 𝒔 − ln 𝐷 + ln 𝐀𝑇 𝒐𝑚 + 1 − 𝜆 𝒋 = 0 となる．よって exp ln 𝐷 + ln 𝐀T 𝒐𝑛 𝒔= exp 1 − 𝜆 𝒋 𝐷 となる．𝒔の各要素の和は1に規格化されてなければならないので exp 1 − 𝜆 𝒋 = 𝒋𝑇 exp ln 𝐷 + ln 𝐀𝑇 𝒐𝑛 よって𝒔は 𝒔 = 𝜎 ln 𝐷 + ln 𝐀𝑇 𝒐𝑛 となる．𝑞 𝑠 ≈ 𝑝 𝑠 𝑜 とするので， 𝒔はposterioである． 𝑠 𝐀 𝑜

28.

メッセージパッシングで考える先の結果からposterioは 𝑝 𝑠𝑚 ∣ 𝑜𝑛 = 𝜎 ln 𝐷𝑠𝑚 + ln 𝐴𝑜𝑛 𝑠𝑚 である．つまりposterioは，ソフトマックス関数に因子𝐷からのメッセージ ln 𝐷𝑠𝑚 と因子𝐴からのメッセージ ln 𝐴𝑜𝑛 𝑠𝑚 の和を入力して得られた値だと考えることができる．もしくは，メッセージの和をソフトマックス関数で規格化したものだと解釈できる． ln 𝐷𝑠𝑚 𝐷 𝑠 ln 𝐴𝑜𝑛 𝑠𝑚 𝐀 𝑜 メッセージとは，ノード間でやり取りする何か．何かは，解くべき問題やモデルにより異なる．

29.

Dynamic perception

30.

Dynamic perception • 𝐁𝜏 : 遷移行列 • これは，どのように状態が時間変化するかを記述している． • 下付きの添字は試行における時刻𝜏を表す． • 𝐁𝜏−1 は𝐁𝜏 のempirical prior(経験的事前確率)になっている． • つまり， 𝐁𝜏−1は𝜏 = 1における𝐷と同じ役割を果たす．更新式 𝒔𝜏=1 = 𝜎 1 ln 𝐷 + ln 𝐁𝜏† 𝒔𝜏+1 2 + ln 𝐀T 𝒐𝜏 1 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 2 1 𝒔𝜏=𝑇 = 𝜎 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐀T 𝒐𝜏 2 𝐁𝜏†は 𝐁𝜏 を転置し，列について規格化したものである． 𝐷 𝑠1 𝐁 𝑠2 𝐁 𝑠3 𝒔1<𝜏<𝑇 = 𝜎 更新式の導出は周辺メッセージパッシングのところで行う． 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

31.

方策𝜋，行列𝐁𝜋,𝜏 ，行列C と Dynamic perception with policy selection

32.

方策 𝜋 • 𝜋は，それぞれの方策の予測価値を反映した方策についての分布をエンコードするベクトル． • それぞれの方策は一連の可能な行動のである． • 行動は異なった状態への遷移(𝑩𝜋,𝜏 )と対応する． • それぞれの状態要素のときのエージェントにより，それは選ばれる． • 方策はこの分布からサンプリングすることにより選ばれる． • Banditとの対応：許される方策は次の決定を含む． • スタート状態に居座る • ヒントを得る．そして，左を選ぶ． • ヒントを得る．そして，右を選ぶ． • すぐさま左を選ぶ（そして，スタート状態に戻る）． • すぐさま右を選ぶ（そして，スタート状態に戻る）．

33.

遷移行列𝐁𝝅,𝝉 : 𝑝 𝑠𝜏+1 𝑠𝜏 , 𝜋 • この行列は，隠れ状態がどのように時間発展するかについての信念をエンコードする(遷移確率)． • 行列𝐁𝜋,𝜏 は， 𝜏 の状態ごとに1列，𝜏 + 1の状態ごとに1行で構成される． • ある状態遷移が方策間で同一である場合，それらは単一の行列で表すことができる． • 状態遷移が方策に依存する場合，可能な方策ごとに1つの𝐁𝜋,𝜏 行列が存在する． • Banditの例：ヒントを得たときの状態への遷移や，2つのマシンのうち 1つを選択したときの状態遷移がある．

34.

行列𝐂: 𝑝(𝑜𝜏 ∣ 𝐶) • この行列は，ある観察された結果が他の結果よりも好まれる度合いをエンコードしている（技術的には結果に対する事前期待としてモデル化される）． • 𝐂は時刻ごとに1列，可能な観察ごとに1行で構成される． • 複数の結果モダリティがある場合，モダリティごとに1つの𝐂が存在する． • 𝐂の値の各列は，ソフトマックス関数を通し適切な確率分布に変換することに注意する． • Banditの例：𝐂は大きな報酬に対する強いpreference，小さな報酬に対する中程度のpreference，そして無報酬に対する低いpreferenceを表現する．

35.

Dynamic perception with policy selection • それぞれの方策(𝜋)はそれぞれ異なった一連の行動を伴う． • 一連の行動は，状態間の異なった遷移(異なった𝐁𝜋,𝜏 )に対応する． • 𝐺は期待自由エネルギーで，事前preferences 𝐂 に依存している． • 𝐺の値に基づき，状態についてのuncertaintyを最小化するであろう方策を最も高い確率にし，最も好みの観測が起こる確率を最大化する． 𝐂 更新式 𝒔𝜋,𝜏=1 = 𝜎 𝑠𝜋,𝜏>1 = 𝜎 1 † ln 𝐷 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 2 + ln 𝐀T 𝒐𝜏 1 † ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 2 + ln 𝐀T 𝒐𝜏 𝐺𝜋 = ෍ 𝐀𝒔𝜋,𝜏 ⋅ ln 𝐀𝒔𝜋,𝜏 − ln 𝐂𝜏 − diag 𝐀T ln 𝐀 ⋅ 𝒔𝜋,𝜏 𝜏 𝜋 = 𝜎 −𝐺 𝐺𝜋 の導出はこの資料の最後に行う． 𝐷 𝐺 𝜋 𝑠1 𝐁 𝑠2 𝐁 𝑠3 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

36.

行列𝐁𝜋,𝜏 ，遷移行列𝐁と Dynamic perception

37.

ベクトル𝐸 • 方策𝑝 𝜋 に関する事前信念は列ベクトル𝐸(方策ごとに 1 行) に符号化される． • 方策𝜋ごとに事前信念がある．方策は𝑛個あればベクトル𝐸の要素も𝑛個ある． • これは，習慣・癖の影響をモデル化するために使用することができる． • 例えば，あるエージェントが過去に何度も特定の方策を選択した場合，これが，その方策が再び選択されるより強く期待を導く． • Exploitタスクの例では，𝐸は，参加者が（以前の報酬学習とは無関係に）別のスロットマシンを選ぶ可能性が高いという単純な選択バイアスをモデル化するために使用することができる． • しかし，このような事前信念と，観測する前にどの行動を選ぶかを決める方策についての初期の分布と区別することが重要である． • また，方策選択の分布は𝑬, 𝑮, 𝜸 に依存し，習慣と将来期待される結果がそれぞれ初期選択に影響を与える．

38.

パラメタ𝜸 • 期待自由エネルギー𝐺が方策選択を制御する度合いは，さらなるパラメータ𝛾によって調節される． • このパラメータは方策に対する期待自由エネルギーの推定精度を表す． • これは，方策を推論する際の信頼度についての事前信念をエンコードしたものと考えることができる．これは，しばしば「事前方策精度」パラメータと呼ばれる． • しかし，これは方策𝜋に対する事後信念の精度と同じものではないことに注意する必要がある．これは𝜋がベクトル𝐸（癖）と𝐹（変分自由エネルギー）にも依存するからである．例えば，𝛾が低くても𝜋が正確である可能性があることを意味する（Hesp et al.， 2020）． • このため，𝛾は方策精度パラメータそのものではなく、期待自由エネルギーの精度パラメータとして考えた方がよい． • 癖がない場合（すなわち，Eが平坦な分布の場合），𝛾の値が低いと方策選択のランダム性が高くなる．強い癖が存在する場合，𝐺の影響が𝐸よりも小さくなるため，低い𝛾は癖が方策選択に与える影響を大きくする． • 𝛾がハイパーパラメータ𝛽の更新を通し更新されるモデルもある．

39.

Dynamic perception with flexible policy selection • このモデルでは期待自由エネルギーの精度の𝛾が含まれる． • 𝑝 (𝛾)はshapeパラメータが1で，rateパラメータがβで指定されたガンマ分布 Γ に対応する。 • なお，この生成モデルに𝛾は確率変数であるが，𝛾𝑠 はガンマ分布の統計量（期待値）（すなわち、固定スカラー）であり次のスライドで示す方程式に基づいて更新される． 𝛽 𝐂 𝐸 • 𝛾 の値は，方策選択に対するエージェントの確信度を表し，方策に対する事後分布𝜋 に対する𝐺の寄与度を調整する． • 𝛾も，新しい観測の後に，その観測に関連する方策に対する変分自由エネルギー𝐹に基づいて𝛽の値を更新することにより最適化される． 𝛾 𝐺 𝜋 𝐷 𝑠1 𝐁 𝑠2 𝐁 𝑠3 • つまり，新しい観測が方策に対する事前信念 (𝜋0 ;すなわち𝐺に基づく) と一致しない場合，エージェントは方策に対するposterior (𝜋) を導くときに，𝐺に対してより低い期待精度𝛾を割り当てることになる． 𝐀 𝐀 𝐀 • また，方策に対する事前分布𝐸も含まれ，習慣形成のモデルとして用いることもできる． 𝑜1 𝑜2 𝑜3 • また，𝛾が小さいほど（すなわち，𝐺に関するモデルベースの信念の信頼度が低いほど），𝐸の持つ習慣が方策選択に与える影響が強くなる．

40.

Dynamic perception with flexible policy selection • それぞれの方策(𝜋)はそれぞれ異なった一連の行動を表す． • 一連の行動は状態間の異なった遷移(異なった𝐁𝜋,𝜏 )に対応する． • 𝐺は期待自由エネルギーで，事前preferences 𝐂 に依存している． • 𝐺の値に基づき，状態についてのuncertaintyを最小化するであろう方策を最も高い確率にし，最も好みの観測が起こる確率を最大化する． 𝛽 𝐂 更新式 𝐸 𝐹𝜋 = ෍ 𝒔𝜋,𝜏 ⋅ ln 𝒔𝜋,𝜏 − 𝜏 1 † ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 2 𝜋𝑜 = 𝜎 ln 𝐸 − 𝛾𝑠 𝐺 𝜋 = 𝜎 ln 𝐸 − 𝐹 − 𝛾𝑠 𝐺 𝑝 𝛾 = Γ 1, 𝛽 𝐸 𝛾 = 𝛾𝑠 = 1/𝛽 𝛽 = 𝛽 − 𝛽𝑢𝑝𝑑𝑎𝑡𝑒 /𝜓 𝛽𝑢𝑝𝑑𝑎𝑡𝑒 = 𝛽 − 𝛽0 + 𝜋 − 𝜋0 ⋅ (−𝐺) 更新式の導出は読者の皆さんにお任せします． 𝛾 𝐺 − ln 𝐀T 𝒐𝜏 𝜋 𝐷 𝑠1 𝐁 𝑠2 𝐁 𝑠3 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

41.

まとめ • 𝒐𝜏 ：時刻𝜏に観測された結果を表すベクトル • 𝒔𝜏 ：時刻𝜏のときの隠れ状態を表すベクトル • 行列𝐀: 𝑝 𝑜𝑡 𝑠𝜏 ，時刻𝜏における隠れ状態と観測可能な結果の関係についての信念である）．時刻𝜏における状態ごとに1列，時刻𝜏において可能な観測ごとに1行で構成される． • 遷移行列𝐁 : 𝑝 𝑠𝜏+1 𝑠𝜏 ，隠れ状態がどのように時間発展するかについての信念をエンコードする．𝜏の状態ごとに1列，𝜏 + 1の状態ごとに1行で構成される． • 行列𝐂: 𝑝(𝑜𝜏 ∣ 𝐶)，ある観察された結果が他の結果よりも好まれる度合い．𝐂は時刻ごとに1列，可能な観察ごとに1行で構成される． 𝐶の値の各列は，ソフトマックス関数を通し適切な確率分布に変換する • ベクトル𝐷:： 𝒑 𝒔𝟏 • ベクトル𝐸：方策𝑝 𝜋 に関する事前信念，方策ごとに 1 行 • パラメタ𝜸：期待自由エネルギーの推定精度

42.

予測誤差の式

43.

予測誤差最小化 • 能動的推論の強みの一つは予測誤差の最小化という生物学的にもっともらしいインスタンスを備えていることである． • 能動推論で説明される予測誤差には、「状態」予測誤差と「結果」予測誤差の2種類があり，それぞれ 𝐹𝜋 と𝐺𝜋 の方程式に基づいている． • 状態予測誤差は，メッセージパッシングアルゴリズムに基づき，状態に関する信念更新を駆動する． • 結果予測誤差は方策選択を駆動する． • 状態予測誤差は，状態𝑠𝜋,𝜏 に関する信念が更新されるとき𝐹𝜋 が時間とともにどのように変化するかを追跡する（すなわち， 𝑭𝝅 の減少は状態予測誤差の減少に対応する）． • これらの予測誤差は周辺メッセージパッシングスキームに基づいている． 1 † • 𝒔𝜋,𝜏 = 𝜎 2 ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 + ln 𝐀T 𝒐𝜏 • これは能動推論POMDPの因子グラフにおける正方形のノードとエッジの間のメッセージパッシングに対応する． • この方程式は3種類のメッセージ（メッセージ1: ln 𝐁𝜏−1 𝒔𝜏−1 ，メッセージ2: ln 𝐁𝜏† 𝒔𝜏+1 ，メッセージ3: ln 𝐀T 𝒐𝜏 ）を使って，脳が状態𝑠𝜋,𝜏 のposteriorを推論するために最小化しようとする状態予測誤差信号の観点から再定式化できる．

44.

脳との対応 • 特定のニューロン集団の発火率は，継続的に更新される状態𝑠𝜋,𝜏 に関するposteriorを表す． • シナプス結合強度のパターンは，行列𝐀および𝐁𝜋,𝜏 のような因子として実装される． • そして，それらは関数として実装され，発火率としてエンコードされた入力メッセージを変換する (Parr and Friston, 2018)． • ニューロン・ダイナミクスをシミュレートするために，周辺メッセージパッシングに基づき常微分方程式を設定することができる．それは，補助変数として状態予測誤差（𝜀𝜋,𝜏 ）を導入することで，変分自由エネルギーにおける勾配降下を行う． • この予測誤差は各隠れ状態の対数事前確率（すなわち，前の時間ステップからのposterior）とメッセージパッシングのラウンド後の各隠れ状態の対数確率（すなわち，新しい観測を受け取ったとき）との差をスコア化したものである． • 各観測で状態に関するposterior beliefが安定した値に収束するまで，メッセージパッシングが何回も繰り返される． • 測定可能な神経反応に関する実験的予測に到達するために，状態に関する対数posteriorを「脱分極」または「膜電位」を表す変数𝑣𝜋,𝜏 に代入することで𝑣𝜋,𝜏 を変わりに使うことができる; 𝑣𝜋,𝜏 = ln 𝑠𝜋,𝜏 ．

45.

状態予測誤差 1 † • 𝜺𝜋,𝜏 ← 2 ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 + ln 𝐀T 𝒐𝜏 − ln 𝒔𝜋,𝜏 • 𝒗𝜋,𝜏 ← 𝒗𝜋,𝜏 + 𝜺𝜋,𝜏 • 𝒔𝜋,𝜏 ← 𝜎 𝒗𝜋,𝜏 • 膜電位𝒗𝜋,𝜏 の更新式は，各反復更新による𝒗𝜋,𝜏 の変化が予測誤差𝜺𝜋,𝜏 に対応することを示す． • この誤差項は変分自由エネルギーの変化率に対応することに注意したい． 𝜕𝐹 • 𝜺𝜋,𝜏 = − 𝜕𝒔 𝜋 𝜋,𝜏 • 更新された𝒗𝜋,𝜏 は続いソフトマックス関数にかけられ，状態𝒔𝜋,𝜏 に関する更新された事後分布を返す． • この一連の更新方程式の重要な点は，状態予測誤差項𝜺𝜋,𝜏 の値が最小化されるまで𝒔𝜋,𝜏 の値が変化し続ける（すなわち，方程式が継続的に繰り返される）ことにある．言い換えれば，方程式は𝒔𝜋,𝜏 の値を（最急降下の方向に） 𝜺𝜋,𝜏 の最小値が得られるまで変化させるように設定され，その結果得られる𝒔𝜋,𝜏 の値は状態に関する近似posterior に対応する．これは𝜺𝜋,𝜏 = 0が誘引固定点であり，系は𝜺𝜋,𝜏 = 0に向かって変化する傾向があり，いったんこの値に達すると，そこに留まるからである． • これで生物学的にもっともらしい予測誤差最小化スキームが得られる．これにより，状態に関する事後推論を行うことができ，比較的単純なニューラルネットワークで実装できる． • つまり，𝜺𝜋,𝜏 を最小化する状態𝒔𝜋,𝜏 に対する事後信念を見つけることで𝐹𝜋 は最小化され， 𝒔𝜋,𝜏 は安定した事後信念となる。

46.

結果予測誤差 • 状態予測誤差とは対照的に，結果予測誤差は方策に関する信念が更新されるにつれて𝐺𝜋 が時間とともにどのように変化するかを追跡する（すなわち，𝐺𝜋 の減少は結果予測誤差の減少に対応する）． • 言い換えれば，この種の予測誤差が最小化されると，状態に関する不確実性(uncertainty)（すなわち、曖昧性(ambiguity)）と予測と好ましい結果の間の期待される差の両方を最小化する方策を決められる． • しかし，状態予測誤差とは異なり，結果予測誤差はメッセージパッシングスキームと直接結びついていない． • 𝜁𝜋,𝜏 = 𝐀𝒔𝜋,𝜏−1 ⋅ ln 𝐀𝒔𝜋,𝜏−1 − ln 𝐂𝜏 − 𝑑𝑖𝑎𝑔 𝐀T ln 𝐀 ⋅ 𝒔𝜋,𝜏−1 • この予測誤差は，2種類の予測誤差の混合として理解するのが最も適切である． • 𝐀𝒔𝜋,𝜏−1 ⋅ ln 𝐀𝒔𝜋,𝜏−1 − ln 𝐂𝜏 は好ましい結果（すなわち， 𝐂𝜏 によって指定された結果に対するpreferencesを符号化した確率分布）と，ある方策の下で期待される結果（すなわち，𝐀𝒔𝜋,𝜏−1 は，ある方策の下で期待される観測𝒐𝜋,𝜏 に対応する）との間の期待される差に対応する．したがって，これは事前preferencesによって予測された結果に関する（各方策の下での）期待予測誤差と考えることができる． • 𝑑𝑖𝑎𝑔 𝐀T ln 𝐀 ⋅ 𝒔𝜋,𝜏−1 は，特定の方策を採用した場合に観測結果がどの程度信念を更新すると期待されるかに対応する（すなわち，エントロピーの項であり，エントロピーが小さいほど，より大きな情報利得を伴う）． • したがって，状態予測誤差と同様に，この項を最小化することは不確実性を最小化する． • 状態予測誤差の場合とは異なり，結果予測誤差にはupdate( ← )表記を使用していないことに注意する．これは現在の能動推論の定式化では，結果予測誤差は反復的に最小化されるのではなく各方策に対して単純に一度計算されるからである． • これら２つの項は変分自由エネルギーにおけるリスク（𝐷𝐾𝐿 𝑞 𝑜𝜏 ∣ 𝜋 ∥ 𝑝 𝑜𝜏 ≈ 𝐀𝒔𝜋,𝜏−1 ⋅ ln 𝐀𝒔𝜋,𝜏−1 − ln 𝐂𝜏 ）および曖昧さ（𝐸𝑞 𝑠 𝜋 𝐻 𝑝 𝑜𝜏 𝑠𝜏 ≈ −𝑑𝑖𝑎𝑔 𝐀T ln 𝐀 ⋅ 𝒔𝜋,𝜏−1 ）の項の行列形式と見なせる．

47.

Forney-style（正規）因子グラフとメッセージ伝播

48.

Active inferenceと因子グラフ • 推論を行うためには生成モデルを反転させなければならない． • Active inferenceでは，それぞれの新しい観測結果が与えられたときに最も可能性の高い状態と方策を推論する． • そこで，ベイズ推論のための一連のメッセージパッシングアルゴリズムを導き出し，可視化するために活用できる正規因子グラフが重要になる． 𝐸 = 生成モデルを反転させる．当たり前ではあるが，原因となる状態𝑠があって，そこから観測𝑜が生じる．条件付き確率で書けば，𝑝 𝑜 𝑠 となる．これを生成モデルという．知りたいのは状態なので，観測結果𝑜から状態を推論することになる．つまり状態から観測の逆，観測から状態の流れになる．これを生成モデルを反転させると言っている． 𝐷 = 𝐁 = 𝐁 = 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

49.

正規因子グラフ • 正規因子グラフは、正方形のノードとエッジ（正方形のノードを結ぶ線）から構成される。 • 正方形のノードは関数（すなわち，因子または条件付き確率分布）だと考えられる． • Parr et al. 2019では，同時分布を作る因子（事前および条件付き確率分布）と説明している． • その関数は，ある入力（例えば、状態や観測に対する信念の十分統計量）を取り込み，その情報を何らかの方法で変換して出力（例えば、因子で指定された条件付確率の十分統計量）を生成する．生成モデル 𝑝(𝑤, 𝑥, 𝑦, 𝑧) 生成モデルの因子 𝑝 𝑤 𝑥 𝑝 𝑥 𝑦, 𝑧 𝑝 𝑦 𝑝 𝑧 3 4 1 2 正規因子グラフ • これらの入力と出力は「メッセージ」と呼ばれる． • エッジは変数と関連付けられている． • エッジが1つの正方形ノードにのみ接続する場合はハーフエッジと呼ばれる． • 変数が１つの因子にしか現れない場合，ハーフエッジになる (Friston et al., 2017)． • これは外部変数と結びついている(Forney and Vontobel, 2011)． Smithらの論文では，エッジは十分統計量だ，共通変数だ，推論されるべき変数の近似posteriorだとか言ったりしている (p16)．どっちなんだ（つまるところ同じ意味なのだが）．このスライドではForney and Vontobel 2011に従い変数ということにする． 4 2 𝑧 𝑥 1 𝑤 𝑦 3

50.

正規因子グラフ • 色付きノードは観測可能データを意味する． • 2つのノードを結ぶエッジは，これらのノードがメッセージを交換し，それぞれがそのエッジで表される値に寄与していることを示す． 𝐸 生成モデル 𝑝(𝑤, 𝑥, 𝑦, 𝑧) = 生成モデルの因子 𝑝 𝑤 𝑥 𝑝 𝑥 𝑦, 𝑧 𝑝 𝑦 𝑝 𝑧 1 𝐷 = 𝐁 = 𝐁 3 2 4 = 正規因子グラフ 𝐀 𝐀 𝐀 4 2 𝑧 𝑥 𝑜1 𝑜2 𝑜3 1 𝑤 𝑦 3

51.

正規因子グラフ • 等号のついた四角はデルタ関数因子を介して隣接するエッジを関連付ける 1 𝑝 𝑥 = 𝑁 0, 𝐼 (Parr et al, 2019)． • ＝は次のような因子である． ′ • 𝑓= 𝑥, 𝑥 , 𝑥 ′′ 2 𝑝 𝑦1 ∣ 𝑥 = 𝑁 𝐴1 𝑥 + 𝑎1 , Σ1 3 𝑝 𝑦2 ∣ 𝑥 = 𝑁 𝐴2 𝑥 + 𝑎2 , Σ2 1, if 𝑥 = 𝑥 ′ = 𝑥′′ =ቊ 0, otherwise 1 Σ1 • これをδ関数で書くと 𝐴1 , 𝑎1 • 𝑓= 𝑥, 𝑥 ′ , 𝑥 ′′ = 𝛿 𝑥 − 𝑥 ′ 𝛿 𝑥 − 𝑥 ′′ • 要は＝でつながるそれぞれの変数は等しいという意味である． 𝑥′ 𝑥 = 𝑥 ′′ 𝑦1 Σ2 2 𝑥 3 = 𝑦2 𝐴2 , 𝑎2

52.

正規因子グラフ • 正規因子グラフの各エッジはベイズネットと因子グラフの円形のノードで表される変数ノードに対応し，正規因子グラフの四角ノードは因子グラフの四角のノードで表される因子ノードに対応する．正規因子グラフベイズネット 𝑦 3 4 𝑧 2 𝑥 2 4 2 𝑧 𝑥 𝑤 𝑤 3 4 𝑧 2 𝑥 1 1 𝑦 因子グラフ 1 𝑤 𝑦 3

53.

正規因子グラフ • 正規因子グラフは生成モデルの因数分解を表す． • 生成モデルはPOMDPの観測，状態，方策の時間的な同時確率分布 𝑝(𝑜1:𝑇 , 𝑠1:𝑇 , 𝜋)として正式に定義されていることを思い出す． • 因子分解とは，この同時確率をいくつかの条件付き独立分布の積として定義できることを意味する． • POMDPでは，因数分解により各状態は前の時間ステップでの状態と方策にのみ依存すると仮定する（いわゆるマルコフ性）．因子は確率でなくても良い．

54.

𝑝(𝑜1:𝑇 , 𝑠1:𝑇 , 𝜋)の因子分解 𝑇 𝑇 𝑝 𝑜1:𝑇 , 𝑠1:𝑇 , 𝜋 = 𝑝 𝑠1 𝑝 𝜋 𝑝 𝑠2 𝑠1 , 𝜋 𝑝 𝑜1 𝑠1 … = 𝑝 𝑠1 𝑝 𝜋 ෑ 𝑝 𝑜𝜏 𝑠𝜏 ෑ 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝜋 𝜏=1 𝑝 𝑜1:𝑇 , 𝑠1:𝑇 ∣ 𝜋 = 𝑝 𝑠1 𝑝 𝑜1 𝑇 𝑇 𝑠1 𝑝 𝑠2 𝑠1 , 𝜋 𝑝 𝑜2 𝑠2 … 𝑇 𝜏=2 𝑇 = 𝑝 𝑠1 ෑ 𝑝 𝑜𝜏 𝑠𝜏 ෑ 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝜋 = 𝒔1 ⋅ 𝐷 ෑ 𝒐𝜏 ⋅ 𝐀𝒔𝜏 ෑ 𝒔𝜏 ⋅ 𝐁𝜋,𝜏 𝒔𝜏−1 𝜏=1 𝜏=2 𝜏=1 𝜋 𝜏=2 上記の因子分解が正しいか具体的に確かめてみる． 𝑠1 の状態が1だとした場合， 𝒔1 ⋅ 𝐷 = 1 0 … ⋅ 𝑝 𝑠1 = 1 𝑝 𝑠1 = 2 … T = 𝑝 𝑠1 = 1 𝑜1 の観測が 1だとした場合， 𝑝 𝑜1 = 1 𝑠1 = 1 𝑝 𝑜1 = 1 𝑠1 = 2 … 1 𝒐1 ⋅ 𝐀𝒔1 = 1 0 … 𝑝 𝑜1 = 2 𝑠1 = 1 ⋱ ⋮ 0 ⋮ ⋮ … 𝑝 𝑜1 = 1 𝑠1 = 1 = 1 0 … 𝑝 𝑜𝜏 = 2 𝑠𝜏 = 1 = 𝑝 𝑜1 = 1 𝑠1 = 1 ⋮ 𝒔2 の状態が2だとした場合， 𝑝 𝑠2 = 1 𝑠1 = 1 𝑝 𝑠2 = 1 𝑠1 = 2 … 1 𝒔2 ⋅ 𝐁𝜋,2 𝒔1 = 1 0 … 𝑝 𝑠2 = 2 𝑠1 = 1 ⋱ ⋮ 0 ⋮ ⋮ … 𝑝 𝑠2 = 1 𝑠1 = 1 = 1 0 … 𝑝 𝑠2 = 2 𝑠1 = 1 = 𝑝 𝑠2 = 1 𝑠1 = 1 ⋮ 𝐷 𝑠1 𝐁 𝑠2 𝐁 𝑠3 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3 行列𝐀: 𝑝 𝑜𝑡 𝑠𝜏 遷移行列𝐁 : 𝑝 𝑠𝜏+1 𝑠𝜏 𝜏の状態ごとに1列，𝜏 + 1の状態ごとに1行で構成される． sとoの太字はone-of-K codingと思って．

55.

変分メッセージパッシング

56.

変分メッセージパッシング • 変分メッセージパッシング（variational message passing）は，active inferenceにおいて基本となるもので，状態について事後分布の近似推論を実行する． • 最近の能動推論の実装では，より洗練されたアルゴリズム（marginal message passing）が使われている． • これは，変分メッセージパッシングで生じる過信の問題（すなわち，事後信念があまりにも早くあまりにも正確になりすぎること）に対してよりロバストである． • VFEの最小化を通しモデルを反転させる（すなわち、状態と方策に関する近似事後分布を推論するために観測を条件とする）ためには，いくつかの単純化した仮定が必要である（すなわち，ほとんどの現実のケースで厳密な推論は実行不可能であるためである）． • 変分メッセージパッシングは近似posteriorが（独立）分布の積に因子分解すると仮定する平均場近似に基づく． • POMDPにおける平均場近似は，近似posteriorが方策に関する事前分布と各時点における各方策の下で期待される状態に関する分布に因子分解されると仮定している． • 𝑝 𝑠1:𝑇 𝑜1:𝑇 , 𝜋 ≈ 𝑞 𝑠1:𝑇 , 𝜋 = 𝑞 𝜋 ς𝑇𝜏 𝑞 𝑠𝜏 𝜋

57.

変分メッセージパッシングによる近似posteriorの推論 • この因子分解を用いると変分メッセージパッシングにより，グラフの各辺における近似posterior 𝑞 𝑠𝜏 𝜋 を推論し，先ほどの式で大域的posterior 𝑞 𝑠1:𝑇 𝜋 に結合することができる．変分メッセージパッシングは以下のステップでまとめることができる． 1. グラフのすべての隠れ変数（すなわち，すべてのエッジ）の近似posterior 𝑞(𝑠𝜋,𝜏 )の値を初期化する． 𝜇Ԧ 𝑠𝜋,𝜏 2. 観測変数(ここでは𝑜𝜏 )の値を固定する。 3. 推論したい隠れ変数（ここでは𝑠𝜋,𝜏 ）に対応するエッジ（𝑉）を選択する． 𝑓 4. 𝑉に接続する各因子ノードが送信するメッセージ𝜇(𝑠𝜋,𝜏 )を計算する． 𝜇ശ 𝑠𝜋,𝜏 𝑠𝜋,𝜏 𝑓 5. 接続された各因子ノード𝑁から𝑉にメッセージを渡す（𝜇𝑁→𝑉 と書くことが多い）． 6. 𝑞 𝑠𝜋,𝜏 ∝ 𝜇Ԧ 𝑠𝜋,𝜏 𝜇ശ 𝑠𝜋,𝜏 のルールに従って𝑉で表される近似posteriorを更新する．ここで，矢印の表記は同じエッジに到着した2つの異なる要因からのメッセージを示す．各𝜇の上の矢印は2つの異なる因子ノードから同じエッジに伝達されるメッセージを区別するために使用される． 1. 𝑞 𝑠𝜋,𝜏 が適切な確率分布に対応するように，これらのメッセージの積を正規化する。 2. この新しい𝑞 𝑠𝜋,𝜏 を使って，接続された要因によって送信されるメッセージを更新する（次のメッセージパッシングのラウンドのために）． 7. 各エッジについてステップ4-6を順次繰り返す。 8. ステップ3-7を更新の差が許容できるほど低い値に収束するまで（すなわち，すべてのエッジについて安定した事後信念を得ることができるまで）繰り返す．

58.

メッセージの交換 • 能動的推論モデルの因子グラフは，メッセージを交換するために3つの因子ノードを必要とする箇所がある． • ３つ以上の因子がメッセージを交換する場合，それぞれの因子からのエッジが等号ノードに接続しなければならない． • この場合，それぞれのメッセージの積をとり，これが他の接続された因子へ送られる． 𝑓 • 𝜇Ԧ 𝑠𝜋,𝜏 ∝ 𝜇Ԧ1 𝑠𝜋,𝜏 𝜇Ԧ2 𝑠𝜋,𝜏 … 𝜇Ԧ𝑁 𝑠𝜋,𝜏 𝜇Ԧ3 𝑠𝜋,𝜏 𝜇Ԧ1 𝑠𝜋,𝜏 𝑓 𝑓 = 𝜇Ԧ4 𝑠𝜋,𝜏 𝜇Ԧ2 𝑠𝜋,𝜏 𝑓

59.

メッセージとその規格化 • 隠れ状態𝑠𝜋,𝜏 に対して各メッセージは各因子の指数関数化された期待対数値𝜇Ԧ 𝑠𝜋,𝜏 ∝ exp 𝐸𝑞 ln 𝑔 𝑠𝜋,𝜏 を伝達する． • ここで𝑔 𝑠𝜋,𝜏 は各因子が表す関数を表す. • 観測された変数の場合，メッセージは単にその因子の既知の値を伝える．これは簡単に計算できる（例えば，このチュートリアルで扱う POMDPではメッセージは単に𝑨T 𝒐である）． • これらのメッセージを組み合わせることで関連するエッジで表される posteriorを近似することができる． • 各エッジのposterior 𝑞 𝑠𝜋,𝜏 は，次のラウンドのメッセージパスの前に，ソフトマックス関数で正規化される．

60.

POMDPの例 • これらの更新規則を用いてPOMDPモデルの状態に対する近似posterior の更新式が得られる． • Message1: ln 𝜇Ԧ𝐁𝝅,𝝉−𝟏→𝑠𝜋,𝜏 = 𝐸𝑞 𝑠𝜏−1 𝜋 ln 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝜋 𝐶𝑎𝑡 ⋅ : カテゴリカル分布行列𝐀: 𝑝 𝑜𝑡 𝑠𝜏 遷移行列𝐁 : 𝑝 𝑠𝜏+1 𝑠𝜏 ベクトル𝐷 : 𝑝 𝑠1 ベクトル𝐸 : 𝑝(𝜋) • Message2: ln 𝜇ശ 𝐁𝝅,𝝉→𝑠𝜋,𝜏 = 𝐸𝑞 𝑠𝜏+1 𝜋 ln 𝑝 𝑠𝜏 𝑠𝜏+1 , 𝜋 4 𝐸 = 𝑠𝜋,1 • Message3: ln 𝜇𝐀→𝑠𝜋,𝜏 = ln 𝑝 𝑜𝜏 𝑠𝜏 3 • これらのメッセージとBayesの定理との間には直接的な関係がある． 𝐷 2 1 = • メッセージ1は前の時点の事前情報（右向きの矢印）に対応する． • メッセージ2は未来の時点からの事前情報（左向き矢印：例えば、時点2の観測結果を受けて、時点1の状態を遡及的に推論することができる）に対応する． • メッセージ3は、現在の時点における観測の尤度に対応する（矢印表記なし；ここでは，すべてのπの値に対して同じであると仮定する）． 1 2 𝐁 1 𝑠𝜋,3 𝑠𝜋,2 = 2 𝐁 = 3 3 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3 • 例えば，𝑠𝜋,2 の事後値に対応するエッジ（グラフの中央）を取ると，この事後値は、事前値（𝐵𝜋,𝜏−1 と 𝐵𝜋,𝜏 ）を尤度（𝐴）で統合し、正規化して適切な確率分布に戻したものに相当する（つまり、ベイズの定理と同様）．これらのメッセージに行列表記を採用する場合，信念の更新は次のように書くことができる： T T • 𝒔𝜋,𝜏 = 𝜎 ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 + ln 𝐀T 𝒐𝜏 𝐓 • なお、 ln 𝐁𝜋,𝝉−𝟏 𝒔𝜋,𝜏−1 は，𝜏 = 1の初期状態𝐷に関する事前情報で置き換えられる．これは，変分メッセージパッシングである点に注意する．

61.

因子グラフとメッセージパッシング • 上：因数分解された生成モデルを構成する因子．黒四角の中の数字は式と下の正規因子グラフで表される生成モデルの因子との対応関係を示す．ここでCat()はカテゴリカル分布を示す． 1 • 中段：変分メッセージパッシングから導かれる状態に対する近似posteriorの信念更新式（このメッセージパッシングと周辺メッセージパッシングの違いに注意）．丸数字は更新方程式内の項と下のパネルの因子グラフに示された各因子間で渡されるメッセージとの対応を示している． 4 𝑝 𝜋 = 𝐶𝑎𝑡(𝐸) • 下段：因数分解されたPOMDPの正規化因子グラフ表現．ベイズネット表現とは異なり，ノード（大きな白い箱）は因子を表し，エッジ（各箱を結ぶ線）は因子間のメッセージとして渡される近似posteriorの十分統計量を表す（すなわち，エッジは，各時点の各方策に対する状態のposterior 𝑠𝜋,𝜏 のように，接続する因子に関わる共通変数を表す． 𝑝 𝑜𝜏 ∣ 𝑠𝜏 = 𝐶𝑎𝑡 𝐀 2 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 , 𝜋 = 𝐶𝑎𝑡(𝐁𝜋,𝜏 ) 3 𝑝 𝑠1 = 𝐶𝑎𝑡(𝐷) 1 T 𝒔𝜋,𝜏 = 𝜎 ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝑠𝜋,𝜏+1 + ln 𝐀𝐓 𝒐𝜏 𝐶𝑎𝑡 ⋅ : カテゴリカル分布行列𝐀: 𝑝 𝑜𝑡 𝑠𝜏 遷移行列𝐁 : 𝑝 𝑠𝜏+1 𝑠𝜏 ベクトル𝐷 : 𝑝 𝑠1 ベクトル𝐸 : 𝑝(𝜋) 4 𝐸 = 𝑠𝜋,1 3 𝐷 𝑠𝜋,3 2 1 = 3 1 カテゴリカル分布 𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝐾 , 𝑥𝑖 ∈ 0,1 , 𝑖 ∈ {1,2, … , 𝐾}, σ𝑖 𝑥𝑖 = 1, 𝑝(𝒙) = ς𝑖 𝜇 𝑥𝑖 𝑥𝑖 3 2 2 𝐁 1 = 𝑠𝜋,2 2 𝐁 = 3 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

62.

方策の推論 • 能動的推論の下では，方策は，その好ましい観測を生成し情報利得を最大化する（と期待される）能力に基づいて選択される． • ある方策の下での状態遷移は，もし，その状態遷移が現在の観測の確率 ln 𝑝 𝑜𝜏 𝜋 と，その方策を条件とする将来の観測の期待確率𝐸𝑞 𝑜𝜏 , 𝑠𝜏 𝜋 ln 𝑝 𝑜𝜏 𝜋 を最大化するのであれば，より確率が高いとみなすことが出来る． • ここで将来の観測は推論される必要のある確率変数として扱われる（つまり，将来の観測は，まだモデルに与えられていない）． • これらの分布を推論するには、正規因子グラフの分配関数を評価する必要がある．これは次のスライドの赤い点線で囲まれたエッジで表される変数（つまり確率）の和をとることを意味する．例えば、方策を条件とした現在の観測の確率𝑝 𝑜𝜏 𝜋 と方策を条件とした予想される将来の観測の確率 σ𝑠 𝑝 𝑜𝜏 , 𝑠𝜏 𝜋 を求めるには、以下の和を評価する必要がある： • ln 𝑝 𝑜𝜏 𝜋 = ln σ𝑠 𝑝 𝑜𝜏 , 𝑠𝜏 𝜋 • 𝐸𝑞 𝑜𝜏>𝑡 , 𝑠𝜏>𝑡 𝜋 ln 𝑝 𝑜𝜏>𝑡 𝜋 = 𝐸𝑞 𝑜𝜏>𝑡 , 𝑠𝜏>𝑡 𝜋 ln σ𝑠 𝑝 𝑜𝜏>𝑡 , 𝑠𝜏>𝑡 𝜋 • このような総和はしばしば難解である．その代わりに変分自由エネルギーと期待自由エネルギーを評価する．

63.

メッセージパッシングと方策選択 • 上：これらの式は因数分解された生成モデルを構成する因子を表す．四角の中の数字は下の正規因子グラフで表される因子と対応している． 1 2 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 , 𝜋 = 𝐶𝑎𝑡(𝐁𝜋,𝜏 ) • 中央：方策に対する事後推定を行うための信念更新式．丸数字は更新方程式内の項と因子グラフに示された各因子間で受け渡されるメッセージとの対応を示す． 3 𝑝 𝑠1 = 𝐶𝑎𝑡(𝐷) 4 𝑝 𝜋 = 𝐶𝑎𝑡(𝐸) 1 • 下：方策に対する推論の文脈におけるメッセージパッシングの正規因子グラフ表現． • 赤い点線はグラフの分配関数を示す．これは方策に条件付けされた現在の観測の確率 − ln 𝑝 𝑜𝜏 𝜋 ≈ 𝐹𝜋,𝜏 ，および方策に条件付けされた将来の観測の期待確率 − 𝐸𝑞 𝑜𝜏>𝑡 , 𝑠𝜏>𝑡 𝜋 ln 𝑝 𝑜𝜏>𝑡 𝜋 ≈ 𝐺𝜋,𝜏 に対する自由エネルギーの近似を構築するため 𝐺ともにマイナスだから，𝜋を一つの後でかけばこれらは分母になる．カノニカル分布のアナロジーから考えれば分配に使用される． 𝐹,関数と言えるのだろう． 𝑝 𝑜𝜏 ∣ 𝑠𝜏 = 𝐶𝑎𝑡 𝐀 2 𝜋 = 𝜎 ln 𝐸 − 𝐹𝜋,𝜏 − 𝐺𝜋,𝜏 𝐶𝑎𝑡 ⋅ : カテゴリカル分布行列𝐀: 𝑝 𝑜𝑡 𝑠𝜏 遷移行列𝐁 : 𝑝 𝑠𝜏+1 𝑠𝜏 ベクトル𝐷 : 𝑝 𝑠1 ベクトル𝐸 : 𝑝(𝜋) • このメッセージパッシングとしての方策についての推論の表現はヒューリスティックなものであり，状態についてのposteriorに関するメッセージパッシングのアナロジーを意味しているに過ぎない．これは，1度の計算でposteriorに至り（反復計算しない），メッセージは双方向ではなく，そして𝐹𝜋,𝜏 と𝐺π,τ は方策の因子ではないからである． • このグラフ表現では𝐺𝜋,𝜏 に関するすべての依存関係を説明することは出来ない．なぜならば， 𝐺𝜋,𝜏 は2つの異なるタイプの予測された将来の観測𝑝 𝑜𝜏>𝑡 𝜋 と𝑝 𝑜𝜏>𝑡 𝐶 に依存するからである． 4 𝐸 𝜋 • 因子𝐹𝜋,𝜏 と𝐺𝜋,𝜏 は、2つの遷移確率因子（𝐵𝜋,𝜏−1 と𝐵𝜋,𝜏 ）から送られるメッセージとなる．これらは等号ノードで統合される． • これらのメッセージは更に𝐸から送信されたメッセージと統合され，さらにソフトマックス関数を適用される．これは方策に関するposteriorになる． 3 𝜋 1 𝜋 = 2 3 𝐷 = 𝐁 3 = 𝐁 = 2 1 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3

64.

方策の推論 • これまで見てきたように、このような総和はしばしば難解である．その代わりに、自由エネルギー関数VFEとEFEを評価する．これらは必要な確率に近似しており，効果的な計算が可能だからである． 4 • − ln 𝑝 𝑜𝜏 𝜋 ≈ 𝐹𝜋,𝜏 • −𝐸𝑞 𝑜𝜏>𝑡 , 𝑠𝜏>𝑡 𝜋 ln 𝑝 𝑜𝜏>𝑡 𝜋 𝐸 1 = ≈ 𝐺𝜋,𝜏 2 𝜋 𝐁 • そして，方策に対するposteriorは、状態に対するposteriorと同様の方法で計算することができる． • 具体的には，行列因子ノード𝐁𝜋,𝜏−1 と𝐁𝜋,𝜏 とベクトル因子ノード𝐸から方策についてのposteriorを表すエッジに送られるメッセージを以下のように表現できる． • 𝑞 𝜋 ∝ 𝜇𝐸→𝜋 ⋅ 𝜇Ԧ𝐵𝜋,𝜏−1→𝜋 ⋅ 𝜇ശ 𝐵𝜋,𝜏 →𝜋 • Message1: ln 𝜇𝐸→𝜋 = ln 𝐸 • Message2: ln 𝜇Ԧ𝐵𝜋,𝜏−1→𝜋 = 𝐹𝜋,𝜏 • Message3: ln 𝜇ശ 𝐵𝜋,𝜏→𝜋 = 𝐺𝜋,𝜏 3 𝐁 2 • ここでも，過去と未来の時点からのメッセージはそれぞれ右向き，左向きの矢印で表し，方策の事前分布を伝えるメッセージは矢印表記なしで表す．これらのメッセージを受け渡し，その結果をソフトマックス関数で正規化すると（精度項γを抑えた）方策のposteriorの式が得られる． • 𝜋 = 𝜎(ln 𝐸 − 𝐹 − 𝐺) • ただし，この場合は反復的なメッセージパッシングを行う必要がないことに注意が必要である．１度のメッセージパッシングと上式とは等価である． • つまり，方策に対する推論はメッセージパッシングの観点から発見的に見ることができるが（状態推論における変分メッセージパッシングとの整合性を説明するため），このように記述する必要はない（また、メッセージは双方向ではないなどの相違点もある）。

65.

周辺メッセージパッシング • 周辺メッセージパッシングは変分メッセージパッシングの計算有効性と，より計算コストが高いが適切な条件下で（近似ではなく）正確な推論を実行できる信念伝播と呼ばれる別の広く使われているアルゴリズムとの間の一種の妥協案である（詳細についてはParr et al., 2019参照）． • 周辺メッセージパッシングの完全な説明は難しいためここでは取り扱わない． • しかし周辺メッセージパッシングの主な結果として状態のposteriorの導出がある．周辺メッセージパッシングにより求められたposteriorは次の式で表される． • 𝒔𝜋,𝜏 = 𝜎 1 2 † ln 𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 + ln 𝐁𝜋,𝜏 𝒔𝜋,𝜏+1 + ln 𝐀T 𝒐𝜏 • 上記のように，𝐁𝜋,𝜏−1 𝒔𝜋,𝜏−1 は𝜏 = 1の初期状態𝐷に関するpriorに置き換えられることに注意する． • 遷移信念(𝐁𝜋,𝜏 )の影響をスケールするために1/2を加えた結果，遷移確率の精度が低下する． • これにより，変分メッセージパッシングで起こりうるposteriorの精度の過大評価を防ぐことができる． † • また，𝐁𝜋,𝜏 は𝐁𝜋,𝜏 の正規化された列（すなわち、合計が1になる列）の転置を示すことに注意する．ここで紹介するように，この修正はややアドホックな印象を与えるかもしれないが，変分メッセージパッシングと同様に周辺メッセージパッシングの更新方程式は原理的な方法で導出することができる（Parr et al., 2019）．

66.

隠れマルコフモデルにおける周辺メッセージパッシング Parr et al. (2019) Neuronal message passing using Mean-field, Bethe, and Marginal approximations を参考にしている独自解説．間違っているかもしれません．

67.

隠れマルコフモデル • Smith et al. 2022の図5におけるDynamic perceptionは隠れマルコフモデル(HMM)である． • HMMには観察可能な結果(𝑜𝜏 )と隠れ状態(𝑠𝜏 )という 2 種類の確率変数がある． • 隠れ状態は時間とともに変化し，各状態は前回の隠れ状態にのみ依存する（マルコフ連鎖，マルコフ過程）． • このスパースな依存性により，効率的なローカルなメッセージパッシングスキームを導き出すことができる． • これは変数に関する信念の計算に使用されるメッセージが変数のマルコフブランケットの構成要素のみから得られるためである． • HMM内の特定の隠れ状態のマルコフブランケットには，直前の状態，直後の状態，および現在可能な観測結果が含まれる．マルコフブランケット 𝐷 𝑠1 𝐁 𝑠2 𝐁 𝑠3 𝐷 = 𝐁 = 𝐁 = 𝐀 𝐀 𝐀 𝐀 𝐀 𝐀 𝑜1 𝑜2 𝑜3 𝑜1 𝑜2 𝑜3 因子グラフマルコフブランケットノードを孤立させるための最小のノード集合正規因子グラフ

68.

マルコフブランケットのみ考えよう 𝑠1 𝑓1 確率変数：𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 同時分布: 𝑝 𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 = 𝑝 𝑠3 𝑠2 𝑝 𝑠2 𝑠1 𝑝 𝑠1 𝑝 𝑜2 𝑠2 条件付き周辺分布(posterior) 𝑝 𝑠2 ∣ 𝑜2 を求める． 𝑝 𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 𝑝 𝑠3 𝑠2 𝑝 𝑠2 𝑠1 𝑝 𝑠1 𝑝 𝑜2 𝑠2 𝑝 𝑠2 ∣ 𝑜2 = ෍ = ෍ σ𝑠1 ,𝑠2 ,𝑠3 𝑝 𝑠3 𝑠2 𝑝 𝑠2 𝑠1 𝑝 𝑠1 𝑝 𝑜2 𝑠2 𝑝 𝑜2 𝑠1 ,𝑠3 = 1 ෍ 𝑝 𝑠2 𝑠1 𝑝 𝑠1 𝑍 𝑠1 𝑠1 ,𝑠3 ෍ 𝑝 𝑠3 𝑠2 𝑠2 𝑓2 𝑔2 𝑜2 𝑝 𝑜2 𝑠2 𝑠3 同時分布は因子の積で求まるとすると𝑝 𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 = 𝑓1 𝑠1 , 𝑠2 𝑓2 𝑠2 , 𝑠3 𝑔2 𝑠2 , 𝑜2 ここで， 𝑠2 の条件付き周辺分布 𝑝 𝑠2 ∣ 𝑜2 を考える．周辺分布は 𝑝 𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 を周辺化すれば求まる． 𝑝 𝑠1 , 𝑠2 , 𝑠3 , 𝑜2 1 𝑝 𝑠2 , 𝑜2 = ෍ = ෍ 𝑓1 𝑠1 , 𝑠2 𝑓2 𝑠2 , 𝑠3 𝑔2 𝑠2 , 𝑜2 𝑝 𝑜2 𝑍 𝑠1 ,𝑠3 = 1 ෍ 𝑓1 𝑠1 , 𝑠2 𝑍 𝑠1 𝑠1 ,𝑠3 ෍ 𝑓2 𝑠2 , 𝑠3 𝑔2 𝑠2 , 𝑜2 𝑠3 カッコでくくられたそれぞれの項をメッセージとみなす．よって，メッセージは 𝜇𝑓1 →𝑠2 𝑠2 = σ𝑠1 𝑓1 𝑠1 , 𝑠2 , 𝜇𝑓2 →𝑠2 𝑠3 = σ𝑠3 𝑓2 𝑠2 , 𝑠3 , 𝜇𝑔2 →𝑠2 𝑠2 = 𝑝 𝑜2 𝑠2 つまり，条件付き周辺分布はメッセージの積を規格化すれば求まる． 𝑝 𝑠2 ∝ 𝜇𝑓1 →𝑠2 𝜇𝑓2→𝑠2 𝜇𝑔2→𝑠2 𝑠3

69.

隠れマルコフモデルの条件付き周辺分布図のグラフィカルモデルはマルコフブランケットのみ抽出したものである．一般的に考える． 𝑝 𝑠𝜏 ∣ 𝑜𝜏 はメッセージの積から求まるから 𝑝 𝑠𝜏 ∣ 𝑜𝜏 ∝ 𝜇𝑓𝜏−1→𝑠𝜏 𝜇𝑓𝜏→𝑠𝜏 𝜇𝑔𝑐→𝑠𝜏 それぞれの因子からくるメッセージは 𝜇𝑓𝜏−1→𝑠𝜏 𝑠𝜏 = ෍ 𝑓𝜏−1 𝑠𝜏−1 , 𝑠𝜏 𝜇𝑠𝜏−1 →𝑓𝜏−1 𝑠𝜏−1 = ෍ 𝑝 𝑠𝜏 𝑠𝜏−1 𝜇𝑠𝜏−1 →𝑓𝜏−1 𝑠𝜏−1 𝑠𝜏−1 𝑠𝜏−1 𝜇𝑓𝜏→𝑠𝜏 𝑠𝜏 = ෍ 𝑓𝜏 𝑠𝜏 , 𝑠𝜏+1 𝜇𝑠𝜏+1 →𝑓𝜏 𝑠𝜏+1 = ෍ 𝑝 𝑠𝜏+1 𝑠𝜏 𝜇𝑠𝜏+1 →𝑓𝜏 𝑠𝜏+1 𝑠𝜏+1 𝑠𝜏+1 𝜇𝑔𝜏 →𝑠𝜏 𝑠𝜏 = 𝑔𝜏 𝑠𝜏 , 𝑜𝜏 𝜇𝑜𝜏→𝑔𝜏 𝑜𝜏 = 𝑝 𝑜𝜏 𝑠𝜏 𝑜𝜏 はleafノードなので 𝜇𝑜𝜏→𝑔𝜏 𝑜𝜏 = 1である．隣接する変数ノードが受け取るメッセージは 𝜇𝑠𝜏−1 →𝑓𝜏−1 𝑠𝜏−1 = 𝜇𝑓𝜏−2→𝑠𝜏−1 𝑠𝜏−1 𝜇𝑔𝜏−1 →𝑠𝜏−1 𝑠𝜏−1 𝜇𝑠𝜏+1 →𝑓𝜏 𝑠𝜏+1 = 𝜇𝑓𝜏+2→𝑠𝜏+1 𝑠𝜏+1 𝜇𝑔𝜏+1 →𝑠𝜏+1 𝑠𝜏+1 𝑠𝜏−1 𝑓𝑡−1 𝑠𝜏 𝑔𝜏 𝑜𝜏 𝑓𝜏 𝑠𝜏+1

70.

変分メッセージパッシング変分メッセージパッシングは先のスライドと同じ形の式になる．しかし，因子ノードから状態ノードへのメッセージは因子と信念の積とする．つまり，leafノードからメッセージを順番に伝播させるのではなく，信念からメッセージを計算する．条件付き周辺分布𝑞 𝑠𝜏 ∣ 𝑜𝜏 は因子の積から求まるから 𝑞 𝑠𝜏 ∣ 𝑜𝜏 ∝ 𝜇𝑓𝜏−1→𝑠𝜏 𝜇𝑓𝜏→𝑠𝜏 𝜇𝑔𝜏→𝑠𝜏 それぞれの因子からくるメッセージは 𝜇𝑓𝜏−1→𝑠𝜏 𝑠𝜏 = ෍ 𝑓𝜏−1 𝑠𝜏−1 , 𝑠𝜏 𝑞 𝑠𝜏−1 = ෍ 𝑝 𝑠𝜏 𝑠𝜏−1 𝑞 𝑠𝜏−1 = 𝐸𝑞 𝑠𝜏−1 [𝑝 𝑠𝜏 𝑠𝜏−1 ] 𝑠𝜏−1 𝑠𝜏−1 𝜇𝑓𝜏→𝑠𝜏 𝑠𝜏 = ෍ 𝑓𝜏 𝑠𝜏 , 𝑠𝜏+1 𝑞 𝑠𝜏−1 = ෍ 𝑝 𝑠𝜏+1 𝑠𝜏 𝑞 𝑠𝜏+1 = 𝐸𝑞 𝑠𝜏+1 [𝑝 𝑠𝜏 𝑠𝜏+1 ] 𝑠𝜏+1 𝑠𝜏+1 𝜇𝑔𝜏 →𝑠𝜏 𝑠𝜏 = ෍ 𝑔𝜏 𝑠𝜏 , 𝑜𝜏 = ෍ 𝑝 𝑜𝜏 𝑠𝜏 𝑜𝜏 𝑜𝜏 変分メッセージパッシングではメッセージを伝播させないため，マルコフブランケット内のメッセージのやり取りだけで周辺信念を計算することができる．よって，並列処理が可能となる．一方で，𝑞 𝑠𝜏 ∣ 𝑜𝜏 を求めるには繰り返し計算が必要となる．

71.

周辺メッセージパッシング周辺メッセージパッシングも信念はメッセージの積から求めることができる． 𝑞 𝑠𝜏 ∝ 𝜇𝑓𝜏−1→𝑠𝜏 𝜇𝑓𝜏→𝑠𝜏 𝜇𝑔𝑐→𝑠𝜏 それぞれの因子から来るメッセージは次のように書ける． 1 ln 𝜇𝑓𝜏−1→𝑠𝜏 𝑠𝜏 = ln ෍ 𝑝 𝑠𝜏 𝑠𝜏−1 𝑞 𝑠𝜏−1 2 𝑠𝜏−1 1 ln 𝜇𝑓𝜏 →𝑠𝜏 𝑠𝜏 = ln ෍ 𝑝 𝑠𝜏+1 𝑠𝜏 𝑞 𝑠𝜏+1 2 𝑠𝜏+1 ln 𝜇𝑔𝑐 →𝑠𝜏 𝑠𝜏 = ln ෍ 𝑝 𝑜𝜏 𝑠𝜏 𝑜𝜏 変分メッセージパッシングのメッセージとほぼ同じであるが，状態に由来する因子ノードからのメッセージが1/2乗になっている．1/2は周辺自由エネルギーと関係する．

72.

周辺メッセージパッシングのための変分自由エネルギー変分自由エネルギーは， 𝐹 = ෍ 𝑞 𝑠 ln 𝑠∈𝑆 𝑞 𝑠 𝑞 𝑠 𝑞 𝑠 = ෍ 𝑞 𝑠 ln = − ෍ 𝑞 𝑠 ln 𝑝 𝑜 + ෍ 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 𝑝 𝑠∣𝑜 𝑝 𝑜 𝑝 𝑠∣𝑜 𝑠∈𝑆 𝑠∈𝑆 = − ln 𝑝 𝑜 + 𝐷𝐾𝐿 𝑞 𝑠 , 𝑝 𝑠 𝑜 Evidence 𝑠∈𝑆 Divergence また， 𝐹 = ෍ 𝑞 𝑠 ln 𝑠∈𝑆 𝑞 𝑠 = ෍ 𝑞 𝑠 ln 𝑞 𝑠 − ෍ 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 = −𝐻 𝑞 𝑠 − ෍ 𝑞 𝑠 ln 𝑝 𝑜, 𝑠 𝑝 𝑜, 𝑠 𝑠∈𝑆 𝑠∈𝑆 𝑠∈𝑆 Energy Entropy であった．過去と未来の観測から得られる時刻𝜏の観測𝑜𝜏 と状態𝑠𝜏 に関する経験的priorは𝑝(𝑜𝜏 , 𝑠𝜏 ∣ 𝑜1 , … , 𝑜𝑇 ) であるから変分自由エネルギーは 𝐹 𝜏 = −𝐻 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 ∣ 𝑜1 , … , 𝑜𝑇 = −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 ∣ 𝑜1 , … , 𝑜𝑇 𝑠∈𝑆 𝑠𝜏−2 𝑓𝑡−2 𝑠𝜏−1 𝑓𝑡−1 𝑠𝜏 𝑓𝜏 𝑠𝜏+1 𝑓𝜏+1 𝑠𝜏+2 𝑔𝜏−2 𝑔𝜏−1 𝑔𝜏 𝑔𝜏+1 𝑔𝜏+2 𝑜𝜏−2 𝑜𝜏−1 𝑜𝜏 𝑜𝜏+1 𝑜𝜏+2

73.

経験的priorの数式の詳細 𝜏 = 1,2,3 の場合の，観測𝑜2 と状態𝑠2 の経験的priorは 𝑝 𝑜2 , 𝑠2 ∣ 𝑜1 , 𝑜3 = ෍ 𝑝 𝑜2 , 𝑠1 , 𝑠2 , 𝑠3 ∣ 𝑜1 , 𝑜3 𝑠1 ,𝑠3 = ෍ 𝑝 𝑜2 ∣ 𝑠2 𝑝 𝑠2 𝑠1 , 𝑠3 𝑝 𝑠1 𝑜1 𝑝 𝑠3 𝑜3 𝑠1 ,𝑠3 𝑠1 𝑓1 𝑠2 𝑓2 𝑠3 𝑔1 𝑔2 𝑔3 𝑜1 𝑜2 𝑜3

74.

経験的priorの数式の詳細 𝜏 = 1, … , 𝑇 の場合の，観測𝑜𝜏 と状態𝑠𝜏 の経験的priorは 𝑝 𝑜𝜏 , 𝑠𝜏 ∣ 𝑜1 , … , 𝑜𝜏−1 , 𝑜𝜏+1 , … , 𝑜𝑇 = ෍ 𝑝 𝑜𝜏 , 𝑠1 , … , 𝑠𝜏−1 , 𝑠𝜏+1 , … , 𝑠𝑇 ∣ 𝑜1 , … , 𝑜𝜏−1 , 𝑜𝜏+1 , … , 𝑜𝑇 𝑠1 ,…,𝑠𝑡−1 ,𝑠𝑡+1 ,…,𝑠𝑇 = ෍ 𝑝 𝑠1 ∣ 𝑜1 𝑝 𝑠2 ∣ 𝑠1 , 𝑜2 … 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝑠𝜏+1 𝑝 𝑜𝜏 𝑠𝜏 … 𝑝 𝑠𝑇 𝑜𝑇 𝑠1 ,…,𝑠𝑡−1 ,𝑠𝑡+1 ,…,𝑠𝑇 = ෍ 𝑝 𝑠𝜏−1 ∣ 𝑜1 , … , 𝑜𝜏−1 𝑝 𝑠𝜏+1 ∣ 𝑜𝜏+1 , … , 𝑜𝑇 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝑠𝜏+1 𝑠𝑡−1 ,𝑠𝑡+1 経験的priorは過去の経験的prior 𝑝 𝑠𝜏−1 𝑜𝜏−1 , … , 𝑜1 と未来の経験的prior 𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 から出来ているので，過去と未来に分けて考えても良さそうな気がする．こんな感じで周辺化されていく ෍ ෍ 𝑝 𝑠1 , 𝑠2 ∣ 𝑜1 , 𝑜2 … 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝑠𝜏+1 𝑝 𝑜𝜏 𝑠𝜏 … 𝑝 𝑠𝑇 𝑜𝑇 𝑠2 ,…,𝑠𝑡−1 ,𝑠𝑡+1 ,…,𝑠𝑇 𝑠1 = ෍ 𝑠2 ,…,𝑠𝑡−1 ,𝑠𝑡+1 ,…,𝑠𝑇 𝑝 𝑠2 ∣ 𝑜1 , 𝑜2 … 𝑝 𝑠𝜏 𝑠𝜏−1 , 𝑠𝜏+1 𝑝 𝑜𝜏 𝑠𝜏 … 𝑝 𝑠𝑇 𝑜𝑇

75.

過去と未来の経験的prior ここで推論したい確率変数の周りで，過去と未来の領域に分けて考えることにする．過去と未来からの経験的priorは 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜1 , … , 𝑜𝜏−1 = 𝑝 𝑜𝜏 𝑠𝜏 𝑝 𝑠𝜏 𝑜1 , … , 𝑜𝜏−1 = 𝑝 𝑜𝜏 𝑠𝜏 ෍ 𝑝 𝑠𝜏 , 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 𝑠𝜏−1 = 𝑝 𝑜𝜏 𝑠𝜏 ෍ 𝑝 𝑠𝜏 𝑠𝜏−1 𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 = 𝑝 𝑜𝜏 𝑠𝜏 𝐸𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 𝑠𝜏−1 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜𝜏+1 , … , 𝑜𝑇 = 𝑝 𝑜𝜏 𝑠𝜏 𝑝 𝑠𝜏 𝑜𝜏+1 , … , 𝑜𝑇 = 𝑝 𝑜𝜏 𝑠𝜏 ෍ 𝑝 𝑠𝜏 , 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 𝑠𝜏+1 = 𝑝 𝑜𝜏 𝑠𝜏 ෍ 𝑝 𝑠𝜏 𝑠𝜏+1 𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 = 𝑝 𝑜𝜏 𝑠𝜏+1 𝑠𝜏−1 𝑓𝑡−1 𝑠𝜏 𝑓𝜏 𝑠𝜏+1 𝑔𝜏−1 𝑔𝜏 𝑔𝜏+1 𝑜𝜏−1 𝑜𝜏 𝑜𝜏+1 過去未来 𝑠𝜏 𝐸𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 𝑝 𝑠𝜏 𝑠𝜏+1

76.

経験的priorから過去と未来の変分自由エネルギーを求める過去からのforwards free energyは 𝐹𝐹 𝜏 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜1 , … , 𝑜𝜏−1 𝑠𝜏 ∈𝑆 𝑠𝜏 ∈𝑆 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 ∈𝑆 𝑠𝜏 𝐸𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 + ln 𝐸𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 𝑝 𝑠𝜏 𝑠𝜏 ∈𝑆 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 𝑠𝜏 ∈𝑆 ln 𝑝 𝑜𝜏 𝑠𝜏 𝑠𝜏−1 𝑠𝜏 ∈𝑆 = −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 未来からのbackwards free energyは 𝐹𝐵 𝜏 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜𝜏+1 , … , 𝑜𝑇 𝑠𝜏 ∈𝑆 𝑠𝜏 ∈𝑆 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 ∈𝑆 = −𝐻 𝑞 𝑠𝜏 𝑝 𝑠𝜏 𝑠𝜏+1 + ln 𝐸𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 𝑝 𝑠𝜏 𝑠𝜏 ∈𝑆 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 𝑠𝜏 ∈𝑆 𝑠𝜏 𝐸𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 ln 𝑝 𝑜𝜏 𝑠𝜏 𝑠𝜏 ∈𝑆 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 𝑝 𝑠𝜏 𝑠𝜏+1 𝑠𝜏+1

77.

経験的priorを近似する経験的priorを𝑞 𝑠𝜏−1 ≈ 𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 過去からのforwards free energyはと近似する． 𝐹𝐹 𝜏 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜1 , … , 𝑜𝜏−1 𝑠𝜏 𝑠𝜏 = −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑝 𝑠𝜏−1 𝑜1 , … , 𝑜𝜏−1 ≈ −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 未来からのbackward free energyは 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑝 𝑠𝜏 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏+1 𝑠𝜏−1 𝐹𝐵 𝜏 = ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 − ෍ 𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 , 𝑠𝜏 𝑜𝜏+1 , … , 𝑜𝑇 𝑠𝜏 𝑠𝜏 = −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑝 𝑠𝜏+1 𝑜𝜏+1 , … , 𝑜𝑇 ≈ −𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1

78.

周辺自由エネルギーそれぞれの変分自由エネルギーをミックスした新たな変分自由エネルギー，すなわち周辺自由エネルギーを次のように定める． 1 𝐹 𝜏 = 𝐹𝐹 𝜏 + 𝐹𝐵 𝜏 2 1 = ൫−𝐻 𝑞 𝑠𝜏 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 + −𝐻 𝑞 𝑠𝜏 2 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1 ൯ 1 = ൫−𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 2 − 𝐸𝑞 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 + ln 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1 ൯ − 𝐻 𝑞 𝑠𝜏 1 1 = −𝐸𝑞 𝑠𝜏 ln 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 + ln 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1 + ln 𝑝 𝑜𝜏 𝑠𝜏 − 𝐻 𝑞 𝑠𝜏 2 2

79.

ほしいのは状態𝒔𝝉 のposteriorではなかったのか周辺自由エネルギーが最小とする周辺分布𝑞 𝑠𝜏 を求めたい周辺分布としよう．周辺自由エネルギーは 𝐹 𝜏 1 1 = −𝐸𝑞 𝑠𝜏 ln 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 + ln 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1 + ln 𝑝 𝑜𝜏 𝑠𝜏 2 2 状態は離散的で取りうる状態は有限だとすると，𝑞 𝑠𝜏 はベクトルで書ける．ここで隠れ状態が𝑀個あるとしたときの周辺分布ベクトルを𝒔𝜏 = 𝑞 𝑠𝜏,1 , … , 𝑞 𝑠𝜏,𝑀 例えばエントロピーは − 𝐻 𝑞 𝑠𝜏 T とする． − න𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 𝑑𝑠𝜏 → − ෍ 𝑞 𝑠𝜏 ln 𝑞 𝑠𝜏 = −𝒔𝑇𝜏 ln 𝒔𝜏 T と書ける．ここで ln 𝒔𝜏 = ln 𝑞 𝑠𝜏,1 , … , ln 𝑞 𝑠𝜏,𝑀 とする．よって周辺自由エネルギーは次のようになる． 1 𝐹 𝜏 = −𝒔𝑇𝜏 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 + 𝒔𝑇𝜏 ln 𝒔𝜏 2 周辺分布を求める問題は周辺自由エネルギーを最小にするベクトルを求める問題になった．ここで， 𝐁𝜏† は 𝐁𝜏 を転置し，列について規格化したものである．

80.

なぜ，周辺自由エネルギーがそのような形になるのかなぜ変分自由エネルギーが次のようになるのか？ 1 𝐹 𝜏 = −𝒔𝑇𝜏 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 2 まず期待値 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 を変形する． 𝐸𝑞 𝑠𝜏−1 𝑝 𝑠𝜏 𝑠𝜏−1 = ෍ 𝑝 𝑠𝜏 + ln 𝐀T 𝒐𝜏 + 𝒔𝑇𝜏 ln 𝒔𝜏 𝑠𝜏−1 𝑞 𝑠𝜏−1 = 𝑝 𝑠𝜏 𝑠𝜏−1,1 , … , 𝑝 𝑠𝜏 𝑠𝜏−1,𝑀 𝒔𝜏−1 𝑠𝜏−1 𝑝 𝑠𝜏,1 𝑠𝜏−1,1 , … , 𝑝 𝑠𝜏,1 𝑠𝜏−1,𝑀 𝒔𝜏−1 𝑝 𝑠𝜏,1 𝑠𝜏−1,1 = ⋮ ⋮ 𝑝 𝑠𝜏,𝑀 𝑠𝜏−1,1 , … , 𝑝 𝑠𝜏,𝑀 𝑠𝜏−1,𝑀 𝒔𝜏−1 𝑝 𝑠𝜏,𝑀 𝑠𝜏−1,1 次に， 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝐸𝑞 𝑠𝜏+1 𝑝 𝑠𝜏 𝑠𝜏+1 𝑠𝜏+1 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 = ෍ 𝑝 𝑠𝜏 ,…, 𝒔𝜏−1 = 𝐁𝜏−1 𝒔𝜏−1 を変形する． 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 𝑞 𝑠𝜏+1 = ෍ 𝑞 𝑠𝜏+1 = ෍ 𝑞 𝑠𝜏+1 σ𝑠𝜏 𝑝 𝑠𝜏 , 𝑠𝜏+1 𝑝 𝑠𝜏+1 σ𝑠𝜏 𝑝 𝑠𝜏+1 ∣ 𝑠𝜏 𝑠𝜏+1 𝑠𝜏+1 𝑠𝜏+1 𝑝(𝑠𝜏 ) 𝑝(𝑠𝜏 ) 𝑠𝜏+1 𝑞 𝑠𝜏+1 = ෍ 𝑠𝜏+1 = … 𝑝 𝑠𝜏,1 𝑠𝜏−1,𝑀 ⋱ ⋮ … 𝑝 𝑠𝜏,𝑀 𝑠𝜏−1,𝑀 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 𝒔𝜏+1 σ𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 σ𝑠𝜏 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏,1 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏,1 ,…, σ𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 σ𝑠𝜏 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 ⋮ 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏,𝑀 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏,𝑀 ,…, σ𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 σ𝑠𝜏 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 𝒔𝜏+1 𝒔𝜏+1 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏,1 σ𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 = ⋮ 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏,𝑀 σ𝑠𝜏 𝑝 𝑠𝜏+1,1 ∣ 𝑠𝜏 これで周辺自由エネルギーのベクトル，行列での表記に納得がいったと思う． … ⋱ … 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏,1 σ𝑠𝜏 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 ⋮ 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏,𝑀 𝒔𝜏+1 = 𝐁𝜏† 𝒔𝜏+1 σ𝑠𝜏 𝑝 𝑠𝜏+1,𝑀 ∣ 𝑠𝜏 𝐁𝜏 を転置し，列について規格化したもの

81.

周辺自由エネルギーから周辺分布をどう求めるか posteriorは周辺自由エネルギーを最小にするのだから，𝒔T𝜏 𝒋 = 1の条件のもとで周辺自由エネルギーの微分を０にする周辺分布を求めれば良い．ここで，ラグランジュの未定乗数法を用いる．ラグランジアンは 1 𝐿 = 𝐹 𝜏 ＋𝜆 1 − 𝒔T𝜏 𝒋 = −𝒔𝑇𝜏 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 + 𝒔𝑇𝜏 ln 𝒔𝜏 + 𝜆 1 − 𝒔T𝜏 𝒋 2 ラグランジアンの微分は 𝒋 = 1, … , 1 𝑇 𝜕𝐿 1 † T =− ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏 𝒔𝜏+1 + ln 𝐀 𝒐𝜏 + ln 𝒔𝜏 + 𝟏 − 𝜆𝒋 = 0 𝜕𝒔𝜏 2 1 ln 𝒔𝜏 = ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 − 1 − 𝜆 𝒋 2 1 exp ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 2 𝒔𝜏 = exp 1 − 𝜆 𝒋 ベクトル 𝒔𝜏 の要素の和は1に規格化されていなければならないので， 1 exp 1 − 𝜆 𝒋 = 𝒋T exp ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 2 よって 1 𝒔𝜏 = 𝜎 ln 𝐁𝜏−1 𝒔𝜏−1 + ln 𝐁𝜏† 𝒔𝜏+1 + ln 𝐀T 𝒐𝜏 2 これで，周辺自由エネルギーからposteriorが求まった．

82.

Dynamic perception with policy selectionにおける期待自由エネルギーの計算

83.

方策と期待自由エネルギー • エージェントは期待自由エネルギーが最も高い方策を選ぶ． • Active inferenceの文脈における方策 𝜋 は，強化学習のそれと異なり未来の行動の列である． • 強化学習においては，方策は次の行動についての確率分布である． (𝑖) (𝑖) • 𝜋 𝑖 = 𝑎𝜏+1 , … , 𝑎 𝑇 • 𝑇は終端，先読みの長さとも見なせる． • 行動𝑎が𝑁個あるとすると，方策は𝑁 𝑇 存在する． • 期待自由エネルギーは次のように書ける． • 𝐺𝜋 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ]

84.

Dynamic perceptionにおける期待自由エネルギー • なぜDynamic perception with policy selectionにおける期待自由エネルギーは次のようになるのか？ • 𝐺𝜋 = σ𝜏 𝐀𝒔𝜋,𝜏 ⋅ ln 𝐀𝒔𝜋,𝜏 − ln 𝐂𝜏 − diag 𝐀T ln 𝐀 ⋅ 𝒔𝜋,𝜏

85.

期待自由エネルギーの計算 • 𝑜𝑡:𝑇 = 𝑜𝑡 , … , 𝑜𝑇 , 𝑎𝑡:𝑇 = 𝑎𝑡 , … , 𝑜𝑇 = 𝜋とする． • 期待自由エネルギーの計算では次の仮定をおく． • 各観測は互いに独立で，その時の行動にのみ依存する． • 𝑞 𝑜𝑡:𝑇 𝜋 = ς𝑇𝜏=𝑡 𝑞 𝑜𝜏 ∣ 𝑎𝜏 • 各観測は互いに独立で，好みが時間に依存しない． • 𝑝 𝑜𝑡:𝑇 𝐶 = ς𝑇𝜏=𝑡 𝑝 𝑜𝜏 ∣ 𝐶 • 各状態は互いに独立で，その時の行動にのみ依存する． • 𝑞 𝑠𝑡:𝑇 𝜋 = ς𝑇𝜏=𝑡 𝑞 𝑠𝜏 ∣ 𝑎𝜏

86.

期待自由エネルギーの計算 𝐺𝜋 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] = 𝑄𝑟𝑖𝑠𝑘 + 𝑄𝐴𝑚𝑏𝑖𝑔𝑢𝑖𝑡𝑦 各項について計算すると次のようになる． 𝑄𝑟𝑖𝑠𝑘 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 = 𝐸𝑞 𝑜𝑡:𝑇 𝜋 ln 𝑝 𝑜𝑡:𝑇 𝜋 − ln 𝑝 𝑜𝑡:𝑇 𝐶 𝑇 = ෍ 𝐸𝑞 𝑜𝜏 ∣𝑎𝜏 ln 𝑞 𝑜𝜏 ∣ 𝑎𝜏 − ln 𝑝 𝑜𝜏 ∣ 𝐶 𝜏=𝑡 𝑄𝐴𝑚𝑏𝑖𝑔𝑢𝑖𝑡𝑦 = 𝐸𝑞 𝑠 𝜋 𝐻[𝑝 𝑜 𝑠 ] = 𝐸𝑞 𝑠𝑡:𝑇 𝜋 𝐻[𝑝 𝑜𝑡:𝑇 𝑠𝑡:𝑇 ] 𝑇 = ෍ 𝐸𝑞 𝑠𝜏 𝑎𝜏 𝐻 𝑝 𝑜𝜏 𝑠𝜏 𝜏=𝑡 𝑇 𝐺𝜋 = 𝑄𝑟𝑖𝑠𝑘 + 𝑄𝐴𝑚𝑏𝑖𝑔𝑢𝑖𝑡𝑦 = ෍ 𝐺𝑎𝑡 𝜏=𝑡 つまり，各状態と各観測が独立であるという仮定をおいた場合，期待自由エネルギーは各時刻の期待自由エネルギーの和になる．

87.

𝑇 = 𝑡 + 1の場合の式展開 𝑄𝑟𝑖𝑠𝑘 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 = 𝐸𝑞 𝑜𝑡:𝑇 𝜋 ln 𝑞 𝑜𝑡:𝑇 𝜋 − ln 𝑝 𝑜𝑡:𝑇 𝐶 = ෍ ෍ 𝑞 𝑜𝑡 ∣ 𝑎𝑡 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 − ln 𝑝 𝑜𝑡 ∣ 𝐶 𝑝 𝑜𝑇 ∣ 𝐶 𝑜𝑡 𝑜𝑇 = ෍ ෍ 𝑞 𝑜𝑡 ∣ 𝑎𝑡 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 + ln 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 − ln 𝑝 𝑜𝑡 ∣ 𝐶 − ln 𝑝 𝑜𝑇 ∣ 𝐶 𝑜𝑡 𝑜𝑇 = ෍ 𝑞 𝑜𝑡 ∣ 𝑎𝑡 ෍ 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 + ln 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 − ln 𝑝 𝑜𝑡 ∣ 𝐶 − ln 𝑝 𝑜𝑇 ∣ 𝐶 𝑜𝑡 𝑜𝑇 = ෍ 𝑞 𝑜𝑡 ∣ 𝑎𝑡 𝐸𝑜𝑇 ln 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 − ln 𝑝 𝑜𝑇 ∣ 𝐶 + ln 𝑝 𝑜𝑡 ∣ 𝑎𝑡 − ln 𝑝 𝑜𝑡 ∣ 𝐶 𝑜𝑡 = 𝐸𝑜𝑡 ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 − ln 𝑝 𝑜𝑡 ∣ 𝐶 𝑇 + 𝐸𝑜𝑇 ln 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 − ln 𝑝 𝑜𝑇 ∣ 𝐶 = ෍ 𝐸𝑜𝜏 ln 𝑞 𝑜𝜏 ∣ 𝑎𝜏 − ln 𝑝 𝑜𝜏 ∣ 𝐶 𝜏=𝑡 ෍ 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 − ln 𝑝 𝑜𝑡 ∣ 𝐶 𝑜𝑇 = ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 − ln 𝑝 𝑜𝑡 ∣ 𝐶 ෍ 𝑞 𝑜𝑇 ∣ 𝑎 𝑇 = ln 𝑞 𝑜𝑡 ∣ 𝑎𝑡 − ln 𝑝 𝑜𝑡 ∣ 𝐶 𝑜𝑇

88.

𝑇 = 𝑡 + 1の場合の式展開 𝑄𝐴𝑚𝑏𝑖𝑔𝑢𝑖𝑡𝑦 = 𝐸𝑞(𝑠𝑡:𝑇 ∣𝜋) 𝐻[𝑝 𝑜𝑡:𝑇 𝑠𝑡:𝑇 ] = 𝐸𝑞 𝑠𝑡:𝑇 𝜋 = − ෍ ෍ 𝑞 𝑠𝑡:𝑇 𝜋 𝑠𝑡 𝑠𝑇 ෍ ෍ 𝑝 𝑜𝑡:𝑇 𝑠𝑡:𝑇 ln 𝑝 𝑜𝑡:𝑇 𝑠𝑡:𝑇 𝑜𝑡 𝑜𝑇 = − ෍ ෍ 𝑞 𝑠𝑡 𝑎𝑡 𝑞 𝑠𝑇 𝑎 𝑇 𝑠𝑡 −𝐸𝑞 𝑜𝑡:𝑇 𝑠𝑡:𝑇 ln 𝑝 𝑜𝑡:𝑡+1 𝑠𝑡:𝑇 𝑠𝑇 ෍ ෍ 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑜𝑇 𝑠𝑇 ln 𝑝 𝑜𝑡 𝑠𝑡 + ln 𝑝 𝑜𝑇 𝑠𝑇 𝑜𝑡 𝑜𝑇 = − ෍ 𝑞 𝑠𝑡 𝑎𝑡 ෍ 𝑞 𝑠𝑇 𝑎 𝑇 𝑠𝑡 ෍ 𝑝 𝑜𝑡 𝑠𝑡 ෍ 𝑝 𝑜𝑇 𝑠𝑇 𝑠𝑇 = − ෍ 𝑞 𝑠𝑡 𝑎𝑡 ෍ 𝑞 𝑠𝑇 𝑎 𝑇 𝑠𝑡 𝑠𝑇 = − ෍ 𝑞 𝑠𝑡 𝑎𝑡 ෍ 𝑞 𝑠𝑇 𝑎 𝑇 𝑠𝑡 𝑜𝑡 ln 𝑝 𝑜𝑡 𝑠𝑡 + ln 𝑝 𝑜𝑇 𝑠𝑇 𝑜𝑇 ෍ 𝑝 𝑜𝑡 𝑠𝑡 𝐸𝑝 𝑜𝑇 𝑠𝑇 ln 𝑝 𝑜𝑇 𝑠𝑇 + ln 𝑝 𝑜𝑡 𝑠𝑡 𝑜𝑡 𝐸𝑝 𝑜𝑡 𝑠𝑡 ln 𝑝 𝑜𝑡 𝑠𝑡 + 𝐸𝑝 𝑜𝑇 𝑠𝑇 ln 𝑝 𝑜𝑇 𝑠𝑇 𝑠𝑇 = − ෍ 𝑞 𝑠𝑡 𝑎𝑡 𝐸𝑝 𝑜𝑡 𝑠𝑡 ln 𝑝 𝑜𝑡 𝑠𝑡 + 𝐸𝑞 𝑠𝑇 𝑎 𝑇 𝐸𝑝 𝑜𝑇 𝑠𝑇 ln 𝑝 𝑜𝑇 𝑠𝑇 𝑠𝑡 = −𝐸𝑞 𝑠𝑡 𝑎𝑡 𝐸𝑝 𝑜𝑡 𝑠𝑡 ln 𝑝 𝑜𝑡 𝑠𝑡 − 𝐸𝑞 𝑠𝑇 𝑎 𝑇 𝑇 = ෍ 𝐸𝑞 𝑠𝜏 𝑎𝜏 𝜏=𝑡 𝐸𝑝 𝑜𝑇 𝑠𝑇 ln 𝑝 𝑜𝑇 𝑠𝑇 𝑇 −𝐸𝑝 𝑜𝜏 𝑠𝜏 ln 𝑝 𝑜𝜏 𝑠𝜏 = ෍ 𝐸𝑞 𝑠𝜏 𝑎𝜏 𝐻[𝑝 𝑜𝜏 𝑠𝜏 ] 𝜏=𝑡

89.

期待自由エネルギーの計算 𝑇 𝐺𝜋 = ෍ 𝐺𝑎𝑡 𝜏=𝑡 𝐺𝑎𝑡 = 𝐸𝑞 𝑜𝜏∣𝑎𝜏 ln 𝑞 𝑜𝜏 ∣ 𝑎𝜏 − ln 𝑝 𝑜𝜏 ∣ 𝐶 + 𝐸𝑞 𝑠𝜏 𝑎𝜏 𝐻 𝑝 𝑜𝜏 𝑠𝜏 ベクトル𝒔𝜏 : 𝑝 𝑠𝜏 ，行列𝐀: 𝑝 𝑜𝜏 𝑠𝜏 ，行列𝐂: 𝑝(𝑜𝜏 ∣ 𝐶) 𝑝 𝑜𝜏,1 𝑠𝜏,1 ⋯ 𝑝 𝑜𝜏,1 𝑠𝜏,𝑁 𝑝 𝑠𝜏,1 ∣ 𝑎𝜏 𝐀= , 𝒔𝑎𝜏 = ⋮ ⋱ ⋮ ⋮ 𝑝 𝑜𝜏,𝑀 𝑠𝜏,1 ⋯ 𝑝 𝑜𝜏,𝑀 𝑠𝜏,𝑁 𝑝 𝑠𝜏,𝑁 ∣ 𝑎𝜏 𝐀𝒔𝑎𝜏 = 𝑝 𝑜𝜏,1 𝑎𝜏 ⋯ 𝑝 𝑜𝜏,𝑀 𝑎𝜏 𝐸𝑞 𝑜𝜏 ∣𝑎𝜏 ln 𝑞 𝑜𝜏 ∣ 𝑎𝜏 = 𝐀𝒔𝑎𝜏 ⋅ ln 𝐀𝒔𝑎𝜏 𝐻 𝑝 𝑜𝜏 𝐸𝑞 𝑜𝜏 ∣𝑎𝜏 ln 𝑞 𝑜𝜏 ∣ 𝐶 = 𝑨𝒔𝑎𝜏 ⋅ 𝑝 𝑜𝜏,1 𝐶 ⋯ 𝑝 𝑜𝜏,𝑀 𝐶 = 𝑨𝒔𝑎𝜏 ⋅ ln 𝐂 𝑠𝜏,1 = − 𝑝 𝑜𝜏,1 𝑠𝜏,1 ⋯ 𝑝 𝑜𝜏,𝑀 𝑠𝜏,1 ⋅ ln 𝑝 𝑜𝜏 𝑠𝜏,1 ⋯ ln 𝑝 𝑜𝜏 𝑠𝜏,1 𝐻 𝑝 𝑜𝜏 𝑠𝜏,1 ⋯ 𝐻 𝑝 𝑜𝜏 𝑠𝜏,𝑁 = −𝑑𝑖𝑎𝑔 𝐀𝑇 ln 𝐀 𝐸𝑞 𝑠𝜏 𝑎𝜏 𝐻 𝑝 𝑜𝜏 𝑠𝜏 = −𝑑𝑖𝑎𝑔 𝐀𝑇 ln 𝐀 ⋅ 𝒔𝑎𝜏 𝑇 𝑇 𝐺𝜋 = ෍ 𝐺𝑎𝑡 = ෍ 𝐀𝒔𝑎𝜏 ⋅ ln 𝐀𝒔𝑎𝜏 − 𝑑𝑖𝑎𝑔 𝐀𝑇 ln 𝐀 ⋅ 𝒔𝑎𝜏 𝜏=𝑡 𝜏=𝑡 これで，期待自由エネルギーが求まった．

Active inference 2 (能動的推論2)

藤田一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 1 (能動的推論1)

自由エネルギー原理2 -期待自由エネルギー-

ニューラルネットワークの歴史と手法1

クラスタリング

各ページのテキスト

Active inference 2 (能動的推論2)

藤田 一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 1 (能動的推論1)

自由エネルギー原理2 -期待自由エネルギー-

ニューラルネットワークの歴史と手法1

クラスタリング

各ページのテキスト

藤田一寿