自由エネルギー原理2 -期待自由エネルギー-

29.2K Views

November 04, 22

#人工知能 #神経科学 #Active Inference #自由エネルギー原理 #期待自由エネルギー #意思決定 #強化学習

スライド概要

期待自由エネルギーについて書かれた記事
https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc
のまとめスライドです．たまに更新しています．

より詳しく知りたい人は，Active inference 1, 2も読むと良いかもしれません(https://www.docswell.com/s/k_fujita/K7QJ8Z-2022-12-20-134638, https://www.docswell.com/s/k_fujita/ZVVJNE-2023-09-04-233859)．

藤田一寿

@k_fujita

スライド一覧

コンピュータを使って色々計算しています．個人的な技術に関するメモと講義資料が置いてあります．気が向いた時に資料を修正しています．公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699 初心者向けの人工知能の本を書いてみました． https://www.amazon.co.jp/dp/B0F2SKBXY4/crid=1RJHKTT637RSE

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

図解Vision transformerの処理

人工知能機械学習ニューラルネットワーク

藤田一寿 62K

自由エネルギー原理 -変分自由エネルギー-

人工知能神経科学

藤田一寿 46.7K

Active inference 2 (能動的推論2)

人工知能機械学習神経科学

藤田一寿 38.8K

Active inference 1 (能動的推論1)

人工知能機械学習神経科学

藤田一寿 38K

ニューラルネットワークの歴史と手法1

機械学習ニューラルネットワーク神経科学

藤田一寿 18.5K

クラスタリング

機械学習クラスタリング

藤田一寿 17.8K

各ページのテキスト

自由エネルギー原理2 期待自由エネルギー https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc のまとめ公立小松大学藤田一寿スライドに間違いがあるかもしれないし内容が古いので，研究で使う際は必ず論文(Smith et al., 2022; Sajid et al., 2021など)をチェックすること！！ Ver. 20241030 途中式があるので，論文を読むときの参考になるかも．

https://medium.com/@solopchuk/tutorial-on-active-inference-30edcf50f5dc

方策と行動

時系列で考える • 環境の状態は時間とともに変化する． • 状態は直前の状態に依存するとする． • それぞれの状態から，それに対応した観測が生まれる． 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation

時系列で考える • Agentは生成モデル𝑝(𝑜, 𝑠)の学習とそれぞれの時間で事後分布𝑞(𝑠)の近似を得ることにより，真の生成過程𝑝(𝑜, 𝑠 ∗ )をモデル化しようとする． • 簡単な場合では，自由エネルギーを減らすようにパラメタを変えることで探すことができる（自由エネルギーのスライド参照）． 𝑡−1 𝑡 𝑡+1 true state 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑝 𝑜 𝑠 𝑠∗ observation 𝑜 𝑞 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1 𝑠 𝑠 Inference state 𝑠

行動してみる • 先の例は，環境の状態を受動的に観測するだけだった． • Agentが行動をする場合，その行動により状態が変わる． • つまり，行動が直接環境に影響を与え，異なる行動は異なる未来を導くことになる． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation 𝑝 𝑜 𝑠 観察 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑢 𝑠 脳 𝑠 Inference state 𝑠

我々はどのような行動を取ればよいのか？ • Agentは当然それぞれの時間で良い行動を選びたい． • 一方で，Agentは行動直後の結果のみを考えて行動しているのではなく，時間的に離れた目標に向けて一連の行動をしている． • この一連の行動のルールを方策（policy）𝜋という． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 observation 𝑝 𝑜 𝑠 観察 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑢 𝜋 𝑠 𝑠 Inference state 方策をとる脳 𝑠

方策 • Agentが取ることの出来る方策はたくさんある． • Active inferenceでは，それらすべてを考える． • だから，Agentはすべての可能な方策𝜋に対し，𝑝(𝑠 ∣ 𝑜)を𝑞(𝑠)で近似し推論する． • 将来の自由エネルギーを最小化する方策が優先される． 𝑡−1 𝑡 true state 𝑡+1 𝑠∗ 𝑠∗ 𝑠∗ 𝑜 𝑜 𝑜 環境 𝑝 𝑜 𝑠 𝜋1 どの方策が良いか？ 𝜋2 𝑠 𝑠 𝜋3 脳 𝑞 𝑠𝑡 𝜋1 𝑠 𝑠𝑞 𝑠𝑡 𝜋2 𝑠 Inference state 𝑠 𝑞 𝑠𝑡 𝜋3 Inference 𝑠 𝑠 state Inference state 観察 𝑠 強化学習では将来得られる報酬が多い行動が優先される．強化学習では，方策は𝑝(𝑢 ∣ 𝑠)．

期待自由エネルギー

期待自由エネルギー • 将来の自由エネルギーを最小化するためには，将来の自由エネルギーを知る必要がある． • 将来どれほどの自由エネルギーになるかを知るためには自由エネルギーの期待値を取る必要がある． • 将来の自由エネルギーはAgentがとる方策にも依存する．

10.

期待自由エネルギー • 自由エネルギーの式を，方策𝜋を考慮したものに書き換える． • σ𝑠 𝑞 𝑠 log 𝑞 𝑠 𝑝 𝑜,𝑠 → σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 • 更に𝑝 𝑜𝑡 について期待値をとる． • 𝐺 = σ𝑜 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 • ここでは𝑜𝑡 と𝑠𝑡 の関係はpolicyによらないとしている． • さらに式変形すると 𝑞 𝑠𝑡 ∣𝜋 • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑜 ,𝑠 ∣𝜋 𝑡 𝑡 • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑝(𝑜𝑡 ) 期待自由エネルギー

11.

更に式変形する 𝑞 𝑠𝑡 ∣𝜋 • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑠 ∣𝑜 ,𝜋 𝑝(𝑜 ) 𝑡 𝑡 𝑡 • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠𝑡 ∣𝜋 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • = − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 をepistemic valueという． 𝑡

12.

さらに式変形する • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) • 近似が十分正確だとすれば𝑞 𝑜𝑡 ∣ 𝑠𝑡 = 𝑝 𝑜𝑡 ∣ 𝑠𝑡 と見なせるので • 𝐺 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑞 𝑜𝑡 ∣ 𝑠𝑡 log • = σ𝑜,𝑠 𝑞 𝑜𝑡 , 𝑠𝑡 ∣ 𝜋 log • = σ𝑜 𝑞 𝑜𝑡 , ∣ 𝜋 log 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 • = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑞 𝑜𝑡 ∣𝜋 𝑝 𝑜𝑡 − σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) − σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 σ𝑜 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝(𝑜𝑡 ∣ 𝑠𝑡 , 𝜋) 𝑜𝑠 と𝑠𝑡 の関係はpolicyによらない − σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 σ𝑜 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑠𝑡 + σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝐻 𝑝 𝑜𝑡 𝑠𝑡 = − ෍ 𝑝 𝑜𝑡 ∣ 𝑠𝑡 log 𝑝 𝑜𝑡 𝑠𝑡 𝑜

13.

最終的な期待自由エネルギーの式 • 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 Expected cost + σ𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] Expected ambiguity • Expected costは，方策𝜋の下での予想される観測𝑞 𝑜𝑡 ∣ 𝜋 とprior preferences 𝑝 𝑜𝑡 の2つの分布の間のKLダイバージェンスである．つまり，期待自由エネルギーを最小化すると，Agentが望む観測をもたらすような方策を好むことになる． • Expected Ambiguityは，𝑝(𝑜 ∣ 𝑠)のエントロピーの期待値である．つまり，状態と観測値間のマッピング𝑝 𝑜 𝑠 がどれだけ不確実であるかを定量化している． Prior prefernces 乾の訳では事前の選好とされていた．Agentが好む観測の分布を意味する．AgentはPrior preferencesを目指し行動する． Smit et al.の論文ではPrior preference distributionを𝑝(𝑜 ∣ 𝐶)と表現する．変数𝐶は，エージェントのpreferencesを表すとされている． Parr et al, 2022によればActive inferenceの論文では𝐶がしばしば省略されるらしい．

14.

Estimetic valueの考察

15.

Epistemic valueの変形 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑞 𝑠 ∣𝜋 𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 • log 𝑞 𝑠 ∣𝜋 𝑡 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 • 推定が正確だとすれば𝑞 𝑜𝑡 ∣ 𝜋 = 𝑝 𝑜𝑡 ∣ 𝜋 となるから 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 • log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 𝑝 𝑜𝑡 ,𝑠𝑡 ∣𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞(𝑠𝑡 ∣𝜋) 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) = log 𝑞 𝑠 ∣𝜋 𝑞(𝑜 ∣𝜋) = log 𝑞(𝑜 ∣𝜋) 𝑡 𝑡 𝑡 𝑡 𝑡 • よって • σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑠𝑡 ∣𝑜𝑡 ,𝜋 𝑞 𝑠𝑡 ∣𝜋 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋

16.

Epistemic valueは相互情報量 • 𝑀𝐼 𝑎, 𝑏 = σ𝑎𝑏 𝑝 𝑎, 𝑏 𝑝 𝑎,𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎∣𝑏 • = σ𝑎𝑏 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 = σ𝑎𝑏 𝑝 𝑎 ∣ 𝑏 𝑝 𝑏 log 𝑝 𝑎 = 𝐻 𝑝 𝑎 − 𝐻𝑝 𝑎 𝑏 =𝐻 𝑝 𝑏 −𝐻 𝑝 𝑏 𝑎 • 𝑀𝐼 𝑜, 𝑠 = σ𝑜,𝑠 𝑝(𝑜𝑡 ∣ 𝑠𝑡 )𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 log 𝑞 𝑜 ∣𝜋 𝑡 Epistemic value おまけ 𝑀𝐼(𝑎, 𝑏) = ෍ 𝑝 𝑎 ∣ 𝑏 𝑝(𝑏) log 𝑎𝑏 𝑝 𝑎∣𝑏 𝑝 𝑏 𝑝 𝑎 𝑏 = ෍ 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎 𝑎𝑏 = σ𝑎𝑏 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − σ𝑎𝑏 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 = ෍ 𝑝 𝑎 𝑏 𝑝 𝑏 log 𝑝 𝑎 𝑏 − ෍ 𝑝 𝑎 log 𝑝 𝑎 𝑎𝑏 =𝐻 𝑝 𝑎 −𝐻 𝑝 𝑎 𝑏 𝑎 =𝐻 𝑝 𝑏 −𝐻 𝑝 𝑏 𝑎

17.

Epistemic valueの解釈 • 𝑀𝐼 𝑜, 𝑠 = σ𝑜,𝑠 𝑞 𝑠𝑡 ∣ 𝜋 𝑝(𝑜𝑡 ∣ 𝑠𝑡 ) log • = 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 𝑝 𝑜𝑡 ∣𝑠𝑡 ,𝜋 𝑞 𝑜𝑡 ∣𝜋 − 𝐻 𝑝 𝑠𝑡 𝑜𝑡 • Agentが非常に確信している場合，𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は小さく，これ以上学ぶことは何もないので， Epistemic value（認識価値）は低くなる． • 確信していれば，方策𝜋を選んだときに起こることが推測できるため，エントロピーが小さくなる． • 例：方策𝜋をとったとき，必ず状態𝑠になると確信していれば， 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は0となる． • 確信が持てない場合， 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 が高い．エントロピーが最大，最小となる条件を確認しよう． • 確信が持てていないため，どの状態になるか分からない． • 結果， Epistemic valueは高くなる． • 例：方策𝜋をとったとき，どの状態になるか分からず，Agentがすべての状態が当確率に現れると思っていれば， 𝐻 𝑞 𝑠𝑡 ∣ 𝜋 は最大値を取る．

18.

具体例で見るActive inferenceと期待自由エネルギー：準備

19.

空腹かどうか • お腹の空き具合と食べることを考える． • 胃の中の状態𝑠は，満杯1とカラ2の2種類である． • 観測𝑜は，満腹1と空腹2の2種類である． • 生成モデル𝑝 𝑜, 𝑠 のパラメタは既知であるとする．胃の中の状態𝑠 満腹かどうか𝑜 1: 満杯 1: 満腹 2: カラ 2: 空腹

20.

満腹感と胃の状態 • 満腹と感じるかどうかは胃の中の状態𝑠に依存するのでlikelihood 𝑝 𝑜 𝑠 で表せる． state Likelihood 𝑝 𝑜 𝑠 1: 満杯当然，胃が満杯だと満腹だし，カラだと空腹になる． 2: カラ 1: 満腹 2: 空腹 observation

21.

食べるかどうか • 食べるかどうかは𝑢で表す． • 状態𝑠𝑡 は以前の状態と行動に依存するので𝑝(𝑠𝑡 ∣ 𝑠𝑡−1 , 𝑢)と表せる． Transition 𝑝(𝑠𝑡 ∣ 𝑠𝑡−1, 𝑢) State 𝑡+1 u1: 食べる 1: 満杯 State 𝑡+1 u2: 食べない 1: 満杯食べれば胃は満杯になり，食べなければからになる． 2: カラ 2: カラ State 𝑡 1: 満杯 2: カラ State 𝑡 1: 満杯 2: カラ

22.

空腹具合 • Agentはprior preferences 𝑝 𝑜 を持つ． • Agentは空腹でないことを好むから，満腹が観測されることを好む． • 観測に対する好みを確率 𝑝 𝑜 で表す． Prior preferences 𝑝 𝑜 1: 満腹 2: 空腹四角は確率を表す．濃いほうが確率が高い．空腹より満腹の方を好むので満腹のほうがprior preferencesが高い．

23.

方策 • ２つ先の未来までの行動が方策で決定されるとすると，policyは次の4 種類になる．２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) • 𝜋1 :食べる，食べる • 𝜋2 :食べる，食べない 1: 満腹 𝜋1 1: 食べる • 𝜋3 :食べない，食べる • 𝜋4 :食べない，食べない 1: 食べる 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 𝑡+1

24.

期待自由エネルギーの計算 -KLダイバージェンス• Agentは状態と観測の関係𝑝 𝑜 𝑠 を知っているから，各方策の予測した(predicted)観測𝑞 𝑜 𝜋 を推定する(estimate)ことができる． • 方策𝜋を決める→行動𝑢する→状態𝑠が変わる→観測𝑜を得る，という流れだから方策さえ決まれば得られる観測がどうなるか推定できる． • よって，各ポリシーの期待自由エネルギーのKL 項を計算できる． 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 Desired observation 𝑝 𝑜 Predicted observation 𝑞 𝑜 𝜋 1: 満腹 1: 満腹 2: 空腹 2: 空腹 𝑝(𝑜)と𝑞 𝑜 𝜋 のKLダイバージェンスが小さければ小さいほど， Agentの希望する結果を得られる可能性が高い．

25.

期待自由エネルギーの計算 -ambiduity• 方策𝜋が決まれば，どのような状態になるか推定できる． • 状態𝑠が決まれば，何が観測されるか推定できる． • よって，𝑝(𝑜 ∣ 𝑠) に依存するambiguity項も評価できる． 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 ２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる 1: 満腹 𝜋2 1: 食べる 2: 食べない state 2: 空腹 Likelihood 𝑝 𝑜 𝑠 1: 満杯 2: 空腹 1: 満腹 2: カラ 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 1: 満腹 2: 空腹 observation

26.

具体例で見るActive inferenceと期待自由エネルギー：次の行動を決める

27.

どのようにして次の行動を決めるのか • まず，将来の時間ステップで期待自由エネルギーを合計する． • それを方策𝜋に対する確率分布𝑞 𝜋 に変換する． • その確率は自由エネルギーが小さいほど高い．期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝛾 𝑠 ２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 high Precision𝛾をかける． 1: 満腹 𝜋1 1: 食べる 1: 食べる 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) low

28.

精度 • この変換の際に，自由エネルギーは精度𝛾によって重み付けされる． • 𝛾は方策に対する信念(belief)をどれほど確信しているかを表す． • 精度を極端に変えることによって，agentの信念は一つの方策に集約されたり，一様に広がったりする． • これは探索と利用を決める上で重要である．良い方策を持っていると確信するほど(すなわち，精度が高いほど)探索は少なくなり，その逆もまた然りである．期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] ２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる Precision𝛾をかける． 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 𝑞 𝜋 𝑠 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば， 𝛾が大きくなる．よって，探索しなくなる． 𝛾はsoftmaxの温度パラメタの逆数だと思えば良い．

29.

期待自由エネルギーを最小にする方策を選ばない • ここで，期待自由エネルギーを最小にする方策を選ぶこともできる． • しかし，現在最小にすると思われる方策を取ると，真に最小にする方策を選ぶ機会がなくなる． • その代わりに，Agentは望む観測を得られやすい方策をとるとする．期待自由エネルギー２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 1: 満腹 𝜋1 1: 食べる 1: 食べる 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑞 𝜋 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 Precision𝛾をかける． 2: 空腹 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 1: 満腹 𝜋3 2: 食べない 1: 食べる 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 𝛾 high low 確信を持っていれば，𝛾が大きくなる．よって，探索しなくなる． 𝛾はsoftmaxの温度パラメタの逆数だと思えば良い．

30.

状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積 • まず，方策で生じる状態𝑝(𝑠 ∣ 𝜋)と𝑞 𝜋 の積の和を取る．期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 ２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝑞 𝜋 Precision𝛾をかける． 1: 満腹 𝜋1 1: 食べる 1: 食べる 2: 空腹 Softmax関数𝜎で規格化する． 𝑞 𝜋 = 𝜎 −𝛾𝐺(𝜋) 1: 満腹 𝜋2 1: 食べる 2: 食べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋3 2: 食べない 1: 食べる和 2: 空腹 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹 𝑝 𝑠 𝜋 ×𝑞 𝜋 𝑞(𝑠|𝜋)の𝑞 𝜋 の下での期待値，つまり重み付き和をとる．その重みは各方策の確率で定義される。この結果、周辺分布 𝑞 𝑠 が得られる．この分布には方策が暗黙のうちに組み込まれている。

31.

次に生じる観測の予測 • 次に、期待される観測の確率𝑞 𝑜𝑡+1 を得るために，次の時間ステップの状態の信念𝑞 𝑠𝑡+1 に𝑝 𝑜 𝑠 を掛ける． • そして，𝑞 𝑜𝑡+1 , 𝑠𝑡+1 を周辺化すると𝑞 𝑜𝑡+1 が求まる． • これは期待自由エネルギーから求まった次に生じる観測に対する信念である．期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 𝑠 ２つ先の行動方策をとったとき状態𝑝(𝑠 ∣ 𝜋) Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 1: 満杯 𝜋1 1: 食べる 1: 食べる 2: 空腹積 𝜋2 1: 食べる 2: 食べない 2: 空腹 𝑞 𝑠 1: 満腹 𝜋3 2: 食べない 1: 食べる和 2: 空腹 𝑡+1 1: 満腹 𝜋4 2: 食べない 2: 食べない 2: 空腹周辺化 2: カラ 1: 満腹 2: 空腹 observation 1: 満腹積 𝑞 𝑜𝑡+1

32.

ある行動をとったときに生じる観測 • 現在の状態𝑠𝑡 から行動uをとったときに生じる次の状態𝑠𝑡+1 は， 𝑝(𝑠𝑡 ∣ 𝑠𝑡−1 , 𝑢)で決まる． • まず現在の状態に対する信念𝑞(𝑠𝑡 )をとり，行動u1，u2について，次の状態𝑠𝑡+1 に対する信念 𝑞 𝑠𝑡+1 を求める． • これを𝑝 𝑜 𝑠 にかけて周辺化すると，次の観測の仮説 𝑝 𝑜𝑡+1 を得る． u1: 食べる積 𝑝(𝑠𝑡+1 ∣ 𝑠𝑡 , 𝑢) 𝑠𝑡+1 1: 満杯 𝑞 𝑠𝑡+1 Likelihood 𝑝 𝑜 𝑠 積周辺化 𝑝 𝑜𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ 𝑞(𝑠𝑡 ) 積 u2: 食べない 𝑠𝑡+1 1: 満杯 𝑞 𝑠𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜𝑡+1 周辺化

33.

KLダイバージェンスを最小にする行動をとる • 期待自由エネルギーから求めた𝑞 𝑜𝑡+1 と，行動から求めた𝑝 𝑜𝑡+1 のKLダイバージェンスを計算する． 𝑞 𝑜𝑡+1 • KLダイバージェンスが最小となる行動をAgent はとる． KL 𝑝 𝑜𝑡+1 u1: 食べる 𝑝 𝑜𝑡+1 u2: 食べない最小値を取る行動 u1: 食べる

34.

まとめの図期待自由エネルギー 𝐺 = 𝐾𝐿 𝑞 𝑜𝑡 ∣ 𝜋 ||𝑝 𝑜𝑡 𝑠 Softmax関数方策をとったとき状態𝑝(𝑠 ∣ 𝜋) 𝜋1 Likelihood state 𝑝 𝑜 𝑠 𝑞 𝜋 1: 満腹 𝑞 𝑜𝑡+1 1: 満杯積 2: 空腹周辺化 2: カラ 1: 満腹 2: 空腹 observation 1: 満腹 𝜋2 + ෍ 𝑞 𝑠𝑡 ∣ 𝜋 𝐻[𝑝 𝑜𝑡 𝑠𝑡 ] 2: 空腹 KL 𝑞 𝑠 1: 満腹 𝜋3 𝑡+1 1: 満腹 𝜋4 2: 空腹 u1: 食べる和 2: 空腹積積 Likelihood 𝑝 𝑜 𝑠 𝑠𝑡+1 𝑝(𝑠𝑡+1 ∣ 𝑠𝑡 , 𝑢) 𝑝 𝑠𝑡+1 1: 満杯周辺化積 𝑝 𝑜𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ 𝑠𝑡 u2: 食べない 𝑠𝑡+1 1: 満杯積 𝑝 𝑠𝑡+1 周辺化 2: カラ 𝑠𝑡 1: 満杯 2: カラ Likelihood 𝑝 𝑜 𝑠 積 𝑝 𝑜𝑡+1 周辺化最小値を取る行動 u1: 食べる