25K Views
December 20, 22
スライド概要
Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical data. J Math Psychol. の1節までをまとめたものです.
続編はこちら(https://www.docswell.com/s/k_fujita/ZVVJNE-2023-09-04-233859).
Active inference 1 能動的推論 1 Smith et al. (2022) A step-by-step tutorial on active inference and its application to empirical dataのまとめ 藤田 一寿 Ver. 20241110 Active inference(能動的推論)の理解に必要そうな内容をまとめたものです. Active infefenceや自由エネルギー原理に本気で取り組みたい人は元論文を読みましょう.
Bayesian inferenceとActive inference
Active inference • Active inferenceのフレームワークは次の2つ前提に基づいている. • 知覚と学習は変分自由エネルギーとして知られる量の最小化として理解で きる. • 行動選択,プランニング,decision-makingは期待自由エネルギーの最小 化として理解できる.
Active inferenceの2つのコンセプト • Active inferenceは2つのコンセプトに基づいている. • 生物は情報を集めるため環境に対し積極的に関わり,好ましい観察( 食べ物とか水)を求め,好ましくない観察(怪我や空腹)を避ける. • Bayesian inference • 新たな観察(新たな感覚入力)を得るとき,確率分布として理解される信 念をアップデートする最適な手法を記述した確率のルールに基づく統計手 順
ベイズ定理 • 𝑝 𝑠 𝑜, 𝑚 = 𝑝 𝑜 𝑠, 𝑚 𝑝 𝑠 𝑚 𝑝 𝑜𝑚 • 𝑠: 状態,𝑚: 世界モデル,𝑜: 観察 • 𝑝 𝑠 𝑚 : prior belief(事前信念) • これは新たな観測を行う前の𝑠に関する確率分布(Bayesian belief)を表す. • 𝑠は人間が信念を持つ可能性があるものなら何でも良い. • 𝑝 𝑜 𝑠, 𝑚 : likelihood(尤度) • ある状態のとき特定の観察がされる確率を表す. • 例えば,直線を観測したという状態は四角形を観測することと一致するが円と は一致しない. • 𝑝 𝑜 𝑚 : model evidence(周辺尤度) • どれほど観測が世界モデルと一致するか. • 𝑝 𝑠 𝑜, 𝑚 : posterior belief(事後信念) • 新たな観測がされた後に,新たな信念がなるべき確率分布を表す.
ベイズルール • ベイズルールは新たなデータを踏まえて,どのように信念を最適にアッ プデートするかを記述している. • 新たな信念(posterior)にたどり着くには, 1. 以前の信じていたこと(prior)を持ってくる. 2. 異なった可能な状態が新たな観測とどれほど一致しているかについて信じ ていること (likelihood) と,以前信じていたこと (prior) を融合させる. 3. モデルと観測の全体的な一致を考慮する. 言い換えれば,モデルが含む可能な状態のあらゆるセットの下で,観測がどれほど もっともらしいか;model evidence 𝑝 𝑜 𝑚 4. 𝑝 𝑜 𝑚 で割って,posterior beliefが正しい確率分布(総和が1になる) を維持する.
Bayesian inferenceの例 へこみ 出っ張り へこみと出っ張りを隠れ状態もしくは感覚刺激(画像)の原因だ と見なそう.どちらの状態が画像を作り出したかを推論するため にBayes’ theoremを使う. はじめは,状態が「へこみ」か「出っ張り」かは五分五分だと信 じている. これは事前信念priorである. Prior 𝑝 𝑠 𝑝(へこみ) 0.45 = 0.55 𝑝(出っ張り) 右の円の画像は「へこみ」か ら生成されるか「出っ張り」 から生成されるか?どちらだ ろうか. 事後信念posteriorを求めるためlikelihoodを求める. Likelihood 𝑝 𝑜 𝑠 𝑝(画像 ∣ へこみ, 上から光) 0.9 = 0.1 𝑝(画像 ∣ 出っ張り, 上から光) 人は上から光が来ることを前提としているため,条件に含まれて いる.
Bayesian inferenceの例 へこみ 出っ張り 同時確率を求める. Joint 𝑝 𝑜, 𝑠 = 𝑝 𝑜 𝑠 𝑝(𝑠) 𝑝(画像, へこみ ∣ 上から光) 0.45 × 0.9 0.405 = = 0.55 × 0.1 0.055 𝑝(画像, 出っ張り ∣ 上から光) 周辺尤度を求める. Marginal likelihood 𝑝 𝑜 = σ𝑠 𝑝(𝑜, 𝑠) 𝑝(画像 ∣ 上から光) 0.405 + 0.55 = [0.46] 事後信念を求める. Posterior 𝑝 𝑠 𝑜 𝑝(へこみ ∣ 画像, 上から光) 0.405/0.46 0.88 = = 0.055/0.46 0.12 𝑝(出っ張り ∣ 画像, 上から光) 事後信念から,最も有り得そうな隠れ状態はへこみである事が分 かる. 右の円の画像は「へこみ」か ら生成されるか「出っ張り」 から生成されるか?どちらだ ろうか. 実は,この画像は「へこみ」からも「出っ張り」からも生成され るため,画像から 「へこみ」か「出っ張り」は分からない.しか し,光は上からくるという前提を持っているため,我々は画像が 「へこみ」であると知覚する.
生成モデル • 生成モデル𝑝 𝑜, 𝑠 • 隠れ状態や隠れ原因と呼ばれる直接知ることができない脳の外部の物体や事象𝑠 により,どのような観測(感覚入力)𝑜が生成されるかについてのモデル • モデルは様々な状態𝑠の集合を含むことができる. • 例えば,一つのセットは可能な形状を表す状態を表し,他のセットは可能な物体 の位置の状態を表すといった具合に,モデルが持つ状態のセットに制限はない. • モデルは様々な観測可能な結果𝑜のセットを含むことができる. • 例えば,一つは視覚からくる可能な観測のセットで,もう一つは聴覚からくる可 能な観測のセットといった具合に,モデルが持つ観測のセットに制限はない. • 可能な状態と観測のすべてのセットが指定されると,生成モデルは結合確 率𝑝(𝑜, 𝑠)で表される.この確率分布は状態と観測のすべての可能な組み合わ せについてのものである. • 生成モデルは世界についての信念により構成されるが,不正確でも良い.
生成過程 • 生成過程とは,世界で実際に起こることについて言及している. • 状態と感覚刺激の真の関係を表す. • 生成過程と生成モデルは一致しなくて良い. • 間違った信念の下での行動をシミュレートするとき(例えば,幻覚や妄想 をモデル化するとき ),生成モデルと生成過程と差が重要となる.
Bayesian inferenceは扱いにくい • Bayesian inferenceではベイズルールを使っているため,周辺尤度を 計算する必要がある. • 周辺尤度を計算するためには, • すべての可能な状態について結合確率の和を計算する必要があるため,離 散的であれば何度も計算する必要がある. • 連続的であっても解析的な周辺尤度が求まるとは限らない. • つまり,Bayesian inferenceは計算的に扱いづらい. • Bayesian inferenceではない近似手法を使いたい.
VFEとsurprisal • 近似的手法では変分自由エネルギー(VFE)が重要である. • VFEは近似推論を可能にする計算上扱いやすい量 • これを説明するために,self-informanationやsurprisalとして知られる情報 理論的な量を紹介する必要がある. • Surprisalは観測された結果とモデルで予測された結果の差異を反映し ている. • Surprisalは− ln 𝑝 𝑜 𝑚 と書かける. • 𝑝 𝑜 𝑚 はmodel evidenceと呼ばれる. • これは,モデルが結果をどれだけ説明できるか(モデル𝑚が与えられた条 件のもとで結果がどれほど出やすいか)を表す. • これは𝑝 𝑜, 𝑠 ∣ 𝑚 の周辺化されたもので,周辺尤度でもある.
VFEとsurprisal • Surprisalの最小化はmodel evidenceの最大化と等しい. • lnは単調増加関数だから 𝑝 𝑜 𝑚 が大きければ大きいほどsurprisalは小さ くなる. • VFEは常にsurprisal以上である. • − log 𝑝(𝑜) ≤ σ𝑠 𝑞 𝑠 log Surprisal 𝑞 𝑠 𝑝 𝑜,𝑠 VFE • つまり,VFEを最小化することは,負の対数model evidenceの上界の 最小化でもあることを意味する. • これは前述の計算な困難さの問題を回避し,状態に対する事後信念の 推論を可能にする.
厳密Bayesian inferenceの例 Exact Bayesian Inference Prior 𝑝 𝑠 0.5 0.5 Likelihood 𝑝 𝑜 𝑠 0.8 0.2 𝑝 𝑜 𝑠 𝑝 𝑠 Joint 𝑝 𝑜, 𝑠 0.4 0.1 𝑝 𝑜, 𝑠 Marginal likelihood 𝑝 𝑜 0.5 計算が困難な 場合がある. 𝑠 𝑝(𝑜, 𝑠)/𝑝(𝑜) Posterior 𝑝 𝑠 ∣ 𝑜 0.8 0.2 • 厳密Bayesian Inference簡単な例 • 我々は状態に関する事前信念𝑝 𝑠 と新しい観測の尤度𝑝 𝑜 𝑠 を与えら れている. • 我々は,その新しい観測が与えられたときの状態に関する事後確率 𝑝 𝑠 𝑜 を推論したい. • Bayesian Inferenceでは周辺尤度𝑝 (𝑜)が必要だが,この計算は最も単 純な分布以外では,計算集約的であるか,計算が困難である.
近似Bayesian inferenceの例 Approximate Bayesian Inference: 変分自由エネルギーが最小となる𝑞(𝑠)を探す. まず,Posteriorの 近似𝑞(𝑠)を用意し ておく. 𝑝(𝑠)は事前信念で ある. 𝑞 𝑠 = 𝑝(𝑠) 0.5 𝑞 𝑠 = 0.5 真の事後信念𝑝 𝑠 𝑜 の初期 の推測と考えられる. 変分自由エネルギー 𝑞 𝑠 𝐹 = 𝑞 𝑠 ln 𝑝(𝑜, 𝑠) 𝐹 = 0.5 ln 𝑠∈𝑆 𝑞(𝑠) = 0.6 0.4 Update 1 𝐹 = 0.6 ln 𝑞(𝑠) = 0.8 0.2 0.5 0.5 + 0.5 ln = 0.916 0.4 0.1 𝑞(𝑠) = 0.6 0.4 + 0.4 ln = 0.798 0.4 0.1 Update 3 𝐹 = 0.8 ln 𝑝 𝑜, 𝑠 は先のスライドの値を用いた. 初期の𝐹 Update 2 𝐹 = 0.7 ln 𝑞(𝑠) = 0.2 0.2 + 0.2 ln = 0.693 0.4 0.1 0.7 0.3 0.9 0.1 0.7 0.3 + 0.3 ln = 0.721 0.4 0.1 Update 4 𝐹 = 0.9 ln 0.9 0.1 + 0.1 ln = 0.730 0.4 0.1 • 𝐹を最小化するために逐次的にposteriorの近似分布𝑞 𝑠 をアップデートする. • 更新のたびに,近隣の値を検索して𝐹の値がより低くなる𝑞(𝑠)の近傍値を見つける. • この更新を続けることで,真のposterior 𝑝 𝑠 𝑜 の近似が見つかる. • つまり,𝑞 𝑠 が𝐹を最小化するとき,それが真のposteriorを近似することになるだろ う.
Bayesian inferenceからactive inference • Predictive codingなどのフレームワークでBayesian inferenceは知覚 と学習をモデル化に使われている. • Active inferenceでは,Bayesian inferenceを2つの方法で拡張する. • Active inferenceはカテゴリー推論(例えば猫であるか犬であるか)を モデル化する.連続的な推論(変数は連続的,例えば速さ,動きの向 き,明るさなど)ではない. • Active inferenceはdecision-making中に最適な一連の行動の推論をモ デル化する. • 可能な行動の選択肢についての確率分布の推論をする. • これは,それぞれの行動が選ばれたときのゴールに着く確率をエンコード すると考えることができる.
方策とプランニング • プランニングにおいて,可能な一連の行動を方策という. • 方策は𝜋と書く. • 方策を考慮すると,生成モデルは次のように書ける. • 𝑝 𝑜, 𝑠, 𝜋 = 𝑝 𝑜 𝑠, 𝜋 𝑝 𝑠 𝜋 𝑝 𝜋 • Active inferenceの方策は,強化学習で用いられる方策と異なる. • Active inferenceの方策は,一連の行動である. • 例えば,状態1,状態2,状態3に移動するのが1つのプランである. • 強化学習の方策は,状態から行動への関連付けで構成される. • 例えば,もし状態が1なら状態2に移動し,もし状態が3なら状態1に移動す る.つまり方策は条件付き確率で𝜋(𝑎 ∣ 𝑠)で表せる.
Preference(好み) • 意思決定をするために,あるpolicyを他のpolicyより高い価値に結びつ ける手段が必要である. • そのために,preference(好み)を考慮する. • Active inferenceでは報酬とか価値といった追加の変数は無い. • Preferencesはprior preference distributionと呼ばれる,事前分布にエ ンコードされる. • Prior preference distributionを𝑝(𝑜 ∣ 𝐶)と表現する. • 変数𝐶は,エージェントのpreferencesを表す. • この分布において,観測が高い確率ならば,その観測は報酬がより高 いと扱われる. • Prior preferencesが, phenotypeにより生物が暗黙のうちに「期待」 する観測(すなわち、生物が生存および/または繁殖を維持するため に求めるべき観測)を符号化していると考えることができる.
Prior preferencesの例 • 人間は体温が36.5から37.5℃の範囲で観測され続ける場合にのみ生存 できる. • したがって,そのような観測が起こる確率は高いということを暗黙の うちに必要としている. • もし人間が自分の体温が「予想される」温度から逸脱している(ある いは逸脱しそうである)と認識した場合,この逸脱を最小化するため にどのpolicyを取るか(例えば、寒いときや寒くなることが予想され るときは避難所を探すなど)を推論する. • この意味では,生存可能な範囲内の体温は最も驚きの少ない体温であ る.
自由エネルギー最小化による部分 観測マルコフ決定過程(POMDP) の解き方の簡単な紹介
マルコフ決定過程と部分観測マルコフ決定過程 • マルコフ決定過程(Markov decision process)は次のことを記述する. • 世界の観念的な状態についての信念 • 時間変化に対しどのように状態を予測するか • 状態の信念に基づき,好みの結果もしくは報酬を探しだすために,どのように行動を選ぶ か • マルコフ決定過程では、エージェントが行動を選ぶとき,現在の状態についての信 念だけが重要である. • 過去の状態に関するすべての知識が現在の状態に関する信念に暗黙的に含まれている. • 部分的に観測可能というのは,エージェントが自分のいる世界の状態についての信 念をはっきり知らないことを意味する. • この場合,状態は隠れていると呼ばれる. • エージェントは,観察(すなわち感覚入力)に基づいて、ある隠れ状態と別の状態 のどちらにある可能性が高いかを推論しなければならない. • そして、行動を選択するためにこの情報を使用しなければならない.
変分推論 • Active inferenceでは変分推論として知られる近似推論の形式を使い部 分観測マルコフ決定過程解決する. • 推論の過程は次のとおりである. • まず,状態についての近似事後分布𝑞 𝑠 を導入する. • 次は、この分布と生成モデル𝑝 𝑜, 𝑠 との類似性をKL ダイバージェンス用い 計算する. • KLダイバージェンスは2つの分布間の非類似度の尺度 • 分布が一致するときは0で,分布の非類似度が高くなるほど大きくなる. • VFEは、我々が最小化したいsurprisalに近似事後分布と真の事後分布のKL ダイバージェンスを足したもに対応する. • 変分推論では,VFE を最小にする値が見つかるまで系統的に 𝑞(𝑠)を更新し する. • そのとき,𝑞(𝑠)は真の事後分布𝑝(𝑠|𝑜)に近似される.
KLダイバージェンス • KLダイバージェンスは2つの分布の非類似度で,次のように書ける. • 𝐷𝐾𝐿 𝑞 𝑥 ∥ 𝑝 𝑥 𝑞 𝑥 𝑞 𝑥 = 𝐸𝑞 𝑥 ln 𝑝 𝑥 = σ𝑥∈𝑋 𝑞 𝑥 ln 𝑝 𝑥 = 𝑝 𝑥 − σ𝑥∈𝑋 𝑞 𝑥 ln 𝑞 𝑥 • 情報理論から見れば,KLダイバージェンスは𝑞 𝑥 の完全な知識が与え られた上で,𝑝 𝑥 を構築するためにどれだけ情報が必要かを表す.
Model evidence • Model evidenceは次のように書かれる. • 𝑝 𝑜 = σ𝑠,𝜋 𝑝 𝑜, 𝑠, 𝜋 • よって負のlog model evidenceは • − ln 𝑝 𝑜 = − ln σ𝑠,𝜋 𝑝 𝑜, 𝑠, 𝜋 = − ln σ𝑠,𝜋 • = − ln σ𝑠,𝜋 𝑞 𝑠, 𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 = − ln 𝐸𝑞 𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 𝑞 𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 • 𝑞 𝑠, 𝜋 は近似分布である. 𝐸𝑞 𝑠,𝜋 は期待値を表す.
変分自由エネルギーVFE • Model evidencは次のように書かれる. • − ln 𝑝 𝑜 = − ln 𝐸𝑞 𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 • Jensen’s不等式より • − ln 𝑝 𝑜 = − ln 𝐸𝑞 𝑠,𝜋 ≤ −𝐸𝑞 𝑠,𝜋 • 𝐹 = 𝐸𝑞 𝑠,𝜋 ln • 𝐸𝑞 𝑠,𝜋 ln 𝑞 𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑝 𝑜,𝑠,𝜋 𝑞 𝑠,𝜋 𝑝 𝑜, 𝑠, 𝜋 ln 𝑞 𝑠, 𝜋 = 𝐸𝑞 𝑠,𝜋 𝑞 𝑠, 𝜋 ln 𝑝 𝑜, 𝑠, 𝜋 =𝐹 が変分自由エネルギーVFEである. は 𝑞 𝑠, 𝜋 と 𝑝 𝑜, 𝑠, 𝜋 のKLダイバージェンスになっている. • これは,生成モデル𝑞 𝑜, 𝑠, 𝜋 と近似事後分布𝑞 𝑠, 𝜋 の違いの期待値である.
Model evidenceとVFE 𝑞 𝑠,𝜋 • − ln 𝑝 𝑜 ≤ 𝐸𝑞 𝑠,𝜋 ln 𝑝 𝑜,𝑠,𝜋 = 𝐹 • VFEは常に − ln 𝑝 𝑜 以上である. • つまり,VFEを最小化することによりmodel evidenceの負の対数の上 界を最小化できる. • よって, VFEの最小化により model evidence 𝑝 𝑜 は同じままか増加 する. • VFEの最小化しても − ln 𝑝 𝑜 が変化しなければ𝑝 𝑜 は変化しない. • VFEの最小化とともに − ln 𝑝 𝑜 が減少すれば𝑝 𝑜 は増加する. 𝐹 − log 𝑝 𝑜 logは単調増加関数なので,ln 𝑓を最大化すれば𝑓も最大化される.
知覚における近似Bayesian inference • 知覚、学習、意思決定における近似Bayesian inferenceに必要なのは、 VFEを最小化する𝑠の値(すなわち,𝑠に関する近似事後分布)を探す 扱いやすいアプローチである. • これは,VFEに対して勾配降下法を適用することで達成できる.
方策とVFE • 能動推論では,可能な各方策に対して個別にVFE 𝐹𝜋 を計算することに 注意したい. • ある方策を選ぶと特定の観測を得る可能性を高くなるから. • 例: • 左側に椅子,右側にテーブルがあると思っている状況を考える。左を見る ことを選んだという条件の下では,テーブルより椅子を観察する可能性が 高くなる. • これは,椅子の観察が左を見るという方策を選択したevidenceとして機能 することを意味する. • 観測が方策のevidenceとなるため,近似posterior 𝑞 𝑠 𝜋 と生成モデ ル 𝑝 𝑜, 𝑠 𝜋 の両方が方策に条件付けされる. • これは,例えば,エージェントが実行する行動に対して誤った信念を持っ ている可能性や,自分の意図した方策と真の観測された行動とが一致しな いことに驚く可能性を考慮するような場合に有効だろう.
VFEの式展開 • 脳が知覚の間にVFEの勾配降下を実現する方法の一つが予測誤差の最 小化だろう. • 理由は次の数式から明らかにされる. 𝑞 𝑠𝜋 • 𝐹𝜋 = 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜, 𝑠 𝜋 = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜, 𝑠 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜 𝑠, 𝜋 𝑝 𝑠 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝜋 • = 𝐷𝐾𝐿 𝑞 𝑠 𝜋 ∥ 𝑝 𝑠 𝜋 Complexity − 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜 𝑠, 𝜋 − 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜 𝑠, 𝜋 Accuracy • VFEはcomplexity引くaccuracyである.
𝐹𝜋 の解釈 • 𝐹𝜋 = 𝐷𝐾𝐿 𝑞 𝑠 𝜋 ∥ 𝑝 𝑠 𝜋 Complexity − 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜 𝑠, 𝜋 Accuracy • Complexityは事前信念と事後信念の間のKLダイバージェンスである. • 信念をより大きく修正する必要があるとき,Complexityは大きくなる. • より大きなcomplexityは観測のランダムな側面を説明するために信念を変更す る可能性がより高いことを意味する.しかし,ランダムさを説明するために信 念を変更するとモデルの将来の予測力を減少させる可能性がある(統計学にお けるoverfittingに似ている). • Accuracyは予測精度(すなわち,モデルの状態に関する信念を与えられた ときの観測の確率)を反映している. • ある状態が起こると思っていて予定通りの観測が得られれば低い値になる. • したがって,脳は予測誤差を最小化(accuracyの最大化)する一方必要以 上に信念を変更しない(complexityの最小化する)とき,脳はVFEを最小 化するだろう.
知覚とVFE • 能動推論の枠組みでは,知覚と学習の両方のタスクは新しい観測の後に(近似的 に)最適な事後信念を見つけるためにVFEを最小化することである. • 知覚は新しい観測のたびに事後状態推定を行うことに対応する. • 学習は多くの観測にわたってモデル中の事前分布と尤度分布をよりゆっくりと更新 することに対応する. • 感覚入力は本質的にノイズが多く,単純に各試行で最適な事後分布を求めると適合 するノイズが増え、オーバフィッティングする. • 幸いなことに、VFE最小化ではこの問題を自然に回避することができる. • VFEはモデルのcomplexityからそのモデルのaccuracyを差し引いたものを測定する. • Accuracyはモデルの信念が感覚入力をどれだけうまく予測できるかを意味する. • Complexityは、新しい感覚入力を受け取ったとき高い正確さを維持するために信念をどれ だけ変える必要があるかを意味している。 • 知覚は、感覚入力の原因に関する信念の変化のうち,その入力を適切に説明できる 必要最小限の変化を見出そうとする.
VFEのもう一つの式展開 𝑞 𝑠𝜋 • 𝐹𝜋 = 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜, 𝑠 𝜋 = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜, 𝑠 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 𝑝 𝑜 𝜋 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − ln 𝑝 𝑜 𝜋 − log 𝑝 𝑜 ∣ 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − 𝐸𝑞 𝑠∣𝜋 ln 𝑝 𝑜 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − σ𝑠 𝑞 𝑠 𝜋 ln 𝑝 𝑜 𝜋 • = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 o, 𝜋 − ln 𝑝 𝑜 𝜋 • この式はVFEは常に方策に関してsurprisal以上であることを示す. • VFEはsurprisalに対する上界である. 𝐹𝜋
VFEの解釈 • 機械学習では,ln 𝑝 𝑜 𝜋 をevidence,VFEにマイナスを掛けたもの 𝑝 𝑜, 𝑠 𝜋 − 𝐹𝜋 = 𝐸𝑞 𝑠∣𝜋 ln 𝑞 𝑠 𝜋 をevidence lower bound (ELBO)と呼ぶ. • ELBOを最大化することは機械学習においてよく用いられる最適化ア プローチである(Winn & Bishop, 2005). • VFEは予測誤差を混合したものと見なすこともできる. • Complexityは事後信念と事前信念の差の平均 • Accuracyは予測された結果と観測された結果の差 • つまりActive inferenceはこの2つの誤差に対応した予測誤差の最小化 として記述できる.
Active inferenceと行動 • Active inferenceは知覚の予測誤差を最小にすることだけを目的とした ものではなく,行動選択のモデルでもある. • 最適な行動を推論する場合,好ましい未来の観測をもたらすために行 動するため,現在の観測結果を単純に考慮することはできない. • つまり,最適な行動を推測するためには,モデルは可能な方策ごとに 未来に生じる一連の状態と観測を予測すべきである. • そして,モデルはそれらの異なる一連の未来の状態と観測に関連した 期待自由エネルギーEFEを計算しなければならない.
Active inferenceとpreferences • 意思決定のモデルとしては,EFEは一連の観測についてのpreferencesに関係して計算される必要が ある(つまり,どれだけ報酬があるか,もしくは罰があるか). • Active inferenceでは,モデルに観測に対するprior expectations 𝑝 𝑜 𝐶 を搭載することでこれを実 現する. 𝑝 𝑜 𝐶 はpreferencesの役割を果たす. • いくつかの論文では観測𝑜ではなく状態𝑠についてのpreferencesが使われる. • この場合,エージェントは,世界の真の状態のモデルと好ましい状態のモデル(それぞれprior)を持っ ていると考える. • 方策選択は,好ましい状態と一致するように真の状態を持ってくるによって,モデルの間のdivergence を最小にしようとするものである (詳細はDa Costa, Parr et al., 2020). • これがどのように機能するかの最初の直感的理解のために,2つの異なった一連の状態と観測に対応 した2つの可能な方策を考える.ここで一連の観測の一つは他方よりも好ましいとする. • ここで「好ましい」とは正式には「モデルによって期待される」と解釈するため,好ましい観測を生 成すると期待される方策はモデルの精度を最大にする(したがって,EFEを最小にする)方策になる だろう. • これは,各方策の確率が,ある方策のもとで期待される観測が,どれだけモデル精度を最大にするか (すなわち,好ましい観測に一致するか)に基づいて推論できることを意味する. • 好ましい観測が生物の表現型(phenotype)の決定的な暗黙の期待として扱われるとき(例えば,寒い ときに暖かさを求めたり,喉が渇いたときに水を求めるなど,好みの観測が生物の生存と一致する), これは「self-evidencing」(Hohwy、2016)とも表現される.
期待自由エネルギーEFE EFEはまだ起きていない結果について計算されるから,観測𝑜が確率変数 として𝐸𝑞 に入っている. ここでは𝑜は𝜋によらないとしている. 𝐸𝑞 𝑜, 𝑠 𝜋 → σ𝑜,𝑠 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 • EFEは次のように表現される. 𝑞 𝑠𝜋 • 𝐺𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑜, 𝑠 𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑜, 𝑠 𝜋 𝐸 𝑜, 𝑠 𝜋 → 𝑞 𝑠 𝑜, 𝜋 𝑞 𝑜 𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 − ln 𝑝 𝑜 𝜋 𝑝 𝑠 ∣ 𝑜, 𝜋 は総和を取ると1になるので消えた 𝑞 𝑜,𝑠 . • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 − 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑜 𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑝 𝑠 𝑜, 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝜋 • ≈ 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝜋 − ln 𝑞 𝑠 𝑜, 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 情報探索 真の事後分布 𝑝 𝑠 𝑜, 𝜋 を近似分布 𝑞 𝑠 𝑜, 𝜋 に置き換える. • = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 Epistemic value もしくはexpected Information gain 報酬探索 𝑝 𝑜 𝜋 の条件づけをpreferencesを表 す𝐶に置き換える. − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 Pragmatic value
Preferencesと方策 • 𝐺𝜋 = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 • 𝑝 𝑜 𝐶 は好みの(preferenced)観測を意味する. • 第2項によりエージェントは好みの観測を生み出すと予測される方策を 探す. エージェントのpreferencesはそれに従う方策に対し独立にすることができ, π の条件付けを削除することができる.能動推論に関するほとんどの論文では, prior preferencesは単に𝐸𝑞 𝑜 𝜋 ln p o と書かれているが,これをVFE内の ln p(o)の項(すなわち,oは観測変数)と明確に区別するために,ここではこ の項をCを明示的に条件付けして書く(Parr et al, 2022).
EFEの式の意味 • 𝐺𝜋 = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 Epistemic value − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 Pragmatic value • Epistemic value(認識価値)は期待される観測値を条件とした場合の状態 の期待される情報利得である(− ln 𝑞 𝑠 𝜋 − − ln 𝑞 𝑠 𝑜, 𝜋 ). • EFEを最小化するために,エージェントは事後信念ln 𝑞 𝑠 𝑜, 𝜋 と事前信 念ln 𝑞 𝑠 𝜋 の差を最大化する状態にするような方策を選ぶことにより Epistemic valueを最大化させなければならない. • 言い方を変えれば, エージェントは隠れ状態に関する不確実性を低減する観測 を探すようになる (Parr & Friston, 2017a). • 例えば,エージェントが暗い部屋にいた場合,隠れ状態と観測の間のマッピン グは完全に曖昧である.そのため,好ましい観測を探し出す前に電気をつけて 情報利得を最大化するように誘発される(電気をつける前に好ましい結果をも たらす方法が不明瞭であるため). • Pragmatic valueは,特定の観測に対するエージェントのpreferencesをス コア化したものである.
EFEの他の表現(先の𝑮𝝅 から求める) • 𝐺𝜋 = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑠 𝑜, 𝜋 − ln 𝑞 𝑠 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 𝑞 𝑜 𝑠, 𝜋 𝑞 𝑠 𝜋 • = −𝐸𝑞 𝑜, 𝑠 𝜋 ln − ln 𝑞 𝑠 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 𝑞 𝑜𝜋 • = −𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 + ln 𝑞 𝑠 𝜋 − ln 𝑞 𝑜 𝜋 − ln 𝑞 𝑠 𝜋 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 • = 𝐸𝑞 𝑜, 𝑠 𝜋 − ln 𝑞 𝑜 𝑠, 𝜋 + ln 𝑞 𝑜 𝜋 − 𝐸𝑞 𝑜 𝜋 ln 𝑝 𝑜 𝐶 • = 𝐸𝑞 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 • = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 − 𝐸𝑞 𝑜, s 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] −𝐸𝑞 𝑜, s 𝜋 ln 𝑞 𝑜 𝑠, 𝜋 = − 𝑞 𝑠 𝜋 𝑝 𝑜 𝑠 ln 𝑞 𝑜 𝑠, 𝜋 𝑠 𝑜 観測と状態の関係は方策に依存 しないので,𝜋を削除する. 𝑞を𝑝に置き換え. = − 𝑞(𝑠 ∣ 𝜋) 𝑝 𝑜 𝑠 ln 𝑝 𝑜 𝑠 = 𝐻[𝑝 𝑜 𝑠 ] 𝑠 𝑜 −
EFEの他の表現(元の𝑮𝝅 からもとめる) 𝑞 𝑠𝜋 • 𝐺𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑜, 𝑠 𝜋 𝑞 𝑠𝜋 = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑠 𝑜, 𝜋 𝑝 𝑜 𝜋 𝑞 𝑠𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑠 𝑜, 𝜋 − ln 𝑝 𝑜 ∣ 𝜋 • = 𝐸𝑞 𝑜, 𝑠 𝜋 𝑞 𝑠∣𝜋 𝑝 𝑜 𝜋 ln 𝑝 𝑜 𝑠 𝑝 𝑠 𝜋 𝑝 𝑜 𝑠 𝑝 𝑠 𝜋 𝑝 𝑜 𝜋 𝑝を𝑞に置き換える. − ln 𝑝 𝑜 ∣ 𝜋 𝑝 𝑜 𝜋 の条件づけをpreferences を表す𝐶に置き換える. 𝑞 𝑠∣𝜋 𝑞 𝑜 𝜋 • ≈ 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 − ln 𝑝 𝑜 ∣ 𝐶 • = 𝐸𝑞 𝑜, 𝑠 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 𝑝 𝑠 𝑜, 𝜋 = − 𝐸𝑞 𝑜, s 𝜋 ln 𝑝 𝑜 𝑠 • = σ𝑜,𝑠 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 − σ𝑜,𝑠 𝑝 𝑜 𝑠 𝑞 𝑠 𝜋 ln 𝑝 𝑜 𝑠 • = σ𝑜,𝑠 𝑞 𝑠 𝑜 𝑞 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 − σ𝑠 𝑞 𝑠 𝜋 σ𝑜 𝑝 𝑜 𝑠 ln 𝑝 𝑜 𝑠 • = σ𝑜 𝑞 𝑜 𝜋 ln 𝑞 𝑜 𝜋 − ln 𝑝 𝑜 𝐶 • = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + σ𝑠 𝑞 𝑠 𝜋 𝐻[𝑝 𝑜 𝑠 ] + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ]
EFEの式の意味 • 𝐺𝜋 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] Ristもしくはexpected complexity • 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 は方策により与えられた一連の観測の確率につ いての信念と好みの結果についての信念とのKLダイバージェンスであ る. • これは,しばしばrisk (expected complexity)と呼ばれる. • 直感的には,各選択肢で得られる報酬の確率についての信念と考えられる. • つまり,好みの結果とある方策で期待される結果との乖離が小さいほど,そ の方策を選択した場合に報われる結果を得る可能性が高い.
EFEの式の意味 • 𝐺𝜋 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 Ristもしくはexpected complexity + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] Ambiguity • 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] は尤度関数のエントロピーの期待値であある. • エントロピーは分布の分散の尺度であり,より平坦な(精度の低い)分布ほ どエントロピーが高くなる. • エントロピーが高い尤度𝑝 𝑜 𝑠 は,世界の可能な状態についての信念を与 えられたとき,結果(観測)についてあまり正確な予測ができないことを意 味する. • エントロピーは一般的に曖昧さの尺度と見なされている. • 曖昧さを最小化する方策は,最も正確な(すなわち、最も有益な)観測を生 み出すと予想される状態に居座ろうとする. • なぜなら,それらの観測は隠れた状態について他の状態よりも最も多くの evidenceを提供するだろうからである.
EFEの式の意味 • 𝐺𝜋 = 𝐷𝐾𝐿 𝑞 𝑜 𝜋 ∥ 𝑝 𝑜 𝐶 Ristもしくはexpected complexity + 𝐸𝑞(𝑠∣𝜋) 𝐻[𝑝 𝑜 𝑠 ] Ambiguity • EFEを最小化することで,報酬と情報利得の両方を最大化する方策を選択 することになる(Riskが減る=報酬を得る,Ambiguityが減る=情報を得 る). • 典型的には,モデルが望んだ結果を得る方法について確信を持つまで情報 を求め,その段階で報酬を求める行動を選択するだろう. • 重要なことは,ある結果のpreferencesが他より強い(より正確な)場合, それが情報の価値を下げる効果を持っており,情報探索行動の減少につな がる(preferencesが弱すぎたり不正確な場合はその逆)ことを上記のEFE は意味している。 • これはモデルがどのようにexploit dilemmaを解決するかに影響を与える. • Expoit dilemmaは,信念を信頼するための情報を十分に知っていて報酬を 求めて行動するかどうか,もしくは,最初により多くの情報を集めるため に行動するかという難しい判断をしなければならないことを意味する.
期待自由エネルギーまとめ • 行動選択と計画のタスクはVFEを最小化するような将来の観測をもた らすpolicyを選択することである. • 将来の結果は,まだ観測されていないので,期待自由エネルギー (EFE)を最小にするような行動を選択する. • EFEとは,期待コスト(値が小さいほど報酬が高い)から期待情報利得を 差し引いたものである. • つまり,EFEを最小化することは,報酬の最大化と不確実性の解消の両方 を目指すことになる. • 状態に関する信念が非常に不正確または不確実である場合,行動は情報探 索的になる傾向がある. • 逆に、状態に関する信念の信頼度が高い場合(つまり,好ましい結果をも たらすために何をすべきかについてエージェントが自信を持っている場 合),選択された行動は報酬追求型になる傾向がある.
期待自由エネルギーまとめ • 一方で,期待報酬が十分高ければ(preferences distributionが高い精度なら),EFE を最小化する行動はリスキーになる. • 十分な情報なしに報酬を求める(報酬価値が情報価値を上回る). • 一般的に,EFEを最小化するためにやるべきことは次のよく観測されることを特に 強力に説明する. • すぐに報酬を求めるのではなく,生物はまず情報を収集する.そして,世界の状態につい て確信した後で報酬を最大する. • これは, 生物が単純に好奇心から出た行動を示す様子,すなわち報酬を得る機会 が無いときに起こる興味深い行動と捉えることが出来る(Barto, Mirolli, & Baldassarre, 2013; Oudeyer & Kaplan, 2007; Schmidhuber, 2006). • EFE最小化中のpreferencesのばらつきは行動における興味深い個人差と捉えるこ とが出来る. • Active inferenceの重要な側面が,探索と利用のジレンマに効果的に対処できるこ とに注意したい. • なぜなら,探索(情報探索)と利用(報酬追求)は,まさに期待自由エネルギーの2つの 側面であり,ある状況下で探索的行動と利用的行動のどちらが好ましいかは,現在の不確 実性のレベルと期待される報酬のレベルによって決まるからである.
次はPOMDPsの解決方法につ いてまとめる