>100 Views
October 23, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度後期輪読会 #3(2025/10/23) ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン方程式 京都大学 情報学研究科 福岡 M1 亮典 0
アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 1
アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 2
ベルマン方程式とは「状態価値」を表す方程式 「状態価値」= 方策に従った際に得られる収益の期待値 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 3
ベルマン方程式とは「状態価値」を表す方程式 状態s株式会社勤務 行動a職 t年入社 方策π君 方策π君の生涯年収(収益)の期待値→「状態価値」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 4
ベルマン方程式とは「状態価値」を表す方程式 転職 状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 5
アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 6
ベルマン方程式の導出 収益Gtの定義より tにt+1を代入すると 収益GtはGt+1を用いて以下のように表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 7
ベルマン方程式の導出 状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 8
ベルマン方程式の導出 状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 9
ベルマン方程式の導出 は、以下のようにも表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 10
ベルマン方程式の導出 は、以下のようにも表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 11
ベルマン方程式の導出 まとめると、状態sの価値関数は状態s‘の価値関数を⽤いて表現できる 状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 12
アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 13
ベルマン方程式の例 次の条件のもとで、各状態 L1, L2 における状態価値 を求めよ。 •環境は2マス(左︓L1、右︓L2)のグリッドワールド。 •エージェントは各ステップで左または右に50%の確率で移動する。 •壁にぶつかると報酬 −1 を受ける。 •右端(L2)にはリンゴがあり、そこに到達すると報酬 +1 を得る。 •リンゴは何度でも出現する。 •割引率を γとする。 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 14
アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 15
行動価値関数とベルマン方程式 状態価値関数(収益の期待値)は次のように定義される これに⾏動aという条件を追加すると、 これが⾏動価値関数(Q関数) 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 16
行動価値関数とベルマン方程式 ⾏動価値関数(Q関数)のベルマン⽅程式 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 17
18