【ゼロから作るDeep Learning④】3.1~3.3

>100 Views

October 23, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度後期輪読会 #3(2025/10/23) ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン方程式 京都大学 情報学研究科 福岡 M1 亮典 0

2.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 1

3.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 2

4.

ベルマン方程式とは「状態価値」を表す方程式 「状態価値」= 方策に従った際に得られる収益の期待値 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 3

5.

ベルマン方程式とは「状態価値」を表す方程式 状態s株式会社勤務 行動a職 t年入社 方策π君 方策π君の生涯年収(収益)の期待値→「状態価値」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 4

6.

ベルマン方程式とは「状態価値」を表す方程式 転職 状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 5

7.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 6

8.

ベルマン方程式の導出 収益Gtの定義より tにt+1を代入すると 収益GtはGt+1を用いて以下のように表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 7

9.

ベルマン方程式の導出 状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 8

10.

ベルマン方程式の導出 状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 9

11.

ベルマン方程式の導出 は、以下のようにも表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 10

12.

ベルマン方程式の導出 は、以下のようにも表現できる 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 11

13.

ベルマン方程式の導出 まとめると、状態sの価値関数は状態s‘の価値関数を⽤いて表現できる 状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 12

14.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 13

15.

ベルマン方程式の例 次の条件のもとで、各状態 L1, L2 における状態価値 を求めよ。 •環境は2マス(左︓L1、右︓L2)のグリッドワールド。 •エージェントは各ステップで左または右に50%の確率で移動する。 •壁にぶつかると報酬 −1 を受ける。 •右端(L2)にはリンゴがあり、そこに到達すると報酬 +1 を得る。 •リンゴは何度でも出現する。 •割引率を γとする。 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 14

16.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 15

17.

行動価値関数とベルマン方程式 状態価値関数(収益の期待値)は次のように定義される これに⾏動aという条件を追加すると、 これが⾏動価値関数(Q関数) 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 16

18.

行動価値関数とベルマン方程式 ⾏動価値関数(Q関数)のベルマン⽅程式 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 17