【ゼロから作るDeep Learning④】3.1~3.3

>100 Views

October 23, 25

#ベルマン方程式 #強化学習 #状態価値関数 #行動価値関数 #Deep Learning

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.3K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.4K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度後期輪読会 #3（2025/10/23）ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン方程式京都大学情報学研究科福岡 M1 亮典 0

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 1

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 2

ベルマン方程式とは「状態価値」を表す方程式「状態価値」＝方策に従った際に得られる収益の期待値参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 3

ベルマン方程式とは「状態価値」を表す方程式状態s株式会社勤務行動a職 t年入社方策π君方策π君の生涯年収(収益)の期待値→「状態価値」参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 4

ベルマン方程式とは「状態価値」を表す方程式転職状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 5

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 6

ベルマン方程式の導出収益Gtの定義より tにt+1を代入すると収益GtはGt+1を用いて以下のように表現できる参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 7

ベルマン方程式の導出状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 8

10.

ベルマン方程式の導出状態価値関数(収益の期待値)は次のように定義される (3.3)より、Gtを削除すると参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 9

11.

ベルマン方程式の導出は、以下のようにも表現できる参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 10

12.

ベルマン方程式の導出は、以下のようにも表現できる参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 11

13.

ベルマン方程式の導出まとめると、状態sの価値関数は状態s‘の価値関数を⽤いて表現できる状態Sから状態Sʻに変化した時の「状態価値」の関係式が「ベルマン方程式」参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 12

14.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 13

15.

ベルマン方程式の例次の条件のもとで、各状態 L1, L2 における状態価値を求めよ。 •環境は2マス（左︓L1、右︓L2）のグリッドワールド。 •エージェントは各ステップで左または右に50%の確率で移動する。 •壁にぶつかると報酬 −1 を受ける。 •右端（L2）にはリンゴがあり、そこに到達すると報酬 +1 を得る。 •リンゴは何度でも出現する。 •割引率を γとする。参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 14

16.

アジェンダ n ベルマン方程式とは n ベルマン方程式の導出 n ベルマン方程式の例 n 行動価値関数とベルマン方程式 15

17.

行動価値関数とベルマン方程式状態価値関数(収益の期待値)は次のように定義されるこれに⾏動aという条件を追加すると、これが⾏動価値関数(Q関数) 参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 16

18.

行動価値関数とベルマン方程式⾏動価値関数(Q関数)のベルマン⽅程式参考:ゼロから作るDeep Learning❹ 3.1-3.3 ベルマン⽅程式 17

19.