【ゼロから作るDeep Learning④】2.1~2.2

>100 Views

October 16, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度後期輪読会 #2(2025/10/16) ゼロから作るDeep Learning❹ 2.1-2.2 マルコフ決定過程 京大理学部 B2 ALAWIK Abdourrahman 0

2.

アジェンダ ◼ MDP とは ◼ 環境とエージェントの定式化 1

3.

アジェンダ ◼ MDP とは ◼ 環境とエージェントの定式化 2

4.

問題の定式化 バンディット問題では、エージェントの行動によって環境が変わるわけではなく、毎回最善の行 動を取ったほうが報酬が最大になる しかし現実上、エージェントの行動によって環境が変わる問題が多く、報酬の最大にする戦略は 途中で最善でない行動を取る必要がある 例:囲碁 3

5.

MDP とは MDP: Markov Decision Process = マルコフ決定過程 ➢ マルコフ性:次の行動は現在の状態だけで決まる ➢ 本当はエージェントではなく、環境の制約として考える ➢ 決定過程:エージェントが環境と相互しながら行動を決定する 4

6.

具体例 (1次元)グリッドワールド:エージェントはグリッド上を右もしくは左へ一歩ずつ進む ➢ 取り得る行動は2つだけ グリッドの各点上、報酬が置いてあり、最終的にその総和を最大にする行動を取りたい エージェントが進むたびに、環境が変わり、次の行動で得る報酬が変わる 右:0 左:0 右:0 左:+1 右:-2 左:0 〇 × 5

7.

さらにややこしい具体例 報酬の総和を最大にするため、将来の行動も考える必要がある 最善でない行動を途中でとる必要があるかもしれない 6

8.

エージェントと環境のやりとり エージェントと環境はより取りを行い合う ➢ エージェントは現在の状態を基に行動を決める ➢ エージェントの行動は環境を変える(状態遷移) ➢ 環境はエージェントに報酬を与える ➢ エージェントは報酬を最大にする方策に基づいて行動を決める 7

9.

アジェンダ ◼ MDP とは ◼ 環境とエージェントの定式化 8

10.

環境とエージェントの定式化 次の要素を数式で表現することで MDP が定式化できる: 1. 状態遷移:エージェントの行動に応じて、環境はどのように変わるのか? 2. 報酬:エージェントの行動に応じて、環境からどのような報酬がもらえるのか? 3. 方策:エージェントはどのように行動を決めるのか? 9

11.

状態遷移 決定論的な状態遷移:次の状態 s’ は現在の状態 s と行動 a の関数として一意に決まる ➢ 状態遷移関数:𝑠’ = 𝑓(𝑠, 𝑎) ➢ 例:左に進むという行動を取ると、100% の確率で左へと進む 確率的な状態遷移:次の状態 s’ は現在の状態 s と行動 a に基づいて確率的に決まる ➢ 例:左に進むという行動を行ったとしても、10% の確率で床が滑ってしまい状態が遷移しない 特に確率が過去の情報によらない(つまり s と a だけで決まる)時、マルコフ性を持つという ➢ 状態遷移確率 : 𝑝(𝑠’|𝑠, 𝑎) 1.0 (𝑠 ′ = 𝑓(𝑠, 𝑎)) ➢ 決定論的状態遷移でも 𝑝 𝑠 𝑠, 𝑎 = ቊ として確率的に表せる 0.0 (𝑠′ ≠ 𝑓(𝑠, 𝑎)) ′ 決定論的状態遷移 確率的状態遷移 10

12.

報酬関数 本書では決定論的な報酬のみを考える ➢ 報酬関数 𝑟 𝑠, 𝑎, 𝑠 ′ ➢ 今回の問題では、報酬は s’ のみに依存するので、 𝑟 𝑠 ′ とも書ける 注:確率的な報酬の場合、𝑟 𝑠, 𝑎, 𝑠 ′ を各 𝑠, 𝑎, 𝑠 ′ にての報酬の期待値として定めて決定論的だと みなしても、本書の事実が成立 11

13.

エージェントの方策 エージェントは現在の状態だけに基づいて行動を決めても良い ➢ 環境(状態遷移、報酬)がマルコフ性を持つからである 決定論的:次の行動 a は現在の状態 s の関数として決まる ➢ 𝑎=𝜇 𝑠 確率的:次の行動 a は現在の状態 s に基づいて確率的に決まる ➢ 𝜋(𝑎|𝑠) 1.0 (𝑎 = 𝜇(𝑠)) ➢ 決定論的状態遷移でも π 𝑎 𝑠 = ቊ として確率的に表せる 0.0 (𝑎 ≠ 𝜇(𝑠)) 12