【ゼロから作るDeep Learning④】2.3~2.5

>100 Views

October 16, 25

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.8K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.8K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 20.7K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度後期輪読会＃１ (2025/10/16) ゼロから作るDeep Learning❹ 2.3-2.5 東京理科大学創域理工学部社会基盤工学科 B2 岩田冨雅 0

アジェンダ ◼ 2.3 MDPの目標 ◼ 2.4 MDPの例 ◼ 2.5 まとめ 1

アジェンダ ◼ 2.3 MDPの目標 ◼ ◼ 2

2.3 MDPの目標最適方策を見つけることがMDPの目標環境とエージェントの振る舞い（復習）１．方策π(a|s)によってエージェントが行動２．状態遷移確率𝑝(𝑠 ′ |𝑠, 𝑎)によって次の状態𝑠 ′ に遷移３．報酬関数𝑟(𝑠, 𝑎, 𝑠 ′ )に従って報酬が与えられる ↑この枠組みの中で最適方策を見つけることがMDPの目標！最適方策（optimal Policy）𝝅とは？・エージェントが得る「収益」を最大化する方策を指す・そのために、まずは「収益」を定義する必要がある 3

2.3.1 エピソードタスクと連続タスク MDPの問題は「終わり」があるかないかで2種類に分類される１．エピソードタスク（Episodic Task）・「終わり」のある問題 Ex) 囲碁・将棋・ゴールのある迷路・始まりから終わりまでの一連の試行を「エピソード」と呼ぶ２．連続タスク（Continuing Task）・明確な「終わり」がない問題 Ex）在庫管理・ロボットの姿勢制御・タスクが永遠に続くことを想定する 4

2.3.2 収益(Return) 収益は将来得られる報酬の総和時刻𝒕以降に得られる報酬の和として、収益𝑮𝒕 を定義する 𝐺𝑡 = 𝑅𝑡 + 𝛾R t+1 + 𝛾 2 𝑅𝑡+2 + … = σ𝑘 𝛾 𝑘 𝑅𝑡+𝑘 𝑅𝑡 ：時刻𝑡で得られる報酬 γ：割引率（Discount Rate）割引率𝜸の役割（𝟎. 𝟎 ＜ 𝜸≦ 1.0）１．連続タスクで収益が無限大に発散するのを防ぐ２．将来の報酬よりも直近の報酬を重視させる効果がある 5

2.3.3 状態価値関数(State-Value Function) ある状態の「良さ」を表す指標エージェントや環境の振る舞いは「確率的」なため、収益𝐺𝑡 は試行ごとに変動するそのため、収益の期待値を指標として用いる状態価値関数𝒗𝝅 𝒔 ・状態𝒔から方策𝝅に従って行動したときに得られる収益の期待値 𝑣π 𝑠 = 𝐸π [𝐺𝑡 |𝑆𝑡 = 𝑠] ・方策πに依存するため、 𝑣π 𝑠 のように表記する 6

2.3.4 最適方策と最適価値関数全てにおいて最善の方策が「最適方策」方策の比較・全ての状態𝑠において𝑣π′ 𝑠 ≧ 𝑣π 𝑠 が成り立つとき、方策π′ は方策πよりも良い（または同等）といえる最適方策𝝅∗ ・他のどの方策と比較しても、すべての状態において状態価値関数の値が最も大きい方策・MDPでは、最適方策は少なくとも１つ存在し、それが決定論的であることが知られている最適状態価値関数𝒗∗ 𝒔 ・最適方策に従ったときの状態価値関数 𝑣∗ 𝑠 = max 𝑣π (𝑠) π 7

アジェンダ ◼ ◼ 2.4 MDPの例 ◼ 8

10.

2.4 MDPの例：2マスのグリッドワールド学んだ概念を簡単な例で確認問題設定行動：RightとLeftの2択状態遷移：決定論的（選んだ方向に必ず移動）報酬： L1→L2（リンゴGET）：+1 壁に衝突：-1 L2→L1（リンゴ再出現）：0 タスク：連続タスク（終わり無し）割引率γ = 0.9とする。 9

11.

2.4.1 バックアップ線図状態、行動、報酬の遷移を可視化決定論的な方策の例一直線な遷移確率的な方策の例枝分かれ構造の遷移 10

12.

2.4.2 最適方策を見つける ①候補の洗い出し全パターンの決定論的方策をリストアップする状態が２つ（L1, L2）、行動が２つ（Left, Right）なので、決定論的な方策は22 = 4通り存在する。この４つの中に最適方策が必ず存在する。 11

13.

2.4.2 最適方策を見つける ②価値関数の計算各方策の状態価値関数を計算し、比較する 1.方策 𝝁𝟏 : {L1: Right, L2: Right} 𝑣μ1 (𝐿1) の計算: 𝑣μ1 (𝐿2)の計算: L1でRight。報酬+1を受け取り、L2へ移動。 L2でRightを選択。報酬-1を受け取り、L2のまま。 L2でRight。報酬-1を受け取り、L2のまま。以降、ずっとL2でRightを選択し続け、以降、ずっとL2でRightを選択し続け、報酬-1を受け取り続ける。報酬-1を受け取り続ける。数式: 数式: 𝑣μ1 𝐿1 = 1 + γ −1 + γ2 −1 + γ3 −1 + ⋯ 𝑣μ1 𝐿2 = −1 + γ −1 + γ2 −1 + … = − 1 + γ + γ2 + ⋯ 1 =− 1−γ 1 =− = −10 1 − 0.9 = 1 − γ 1 + γ + γ2 + … 1 =1 −γ 1−γ 1 = 1 − 0.9 = −8 1 − 0.9 12

14.

2.4.2 最適方策を見つける ②価値関数の計算各方策の状態価値関数を計算し、比較する 2.方策 𝝁𝟐 : {L1: Right, L2: Left} 𝑣μ2 (𝐿1)の計算: 𝑣μ2 (𝐿2)の計算: L1でRightを選択。報酬+1を受け取り、L2へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。 L1でRightを選択。報酬+1を受け取り、L2へ移動。 L1でRightを選択。報酬+1を受け取り、L2へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。以降、+1, 0, +1, 0, … のサイクルを繰り返す。以降、0, +1, 0, +1, … のサイクルを繰り返す。数式: 数式: 𝑣μ2 𝐿1 = 1 + γ2 + γ4 … 1 = 1 − γ2 1 = = 5.26 2 1 − 0.9 𝑣μ2 𝐿2 = γ + γ3 + γ5 + … γ = 1 − γ2 = 0.9 1−0.92 = 4.74 13

15.

2.4.2 最適方策を見つける ③最適方策の決定全ての状態において価値が最大となる方策を選ぶ各方策の状態価値関数をグラフで比較方策μ2 が全ての状態(L1, L2)において他のどの方策よりも状態価値関数の値が大きい最適方策はμ2 (L1でRight, L2でLeft)である。 14

16.

アジェンダ ◼ ◼ ◼ 2.5 まとめ 15

17.

2.5 まとめ MDPの定式化：エージェントと環境の相互作用を、状態遷移確率・報酬関数・方策によって数式で表現する枠組み MDPのゴール：最適方策を見つけること。最適方策…全ての状態において状態価値関数(収益の期待値)が最大となる方策最適方策の求め方(今回)：単純な問題設定では全ての方策の価値関数を直接計算することで最適方策を見つけられたより複雑な問題では、この方法は現実的でない →次章以降で汎用的な手法を学んでいく 16