>100 Views
October 16, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度後期輪読会#1 (2025/10/16) ゼロから作るDeep Learning❹ 2.3-2.5 東京理科大学 創域理工学部 社会基盤工学科 B2 岩田冨雅 0
アジェンダ ◼ 2.3 MDPの目標 ◼ 2.4 MDPの例 ◼ 2.5 まとめ 1
アジェンダ ◼ 2.3 MDPの目標 ◼ ◼ 2
2.3 MDPの目標 最適方策を見つけることがMDPの目標 環境とエージェントの振る舞い(復習) 1.方策π(a|s)によってエージェントが行動 2.状態遷移確率𝑝(𝑠 ′ |𝑠, 𝑎)によって次の状態𝑠 ′ に遷移 3.報酬関数𝑟(𝑠, 𝑎, 𝑠 ′ )に従って報酬が与えられる ↑この枠組みの中で最適方策を見つけることがMDPの目標! 最適方策(optimal Policy)𝝅とは? ・エージェントが得る「収益」を最大化する方策を指す ・そのために、まずは「収益」を定義する必要がある 3
2.3.1 エピソードタスクと連続タスク MDPの問題は「終わり」があるかないかで2種類に分類される 1.エピソードタスク(Episodic Task) ・「終わり」のある問題 Ex) 囲碁・将棋・ゴールのある迷路 ・始まりから終わりまでの一連の試行を「エピソード」と呼ぶ 2.連続タスク(Continuing Task) ・明確な「終わり」がない問題 Ex)在庫管理・ロボットの姿勢制御 ・タスクが永遠に続くことを想定する 4
2.3.2 収益(Return) 収益は将来得られる報酬の総和 時刻𝒕以降に得られる報酬の和として、収益𝑮𝒕 を定義する 𝐺𝑡 = 𝑅𝑡 + 𝛾R t+1 + 𝛾 2 𝑅𝑡+2 + … = σ𝑘 𝛾 𝑘 𝑅𝑡+𝑘 𝑅𝑡 :時刻𝑡で得られる報酬 γ:割引率(Discount Rate) 割引率𝜸の役割(𝟎. 𝟎 < 𝜸≦ 1.0) 1.連続タスクで収益が無限大に発散するのを防ぐ 2.将来の報酬よりも直近の報酬を重視させる効果がある 5
2.3.3 状態価値関数(State-Value Function) ある状態の「良さ」を表す指標 エージェントや環境の振る舞いは「確率的」なため、収益𝐺𝑡 は試行ごとに変動する そのため、収益の期待値を指標として用いる 状態価値関数𝒗𝝅 𝒔 ・状態𝒔から方策𝝅に従って行動したときに得られる収益の期待値 𝑣π 𝑠 = 𝐸π [𝐺𝑡 |𝑆𝑡 = 𝑠] ・方策πに依存するため、 𝑣π 𝑠 のように表記する 6
2.3.4 最適方策と最適価値関数 全てにおいて最善の方策が「最適方策」 方策の比較 ・全ての状態𝑠において𝑣π′ 𝑠 ≧ 𝑣π 𝑠 が成り立つとき、 方策π′ は方策πよりも良い(または同等)といえる 最適方策𝝅∗ ・他のどの方策と比較しても、すべての状態において状態価値 関数の値が最も大きい方策 ・MDPでは、最適方策は少なくとも1つ存在し、 それが決定論的であることが知られている 最適状態価値関数𝒗∗ 𝒔 ・最適方策に従ったときの状態価値関数 𝑣∗ 𝑠 = max 𝑣π (𝑠) π 7
アジェンダ ◼ ◼ 2.4 MDPの例 ◼ 8
2.4 MDPの例:2マスのグリッドワールド 学んだ概念を簡単な例で確認 問題設定 行動:RightとLeftの2択 状態遷移:決定論的(選んだ方向に必ず移動) 報酬: L1→L2(リンゴGET):+1 壁に衝突:-1 L2→L1(リンゴ再出現):0 タスク:連続タスク(終わり無し) 割引率γ = 0.9とする。 9
2.4.1 バックアップ線図 状態、行動、報酬の遷移を可視化 決定論的な方策の例 一直線な遷移 確率的な方策の例 枝分かれ構造の遷移 10
2.4.2 最適方策を見つける ①候補の洗い出し 全パターンの決定論的方策をリストアップする 状態が2つ(L1, L2)、行動が2つ(Left, Right)なので、 決定論的な方策は22 = 4通り存在する。 この4つの中に最適方策が必ず存在する。 11
2.4.2 最適方策を見つける ②価値関数の計算 各方策の状態価値関数を計算し、比較する 1.方策 𝝁𝟏 : {L1: Right, L2: Right} 𝑣μ1 (𝐿1) の計算: 𝑣μ1 (𝐿2)の計算: L1でRight。報酬+1を受け取り、L2へ移動。 L2でRightを選択。報酬-1を受け取り、L2のまま。 L2でRight。報酬-1を受け取り、L2のまま。 以降、ずっとL2でRightを選択し続け、 以降、ずっとL2でRightを選択し続け、 報酬-1を受け取り続ける。 報酬-1を受け取り続ける。 数式: 数式: 𝑣μ1 𝐿1 = 1 + γ −1 + γ2 −1 + γ3 −1 + ⋯ 𝑣μ1 𝐿2 = −1 + γ −1 + γ2 −1 + … = − 1 + γ + γ2 + ⋯ 1 =− 1−γ 1 =− = −10 1 − 0.9 = 1 − γ 1 + γ + γ2 + … 1 =1 −γ 1−γ 1 = 1 − 0.9 = −8 1 − 0.9 12
2.4.2 最適方策を見つける ②価値関数の計算 各方策の状態価値関数を計算し、比較する 2.方策 𝝁𝟐 : {L1: Right, L2: Left} 𝑣μ2 (𝐿1)の計算: 𝑣μ2 (𝐿2)の計算: L1でRightを選択。報酬+1を受け取り、L2へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。 L1でRightを選択。報酬+1を受け取り、L2へ移動。 L1でRightを選択。報酬+1を受け取り、L2へ移動。 L2でLeftを選択。報酬0を受け取り、L1へ移動。 以降、+1, 0, +1, 0, … のサイクルを繰り返す。 以降、0, +1, 0, +1, … のサイクルを繰り返す。 数式: 数式: 𝑣μ2 𝐿1 = 1 + γ2 + γ4 … 1 = 1 − γ2 1 = = 5.26 2 1 − 0.9 𝑣μ2 𝐿2 = γ + γ3 + γ5 + … γ = 1 − γ2 = 0.9 1−0.92 = 4.74 13
2.4.2 最適方策を見つける ③最適方策の決定 全ての状態において価値が最大となる方策を選ぶ 各方策の状態価値関数をグラフで比較 方策μ2 が全ての状態(L1, L2)において 他のどの方策よりも 状態価値関数の値が大きい 最適方策はμ2 (L1でRight, L2でLeft)である。 14
アジェンダ ◼ ◼ ◼ 2.5 まとめ 15
2.5 まとめ MDPの定式化: エージェントと環境の相互作用を、状態遷移確率・報酬関数・方策によって数式で表現する枠組み MDPのゴール: 最適方策を見つけること。 最適方策…全ての状態において状態価値関数(収益の期待値)が最大となる方策 最適方策の求め方(今回): 単純な問題設定では全ての方策の価値関数を直接計算することで最適方策を見つけられた より複雑な問題では、この方法は現実的でない →次章以降で汎用的な手法を学んでいく 16