【ゼロから作るDeep Learning④】4.4~4.6

>100 Views

October 30, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度後期輪読会 #5 (10/30) ゼロから作る DeepLearning⑤ 4.4~4.6 動的計画法 大阪大学 基礎工学部 情報科学科 4回 緒方克哉 1 1

2.

自己紹介 • 所属 ○ 大阪大学 情報科学研究科 B4 ○ 中島研究室 • 興味分野,インターンとか ○ 動画解析 ○ LLM ○ エムニでインターン • 個人的な趣味とか おがた かつや 緒方 克哉 ○ 登山 ○ 旅行 ○ 開発 2

3.

アジェンダ ■ 方策反復法の実装 ■ 価値反復法の実装 ■ まとめ 3

4.

アジェンダ ■ 方策反復法の実装 ■ 価値反復法の実装 ■ まとめ 4

5.

復習 ベルマン方程式による定式化 • 状態価値関数と、行動状態価値関数 5

6.

動的計画法で評価・更新をする 状態の評価と方策の更新の定式化 • 現在の状態を評価する(DP用にベルマン方程式を更新式にする) • 評価結果を用いて方策を更新する(現在の方策πからμに更新する) 6

7.

方策反復法の全体像 方策が更新されなくなるまで評価・更新を繰り返す • 現在の状態を評価する • 現在の状態で取りうる最良の行動を選択するよ うに方策を更新する(greedy) • いつまで反復するのか?? ○ 方策が更新されなくなるまで ○ 方策は常に改善されていく ○ 方策が更新されないということは、その方策 が最善であるということ 見づらくてごめんなさい🙏 7

8.

環境の実装 (4.2.1) 8

9.

評価の実装 (4.2.3) 9

10.

更新の実装 10

11.

方策反復法の全体実装 11

12.

実行結果 方策が改善されていることを確認する(4回で最適方策を見つけている) 12

13.

アジェンダ ■ 方策反復法の実装 ■ 価値反復法の実装 ■ まとめ 13

14.

方策反復法 全ての状態の評価を行ってから方策の改善を行う 見づらくてごめんなさい🙏 14

15.

価値反復法 評価を行いながら方策の改善も行っていく 改善の方向さえあっ ていれば 収束先は同じ 状態の評価を 完全に行わず その時点でgreedy に改善する 見づらくてごめんなさい🙏 15

16.

価値反復法の定式化 評価と方策の改善を同時に行う • 評価と改善の式(評価の際、改善フェーズで決定的に行動が選択されることを考える) • 一度に評価と改善を行い、最後に最適方策を求める 16

17.

価値反復法の実装 評価を行いながら方策の改善も行っていく 17

18.

価値反復法の全体実装 評価を行いながら方策の改善も行っていく 18

19.

実行結果 方策が改善されていることを確認する(3回で最適価値関数を見つけている) 最後に価値関数 から方策を出す 19

20.

アジェンダ ■ 方策反復法の実装 ■ 価値反復法の実装 ■ まとめ 20

21.

まとめ • 動的計画法を用いることにより、最適な価値関数と方策を見つけることができる • 動的計画法により、最適方策を見つける手法は2種類ある ○ 方策反復法 ■ 評価と更新を反復し、方策が改善されなくなったら最適 ○ 価値反復法 ■ 1つの式(ベルマン最適方程式)を反復することで最適価値関数を見つける ● 評価と改善を同時に行う ■ 最適方策は最適価値関数から求めることができる 21

22.

QA • 方策反復法と価値反復法はどのように使い分けられてる? ○ 計算コストと安定性のトレードオフ ○ https://chatgpt.com/share/69032013-b9f8-800a-aaf6-23ff872623d0 • 価値反復法はなぜ状態の評価を完全に行わなくても最適価値関数に収束するのか ○ ベルマン最適方程式(ページ15)の更新ステップが最適解への収束を担保している ○ 最適化の方向性を担保してくれるイメージ ○ 参考記事 (方策評価に関する定理-ベルマン作用素の収束性の章) • 一般に、価値反復法の方が早く収束するか? ○ 一概には言えず、価値反復法は不安定で、多く反復するパターンもある ○ 一方で、方策反復法は状態を完全に評価したのちに改善を行うので、計算コストはかかるもの の、安定していることが多い 22