【ゼロから作るDeep Learning④】8.3~8.5

>100 Views

December 11, 25

#DQN #強化学習 #Atari #Double DQN #深層学習

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.2K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.5K

各ページのテキスト

2025年度後期輪読会#9 （2025/12/11）ゼロから作るDeep Learning❹ 8.3-8.5 DQN 京都大学工学部理工化学科B2 岡本和優 0

アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 1

アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 2

DQNとAtari DQNを用いてAtariのゲームをプレイさせる • DQNの提案論文はAtariのゲームを強化学習でプレイさせたもの • ただしPongのようなゲームはMDP（マルコフ決定過程）を満たさない（1枚の画像だけではボールの進行方向がわからない） • このような問題はPOMDP（部分観測マルコフ決定過程） • テレビゲームの場合は複数フレームの画像を重ねあわせることで、POMDPはMDPに変換できる 3

Atariをプレイさせるための工夫画像を扱うためにCNNが導入されている • CNN ゲーム画面の画像を扱うために使用 • GPUの使用画像データはデータサイズが大きいため必要 • εの調整初期の段階では探索の割合を増やす • 報酬クリッピング報酬が-1.0から1.0の間になるように調整（ただしPongの場合は不要） 4

アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 5

Double DQN メインのネットワークとターゲットネットワークをうまく使い分けメインのネットワークとターゲットネットワークで表現されるQ関数をそれぞれ𝑄𝜃 , 𝑄𝜃′ としたとき、通常DQNのQ関数の更新で用いるターゲットは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) 𝑎 だが、Doble DQNでは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡 , argmaxa 𝑄𝜃 (𝑆𝑡+1 , 𝑎)) 𝑎 を用いて、行動の選択と評価を分離させている。これによってQ関数の過大評価を解消することができる ※過大評価とは？推定中のQ関数を使う場合は誤差が含まれるので、 max 𝑄 (𝑠, 𝑎) の期待値は真の値より大 𝑎 きくなる。行動の選択と評価を分けることで、誤差が含まれていても、過大評価される確率は小さくなる（行動でも過大評価されて、評価でも過大評価されることは少ないから） 6

優先度付き経験再生学ぶべきことが大きい経験データを優先的に選択する通常のDQNではランダムに経験データを用いて使用するが、優先度に応じて選ぶこともできる。自然に考えると、ターゲットと更新するQ関数の差分の絶対値を用いて、 𝛿𝑡 = 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) − 𝑄𝜃 (𝑆𝑡 , 𝐴𝑡 ) 𝑎 を基準として優先度を決めることができる。ターゲットとの差分が大きいほど、学ぶべきことが多いデータだと言えるからだ。バッファに保存する際に𝛿𝑡 を計算しておいて、取り出す際には 𝛿𝑖 𝑝𝑖 = 𝑁 σ𝑘=0 𝛿𝑘 にしたがって経験データを選び出せばよい 7

Dueling DQN アドバンテージ関数を導入することで、すべての行動を試さなくてもよくなったアドバンテージ関数 𝐴(𝑠, 𝑎)をQ関数と価値関数の差分として定義し、ネットワークにA (𝑠, 𝑎)と価値関数𝑉(𝑠)を学習させ、そこから𝑄(𝑠, 𝑎)を求めるようにする。これによりどんな行動をしても結果が変わらない状況に対して、他の行動を試さなくても𝑄(𝑠, 𝑎) の近似性能を上げることができる 8

10.

アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 9

11.

まとめポイントは経験再生とターゲットネットワーク。DQNはいまだに重要な手法の1つ DQNでキーとなる技術は以下の2つ • 経験再生経験データを繰り返し使うための仕組み。サンプル感の相関性も減らせる • ターゲットネットワーク TDターゲットを別のネットワークから計算することで、ニューラルネットワークの学習対象であるTDターゲットを固定することができる DQNを発展させた手法としては以下の3つが挙げられる • Double DQN：メインのネットワークとターゲットネットワークで行動の選択と評価を分離 • 優先度付き経験再生：学ぶべきことが多いデータを優先的に選択する • Dueling DQN：アドバンテージ関数と価値関数を学習し、そこからQ関数を算出 10