>100 Views
December 11, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度後期輪読会#9 (2025/12/11) ゼロから作るDeep Learning❹ 8.3-8.5 DQN 京都大学工学部理工化学科B2 岡本和優 0
アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 1
アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 2
DQNとAtari DQNを用いてAtariのゲームをプレイさせる • DQNの提案論文はAtariのゲームを 強化学習でプレイさせたもの • ただしPongのようなゲームはMDP(マルコフ決定過程) を満たさない (1枚の画像だけではボールの進行方向がわからない) • このような問題はPOMDP(部分観測マルコフ決定過程) • テレビゲームの場合は複数フレームの画像を 重ねあわせることで、POMDPはMDPに変換できる 3
Atariをプレイさせるための工夫 画像を扱うためにCNNが導入されている • CNN ゲーム画面の画像を扱うために使用 • GPUの使用 画像データはデータサイズが大きいため必要 • εの調整 初期の段階では探索の割合を増やす • 報酬クリッピング 報酬が-1.0から1.0の間になるように調整 (ただしPongの場合は不要) 4
アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 5
Double DQN メインのネットワークとターゲットネットワークをうまく使い分け メインのネットワークとターゲットネットワークで表現されるQ関数をそれぞれ𝑄𝜃 , 𝑄𝜃′ としたとき、通常DQNのQ関数の更新で用いるターゲットは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) 𝑎 だが、Doble DQNでは 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡 , argmaxa 𝑄𝜃 (𝑆𝑡+1 , 𝑎)) 𝑎 を用いて、行動の選択と評価を分離させている。 これによってQ関数の過大評価を解消することができる ※過大評価とは? 推定中のQ関数を使う場合は誤差が含まれるので、 max 𝑄 (𝑠, 𝑎) の期待値は真の値より大 𝑎 きくなる。行動の選択と評価を分けることで、誤差が含まれていても、過大評価される確 率は小さくなる(行動でも過大評価されて、評価でも過大評価されることは少ないから) 6
優先度付き経験再生 学ぶべきことが大きい経験データを優先的に選択する 通常のDQNではランダムに経験データを用いて使用するが、優先度に応じて選ぶこともできる。 自然に考えると、ターゲットと更新するQ関数の差分の絶対値を用いて、 𝛿𝑡 = 𝑅𝑡 + 𝛾 max 𝑄𝜃′ (𝑆𝑡+1 , 𝑎) − 𝑄𝜃 (𝑆𝑡 , 𝐴𝑡 ) 𝑎 を基準として優先度を決めることができる。ターゲットとの差分が大きいほど、学ぶべきことが 多いデータだと言えるからだ。 バッファに保存する際に𝛿𝑡 を計算しておいて、取り出す際には 𝛿𝑖 𝑝𝑖 = 𝑁 σ𝑘=0 𝛿𝑘 にしたがって経験データを選び出せばよい 7
Dueling DQN アドバンテージ関数を導入することで、すべての行動を試さなくてもよくなった アドバンテージ関数 𝐴(𝑠, 𝑎)をQ関数と価値関数の差分として定義し、 ネットワークにA (𝑠, 𝑎)と価値関数𝑉(𝑠)を学習させ、そこから𝑄(𝑠, 𝑎)を求めるようにする。 これによりどんな行動をしても結果が変わらない状況に対して、他の行動を試さなくても𝑄(𝑠, 𝑎) の近似性能を上げることができる 8
アジェンダ ◼ 8.3 DQNとAtari ◼ 8.4 DQNの拡張 ◼ 8.5 まとめ 9
まとめ ポイントは経験再生とターゲットネットワーク。DQNはいまだに重要な手法の1つ DQNでキーとなる技術は以下の2つ • 経験再生 経験データを繰り返し使うための仕組み。サンプル感の相関性も減らせる • ターゲットネットワーク TDターゲットを別のネットワークから計算することで、 ニューラルネットワークの学習対象であるTDターゲットを固定することができる DQNを発展させた手法としては以下の3つが挙げられる • Double DQN:メインのネットワークとターゲットネットワークで行動の選択と評価を分離 • 優先度付き経験再生:学ぶべきことが多いデータを優先的に選択する • Dueling DQN:アドバンテージ関数と価値関数を学習し、そこからQ関数を算出 10