15分で適格度トレースまで辿りつく強化学習

314 Views

November 20, 25

スライド概要

10月の Legalscape Night で使った LT スライドを改題したものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

分で適格度トレースまで 辿りつく強化学習 15 2025-10-14 Legalscape ソリューションバリューチーム 中山大地

2.

勉強会 の『強化学習 第 2 版』 社内で 5 月末から 4 ヶ月ほど開催、全 13 回を完走 5 人のエンジニアで持ち回り 週 1 回、1 時間で 1 章数十ページを概説する 詳しくはテックブログまで ↓ Sutton, Barto 2 / 25

3.

強化学習について 3 / 25

4.

強化学習とは Reinforcement Learning (RL) 「エージェントが環境と相互作用して報酬を最大化する」 ことが目的の機械学習 不完全情報マルコフ決定過程における制御/予測 探索や学習を旨とする人工知能研究の一潮流 4 / 25

5.

他の機械学習と何が違うの 教師あり学習: 相互作用のある問題系ではパターンが膨大 であり代表的事例を得られない 教師なし学習: 事例に頼らない点は同じだが、RL は構造探 索のみならず報酬信号を最大化する 5 / 25

6.

強化学習の特徴 探索と活用のトレードオフ (exploration vs. exploitation) 効率的行動をとりたい 効率的かは未知の行動を試さないと分からない 確率的タスクの報酬の期待値は反復が必要 6 / 25

7.

構成要素 方策: 関数やテーブルで各行動の確率を割当てる 報酬: 状態と行動から確率的に与えられる量 価値関数: 状態がもつ長期的望ましさ。価値評価こそ強化 学習の中心 環境モデル: 環境の振る舞いを模倣し予測するもの 7 / 25

8.

マルコフ決定過程による定式化 状態: state, 行動: action, 報酬: reward, 状態遷移: state transition, エージェントが行動することで次状態が決まり、軌道 が生成される → 状態 における行動 の価値 または状態 の 価値 を学習する 8 / 25

9.

方策と価値関数 方策 : 状態 で行動 をとる確率 価値関数 状態価値関数 : 方策 に従うときの状態 の価値 行動価値関数 動 をとる価値 : 方策 に従うときの状態 で行 9 / 25

10.

収益とエピソード 期待収益 エピソード 一連の状態・行動・報酬の列 終端状態という特別の状態で終了、その後通常の開始状 態からサンプリングすることで再度開始 10 / 25

11.

1 ステップ Temporal Difference (TD) 法 更新式: TD 誤差: 既存の推定値よりも新しい推定値の方が良いはず。期待値 をとるとベルマン作用素の右辺になるから 11 / 25

12.

ベルマン作用素 価値関数をベルマン方程式で更新する操作 1 回やると誤差が 倍に減る の時、ベルマン作用素を繰り返し適用すると最終 的な精度が上がる 12 / 25

13.

2 ステップ TD より も が良いなら、 にすると良いはず これをたくさん繰り返してみると? 13 / 25

14.

ステップ TD 法 ステップ収益 最終的に更新式は 14 / 25

15.

ステップ TD 法の特徴 誤差減少特性 ベルマン作用素を 回適用するので、誤差が 倍に減少 する 学習不安定性 期待値は正確だが が大きいと分散が大きくなる ちょうどいい を選ぶ必要がある 15 / 25

16.

法 (Generalized Advantage Estimation, GAE) ステップ TD ですべての の平均をとる TD( ) トレース減衰パラメータ : どれほど長期のステ ップを考慮するかを表すハイパーパラメータ すべての が終わらないと更新できないのが欠点 → 各時点で更新できるようにしたい 16 / 25

17.

後方観測 TD( )法の準備 1 ステップ TD 誤差と ステップ TD 誤差から公式 1 1 ステップ TD 誤差と TD( )誤差と公式 1 から公式 2 17 / 25

18.

後方観測 TD( ) TD( ) の更新式と公式 2 より すなわち を任意の時刻 の前と後に分解でき 各時点で TD 誤差が出るので上式の 1 項めを計算して更新できる 18 / 25

19.

適格度トレースの導入 時刻 で計算できる誤差 状態 の eligibility trace: 19 / 25

20.

適格度トレースの意味 状態 に直近どれだけ訪問したかを表す 報酬がいい感じに増えたら、過去にその状態を通った時 刻の状態価値関数もプラス評価する その状態を通った時刻が遠いほど貢献度は小さくなる のときは、割引と減衰だけが行われる 漸化式的に過去の を使えるので計算が軽い 20 / 25

21.

方策勾配法 で更新するとき、 良い行動をとる確率を上げ、悪い行動をとる確率を下げる か否か、エピソード長が有限か否かで証明と実装 が少し異なることに注意 , を使い を計算する TRPO, PPO, GRPO などの手法も方策勾配法の一種 21 / 25

22.

おまけ: LLM と強化学習 A Survey of Reinforcement Learning for Large Reasoning Models (Zhang et al., 2025, arXiv:2509.08827) LLM (RL) による推論のための強化学習 のサーベイ RLHF によるアライメントを経て、 検証可能な報酬による強化学習 (RL with verifiable rewards, RLVR) は複雑な論理的タスク解決を可能にし、 LLM を大規模推論モデル(LRM)へと効果的に変換する基盤的な方法論 として台頭 RLVR: 自動検証して報酬を与える。Math/coding に強い 課題: 計算資源、アルゴリズム設計、訓練データ、インフラ、RL/SFT の 関係、報酬の粒度を工夫してスケールする PFN の PLaMo の事後学習チームも RLVR に注目しているらしい 22 / 25

23.

まとめ 強化学習は探索と学習を旨とする人工知能研究の一潮流 焦点は価値評価であり、TD 法は中心的な手法 ステップ TD 法はベルマン作用素を 回適用することで 誤差を減らすが学習が不安定になる TD( ) 法はすべての の平均をとりトレードオフを改善 後方観測 TD( ) 法は各時点でリアルタイムに更新できる 適格度トレースによって後方観測の計算が軽くなる 方策勾配法は方策を直接パラメトリックに表現し、勾配 上昇法で最適化する手法 LLM の推論能力が RLVR で伸びつつある 23 / 25

24.

References 「強化学習の探検」 AIcia Solid https://www.youtube.com/playlist? list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR 『強化学習 第 2 版』(森北出版, 2022) 森村哲郎『強化学習』(講談社, 2019) Sutton, Barto Zhang et al., “A Survey of Reinforcement Learning for Large Reasoning Models”, arXiv:2509.08827, 2025 24 / 25

25.

25 / 25