>100 Views
October 09, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2025年度後期輪読会 ゼロから作るDeep Learning④ バンディット問題 1.1~1.3 京都大学 理学部 B2 塩谷航大 0
アジェンダ ◼ 機械学習の分類 • 教師あり学習/教師なし学習 • 強化学習 ◼ バンディット問題 • 問題設定 • アルゴリズム 1
機械学習とは 機械学習はデータに潜むルール/パターンをコンピューターが自ら見つける行い • ルール/パターンをデータから見出す問題を解くには? 例:住宅の特徴と価格の間の関係,似た特性を持つ顧客のグループ化 • 1つの解法:人間が熟考する • 大域的な全探索,複雑なデータには立ち向かえない • もう1つの解法:機械学習 • コンピューターが定まったルールに基づいた手続きを繰り返す • ローカル情報の再帰的利用 各地点の情報のみから 全体の情報(例えば最小値)がわかる! 2
機械学習の種類 強化学習はほかの機械学習と比べて異質である • 機械学習の手法は問題の種類に応じて複数ある • 教師あり学習 入力データと出力データの関係パターンを見つける=入力から出力をする(例:住宅価格の予測) • 教師なし学習 あるデータにひそむ構造/パターンを見つける(例:消費者の購買行動のパターン,偏り) • 強化学習は問題の枠組みが違うー環境における行動の最適化 1. 仮想的な行動主体(=エージェント)が環境のデータ(=行動と報酬の組)を集め 2. そのデータから環境の構造/ルールを見つける 戦略の修正,行動 エージェント 環境 報酬フィードバック 3
機械学習の具体例―バンディット問題 より多くコインを得られるスロットの回し方を見つける • 正式には「多腕バンディット問題」 • バンディット:スロットマシンの別名 • 多腕:当たりやすさの異なる複数のスロットマシンがある • 最初プレーヤーはどのマシンが当たりやすいかを知らない →プレイしてみて,その結果を見ながら最も良い回し方を探る 設定? 設定? 設定? 設定? 4
バンディット問題―スロットマシンの定式化:期待値 スロットマシンの価値=コインの期待値 • 各スロットは決まったランダム性=確率分布を持つ スロットa:爆発型 スロットb:安定型 払い出し 0枚 1枚 5枚 10枚 払い出し 0枚 1枚 5枚 10枚 確率 0.68 0.15 0.12 0.03 確率 0.50 0.40 0.09 0.01 • 分布同士をどう比較したらいい?→期待値 マシンAを選んだ時の,𝑅𝑡 = (t回目のプレイで得たコイン)の期待値: 𝐸 𝑅𝑡 𝐴 上の2つについて計算すると 𝐸 𝑅 𝑎 = 1.05, 𝐸 𝑅 b = 0.95 →よってaの方が優れている 5
バンディット問題―期待値の推定方法 標本平均を利用する • プレーヤーは各マシンの期待値を知らないー実際にプレイしながら探る • 実際に得られたコインの平均値=標本平均はプレイ回数無限大で真の期待値に一致 →標本平均で期待値を推定する • 標本平均は試行回数が増えるにつれ更新が鈍くなる 𝑅𝑛 − 𝑄𝑛−1 𝑄𝑛 − 𝑄𝑛−1 = 𝑛 • 最初は推定が荒く,徐々に精度が上がっていく • 学習率が試行回数に反比例して下がっていくともいえる 6
バンディット問題―取るべき戦略 データの活用と新たなデータの探索の併用 • 最も単純な戦略ーgreedyな行動 • これまでの試行で得られた推定値が最もよかった行動を必ず選ぶ • 問題点:荒い推定では真に最善な行動を見逃してしまう • 例えばa, bのマシンを1回ずつプレイしてコインが(0, 1)枚だったら →bのマシンが“よい”ことになってしまう 1. 最善と思われる行動をする=活用 2. 色々な行動を試して推定の精度を上げる=探索 の両方が必要 →強化学習は結局いかに2つのバランスをとるかの問題 • 基本的なアルゴリズム:ε-greedy法 • ε(例えばε=0.1)の確率で探索を行い,1-εで活用を行う 7