【ゼロから作るDeep Learning④】1.1~1.3

116 Views

October 09, 25

#バンデッィト問題

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度後期輪読会ゼロから作るDeep Learning④ バンディット問題 1.1~1.3 京都大学理学部 B2 塩谷航大 0

アジェンダ ◼ 機械学習の分類 • 教師あり学習/教師なし学習 • 強化学習 ◼ バンディット問題 • 問題設定 • アルゴリズム 1

機械学習とは機械学習はデータに潜むルール/パターンをコンピューターが自ら見つける行い • ルール/パターンをデータから見出す問題を解くには？例：住宅の特徴と価格の間の関係，似た特性を持つ顧客のグループ化 • 1つの解法：人間が熟考する • 大域的な全探索，複雑なデータには立ち向かえない • もう1つの解法：機械学習 • コンピューターが定まったルールに基づいた手続きを繰り返す • ローカル情報の再帰的利用各地点の情報のみから全体の情報(例えば最小値)がわかる！ 2

機械学習の種類強化学習はほかの機械学習と比べて異質である • 機械学習の手法は問題の種類に応じて複数ある • 教師あり学習入力データと出力データの関係パターンを見つける＝入力から出力をする(例：住宅価格の予測) • 教師なし学習あるデータにひそむ構造/パターンを見つける(例：消費者の購買行動のパターン，偏り) • 強化学習は問題の枠組みが違うー環境における行動の最適化 1. 仮想的な行動主体(＝エージェント)が環境のデータ(=行動と報酬の組)を集め 2. そのデータから環境の構造/ルールを見つける戦略の修正，行動エージェント環境報酬フィードバック 3

機械学習の具体例―バンディット問題より多くコインを得られるスロットの回し方を見つける • 正式には「多腕バンディット問題」 • バンディット：スロットマシンの別名 • 多腕：当たりやすさの異なる複数のスロットマシンがある • 最初プレーヤーはどのマシンが当たりやすいかを知らない →プレイしてみて，その結果を見ながら最も良い回し方を探る設定？設定？設定？設定？ 4

バンディット問題―スロットマシンの定式化：期待値スロットマシンの価値＝コインの期待値 • 各スロットは決まったランダム性＝確率分布を持つスロットa:爆発型スロットb:安定型払い出し 0枚 1枚 5枚 10枚払い出し 0枚 1枚 5枚 10枚確率 0.68 0.15 0.12 0.03 確率 0.50 0.40 0.09 0.01 • 分布同士をどう比較したらいい？→期待値マシンAを選んだ時の，𝑅𝑡 = (t回目のプレイで得たコイン)の期待値： 𝐸 𝑅𝑡 𝐴 上の2つについて計算すると 𝐸 𝑅 𝑎 = 1.05, 𝐸 𝑅 b = 0.95 →よってaの方が優れている 5

バンディット問題―期待値の推定方法標本平均を利用する • プレーヤーは各マシンの期待値を知らないー実際にプレイしながら探る • 実際に得られたコインの平均値＝標本平均はプレイ回数無限大で真の期待値に一致 →標本平均で期待値を推定する • 標本平均は試行回数が増えるにつれ更新が鈍くなる 𝑅𝑛 − 𝑄𝑛−1 𝑄𝑛 − 𝑄𝑛−1 = 𝑛 • 最初は推定が荒く，徐々に精度が上がっていく • 学習率が試行回数に反比例して下がっていくともいえる 6

バンディット問題―取るべき戦略データの活用と新たなデータの探索の併用 • 最も単純な戦略ーgreedyな行動 • これまでの試行で得られた推定値が最もよかった行動を必ず選ぶ • 問題点：荒い推定では真に最善な行動を見逃してしまう • 例えばa, bのマシンを1回ずつプレイしてコインが(0, 1)枚だったら →bのマシンが“よい”ことになってしまう 1. 最善と思われる行動をする＝活用 2. 色々な行動を試して推定の精度を上げる＝探索の両方が必要 →強化学習は結局いかに2つのバランスをとるかの問題 • 基本的なアルゴリズム：ε-greedy法 • ε(例えばε=0.1)の確率で探索を行い，1-εで活用を行う 7