3.9K Views
February 05, 25
スライド概要
近年の AI は対戦ゲームで人間に勝ったり、数学オリンピック問題を解くなど、単なる人間の写鏡にとどまらず人間を超えた性能を持つようになってきました。その鍵は人間が生み出したデータに学ぶだけではなく、それにプラスして自律的に探索する能力を与えたことです。主に強化学習と呼ばれるその技術は、従来は学習時間も長く扱いづらい技術とされてきました。しかし ChatGPT をはじめとして様々な技術に登用される時代になりました。これらは加速度的な大規模モデルのデータサイズの進化に対して、高品質の人間の学習データすらも枯渇してきたことと関係しており、そこで強化学習の自律的な探索が超々大規模な学習データ量のカバーや人間を超えるために必要になってきています。強化学習によって最先端 AI が Over Human となる時代において、ビジネス分野ではどう強化学習を活用すべきなのか。DeNA というゲームやレコメンド、パーソナライズにて強化学習の事業化に挑戦してきた立場から強化学習の基礎から事業応用のノウハウについてお話ししたいと思います。
◆ チャンネル登録はこちら↓
https://www.youtube.com/c/denatech?sub_confirmation=1
◆ X(旧Twitter)
https://x.com/DeNAxAI_NEWS
◆ DeNA AI
https://dena.ai/
◆ DeNA Engineer Blog
https://engineering.dena.com/blog/
◆ DeNA × AI Day ‖ DeNA TechCon 2025 公式サイト
https://techcon2025.dena.dev/
DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。
⾃律型 AI が⽣み出す未来 株式会社ディー‧エヌ‧エー ソリューション本部データ統括部AI技術開発部ゲームエンタメグループ 甲野 佑 1 © DeNA Co., Ltd.
この資料でわかること ⾃律型 AI ≒ 強化学習の近年の変化と将来性 2 © DeNA Co., Ltd.
⾃⼰紹介 甲野 佑 2017 年⼊社以来 強化学習業務に従事 ゲームに関する AI の開発マネジメントなど 強化学習で博⼠号取得 東京電機⼤学にて講師を副業 多数の学⽣と共同研究 3 © DeNA Co., Ltd.
このスライドでの⾃律型 AI とは ⾃ら⾏動を意思決定 主体的にデータを獲得 / ⽣成 試⾏錯誤 新規データ ⾚ん坊から⾃律的に成⻑できる ≒ 強化学習のこと 4 © DeNA Co., Ltd.
⾃律型 AI の強み LLM に代表される超巨⼤モデルは超々膨⼤データを⾷い潰す 良質な⽂章は限られている 学習に使える⼀定品質以上のデータが枯渇(不⾜) ゆえに⾃らデータ⽣成して学習する前提は⼤きな強み 5 © DeNA Co., Ltd.
近年の AI 超強⼒なマルチモーダル統合モデル 意味空間 ⽂章 / 数式 動画像(視覚) ⾳声(聴覚) ⾁⾷ ‧ 草⾷ 猫 犬 猿 牛 その他 センサー情報 他の科学 / 産業分野での活⽤ 化合物設計 回路設計 ⼩型‧⼤型 ⼀部の AI 巨⼤テックの API をインフラとして ⽔道代のように利⽤料を⽀払う時代になった 6 © DeNA Co., Ltd.
[閑話] 機械学習 AI にも 2 種類 ■ 巨⼤⽣成モデル 超々々膨⼤なデータから究極的な知識集約モデルをつくって 必要な情報をプロンプトで切り出す ■ 従来型ドメイン特化モデル 個別に収集された⼤量データで学習 7 © DeNA Co., Ltd.
巨⼤⽣成モデル 超々々巨⼤なモデルから⼩さな答えを切り出す 命令 ● ● ● ● 8 主に命令情報(プロンプト)で制御 再学習不要(コスト的に困難) / 精々軽微な修正 各々の組織が作り出すのでは困難 ⼀部の企業の LLM を API から使⽤ = 使⽤料⾦がかかる © DeNA Co., Ltd.
従来型ドメイン特化モデル ⼩さな問題を ⼩さな AI で識別 ● 各々の組織が独⾃でデータを収集してドメイン特化 ● データ次第だがドメインに対する精度は⾼い ○ 汎⽤的な⾔語処理以外 ● 更新も各々の企業が担う 9 © DeNA Co., Ltd.
■ 巨⼤⽣成モデル ↑ こっちが⽬⽴つ時代 命 令 ■ 従来型ドメイン特化モデル このような時代において⾃律型 AI ≒ 強化学習が どのような役割を担うのか? 10 © DeNA Co., Ltd.
そもそも強化学習とは 実環境 or 環境 シミュレータ データ⽣成 データ収集 蓄積データ 模倣 試⾏錯誤 新規データ 誤差 教師あり学習 AI 強化学習 AI データの主体的な探索 / ⽣成を前提とする万能性を持つ 11 © DeNA Co., Ltd.
皆さんこんなイメージなのでは? → なんかすごそう 囲碁 AI : AlphaGo / LLM のアライメント(調整) → 勝⼿に成⻑する AI らしい AI 映画や⼩説などフィクションを実現しそう 12 © DeNA Co., Ltd.
⼀⽅で触れたことある⼈のイメージは...? → 学習が遅い / 安定しない → 思ったより汎⽤性がない → プロジェクト全体として⾼コスト ⼀般企業では実⽤化困難...? 13 © DeNA Co., Ltd.
最新の強化学習は少し事情が変わっています 14 © DeNA Co., Ltd.
強化学習の変化:データ利⽤ ■ Model Base 脳内シミュレータをデータから 作って反復学習 15 ■ オフライン強化学習 ⼤量データから強化学習 主体的探索とハイブリッド可能 © DeNA Co., Ltd.
強化学習の変化:⽣成モデルとの融合 ■ ⽣成データを利⽤した学習データの量増し ⽣成 学習 ■ ⽣成モデルで複雑な⾏動分布も再現可能に 16 © DeNA Co., Ltd.
強化学習の変化:新たな役割 【従来】ゼロから環境適応(そこはそう変わらない) ↓ 【最新】質を問わない⼤規模データで学習した平均的な応答から 専⾨家と同等以上への進化を促す 17 © DeNA Co., Ltd.
強化学習の変化:安全性とのバランシング 主に LLM 上ではあるが... ■ Safe RL:安全性 / 制御性を向上させる取り組みが増えた 逆に⾔えば実⽤レベルになってきた証左 18 © DeNA Co., Ltd.
代表例:強化学習による LLM アライメント ⽟⽯混交の⽂章データ 1. ⼈間の平均を学習(意味や⾃然⾔語ルール) ↓ 教師あり学習 2. 主体的な⼈間の好嫌データ収集 ↓ ⼈間の好みを 強化学習 ⽣成 ⽂章 A 19 3. 好嫌を元に調整 ⽣成 ⽂章 B ↓ 準専⾨家へと成⻑ © DeNA Co., Ltd.
強化学習の本質 観測 介入 ≒ 教師あり学習 ≒ 強化学習 鶏の鳴き声が太陽を召喚する(間違った仮説)は 鶏の⼝を塞ぐ介⼊で “⼿軽に” 否定可能 20 © DeNA Co., Ltd.
強化学習の未来 オフライン強化学習 Model Base データから たたき台作成 予測に不⾜なデータを 主体的に獲得してズレを修正 オンライン =介⼊ 強化学習 脳内シミュレータによる学習 実環境での試⾏錯誤を最⼩化 役割は変わるが寧ろ強化学習の⽐重は増えていく 21 © DeNA Co., Ltd.
強化学習の有望性はわかった では我々のすべきことは? 22 © DeNA Co., Ltd.
【⼤前提】 “画像” や “⾔語” と異なり 強化学習には汎⽤モデルは存在しない もし⽣まれたら = 汎⽤⼈⼯知能 (AGI) の誕⽣ それは例外として語ります 23 © DeNA Co., Ltd.
強化学習の現在 ■ 巨⼤⽣成モデル 命 令 ■ 従来型ドメイン特化モデル ↑ 強化学習は本質的にこちら LLM アライメントも強化学習側から⾒ると後者 LLM を進化させるのに特化したアルゴリズム 24 © DeNA Co., Ltd.
強化学習は本質的にドメイン特化 ■ ⼊⼒の多様性:テーブルデータ?画像?⾔語?⾳声? → マルチモーダル統合モデルで解決する可能性 ■ 出⼒の多様性:ゲーム?ロボット?レコメンド? → ロボットの駆動系だとしても⾝体性が異なるので無理 今すぐに完全な共通基盤化はほぼ不可能 25 © DeNA Co., Ltd.
強化学習の実⽤性向上 ■ データ利⽤の⾼速な強化学習:オフライン強化学習とハイブリッド ■ 安全性:Safe RL 実⽤化のハードルは下がってきている まだまだブルーオーシャン 実⽤化を進めて強化学習を成⻑させるフェイズ 参⼊チャンスがまだある 26 © DeNA Co., Ltd.
LLM 以外の強化学習応⽤先 ■ レコメンド ■ ゲーム AI パーソナライズ コンテンツ創出 KPI の直接⾃動向上 バランス調整 ■ ⼯業ロボット 少数データから オフライン強化学習 27 © DeNA Co., Ltd.
DeNA での強化学習の成果 CEDEC 2022 の時点で “逆転オセロニア” で⼈間⽔準の強さを実現 数千体のキャラクターの使い⽅を理解しないと出来ない 他にも成果はあるが公表はまだまだ先... 28 © DeNA Co., Ltd.
強化学習の応⽤における注意点 ■ ⼊⼒情報の選定 画像から学習すると⼤変 / ある程度作り込み必須 データサイエンスのセンスが問われる ■ 更新性の考慮 パイプライン化が難しいので⼿動更新を楽に 追加学習をしやすい設計 ⼊出⼒のベクトルの伸⻑への頑健性考慮 ゼロからの万能な学習にこだわる必要はない 29 © DeNA Co., Ltd.
分野発展は両輪 ■ 基礎研究 AI 技術を発展させる原動⼒ ■ 産業応⽤ 新しい課題の発⾒ → 基礎研究へ 良い応⽤例が出ることで研究 / 開発者も増える 30 © DeNA Co., Ltd.
AI は蛇⼝ (API) をひねって使う時代 だからこそ次の未来を予想し戦略を考える必要 強化学習は絶対必要な技術 業界全体を両輪で活性化し 要素技術の開拓が重要 31 © DeNA Co., Ltd.
まとめ ■ 最新〜未来の強化学習は... ハイブリッド化 / 平均からエキスパートへの進化に役割が変化 “介⼊” 的な主体的かつ補完的データ採取として残り続ける ■ 応⽤観点では... コモディティ化に巻き込まれにくいブルーオーシャン インパクトが望めるなら,やる価値は⼗分にある 32 © DeNA Co., Ltd.
個⼈的宣伝 ■ 巨⼤⽣成モデル ↑ 強化学習版のこちらを研究 命 令 ■ 従来型ドメイン特化モデル ↑ 強化学習は本質的にこちら 東京電機⼤学 内部観測研究室で鋭意研究中 共同研究などお待ちしてます! 33 © DeNA Co., Ltd.
近い未来の AI 文章 / 数式 人間レベル汎用 AI 長期な記憶 (RAG 等) 連鎖的推論 (STaR 等) 動画像(視覚) 現 実 環 境 意味空間 音声(聴覚) マッサージ 子守 その他センサー (身体感覚等) アクション (身体制御) 料理 食事 入浴 掃除 洗濯 ゴミ捨 主体的⾏動の⽣成も含めた究極的マルチモーダル 34 © DeNA Co., Ltd.