[DL輪読会]マルチエージェント強化学習と?の理論 ?Hanabiゲームにおけるベイズ推論を?いたマルチエージェント強化学習?法?

1.

マルチエージェント強化学習と⼼の理論 DEEP LEARNING JP 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント [DL Papers] 強化学習⼿法〜 9/17 今井翔太えるエル@ImAI̲Eruel Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報 2 マルチエージェント強化学習で「⼼の理論」と関連する（と主張する）研究の⼀部を紹介 1. The Hanabi Challenge: A New Frontier for AI Research - 著者：Nolan Bard, , Jakob N. Foerster et al. - arXiv:1902.00506 2. Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning - 著者：Jakob N. Foerster, H. Francis Song et al. - ICML2019 3. Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning - 著者：Hengyuan Hu, Jakob N Foerster - ICLR2020 Shota Imai | The University of Tokyo

3.

今⽇の発表について 3 n 「⼼の理論」という若⼲⼼理学・⼈⼀般の知能論っぽいタイトルがついていますが、今回の発表で紹介する論⽂はベイズ推論でゴリゴリ計算する内容 n 時間の都合上、全ての話題を⼊れる余地がないので、メインの３論⽂以外は概要に触れる程度 n 数式はきれいに書く時間がなかったので、論⽂中の式の他、発表中に限り論⽂の著者の講演スライドのものを⼀部借りています（あとで訂正します） - 出典：https://www.youtube.com/watch?v=9qPhrEYIRF4&t=1988s n ベンチマークのゲーム含め、聴き慣れない概念が多数登場しますが、「こんな話題があるのか」くらいに思ってもらえれば発表者本⼈はベイズ弱者です Shota Imai | The University of Tokyo

4.

マルチエージェント強化学習（MARL; Multi-Agent Reinforcement Learning） n マルチエージェント分野の研究分野全体はマルチエージェントシステム（MAS）とよばれる n MASの中でもエージェントの「学習（機械学習）」に興味があるものはマルチエージェント学習と呼ばれる分野 n マルチエージェント強化学習はマルチエージェント学習の中でもエージェントの学習アルゴリズムとして強化学習を使っている⼿法 n 端的に⾔うと、環境中に学習するエージェントが複数いる環境における強化学習 - 囲碁や将棋などのボードゲームもMARLの⼀部 - 最近の例ではStarCraftのAlphaStarが有名 - なお、エージェントして⼈間を含んでも良い Shota Imai | The University of Tokyo 4

5.

注意 / MARLに特有の概念（CTDE; Centralized Learning Distributed Execution 中央集権型学習分散型実⾏） n 現在のMARLの最重要概念（だが、今回の発表の本質ではない） n 後ほど、「学習中はお互いの⽅策は既知」、「２種類の⾏動のうち⼀つを他のエージェントに送信」など、普通の設定では⾮現実的な概念が出てくるが、MARLではこのCTDE の仮定を置いて許容している n 中央集権型学習：学習時のみ，勾配を計算する時に全体のエージェントの情報を含む環境の「中央の状態」を使う n 分散型実⾏：テスト時には，各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を実⾏ n COMA[Foerster+ 2017]以降，特に⽤いられるアプローチで， “in many cases, learning can take place in a simulator or a laboratory in which extra state information is available and agents can communicate freely”（Foerster+ 2016）つまり，「マルチエージェントの学習は，研究的な環境でシミュレータ等を使えるため，学習を促進するために追加の状態の情報を使ってもよい」という仮定によるアプローチ n 当然，本来エージェントが動作するテスト環境は，基本的に各エージェントが個別の観測だけを受け取って強調しているため，状態の追加情報は使えない Shota Imai | The University of Tokyo 5

6.

マルチエージェント強化学習の課題 n 学習時の⾮定常性 - ⾃分以外のエージェントも⽅策を学習するので、普通に⽅策を更新しても最適⽅策への収束が⾒込めない（他のエージェントの学習によって環境の挙動が変化） n 不完全情報性 - ⾃分以外のエージェントに関して⾒えない情報が多く、エージェントが利⽤できる観測だけでは学習の情報が不⾜ →学習時 or テスト時の推論で、⾃分以外のエージェントの意図を読むことができれば、この辺の問題を軽減できる Shota Imai | The University of Tokyo 6

7.

他のエージェントの意図を「読む」⼿法の研究 n 他者モデリング（Opponent Modeling） - 学習時の⾮定常性を解決するために使⽤されるのが主 - ⾃分以外のエージェントの⽅策をモデリングし、それを⾃分のモデルの⼊⼒とすることで、⾮定常性を緩和 n ⼼の理論（Theory of Mind） - 不完全情報ゲームなどで、推論時に相⼿がどのような意図を持っているか推定 Shota Imai | The University of Tokyo 7

8.

⼼の理論 8 n 1978年霊⻑類学者David Premackが「チンパンジーは⼼の理論を持つか」という論⽂で提唱した概念で、⾃分以外の他者の意図を適切に推測する能⼒ - ⾼度な知能を持ち、集団⽣活をするチンパンジーは他の仲間の⼼の状態を推測できるかもしれないと考え、他者の⽬的、意図などが適切に推測できれば「⼼の理論を持つ」とした - 「理論」という表現は、⼼の状態は直接⾒る（魔法!）ことができず、何らかの基礎的な法則、経験則から物理法則のように推論に基づいて構成されることから n 1983年のWimmer&Pernerは誤信念課題（後述）を⽤いて、⼈間の⼦供が、4~7歳にかけて⼼の理論を持つようになることを⽰した n 最近、機械学習、特に複数エージェントが存在するマルチエージェント強化学習の分野でこの概念と絡めた研究が複数発表されている Shota Imai | The University of Tokyo

9.

誤信念課題 9 n 通称「サリーとアン課題」と呼ばれる、被験者に以下の展開を⾒せる 1. サリーがカゴにボールを⼊れる 2. サリーが部屋を去る 3. アンがサリーがいない間にカゴから箱の中にボールを移動させる 4. アンが帰ってくる被験者に対し「このときアンはボールがどこにあると思っているか」を問う n アンが「カゴの中にボールがある」という誤った信念を持っていることを、被験者⾃⾝の知識と切り離して、アンの⼼を推論して答える必要がある n 4歳〜7歳にかけて正答率が向上出典：https://en.wikipedia.org/wiki/File:Sally-Anne_test.jpg Shota Imai | The University of Tokyo

10.

機械学習の世界における⼼の理論 n 定義は完全に混沌としている n 強化学習のみならず、⾃然⾔語処理、画像認識など様々な場⾯で⼿法を「⼼の理論」と関連づけた例が多数 n マルチエージェント強化学習だけで⾒ても、⾮常に多様な⼿法に分類可能 n ⾃分以外のエージェントに関する、 - ⽅策次の⾏動以前の⾏動の意味 RNN、LSTMなどの内部状態相⼿の信念不完全情報で隠されている特徴を推論し、他のエージェントとの協調・競争に役⽴てる⼿法で、学習時のみに興味がある→Opponent Modeling テスト時にも興味あり→Theory of Mind n かなり適当に⼈間の知能と結び付けて、論⽂の貢献のアピールに使われているっぽい例があるので、知能論と関連づけて考えすぎるのはNG Shota Imai | The University of Tokyo 10

11.

余談 /「⼼の理論」を安易に使って燃えた例 Shota Imai | The University of Tokyo 11

12.

⼼の理論を適⽤する場合の問題点（⼈間の思考例） n お互いに「相⼿の意図を読む」機能があることが既知だとした場合、無限に再起的な読み合いが発⽣する n 普通の場合（アリスだけが読む能⼒を持ち、ボブにはできないことを知っている） - ボブ「（Aという⾏動をしよう）」 - アリス「（ボブはAという⾏動をするだろうからそれに強いBをしよう）」 n お互いに相⼿の⾏動を予測できる場合 - ボブ「（アリスは僕がAをすると思っているだろうからBを選ぶだろう。だからそれに強いCをしよう」 - ボブ「いやだけど、アリスは僕がこんなことを考えているのも読んでいるだろうからCに強い Dをしてくるかもしれない。Dに強いEをしよう」 - ボブ「それすらもアリスは読んでいるかもしれないから、Eを読んでFをしてくるかもしれない。やっぱりFに強いGで・・・」 - 以後、相⼿の推論能⼒の仮定をどこかでストップさせない限り、無限に続く（アリス側の思考も同じ） Shota Imai | The University of Tokyo 12

13.

⼼の理論を適⽤する場合の問題点（MARL） n シングルエージェントでPOMDPを扱う場合、LSTMやRNNをナイーブに適⽤し、環境に対する信念を獲得すれば、部分的な観測から⼤体正しい⾏動が可能 n MARLの場合、他のエージェントの⽅策モデルのパラメータ（これは既知という仮定も多い）、相⼿のRNNやLSTMの内部状態、さらに「相⼿が⾃分に対して推論している何らかの機構」のモデルも信念として持つ必要がある →再起的な推論が発⽣し、計算不可能 ※MARLにおいてどの程度の読みが有効か実験的に⽰している例も Shota Imai | The University of Tokyo 13

14.

参考/レベルK理論 14 n 相⼿が何段階読むかを、レベル0（まったく読まない）、レベル1(⼀⼿先を読む)などというKレベルで表現し、どれくらいの合理性を持った相⼿なのか予測する n 予測した相⼿のレベルに応じて⾏動を実⾏する - レベル0（相⼿が何も読まない）なら、⼀⼿先を読めば勝てる - レベル1（相⼿も⼀⼿先を読む）なら、２⼿先を読めば勝てる n ここでの相⼿に対するKの値はあくまでも推測であり、現実的には相⼿の合理性を完璧には評価できないが、ゲームのトッププレイヤーや理系の⼈間などは⼀般的に⾼い（例）数当てゲーム - 複数の被験者に、1~100のどれかの数字を書かせ、全員の書いた数字の平均の2/3に最も近い数字を書いたものが勝利というゲームをさせる - 簡単に推論すると、全員がランダムに数字を選ぶとして平均50。その2/3の33周辺がよさそう - ここで、推論のレベルを⼀つあげると「他のみんなも同じことを考えて33と書いてきそうだから、平均は33近くなる。その2/3の22がよさそう」となる - 以降、推論のレベルをあげるたびに数値は⼩さくなり、全員が合理的なプレイヤーという予測では、0になるまでレベルが上がる - 実験的には、ほとんどのプレイヤーがレベル1で、⾃分はレベル2の推論で⼗分なことが多い Shota Imai | The University of Tokyo

15.

Hanabi MARLにおける⼼の理論系研究の主要ベンチマーク n 2〜5⼈の協⼒ゲーム n RLで頻繁にベンチマークとなる主要なボードゲームなどと異なり、ゲーム⽊探索による必勝法やナッシュ均衡など、ゲーム情報学的な解を持たない n 相⼿の意図によって、理想的な⾏動が異なる＆理想的な⾏動ではなく、メッセージ的な⾏動をも要求されるなど、相⼿の意図をモデリングして積極的に利⽤する必要 n ⼼の理論系（相⼿の⾏動を読んで⾃分の⽅策のinputとして使う等）の主要ベンチマーク Shota Imai | The University of Tokyo 15

16.

Hanabiのルール 1/2 16 n 各プレイヤーは⼿札として、４枚（プレイヤー数が2 or 3名の場合は5枚）のカードを持つ n 各カードは⾚緑⻘⽩の5⾊と1~5の数字の組み合わせ（例：⾚の5など）で分類され、全 50枚、各⾊10枚のカードがある（各⾊について1は3枚、2, 3, 4は2枚、5は1枚） n プレイヤーは⾃分の⼿番に、⾃分の⼿札を場に出す（プレイ）、⼿札を捨てる、他のプレイヤーにヒントを与える、のいずれかの⾏動を選択 n ゲームの最終⽬的は、各⾊について1から順番に場に出して5まで揃えること（各⾊について５枚揃うことを”花⽕を打ち上げる”と表現） n ⾃分の⼿札は⾒えないが、他のプレイヤーの⼿札は全て⾒えるプレイヤー0（P0）視点のHanabi Shota Imai | The University of Tokyo

17.

Hanabiのルール 2/2 17 n 他のプレイヤーに与えるヒントは、ある個⼈プレイヤーに対し、「そのプレイヤーが持つ同じ数字のカードを全て教える（⾊は教えてはいけない）」、「そのプレイヤーが持つ同じ⾊のカードを全て教える（数は教えてはいけない）」のどちらかで、⼀部だけ教える等は不可能 - 例：P2に対して「1枚⽬と3枚⽬は⾚⾊」 n ヒントを与えるとトークンを１つ消費するが、カードを捨てる⾏動を選択するとトークンが１つ回復する（MAXは8つ） - 捨てられたカードは全プレイヤーが⾒れるようになる - カードを捨てた後、１枚カードを引いて補充する n 各⾊について、必ず数字順にプレイしなければならない - 例えば、⽩1、⽩2が揃っている時に⽩4を出したら1ミス n 3回ミスするか、５⾊全て揃えるとゲーム終了この場⾯では、プレイすることを許されるカードはG2、B1、W2、Y2、R1 - 終了時点で場に正しくプレイされていたカードの総数が得点になる（MAX25点） Shota Imai | The University of Tokyo

18.

Hanabiの戦略・駆け引き的な部分 n ⾏動による暗黙のコミュニケーション - ヒントの与え⽅によって、ヒントで陽に⽰している以上の情報を与えることが可能 - 例：右下図の状況でP0が、P1に対し、「４枚⽬は⾚」のヒントを与える - P1視点だと４枚⽬のカードが⾚以外の情報はないので、本来はプレイする情報が⾜りていないが、逆に考えると「わざわざ不完全なヒントを与えたということは⾚は１なのでは」という発想につながる n Finesse（もう少し⾼度な暗黙コミュニケーション） - P0がP2に対し「３枚⽬は2」のヒントを与える - P2視点だと、このヒントをもらった場合に考えることは「おそらくこの2は⽩」（場にG1とW1があるが、緑2はすでに２枚とも捨てられているため⽩2以外あり得ない） - これは間違いで、実際は⾚2なので、このままいくとP2はミスする - P0の次の⼿番のP1視点だと「このままだとP2は失敗する。だが、P0があのようなヒントを出したからには理由があるはずで、おそらくそれは⾃分が最近引いたカードが⾚2でそれをプレイしろということか」 Shota Imai | The University of Tokyo 18

19.

Hanabiの難しさ 19 n 今回発表する⼿法以前は、機械的な⼿法では⼈間の知識を⼤量に⼊れたbotが主流で、学習ベースのアプローチはこれらの⼿法に勝てなかった - ⼈間に特有の⾮⾔語的なコミュニケーションを読み取れない - テスト環境で学習時と別のエージェントとプレイすると、学習した⽅策が機能しない n 今回紹介する⼿法についても、⼆⼈以上のプレイではスコアが極端に下がる Shota Imai | The University of Tokyo

20.

BAD; Bayesian Action Decoder n マルチエージェント強化学習（ここではHanabi）において、相⼿の⾏動から⾒えない情報について何らかの推測ができれば、適切な⾏動と協調が可能 n 相⼿の信念の推論はベイズ推論により、割と簡単に定式化可能だが、再起的に信念を推論する部分で計算が爆発する n BADでは全てのエージェントに公開されている情報（public features）を⽤いて、全てのエージェントに共通の信念（public belief）を推論し、適切な決定論的⽅策を実⾏する⼿法を提案 Shota Imai | The University of Tokyo 20

21.

記号定義 21 n 𝑎 ∈ 1. . 𝑁：エージェント n 𝑢!" ：時刻tにおけるエージェントaの⾏動 n 𝑜!" ：時刻tにおけるエージェントaの観測 n 𝑠! ：時刻tにおける環境の真の状態 n 𝑂(𝑎, 𝑠! )：観測関数 n 𝜏!" =(𝑜#" , 𝑢#" , … , 𝑜!" )：エージェントaの⾏動観測の履歴 n 𝜋 " (𝑢!" |𝜏!" )：エージェントaの⽅策 n 𝐮! = (𝑢!$ , . . , 𝑢!% )：共同⾏動 n 𝑃 𝑠!&$ 𝑠! , 𝐮! )：遷移関数 n 𝑟!&$ (𝑠! , 𝐮! )：チーム報酬 n 𝐵! ：信念（これまでの履歴などからどんな隠れ状態にあるか確率的に表す） Shota Imai | The University of Tokyo

22.

Hanabiでベイズ推論を⽤い,⾃分の⼿札を予測する場合 n ℎ! ：エージェントの⼿札 n ボブの⾃分の⼿札に関する信念 𝐵" = 𝑃(ℎ" |𝑢# ) n ここでは、アリス（ボブの⼿札ℎ" を知っている）が、アリスのターンであるカードを捨てる⾏動𝑢# を選択した場合、ボブの⼿札が何かを推論 n 𝑃(𝑢# |ℎ" )は普通のRLの⽅策とみなせる Shota Imai | The University of Tokyo 22

23.

お互いが何らかの信念を持っており、環境の公開情報も利⽤する場合（⾒えない情報に対して何らかの「読み」を⾏っている場合） n アリスの⽅策は、アリスの信念𝐵% と公開情報𝑃𝑢𝑏に条件づけられているとみなせる n 信念は⾃分の⾒えていない⼿札の予測（B' = 𝑃(ℎ% )) n 𝐵% はどのように推論する？ →お互いに同じ推論を⾏っていると考えると、再起的に推論が爆発 Shota Imai | The University of Tokyo 23

24.

BADのアイディア 24 n 全てのエージェントに公開されている情報で条件づけて、全エージェントの信念をまとめて推測した信念をPublic beliefとすれば、全エージェントで共通の信念を共有できそう 𝐵% = 𝑃 ℎ% ℎ( , 𝑓 )*+ 𝐵( = 𝑃(ℎ( |ℎ% , 𝑓 )*+ ) → 𝐵! = 𝑃(ℎ% , ℎ( |𝑓 )*+ ) n Public beliefを利⽤する⽅策𝜋(%, （Public agent）を導⼊し、𝜋(%, によって、ある時刻における個別エージェントの決定論的⽅策を選択、privateな観測から⾏動を決定する（上記より、各エージェントが共通の⽅策パラメータを持つことは既知とする） Shota Imai | The University of Tokyo

25.

[beta]

BADで登場する概念と記号定義
)*+

n 𝑓!

：全てのエージェントに公開されている特徴 (public features)

→テーブル上に置かれていて全プレイヤーが⾒れるカード、⼭札の残りなど
)-.

n 𝑓!

：⼀部のエージェントのみが⾒れる情報 (private features)

- 𝑓!" ：エージェントaのみが参照できるprivate feature
- ⾃分だけが⾒れる⼿札、ℎ# など

)-.

n Public belief 𝐵! = 𝑃(𝑓!
#$%

- 𝑓!"

#$%

=( 𝑓&

#$%

, . . , 𝑓"

)*+

|𝑓/! )

）

n 𝜋(%, ：Public agentの⽅策
n 𝜋D ∶ {𝑓 " } → 𝒰：個別エージェントの決定論的⽅策（Partial Policy）
n 𝑠(%, ： 𝐵! と𝑓 )*+ を⼀まとめにした概念
n 𝜋D ~ 𝜋(%, (𝜋D |𝑠(%, )

Shota Imai | The University of Tokyo

25

26.

PuB-MDP（Public belief MDP） Shota Imai | The University of Tokyo 26

27.

[beta]

Public Belief

27

n 全てのエージェントの可能な𝑓 )-. の組み合わせに確率を割り振った⾏列
(例)

𝐵! =

{

アリスの⼿札ℎ' 、ボブの⼿札ℎ( 、𝑃(ℎ' , ℎ( )
23344,
11122,
0.000
23344,
11123,
0.002
・
・
・
44444,
55555,
0.001

}

Shota Imai | The University of Tokyo

28.

Partial PolicyとPublic Policy ) に対応する⾏動リスト、Public Policy 𝜋 n Partial Policy 𝜋は特定の𝑓 D D (%, はいくつかある𝜋 を選択するための確率分布 { 𝜋# = 23344→5のカードをプレイ 23344→⻘のカードに関するヒント・・ 55555→3のカードを捨てる } Shota Imai | The University of Tokyo 28

29.

Public Policyの更新 29 n プレイヤーが⾏動する各時間ステップごとに、その時刻のプレイヤーの⾏動𝑢!" 、信念 0)*+ （残りのカード枚数など）を⽤ 𝐵! 、選択されたpartial policy 𝜋、その他の公開情報𝑓 D いて、次の時刻の信念𝐵!&$ を得る Shota Imai | The University of Tokyo

30.

その他 30 n 実際には、Public belief⾏列はかなり⼤きいので、いくつか計算上の⼯夫を⾏って⼩さくしている（論⽂中”Factorised Belief Updates”, Self-Consistent Beliefsの部分） n 実装上は、 𝜋D ~ 𝜋(%, (𝜋D |𝑠(%, ) = 𝜋(%, (𝜋D |𝐵! , 𝑓 )*+ )の部分については、パラメータθを持つMLPネットワーク 𝜋 1 (𝑢|𝑓 " , 𝑠(%, ) を使って近似している（出⼒の𝑢は全ての⾏動候補） Shota Imai | The University of Tokyo

31.

実験：定量評価 31 n 異なる公開情報をベースにした⼊⼒を⾏うLSTMベースのエージェントと、既存の最強の BotとHanabiにおける平均スコアを⽐較（マックスは25点） n ⽅策更新のRL⼿法としてはActor-Criticの⽅策オフ⼿法（IMPALA）を使⽤ n 注意として、ここでは2⼈のHanabiしか評価していないため、BADの強さは限定的 Shota Imai | The University of Tokyo

32.

実験：定性的な部分 n テスト時に、エージェント間で、特定の⾏動が暗黙的なメッセージになっているプレイが複数⾒られた - 例えば、⾚⾊or⻩⾊のカードに関するヒントを与えた場合には、「⼀番新しいカードをプレイしろ」の意味、⻘か⽩の場合は「⼀番新しいカードを捨てろ」の意味を持っている n 論⽂Appendixにおいて、過去のHanabiの最強botの作者がテスト時のBADエージェントのプレイを分析したコメントを載せている Shota Imai | The University of Tokyo 32

33.

BADの問題点 33 n テスト環境が2⼈のHanabiで⽐較的簡単（⼈間の普通のゲームなら普通もっと多⼈数） n Public Agent、⽅策パラメータが同じという仮定が⾮現実的 n 公開情報がドメイン依存で、汎⽤性が低い n 計算コストが⼤きい（𝑓 )*+ が膨⼤） Shota Imai | The University of Tokyo

34.

SAD; Simplified Action Decoder n 公開情報をベイズ推論に組み込むBADの⼿法は、⼆⼈プレイHanabiで⾼パフォーマンスだったが、公開情報の利⽤が計算コストの増⼤と汎⽤性の低さにつながる n SADでは公開情報を必要とする部分（Public Policy、決定論的Partial Policy）を廃し個別の信念を持つRNNエージェントが個別の⽅策を表現 - 個別エージェントはε-greedy探索を採⽤して学習時に探索を⾏う - BADでは探索の部分を、Public policyが公開情報で条件づけて確率的に選択するpartial policy で代替していた ※ここでの公開情報とは、普通にプレイして観測できる他エージェントの⾏動𝑢) などではなく、⼭札中の残りのカード数や、ヒントから推論できるカードの詳細情報など、利⽤にコストがかかるもの n 個別のエージェントの確率的な探索の導⼊により、不安定になった信念のベイズ推論を解決するため、学習中に環境に対して実⾏される⾏動と単に他のエージェントの⼊⼒となる⾏動の⼆つを利⽤ n 「Simplified」の名の通り、⼿法は⾮常にシンプルで簡潔な発想 Shota Imai | The University of Tokyo 34

35.

SADで登場する概念と記号定義 n 𝜏! ：環境の⾏動-状態履歴 n 𝜏!" ：エージェントaの⾏動-観測履歴 ※SADのエージェントにはRNNを使⽤ n 𝐵(𝜏! )環境の履歴に関する信念 n SADにおける推論 n BADの時と同じく、⾃分の参照できる情報（⾃分の履歴）と相⼿の⾏動を観測したとき、⾃分が⾒えない環境の情報𝜏を推論する機構（⼼の理論部分）を表現 Shota Imai | The University of Tokyo 35

36.

公開情報を使わないことによる問題 n 個別のRNNエージェントは学習中に、ε-greedy探索を採⽤ n 各エージェントの⾏動は、確率εでランダムに実⾏された⾏動かもしれず、信念状態の更新に利⽤するのは妥当ではない（ランダムな⾏動は環境の状態に関する情報を含まない） n ε-greedy探索を⾏う場合の⽅策の表現 " n 𝑢∗(𝜏! )はgreedyな⾏動、 𝑢∗ 𝜏! = 𝑎𝑟𝑔𝑚𝑎𝑥 * 𝑄" (𝑢, 𝑂(𝑎0 , 𝜏! ))、𝑰は指⽰関数 n 上記を信念の推論に適⽤すると、計算困難 Shota Imai | The University of Tokyo 36

37.

SADのアイディア 37 n 学習中に、エージェントは２種類の⾏動を実⾏する - 𝒖𝒂 ：実際に環境に対して実⾏されるアクション（greedyかランダム選択かは問わない） →ベイズ推論・更新にとっては邪魔だが、探索のため必要 - 𝒖∗ ：greedy（⾏動価値が最も⾼い）な⾏動。ε-greedy探索だとεの確率で実⾏されない →これのみを実⾏すると探索が進まないが、本来はベイズ推論・更新に必要なアクション上記のうち𝒖𝒂 はそのまま環境に対して実⾏。そして、 𝒖∗ については環境に対して実⾏せず、他のエージェントの観測の⼊⼒のみに使⽤ n 本来は最適でなかった⾏動𝒖𝒂 を実⾏した後「俺は本当は⾏動𝒖∗ をやりたかった」とメッセージを送るイメージ n テスト時はεの値が0で、 𝒖𝒂 と𝒖∗ は常に⼀致するため、⾏動を送信する必要はない Shota Imai | The University of Tokyo

38.

実験 38 n SADと他のMARLのRNNを使う⼿法を、⼆⼈以上のプレイヤーによるHanabiで評価 n 強化学習はDQNベース n BADより⾼パフォーマンス&⼆⼈以上のゲームでもほぼSOTA Shota Imai | The University of Tokyo

39.

その他の⼼の理論周りの話題 n ロボット&Visual observation✖⼼の理論 Visual behavior modelling for robotic theory of mind - 実機ロボットの軌道の観測から別の時間の観測を予測できるか n ⾔語✖⼼の理論 Few-shot Language Coordination by Modeling Theory of Mind - 指⽰ゲームで、相⼿の⾔語認識レベルに応じた指⽰を⾏えるか n 実験的な⼈間の知能との関連性 Negotiating with other minds: the role of recursive theory of mind in negotiation with incomplete information - ⼈間のレベルK理論では、レベル2の寿司論を⾏うのがちょうどいいとされているが、機械的なエージェントではどの程度のレベルが最適か実験的に明らかに - 機械的なエージェントのシミュレーションでもレベル2程度を採⽤すると⼀番効率がよい Shota Imai | The University of Tokyo 39

[DL輪読会]マルチエージェント強化学習と?の理論 ?Hanabiゲームにおけるベイズ推論を?いたマルチエージェント強化学習?法?

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト

[DL輪読会]マルチエージェント強化学習と?の理論 ?Hanabiゲームにおけるベイズ推論を?いたマルチエージェント 強化学習?法?

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【DL輪読会】Conditional Flow Matching

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト

[DL輪読会]マルチエージェント強化学習と?の理論 ?Hanabiゲームにおけるベイズ推論を?いたマルチエージェント強化学習?法?