[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

454 Views

November 27, 17

#deep learning #Deep Learning #Meta Learning #Reinforcement Learning #Nonstationary Environments #Adaptation

スライド概要

2017/11/27
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 ● ● ● ICLR 2018 under review OpenAI 内容 ○ 環境が次々と変化していくタイプの問題に対する方策の学習をメタラーニングで解く 2

アウトライン ● 研究背景 ○ ○ ● 関連研究 ○ ● 問題設定モチベーション Meta Learning 本研究 3

研究背景強化学習 ● エージェントの良いふるまいを学習したい ● 問題設定 environment P, R, γ a s, r agent Π, V notation: s : 状態 a : 行動 r : 報酬 P：遷移関数 (s×a→s) R : 報酬関数 (s×a→r) Π：方策(s→a) V : 価値関数(s → v) γ : 割引率環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す 4

研究背景問題設定 stationaly environment non-stationaly environment 1つの決まったタスクを解く single task 性質が変化し続ける 1つのタスクを解く agent agent agent 定まった複数のタスクを解く multi task 次々と現れる複数のタスクを(忘却せずに)解く continual learning life-long learning agent agent agent 5

研究背景問題設定 stationaly environment non-stationaly environment 1つの決まったタスクを解く single task 性質が変化し続ける 1つのタスクを解く agent agent 本研究の対象は、このセルのさらに一部 (環境の変化に何らかの性質を仮定 ) agent 定まった複数のタスクを解く multi task 次々と現れる複数のタスクを(忘却せずに)解く agent agent agent 6

研究背景モチベーション ● 汎用人工知能に向けて ○ ● 変化する環境に (素早く)適応するのは知的な振る舞いにおける重要な要素の一つ実用上の観点 ○ ○ マルチエージェントシステム ■ 刻々と変化する他のエージェントに適応し続けなければならない機械、器具の操作 ■ 現実の物質は扱っていくうちに変化する ● タイヤ、ギアの磨耗による挙動の変化など 7

研究背景ソリューションに求められる性質 ● 変化する環境に適応する ● できるだけ素早く適応する ○ ○ Deep RLはsample inefficient 遅いと現環境に適応する前にまた環境が変わってしまう 8

関連研究 classicalな変化適応 ● 環境変化検出 + fine tuning(tracking) ● 大抵の場合、遅い ⇨ 環境が変わった際の学習の方法自体を学習してより賢くすればよい？ 9

10.

関連研究 Meta Learning ● ある決まったバイアス，すなわち仮説空間の中から，事例に応じて，適切な仮説を獲得する普通の学習器をベース学習器という．その上位で，学習対象のタスクやドメインに応じて，学習器のバイアスを決定するためのメタ知識を獲得するのがメタ学習 http://ibisforest.org/index.php?%E3%83%A1%E3%82%BF%E5%AD%A6%E7%BF%92 10

http://ibisforest.org/index.php?メタ学習

11.

関連研究 Meta Learningの例 ● 古典的な例 ○ ● Stacked generalization ■ 異なるバイアスのベース学習器の予測結果を特徴量として、メタ学習器をつくるニューラルネットワーク ○ ○ ○ ○ optimizerの学習タスクのembeding RLによる学習 fine tuningするのに良い初期値を学習 11

12.

関連研究 Meta Learning + Reinforcement Learning : RL2 12

13.

関連研究 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ある分布から生成されるタスクTでθからK step更新した結果得られたφでのlossが最小化されるようなθを学習する ● ● あるタスク集合においてFine tuningすると良い値にいくような初期値を学習する教師あり、教師なし、強化学習いずれにも使える 13

14.

関連研究 MAML for RL 14

15.

fast adaptation by MAML ● 数ステップで異なるタスクに適合できる 15

16.

関連研究複数環境に適応できる他の枠組みとの違い ● CVaR ○ ○ ● 複数の環境のうち、 worst caseに対応する方策を学習することで複数の環境にロバストな方策を得る追加の更新・適合なしで一つの方策が複数の環境に適合するには限界がある Context policy search ○ ○ ○ ポリシーの入力に contextとしてタスクを入れる (π(a|s) ⇨ π(a|s, ω), ω : タスク) 入力としてのタスクの表現が必要経験をコンテクストにして meta agentをつくるとRL2 16

17.

本研究問題設定 ● タスクの遷移に依存関係を仮定する ○ ○ 段々と学習して強くなる敵エージェント (self-play) 機械の磨耗などは前の状態から連続的に変化する MAML 本研究 17

18.

本研究提案手法 ● ● タスク遷移の依存関係を踏まえてMAMLを変更次にくるタスクが良くなるような初期値を探す 18

19.

本研究アルゴリズム実装上の細かいTips ● φiからφi + 1ではなく、常に同じパラメータθから適合を行う ○ ● 学習の安定性のため上記の工夫のために、更新のためにθで環境からサンプリングする必要があるが、テスト時にはφiを実行に使いたいので、重み付け変更 19

20.

本研究アルゴリズム実装上の細かいTips ● 学習率αもadaptiveに変更し、θと一緒に学習する ○ 学習の安定性のため 20

21.

本研究提案手法のアルゴリズム ● 先述のθからの更新により、訓練時と実行時のアルゴリズムが異なる 21

22.

本研究タスク a. b. c. 本研究で使用するエージェントタスク1. 選ばれた足のactivationが線形に1⇨0に減少するタスク2. RoboSumo. 2体のエージェントが相撲を行う,Tatamiから押し出したら勝利 22

23.

本研究実験設計上の工夫 ● 環境設計 ○ ● 報酬設計 ○ ● 一定時間でdrawになる上、わずかな episodeで適合しなければならないため、勝ち負けのみの疎な報酬では学習不可、よって Tatami中央からの距離も報酬に使う ■ unsupervisedなsense rewardを用いるなどは future work. エージェント設計 ○ ● RoboSumoでは、self-playによってpre-trainしたPPO agentを保存し、共通の環境とした ■ 敵エージェントの成長具合がばらばらだと手法間の比較がうまくできないため。真の意味での competitive scinarioはfuture work. Ant, Bug, Spiderの勝率が、初期状態では五分になるように頑張って重さとかを calibulationした(つらそう) and more….. 23

24.

本研究実験結果１: dynamics ● ● 提案手法(緑とピンク)が、概ね他手法よりもうまく適合しているシナリオが変わっても、3 episode程度で元の水準を保っている 24

25.

本研究実験結果2: RoboSumo ● ● 提案手法(赤)が、概ね他手法よりもうまく適合している前の実験に比べると結果微妙 25

26.

本研究実験結果3: 適合速度と達成パフォーマンスの比較 ● ● ● meta learning(赤と青)はfine tuning(緑)に対して速い適合を見せる適合を重ねると、fine tuningの方が最終的なパフォーマンスは上学習時に定めたK step(ここではK = 3)を超えて更新してもうまくいく 26

27.

本研究実験結果4: RoboSumoのレーティング ● ● ● RoboSumoのTrueSkill(Elo ratingのようなもの)(上) TrueSkillに基づくランク（左下）対戦勝率表(右下) ○ 同じネットワーク構造で比較するとMeta learnの方が良いが、 LSTMの方が効いてる 27

28.

本研究実験結果5: 勝ち残り形式 ● 提案手法を用いたエージェントが他を駆逐して増えていく 28

29.

まとめ ● ● ● 環境が次々と変化していく問題に対して、メタラーニングの1手法であるMAMLを拡張する手法を提案ベースライン(Fine Tuning, RL2)と比較して、素早く適合して高パフォーマンスを達成した実験設計に細かな工夫が多く、実験するのとても大変そうだった 29