fujisaki_Transferring_slide

3.6K Views

October 23, 23

スライド概要

モデルベース強化学習の一つである世界モデルは,エージェントの行動から生じる環境の遷移を予測するモデルである. 世界モデルを用いることでサンプル効率の向上や未知のタスクへの適応を向上させることが期待されている. しかし,世界モデルは他の強化学習モデルに比べて規模が大きく,モデルの学習時間が長くなることや,モデルの実行が計算機の制約を受けることが懸念される.そのため,モデルの学習の効率化とモデルの規模の縮小を両立させるために転移学習とモデル圧縮を適用することで世界モデルの実用性を高めることを考えた. 本調査の目的は上記の2つの手法の適用による世界モデルの性能への影響を検証にある.調査の結果2つの示唆が得られた.(1)提案手法(モデル圧縮 + 転移学習手法)を適用した場合の方が,モデル圧縮を適用せず目的のタスク単体で学習した場合よりも性能が高くなる可能性があること.(2)提案手法はハイパーパラメタの変更に頑健な可能性があること,である.

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

世界モデルにおける未知の環境への転移 *1 藤崎勇哉 *1JAIST *2 南田桂吾 *2近畿大学 *3 土方祥平 *3名古屋工業大学 1 *4 澤野千賀 *4放送大学 *5 熊谷亘 *5 松尾豊 *5東京大学大学院工学系研究科

2.

サマリ - (背景) - 世界モデルは他の強化学習モデルと比べて規模が大きい。 - モデルの実行が計算機の制約を受ける懸念があり、モデル圧縮(枝刈り)の必要性が高いと考えた。 - (目的) - 世界モデルの性能をなるべく保ったまま規模を小さくしたい。 - (提案手法) - 様々な枝刈り手法に適用可能な、重みの重要度(=スコア)の初期化方法。 - (結果) - 提案法を適用することで、 - 既存の枝刈り手法の性能を上回ることが実験で示唆された。 - 枝刈り前のモデルの性能を上回ることが実験で示唆された。 2

3.

背景・目的

4.

背景 - 世界モデルは他の強化学習モデルと比べて規模が大きい。 - Dreamer [Hafner 2019]においては環境からデータを収集するエージェントと、環境のシミュレーターとして 機能する世界モデルがある。 - これらに含まれる複数の関数(=ニューラルネット)を学習する必要がある。 環境のシミュレーターとして機能する機構 環境からデータを収集する機構 世界モデルに含まれる関数 エージェントに含まれる関数 エージェント - 方策 - 観測情報を処理する関数 世界モデル - 価値関数 - 状態遷移を予測する関数 - 報酬を予測する関数 目的 - 世界モデルの性能をなるべく保ったまま規模を小さくしたい。 4

5.

関連研究

6.

モデル圧縮について - モデル圧縮はモデルの規模を小さくする手法のこと。 - 先行研究を踏まえて、モデル圧縮のうち枝刈りが有望だと考えた。 モデル圧縮の分類 [Cheng 2017] # 分類 説明 1 枝刈り 重要度に応じてモデルの重みを刈り取ること 2 量子化 モデルの重みを少ないビット数で表現すること 3 低ランク因子分解 特定の層の重みを行列分解し低ランクで表現すること 4 5 枝刈りに関する先行研究の主張 - 枝刈りは他のモデル圧縮手法と比べて相対的に性能の低下が小さい [Cheng 2017] - 強化学習タスクで最大で90%重みを枝刈りしても、性能の劣化がほ とんど起きない[Arnob 2021] 畳み込みフィルタの性質に仮定をおいてフ ィルタの改 畳み込みフィルタの改変 変を行うこと 十分に学習された 大きいモデルの挙動を模倣する小さ 知識蒸留 いモデルを得ること 6

7.

モデル圧縮のうち枝刈りについて - 枝刈りは重要度に応じてモデルの重みを刈り取ること。 - 多くの手法は重要度として枝刈りされる重みを選択するための基準(=スコア)を活用し、基準の低い重みを除去す る。 本実験で使用する枝刈りアルゴリズムをどう選定したか? 枝刈りにおける手法の分類の観点について モデル圧縮の分類 [Cheng 2017] 枝刈りの分類 [Wang 2021] - 提案手法の良し悪しを測りやすいか? - ランダムな重みに対して、さらに一度で枝刈りできる手法を選 枝刈り 量子化 択した。 - 事前にモデルの重みの学習が必要か? - -> 強い宝くじ仮説やSNIPの派生手法など - スコアの更新は反復的に行うか? - 目標の残存率まで段階的に枝刈りを行 低ランク因子分解 層の改変 知識蒸留 うか? - 枝刈り後の重みは学習が必要か? - …など 7

8.

本提案で使用した枝刈りアルゴリズムについて - 本実験で使用した枝刈りアルゴリズムの説明は以下の通り。 SLTHとSNIPの概要 - 強い宝くじ仮説(SLTH) - ランダムな重みで構成された十分に大きいNNから、 - 該当タスクで学習しなくても十分な性能を持つ重みの部 分集合を見つけることを狙う. - SNIP SLTHとSNIPの処理の流れの概要 # SLTHの処理の流れの概要 1 モデルの重みとスコアをランダムに初期化する。 データを用いてスコアを学習する。 2 (順伝搬時はスコアが低い重みを枝刈りして順伝搬し、誤差逆伝播時 は損失に基づいてスコアを更新する。) 2)で最終的に得たスコアに基づいてモデルを枝刈りする。残った重み 3 は学習しない。 - ランダムな重みで構成されたNNから、 - 該当タスクで学習すると高い性能が得られそうな重みの 部分集合を見つけることを狙う. # SNIPの処理の流れの概要 1 モデルの重みをランダムに初期化する。 少量のデータをモデルに1度だけ入力し、損失に対する勾配に基づいて 2 スコアを算出する。 2)で得たスコアに基づいてモデルを枝刈りし、残った重みを該当のタ 3 スクで学習する。 8

9.

世界モデルにおける転移学習について[Sasso 2021] - ターゲットドメインでの重みの初期化方法に関する提案。 - ハイパーパラメタは、ソースドメインで獲得した重みをどの程度、どのレイヤーで活用するか。 世界モデルにおける転移学習 [Sasso 2021] モデルのどのレイヤーでソースドメインの重みをどの程度活用するか [Sasso 2021] - Wtarget = Wrandom + ω ⋅ Wsource . : Fractional Transfer Learning(FTL) - Wtarget : ターゲットタスクで使う重み - Wrandom : ランダムな初期値の重み - Wsource : ソースタスクで学習された重み - ω : 係数 9 - Full transfer : ω=1 - Random initialization : ω=0 - Fractional transfer : ωは任意(0.2が最良)

10.

提案手法

11.

提案法 : ソースドメインの知識を活用した枝刈り手法について - 提案法の概要と、提案法の処理の流れは以下の通り。 - 先行研究のFTL[Sasso 2021]を活用した、既存の枝刈りの改善手法を提案。 提案法における、ソースドメインのスコアの活用方法 提案法の処理の流れの概要 - Scoretarget = Scorerandom + ω ⋅ Scoresource . : Fractional Score Transfer Learning(FSTL) # - Scoretarget : ターゲットタスクで使うスコア 1 - Scorerandom : ランダムなスコア 2 3 4 - Scoresource : ソースタスクで獲得したスコア - ω : 係数 提案法の処理の流れの概要 二つのモデル(Model1とModel2)に、ランダムに初期化された同じ重みを設 定する。 Model1とソースドメインのデータを用いてスコアを算出する。 2)と更新式を用いてターゲットドメインで使うスコアを初期化する。 3)を用いてModel2を枝刈りする。 (※)上記は概要であり、SLTHとSNIPの処理の差異に由来する 若干の処理の相違がある。 -> あるドメインで獲得したスコアを他のドメインで活用する点、 色んな枝刈り手法に適用できる点が本提案のユニークな点 11

12.

本提案手法と同様の発想のモデル圧縮手法との差異 - 提案手法と同じ発想のモデル圧縮法は複数存在している認識。 - -> しかし、提案法は類似の先行研究と比較して計算の手間が少ない。 - 類似の発想の主な先行研究 # 1 2 研究 タスク [Chen 2019] 画像分類 (CIFAR9, STL9, ImageCLEF) [Livne 2020] 強化学習 (Cartpole, Lunar Lander, Pong) 説明 処理の流れの概要 1) ソースドメインでモデルを学習する ソースドメインで獲得した重みをターゲットドメインでの枝刈りに活 2) ソース / ターゲット ドメインの学習を並列で 用する 実行しつづける 十分に性能の高い強化学習モデルで蒸留して小型化する手法 1) モデルを学習する 2) 以下を基準を満たすまで繰り返し行う。(2-1) 1)ではないモデルの枝刈りを行い、(2-2) 同様 のパラメタ数を持つ密なモデルに作り替え、 (2-3) 1)で得たモデルで蒸留で学習。 - -> 対して、提案法はソースドメインでスコアを1回算出し、それをターゲットドメインで活用するだけという点で 手間が少ない。 12

13.

実験

14.

提案手法について、各実験内容と結果のサマリ - Q1) 本提案手法は、既存の枝刈り手法の性能を上回るか? - A) 上回ることが示唆された。(後述) - Q2) 本提案手法は、枝刈り前のモデルの性能を上回るか? - A) 上回ることが示唆された。(後述) - Q3) ソースドメインで得たscoreはターゲットドメインで活用されたか? - A) 活用されていることが示唆された。(後述) - Q4) ωと性能の関係は? - A) ωの変化による性能の差異はあった。(後述) - Q5) 重みの残存率と性能の関係は? - A) 重みの残存率の変化による性能の差異はあった。(後述) 注意 - 上記のQ2 ~ Q5について枝刈りアルゴリズムとしてQ1で性能の良かったBIPROPのみを使用して検証した。 - 全ての実験でソースドメインはAntBulletEnv、HopperBulletEnvとし、ターゲットドメインはHalfCheetahBulletEnvとした。 14

15.

Q1に関する実験結果 - Q1) 本提案手法は、既存の枝刈り手法の性能を上回るか? - 1) 提案法 > 既存の枝刈り手法 が示唆された。 - 2) 長いepochで実行したところ、提案法は既存の枝刈り手法よりも大きく性能が上回ることが示唆された。 1) に関する結果(3つの異なるシード、実線はmean、塗りつぶしはstd) Edge-popup Algorithm [Ramanujan 2019] BIPROP [Di enderfer 2021] 2) に関する結果(5つの異なるシード、実線はmean、塗りつぶしはstd) SNIP[Lee 2018] BIPROP [Di enderfer 2021] SynFLOW [Tanaka 2020] ff ff 15

16.

Q2に関する実験結果 - Q2) 本提案手法は、枝刈り前のモデルの性能を上回るか? - 本提案手法を適用 > 枝刈り前のモデル > 既存の枝刈り手法 となることが示唆された。 - > 直感とは反するが、画像認識タスクにおいて 枝刈り適用のモデルの性能 > 元のモデルの性能 と報告した研究はある [Blalock 2020] Q2) に関する結果(5つの異なるシード、実線はmean、塗りつぶしはstd) 枝刈りアルゴリズム は BIPROP [Di enderfer 2021] ff 16

17.

Q3に関する実験結果 - Q3) ソースドメインで得たscoreはターゲットドメインで活用されたか? - 提案法のScoresourceにランダム値を使用した試行と対比した。 - -> ソースドメインでのscoreはターゲットドメインでの性能の向上に寄与していることが示唆される。 スコアの算出式(P. 11の再掲) Q3) に関する結果(5つの異なるシード、実線はmean、塗りつぶしはstd) 枝刈りアルゴリズム は BIPROP [Di enderfer 2021] - Scoretarget = Scorerandom + ω ⋅ Scoresource . -> scoresourceの代わりにランダム値を使用し、性能差を確 認した。 ff 17

18.

Q4に関する実験結果 - Q4) ωと性能の関係は? - 相対的にはωが0.2、0.4の場合で性能が良好。ωが0.8だと相対的に性能が低い。 - -> 枝刈りにタスク依存性が高いことが示唆される。 スコアの算出式(P. 11の再掲) Q4) に関する結果(5つの異なるシード、実線はmean、塗りつぶしはstd) 枝刈りアルゴリズム は BIPROP [Di enderfer 2021] - Scoretarget = Scorerandom + ω ⋅ Scoresource . -> この ω と性能の関係を確認した。 ff 18

19.

Q5に関する実験結果 - Q5) 重みの残存率と性能の関係は?(残存率 = 1-重みの削減率) - 残存率30%≒残存率60%。一方で、残存率30% > 残存率10%。 - -> 世界モデル部分(ex. 状態遷移を近似する機構)は枝刈りしすぎると性能低下を招くのか? Q5) に関する結果(5つの異なるシード、実線はmean、塗りつぶしはstd) 枝刈りアルゴリズム は BIPROP [Di enderfer 2021] 0.1 ff 19

20.

今後の発展

21.

今後の発展 - 1) 環境の組み合わせを変えた実験 - (問い) ソースとターゲットドメインでのタスクの類似性が性能にどのように影響するのか? - ソースドメイン(Ant + Hopper)、ターゲットドメイン(Pendulam)としたら性能はどうなるのか。 - 2) 枝刈り手法のアンサンブル - (問い) SLTH + SNIP でスコアを初期化すると性能は上がるか? - グローバルプルーニング(≠層ごとの指定割合での枝刈り)するとSNIPとSLTHで刈り取られる重みには傾 向の違いがある。いいとこ取りできないか? - 3) 世界モデル以外にも適用できるか?大規模言語モデルへはどうか? - (問い)ソースドメイン(英語タスク)、ターゲットドメイン(日本語タスク)として本提案手法を適用したら、 日本語タスクのみで学習するよりも性能が良くなるか? - 仮に65B(LLaMA)のモデルを19.5Bにし、元のモデルよりも性能が落ちないことが確認できたら、コスト 削減手法としてインパクトが大きいのでは? 21

22.

QA表

23.

(Appendix)QA # Q A - どちらが良いか? 1 大きなものを作ってから小さくするのは、最初から小さいものを学 習するのとどう違うのか? 3 Pruning after training を比較しなかった理由は? 4 なぜ Edge-popup Algorithmは性能が上がらなかった? 5 なぜDreamer v1なのか? - 先行研究のFTL[Sasso 2021]がDreamer v1で実験していたため。 なぜIterative pruningな方法と比較しなかったのか? - ハイパラが多いから、うまくいかなかった時の問題の特定が難しい。(ex. 事前学習をどこで打ち切るか、重みの削減をどのようにスケジュールするか) - しかし、手法の有効性がある程度判明した今、比較するために取り組むべき。 6 これは条件次第。WHAT IS THE STATE OF NEURAL NETWORK PRUNING?では、枝刈りモデル > 枝刈り未適用モデルになったり、その逆がある。 Model̲{pruned} > Modelとなることはあるが、Model̲{pruned} > Model̲{good̲arch}とはなりにくい。 - 実用性の観点において、Pruning at initializationの手法の方が良いと考えているから。 - わからない。 - 画像分類タスクでの他ベンチマークの比較に基づくと、BIPROPと性能面での差異は小さいと考えている。 8 世界モデルでこの実験を行う必要があったか? - 9 Edge-popup Algorithm と BIPROPの違いは? - どの時点で重みが確定するか、という点 10 なぜ、Q4について、 ソースドメインのスコアは微量を足すのが良いのはなんで? - 方策, 価値関数については最適なモデルのタスク依存性が高いことが示唆される。 11 なぜ、Q5について、 圧縮しすぎると性能が落ちるのはなんで? - 環境のシミュレーター部分は圧縮しすぎると良くない? 12 Epochって何? - Policyが実環境と複数回数インタラクションするのを1単位として、これを何回行うか 7 Score̲{\hat{target}}はSNIPとSLTHで対応しているのだろうか? 若干していない。 SLTHはソースで最適化したスコアとランダムなスコアを足し、それを最適化し、枝刈りする。 SNIPはソースで最適化したスコアとランダムなスコアを足し、そこにターゲットで最適化したスコアをたし枝刈りする。 ない。(深層学習で一般にモデル圧縮の必要性は議論されており、何も世界モデルだけに閉じた話ではない、) ただ、結果的に特定の問題設定で性能が認められたのは、世界モデルに関するユニークな転移学習法である可能性があるので、世界モデルでこの実験を 行なってよかった。 23

24.

先行研究(類似する手法)

25.

(Appendix)本提案手法の先行研究との比較 - 関連する主な先行研究の、本提案手法に対する類似点と相違点 研究 モデル圧縮手法 タスク 最大圧縮率 内容 提案手法との類似点 提案手法との相違点 ソースドメイン(s)で獲得した知識をターゲットド メイン(t)でも活用する枝刈り手法の提案。 Chen 2019 枝刈り 画像分類 96% - ソースドメインで獲得した枝刈 - sで獲得した重みをtの初期値とする。 - マスクを重みの選択基準とする、sとtでそれぞ りのための基準をターゲットドメ れの重みを並列で学習することでマスクを割り 出す。 インでも活用する点。しかし、こ の基準が重みである。 - 枝刈りのための基準が重みであ - り、スコアではない。 ソースドメインとターゲットドメ インで異なるモデルを継続して学 習する必要がある。 - -> 実験結果からはsとtでの重みの継続的な学習 が重要と示唆される。 Livne 2020 蒸留 強化学習 99% 処理の概要 - 1)モデルを実環境で学習し、バッファにためる - 十分に学習したモデルの知識を - 2)1)枝刈りと学習 使って、モデル - 2-1) 枝刈り - 2-2) 枝刈りした疎なモデルのうち非ゼロな重み の数が一緒な密な重みを作成し、学習 25 - 2)の工程と3)の工程でかかる計算の 手間

26.

(Appendix)Chen 2019 Cooperative Pruning in Cross-Domain Deep Neural Network Compression - マスクは、ソースドメインのモデルとターゲットドメインのモデルの重み が活用されており、さらにこの二つのモデルを継続して学習する必要があ る。 26

27.

(Appendix)Livne 2020 Cooperative Pruning in Cross-Domain Deep Neural Network Compression 27

28.

先行研究(枝刈り)

29.

(Appendix)枝刈りを適用することで、元のモデルよりも性能が低下するか? WHAT IS THE STATE OF NEURAL NETWORK PRUNING [Blalock 2020] - 必ずしもそうではない。 - 画像分類タスクにおいて、枝刈り後のモデルが元のモデルよりも性 能が高くなることは主張されている。 - (ex. [Blalock 2020] の ImageNetにおけるVGGなど) 29

30.

(Appendix)先行研究 : ランダムな重みに対する枝刈り - SLTHやSNIPは、事前にモデルの重みの学習が必要でないという点に特徴がある。 目的の指標値(ex. 損失)が十分に小さくなる # アルゴ名 1 SNIP (Pruning at initialization) × × ○ × ○ 2 SLTH (Pruning at initialization) × ○ ○ ○ × 3 Pruning after trainingの手法 ○ ○&× ○&× ○&× ○ 事前にモデルの重みの学習が必要か スコアは更新するか 目標の圧縮率まで一度に枝刈りするか 30 まで枝刈りを反復的に行うか 枝刈りしたモデルの重みについて学習するか

31.

(Appendix)Edge-pop up algorithmとBIPROPの共通点と相違点 - 共通点 : - 重みの選択基準としてスコアを用いる点。 - 重みが適切な範囲となるように工夫したsigned constantで重みを初期化している点。 - 相違点 : - BIPROPは重みを{-1, 1}とし、ゲイン項を乗算している点。 - ゲイン項は、残った重みの絶対値の総和 / 枝刈りされなかった重みの個数 で表現している - ↑を踏まえ、いつ重みが確定するかという点。 - Edge-pop up algorithm では signed constant データを見る前に重みが確定する - BIPROPでは、データを使ってゲイン項を変化させ、データを見た後に重みが確定する 31

32.

提案法についての詳細

33.

提案法 : ソースドメインの知識を活用した枝刈り手法について - 提案法の概要と、提案法の処理の流れは以下の通り。 - 先行研究[Sasso 2021]と対応して Fractional Score Transfer Learning(FSTL)と呼称する。 提案法における、ソースドメインのスコアの活用方法 - SLTHとSNIPそれぞれの場合の処理の流れの概要 # Scoretarget = Scorerandom + ω ⋅ Scoresource . : SLTHの場合 1 - Scoretarget + = Scorerandom + ω ⋅ Scoresource . : SNIPの場合 - Scoretarget : ターゲットタスクで使うスコア 2 - Scorerandom : ランダムなスコア 3 - Scoresource : ソースタスクで獲得したスコア 4 - # ω : 係数 1 2 3 4 5 33 SLTHの処理の流れの概要 二つのモデル(Model1とModel2)に,ランダムに初期化された同じスコアと 重みを設定する. ソースドメインではModel1を用いてスコアを世界モデルの枠組みで学習す る.(順伝搬時はスコアが低い重みを枝刈りして順伝搬し,誤差逆伝播時は 損失に基づいてスコアを更新する.) 2)で得たModel1の学習済みスコアをModel2の未学習のスコアに足す. ターゲットドメインでは3)のスコアを用いて2)の手順でModel2のスコアのみ を世界モデルの枠組みで学習する. SNIPの処理の流れの概要 二つのモデル(Model1とModel2)に,ランダムに初期化された同じ重みを設 定する. ソースドメインの少量のデータを1度だけModel1に入力し,損失に基づいて スコアを算出する. 2)で得たModel1のスコアをModel2の未学習のスコアに足す. ターゲットドメインの少量のデータを1度だけModel2に入力し,損失に基づ いてスコアを算出する. 3)で得たスコアを4)のスコアに足し,そのスコアに基づいてModel2を枝刈り し,Model2の重みのみを世界モデルの枠組みで学習する

34.

(Appendix)Q2と関連してFTLを適用した場合に対しても検証すべきなのでは? - FTL(Sasso 2021)で報告されている結果が再現できなかった。 - 再現できなかった理由として、未知のハイパラが多いことが原因と考えている。 FTLに関する結果(3つの異なるシード、実線はmean、塗りつぶしはstd) 使用したハイパーパラメタの一覧と、本実験と(Sasso 2021)の具体的な数値 大項目 モデルレイヤ数 学習率 エピソード数 サンプリング バッファ その他 34 中項目 ValueModel ActionModel RewardModel Encode/Decoder ValueModel ActionModel Reward Encode/Decoder ランダム探索数 総数 1エピソード収集時のNNの更新数 バッチサイズ chunkの長さ サイズ 割引率 λ-returnnのパラメタ Gradient clipping 本実験 4 4 4 4/5 8E-05 8E-05 6E-04 6E-04 10 100 100 50 50 1 0.9 0.95 100 FTL(Sasso 4 4 4 4/4 ? ? ? ? ? 2000 1000 ? ? ? ? ? ?

35.

𝒜 (Appendix)転移時における次元数等の補足 - actionの次元数 - | A |D = max( | A |D ), where | A |D ∈ - D : ドメイン(ex. Ant, hopper) - | A |D : アクションの次元数 - : | A |D を要素として持つ集合 - 使用した環境 - AntBulletEnv-v0( | A |D = 8) , HopperBulletEnv-v0( | A |D = 3), HalfCheetahBulletEnv-v0( | A |D = 6) 各タスクの状態次元, 行動次元 状態次元 行動次元 HopperBulletEnv-v0 32 3 Walker2DBulletEnv-v0 22 6 AntBulletEnv-v0 28 8 HalfCheetahBulletEnv-v0 26 6 InvertedPendulumBulletEnv-v0 5 1 InvertedDoublePendulumBulletEnv-v0 9 1 𝒜 環境名 35

36.

(Appendix) ランダムな重みに対する枝刈り - SLTH : ネットワークには精度の良いサブネットワークがあると仮定する手法 - Edge-popup : score = score − α * g - scoreの上位k%の重みを使った順伝搬と,誤差逆伝播によるscoreの更新を繰り返すことで精度の良いサブネッ トワークを探索する - Biprop : score = score − α * g - 基本的な処理の流れはEdge-popup Algorithmと同様であるが,順伝搬のたびに重みとマスクから算出される係 数を用いてscoreを更新する点で異なっている - SNIPの派生手法 - SNIP : score = |g * w| - 実際のデータから得た損失とその勾配gでモデルの各重みwに対応するscoreを算出し,上位k%以上のscoreの重 みのみを目的のタスクに活用し,基準未満のscoreの重みを枝刈り - SynFlow : score = 1T( L ∏ |w|)1 l=1 - SNIPでは枝刈り率が高い場合に,特定の層の多数の重みが枝刈りされる層崩壊と呼ばれる現象が発生すること が知られている.その問題が起こらないことを検証した. 36

37.

参考文献 [Hafner 2019] D. Hafner, T. Lillicrap, J. Ba, and M. Norouzi, “Dream to Control: Learning Behaviors by Latent Imagination,” arXiv [cs.LG], Dec. 03, 2019. [Online]. Available: http://arxiv.org/abs/1912.01603 [Sasso 2021] R. Sasso, M. Sabatelli, and M. A. Wiering, “Fractional Transfer Learning for Deep Model-Based Reinforcement Learning,” arXiv [cs.LG], Aug. 14, 2021. [Online]. Available: http://arxiv.org/abs/2108.06526 [Cheng 2017] Y. Cheng, D. Wang, P. Zhou, and T. Zhang, “A Survey of Model Compression and Acceleration for Deep Neural Networks,” arXiv [cs.LG], Oct. 23, 2017. [Online]. Available: http://arxiv.org/abs/1710.09282 [Arnob 2021] S. Y. Arnob, R. Ohib, S. Plis, and D. Precup, “Single-Shot Pruning for O ine Reinforcement Learning,” arXiv [cs.LG], Dec. 31, 2021. [Online]. Available: http://arxiv.org/abs/2112.15579 [Wang 2021] H. Wang, C. Qin, Y. Bai, Y. Zhang, and Y. Fu, “Recent Advances on Neural Network Pruning at Initialization,” arXiv [cs.LG], Mar. 11, 2021. [Online]. Available: http://arxiv.org/abs/2103.06460 [Ramanujan 2019] V. Ramanujan, M. Wortsman, A. Kembhavi, A. Farhadi, and M. Rastegari, “Whatʼs Hidden in a Randomly Weighted Neural Network?,” arXiv [cs.CV], Nov. 29, 2019. [Online]. Available: http://arxiv.org/abs/1911.13299 [Di enderfer 2021] J. Di enderfer and B. Kailkhura, “Multi-Prize Lottery Ticket Hypothesis: Finding Accurate Binary Neural Networks by Pruning A Randomly Weighted Network,” arXiv [cs.LG], Mar. 17, 2021. [Online]. Available: http:// arxiv.org/abs/2103.09377 [Lee 2018] N. Lee, T. Ajanthan, and P. H. S. Torr, “SNIP: Single-shot Network Pruning based on Connection Sensitivity,” arXiv [cs.CV], Oct. 04, 2018. [Online]. Available: http://arxiv.org/abs/1810.02340 [Tanaka 2020] H. Tanaka, D. Kunin, D. L. K. Yamins, and S. Ganguli, “Pruning neural networks without any data by iteratively conserving synaptic ow,” arXiv [cs.LG], Jun. 09, 2020. [Online]. Available: https://arxiv.org/abs/2006.05467 [Bartoldson 2019] B. R. Bartoldson, A. S. Morcos, A. Barbu, and G. Erlebacher, “The generalization-stability tradeo ef2ee09ea9551de88bc11fd7eeea93b0-Paper.pdf in neural network pruning,” arXiv [cs.LG], Jun. 09, 2019. Available: https://proceedings.neurips.cc/paper/2020/ le/ [Lewkowycz 2019] A. Lewkowycz and G. Gur-Ari, “On the training dynamics of deep networks with L2 regularization.” https://papers.nips.cc/paper/2020/ le/32fcc8cfe1fa4c77b5c58dafd36d1a98-Paper.pdf. [Io e 2015] S. Io e and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” arXiv [cs.LG], Feb. 11, 2015. [Online]. Available: http://arxiv.org/abs/1502.03167 [Blalock 2020] D. Blalock, J. J. G. Ortiz, J. Frankle, and J. Guttag, “What is the State of Neural Network Pruning?,” arXiv [cs.LG], Mar. 06, 2020. [Online]. Available: http://arxiv.org/abs/2003.03033 [Livne 2020] D. Livne and K. Cohen, “PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning,” arXiv [cs.LG], Jan. 14, 2020. [Online]. Available: http://arxiv.org/abs/2001.05012 [Chen 2019] S. Chen, W. Wang, and S. J. Pan, “Cooperative pruning in cross-domain deep neural network compression,” in Proceedings of the Twenty-Eighth International Joint Conference on Arti cial Intelligence, Macao, China, Aug. 2019, pp. 2102‒2108. fi fi fi fl ff ffl ff ff ff ff 37