【論文読み会】RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models

>100 Views

May 31, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

KaiRA論文読み会 2025/5/31 強化学習による気候モデルのパラメータ最適化 京都大学大学院 理学研究科 地球惑星科学専攻 M1 松田 拓巳 0

2.

論文情報 気候モデルにおけるパラメタリゼーションの改良における強化学習の有効性を実証した論文 タイトル RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models 著者 Pritthijit Nath¹, Henry Moss¹, Emily Shuckburgh², Mark Webb³ 所属機関 ¹ ケンブリッジ大学 応用数学・理論物理学科 ² ケンブリッジ大学 コンピュータ科学技術学科 ³ 英国気象庁 ハドレーセンター 会議情報 NeurIPS 2024ワークショップ「Tackling Climate Change with Machine Learning」で発表 2

3.

アジェンダ n 背景・目的 n 手法 n 結果 3

4.

気候モデリングの重要性 気象および気候モデリングは、気象現象が社会経済に与える影響を理解し軽減するために極めて重要 2024年は史上最も暑い夏になった [1] https://infogram.com/original-global-mean-temp-diff-1hnp27mw7wqwy2g 大雨災害の増加など、社会経済にも影響を与えるため 気候変動の予測や理解が重要となる [2] https://www.data.jma.go.jp/cpdinfo/extreme/extreme̲p.html 4

5.

数値予報モデルとMLモデルの課題 数値予報モデルは格子より小さいスケールの現象の考慮に限界がある 地球を格子に区切り 物理方程式を解くことで 数値予報を行う [3] https://www.jma.go.jp/jma/kishou/know/whitep/1-3-1.html 課題 格子スケールより小さい現象はモデルで直接表現できない ▶「パラメタリゼーション」という手法で、統計的な関係を用 いて間接的にこの現象の効果を組み込むが、不確実性が伴う [4] https://www.jma.go.jp/jma/kishou/books/nwpkaisetu/R4/1̲8̲1.pdf 5

6.

数値予報モデルとMLモデルの課題 MLモデルは精度は良いものの、物理法則を逸脱した生成をする可能性がある MLモデルが数値予報を上回るようになった 課題 物理法則に反する出力をする場合がある • 質量保存則 • エネルギー保存則 など 長期気候予測では、この違反が誤差増大を 引き起こし、予測精度が低下してしまう [5] https://arxiv.org/abs/2212.12794 6

7.

強化学習を活用した気候モデリング モデル自体は従来のものを使い、パラメータの調整を強化学習で行う パラメータの値 行動 環境 =気候モデル エージェント 報酬 物理モデルのパラメータ を調整する モデルの出力と 観測値の誤差 物理モデルの構造自体は 変えない 7

8.

なぜ強化学習なのか? 逐次学習が可能など、従来型のMLモデリングと比較して優位性がある 利点❶ • • 利点❷ 逐次学習が可能 気候モデル環境との相互作用を • 利点❸ 疎な報酬の学習 強化学習は疎な報酬・遅延し • 長期的最適化 目の前の報酬を最大化するの 通じて継続的に適応・更新でき た報酬からの学習に優れてい ではなく、長期的な気候パ る る ターンや傾向を理解しようと 気候解析データは6時間間隔し する モデル全体を再訓練する必要が ない • か取れないことが多い • 探索と活用 8

9.

アジェンダ n 背景・目的 n 手法 n 結果 9

10.

今回の実験で用いるモデル 「温度変化のバイアス補正」「放射対流平衡モデル」の2ケースで検証を行った 環境❶ • 環境❷ SimpleClimateBiasCorrection RadiativeConvectiveModel 観測温度に近づくように、加熱量𝑢を学習する • 状態(state):現在の温度𝑇!"##$%& • 行動(action):加熱量𝑢(-1〜+1) • 目的:𝑇%$' を𝑇()*$#+$, に近づけるように𝑢を選ぶ • 状態(state):各高度における気温 • 行動(action):2つのモデルパラメータ • • 放射率…0〜1 • 気温減率…5.5〜9.8 報酬(reward):観測値とモデル出力のMSE 10

11.

今回の実験で用いるモデル❶:SimpleClimateBiasCorrection バイアスが入っている温度変化のモデル値を、観測に沿うように補正するタスク 環境❶ SimpleClimateBiasCorrection • 観測温度に近づくように、加熱量𝑢を学習する • 状態(state):現在の温度𝑇!"##$%& • 行動(action):加熱量𝑢(-1〜+1) • 目的:𝑇%$' を𝑇()*$#+$, に近づけるように𝑢を選ぶ 橙色のモデル値が、黒色の観測値に近づくように 補正する 11

12.

今回の実験で用いるモデル❷:RadiativeConvectiveModel 放射対流平衡モデルにおける気温プロファイルが観測に沿うように、パラメータを操作するタスク 環境❷ RadiativeConvectiveModel • 放射と対流のエネルギーの釣り合いが取れてい る状態を仮定したモデル • 状態(state):各高度における気温 • 行動(action):2つのモデルパラメータ • • 放射率…0〜1 • 気温減率…5.5〜9.8 報酬(reward):観測値とモデル出力のMSE [6] https://dna-climate.org/2022/07/14/rce/ 12

13.

強化学習手法 放射対流平衡モデルにおける気温プロファイルが観測に沿うように、パラメータを操作するタスク アルゴリズム • Off/On Policy 状態(state):各高度における気温 Actor Critic × Off • 行動(action):2つのモデルパラメータ Deterministic Policy Gradient (DPG) On • 放射率…0〜1 Deep Deterministic Policy Gradient (DDPG) Off • 気温減率…5.5〜9.8 ○ Delayed DDPG (TD3) Off •Twin報酬(reward):観測値とモデル出力のMSE ○ REINFORCE ○ Trust Region Policy Optimization (TRPO) On ○ Proximal Policy Optimization (PPO) On ○ Soft-Actor Critic (SAC) Off ○ Truncated Quantile Critics (TQC) Off ○ Off-Policy(方策オフ型) • 自分とは別の場所で得られた経験から自分の方 策を改善する On-Policy(方策オン型) • 自分で得た経験から自分の方策を改善する Actor-Critic • Actorが方策を学習し、Criticが方策を評価 13

14.

アジェンダ n 背景・目的 n 手法 n 結果 14

15.

結果 モデルによって有効な強化学習手法が異なることがわかった Off-Policy型 Actor-Criticが優勢 On-Policy型が優勢 ※Frequency: 各RLアルゴリズムが、複数の実験設定(ハイパラの違い等)において、性能トップ3に入った回数 [6] https://dna-climate.org/2022/07/14/rce/ 15

16.

結果 モデルによって有効な強化学習手法が異なることがわかった • 不確実性が大きく損失地形が複雑で、 より多くの探索が必要なタスクでは Off-Policy型が適しているのではないか Off-Policy型 Actor-Criticが優勢 On-Policy型が優勢 ※Frequency: 各RLアルゴリズムが、複数の実験設定(ハイパラの違い等)において、性能トップ3に入った回数 [6] https://dna-climate.org/2022/07/14/rce/ 16

17.

結果 モデルによって有効な強化学習手法が異なることがわかった • 比較的損失地形が単純で、初期化の影 響を受けやすい収束特性を示す場合は On-Policy型が有効ではないか Off-Policy型 Actor-Criticが優勢 On-Policy型が優勢 ※Frequency: 各RLアルゴリズムが、複数の実験設定(ハイパラの違い等)において、性能トップ3に入った回数 [6] https://dna-climate.org/2022/07/14/rce/ 17