強化学習を用いた蓄電池制御アルゴリズムでの物理的制約に基づいた報酬設計

1.2K Views

May 15, 25

#深層強化学習 #蓄電池制御 #報酬設計 #制約最適化 #pv（太陽光発電） #強化学習 #物理的制約

スライド概要

本研究では、蓄電池制御に深層強化学習を用いる際の物理的制約（PV発電量以下の充電制約と蓄電池容量制約）を守るための新たな報酬設計を提案した。従来のクリップ関数による制約対応では学習効率が低下する課題があり、それを改善するために制約違反の度合いを「Action Difference (AD)」として報酬に組み込んだ。シミュレーションの結果、提案手法は制約違反量を大幅に抑制し、収益も改善することを実証した。

小平　大輔

@daisuke-kodaira

スライド一覧

小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください：kodaira.daisuke.gf[at]u.tsukuba.ac.jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ブロックチェーンを用いたP2P電力取引に関する研究

ブロックチェーン

小平　大輔 6K

住宅用太陽光発電に併設した蓄電池の深層強化学習による運用

機械学習強化学習蓄電池太陽光発電

小平　大輔 4.4K

2021_アンサンブル学習による電力需要予測

機械学習

小平　大輔 4.3K

2024_収益向上を目指した強化学習ベースの蓄電池制御手法の検討

強化学習蓄電池太陽光発電

小平　大輔 4.3K

2024_Quantile Regressionを用いた確率的電力価格予測

電力価格分位点予測電力取引市場

小平　大輔 3.1K

2022_太陽光発電出力予測における学習データの欠損値補完

小平　大輔 2.6K

各ページのテキスト

2025/3/18 強化学習を用いた蓄電池制御アルゴリズムでの物理的制約に基づいた報酬設計 Proposal of Reward Design Based on Physical Constraints in a Reinforcement Learning-Based Battery Control Algorithm 筑波大学理工情報生命学術院システム情報工学研究群スマートグリッド研究室博士前期課程1年 202420889 橋場怜央指導教員小平大輔助教

Introduction 仮想発電所(VPP: Virtual Power Plant)の実証実験 1 【課題例】：前日入札値と実際の取引の差分による罰金系統・スポット市場 PV 前日入札＆当日取引蓄電池蓄電池の最適な充放電計画を立てる研究が行われている 1

Introduction 深層強化学習(DRL: Deep Reinforcement Learning)に注目物理的制約を実装する必要性 • 蓄電池の過充電・過放電等の意図しない状態を防ぎ、システムの信頼性を高めるクリップ関数本研究で実装する物理的制約 ‾ ‾ 指定された上限値と下限値の範囲内に強制的に制限する制約① 「PV出力の制約」制約② 「蓄電池容量の制約」クリップ関数を用いることで簡単に達成できるが、問題点あり 2

Introduction クリップ関数のみの問題点 • 強化学習（RL: Reinforcement Learning）モデルが制約を学習しないため、学習効率低下そこで、先行研究 𝟐 にて制約をRLモデルに組み込む報酬設計が提案された正常範囲外 150% 正常範囲内 0～100% 100%を超える充電NG × -50% 0％を下回る放電NG 0～100% × [2]：B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272-2283, May 2021, doi: 10.1109/TSG.2020.3047890. 3

Objective 先行研究からの課題 • 「PV出力の制約」はクリップ関数のまま • どの程度貢献しているのか？目的 • 「PV出力の制約」も報酬設計に組み込む • 提案する報酬設計が行動選択に貢献していることを示す方法 • 蓄電池制御アルゴリズムにおいて、2つの制約を考慮する「Action Difference (AD)」という概念を用いた報酬設計を提案する 4

物理的制約&ADを使った報酬制約①: PV出力の制約（𝑷𝑽出力量 ≥ 蓄電池への充電量）制約②: 蓄電池容量の制約（𝟎 ≤ 蓄電池充電状態 ≤ 蓄電池の最大容量）系統から電力は調達できない PVは蓄電池への充放電を介して売電 100%を超える充電NG 150% -50% × 0％を下回る放電NG × ２つの制約を同時に守る必要がある制約条件を守るための報酬: 𝑟1 = −制約違反合計量(𝐴𝐷) 𝑘𝑊ℎ × 電力価格 - RLモデルにADと電力価格に基づいた報酬を与える 5

報酬設計 3種類の報酬 • 制約条件を守るための報酬: 𝑟1 = −制約違反合計量 𝑘𝑊ℎ × 電力価格 - RLモデルにADと電力価格に基づいた報酬を与える • 収益を最大化するための報酬: 𝑟2 = 電力取引量[kWh] × 電力価格 - RLモデルに取引収益を与える • 制約を守りながら収益を最大化させる報酬: 𝑟1 + 𝑟2 - 他の報酬と組んでも制約を守れるのか検証 3種類の報酬で制約違反合計量（AD）の学習推移を比較し、検証する 6

Simulation Result 収益最大化のみを考慮（𝒓𝟐 ） 1日の合計で70～90kWh の違反を犯している制約違反量 [kWh] [kWh] 制約違反量収益は無視、制約違反量のみ考慮（𝒓𝟏 ） 1日の合計で0～0.5kWh の違反に収まっている収益：約375円収益：約362円 7

Simulation Result 収益は無視し制約違反量のみ考慮（𝒓𝟏 ）収益と制約違反量を考慮（𝒓𝟑 ）収益：約375円収益：約372円制約違反量 [kWh] [kWh] 制約違反量 1日の合計で0～2.0kWh の違反に収まっている ADを他の報酬と組み合わせても、制約を考慮した行動選択を促すことが可能となる 8

10.

Summary 研究目的 • 以下の2つの制約を同時に満たす報酬設計を設計 ‾ 制約①「蓄電池への充電量がPV発電量以下である」 ‾ 制約②「蓄電池容量が正常範囲内である」 • 提案した報酬設計がRLモデルの行動選択に有用であることを示す研究手法 • 2つの制約条件を同時に考慮する機能を持つADを報酬設計に加える • 提案した報酬設計の行動選択への効果をシミュレーションで検証する研究結果 • 提案した報酬設計が制約を考慮した行動選択に有用であることを示した。 9

11.

補足資料

12.

Introduction クリップ関数のみの問題点 • 強化学習（RL: Reinforcement Learning）モデルが制約を学習しないこと • 不適切な行動を探索し続けてしまい、学習プロセスの効率低下を招くそこで、先行研究 𝟐 にて制約をRLモデルに組み込む報酬設計(式(1))が提案された 0 𝑃𝑒𝑛𝑎𝑙𝑡𝑦 = 𝑃𝑏𝑢𝑦 𝐸𝐶 𝑃𝑏𝑢𝑦 𝐸𝐶 𝐸𝐶𝑚𝑎𝑥 − 𝐸𝐶 0 ≤ 𝐸𝐶 ≤ 𝐸𝐶𝑚𝑎𝑥 (𝐸 𝐶 < 0൯ 𝐸𝐶 = 蓄電池の状態 𝐸𝐶𝑚𝑎𝑥 = 蓄電池の最大容量 𝑃𝑏𝑢𝑦 = 電力購入価格 1 (𝐸 𝐶 > 𝐸𝐶𝑚𝑎𝑥 ൯ 制約②に対するペナルティであり、報酬設計に組み込むことで、 RLモデルが制約②を満たすような行動を出力するように学習することが期待される [2]：B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272-2283, May 2021, doi: 10.1109/TSG.2020.3047890. 11

13.

Action Difference (AD) 制約①の実装（𝑷𝑽出力量 ≥ 蓄電池への充電量） 𝐴𝑟𝑎𝑤 𝐴𝑒𝑑𝑖𝑡1 = ൞𝐴𝑟𝑎𝑤 𝑃𝑉𝑜𝑢𝑡 𝐴𝑟𝑎𝑤 ≥ 0 𝐴𝑟𝑎𝑤 < 0 𝑎𝑛𝑑 𝑃𝑉𝑜𝑢𝑡 + 𝐴𝑟𝑎𝑤 ≥ 0 𝐴𝑟𝑎𝑤 = RLモデルが出力した行動 𝐴𝑟𝑎𝑤 ≥ 0は蓄電池の放電 𝐴𝑟𝑎𝑤 < 0はPVから蓄電池への充電 2 𝐴𝑒𝑑𝑖𝑡1 = 制約①によって編集された行動 𝑃𝑉𝑜𝑢𝑡 = 𝑃𝑉の発電量 𝐴𝑟𝑎𝑤 < 0 𝑎𝑛𝑑 𝑃𝑉𝑜𝑢𝑡 + 𝐴𝑟𝑎𝑤 < 0 制約②の実装（𝟎 ≤ 蓄電池充電状態 ≤ 蓄電池の最大容量） 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 = 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝐴𝑒𝑑𝑖𝑡1 3 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 = 現在の蓄電池の状態 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 = 仮の次の蓄電池の状態 𝐴𝑒𝑑𝑖𝑡2 , 𝑆𝑜𝐶𝑛𝑒𝑥𝑡 = 𝐴𝑒𝑑𝑖𝑡1 , 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 0 ≤ 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 ≤ 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑆𝑜𝐶 𝑚𝑎𝑥 , 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 > 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , 0 4 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 < 0 12 𝑆𝑜𝐶 𝑚𝑎𝑥 = 蓄電池の最大容量 𝐴𝑒𝑑𝑖𝑡2 = 制約②によってさらに編集された行動

14.

Action Difference(AD) 𝑨𝑫 = 𝒂𝒃𝒔 𝑨𝒓𝒂𝒘 − 𝑨𝒆𝒅𝒊𝒕𝟐 𝟓 →𝑨𝑫 = 𝟎つまり𝑨𝒓𝒂𝒘 が一度も編集されず RLモデルが制約の範囲内でのみ行動選択をすることが理想的 3種類の報酬 • 𝒓𝟏 = −𝑨𝑫 × 𝑷𝒆𝒏𝒆𝒓𝒈𝒚 - • 𝒓𝟐 = 𝑷𝑽𝒐𝒖𝒕 + 𝑨𝒆𝒅𝒊𝒕𝟐 × 𝑷𝒆𝒏𝒆𝒓𝒈𝒚 - • RLモデルにADと電力価格𝐏𝐞𝐧𝐞𝐫𝐠𝐲 に基づいた報酬 RLモデルに取引収益を与える 𝒓𝟑 = 𝒓𝟏 + 𝒓𝟐 3種類の報酬それぞれでRLモデルを学習させ、ADの学習推移を比較し提案した報酬設計が制約に対して有用かどうかを検証する 13

強化学習を用いた蓄電池制御アルゴリズムでの 物理的制約に基づいた報酬設計

小平 大輔