>100 Views
May 15, 25
スライド概要
本研究では、蓄電池制御に深層強化学習を用いる際の物理的制約(PV発電量以下の充電制約と蓄電池容量制約)を守るための新たな報酬設計を提案した。従来のクリップ関数による制約対応では学習効率が低下する課題があり、それを改善するために制約違反の度合いを「Action Difference (AD)」として報酬に組み込んだ。シミュレーションの結果、提案手法は制約違反量を大幅に抑制し、収益も改善することを実証した。
小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください:kodaira.daisuke.gf[at]u.tsukuba.ac.jp
2025/3/18 強化学習を用いた蓄電池制御アルゴリズムでの 物理的制約に基づいた報酬設計 Proposal of Reward Design Based on Physical Constraints in a Reinforcement Learning-Based Battery Control Algorithm 筑波大学 理工情報生命学術院 システム情報工学研究群 スマートグリッド研究室 博士前期課程1年 202420889 橋場怜央 指導教員 小平 大輔助教
Introduction 仮想発電所(VPP: Virtual Power Plant)の実証実験 1 【課題例】:前日入札値と実際の取引の差分による罰金 系統・スポット市場 PV 前日入札&当日取引 蓄電池 蓄電池の最適な充放電計画を立てる研究が行われている 1
Introduction 深層強化学習(DRL: Deep Reinforcement Learning)に注目 物理的制約を実装する必要性 • 蓄電池の過充電・過放電等の意図しない状態を防ぎ、システムの信頼性を高める クリップ関数 本研究で実装する物理的制約 ‾ ‾ 指定された上限値と下限値の 範囲内に強制的に制限する 制約① 「PV出力の制約」 制約② 「蓄電池容量の制約」 クリップ関数を用いることで簡単に達成できるが、問題点あり 2
Introduction クリップ関数のみの問題点 • 強化学習(RL: Reinforcement Learning)モデルが制約を学習しないため、学習効率低下 そこで、先行研究 𝟐 にて制約をRLモデルに組み込む報酬設計が提案された 正常範囲外 150% 正常範囲内 0~100% 100%を超える充電NG × -50% 0%を下回る放電NG 0~100% × [2]:B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272-2283, May 2021, doi: 10.1109/TSG.2020.3047890. 3
Objective 先行研究からの課題 • 「PV出力の制約」はクリップ関数のまま • どの程度貢献しているのか? 目的 • 「PV出力の制約」も報酬設計に組み込む • 提案する報酬設計が行動選択に貢献していることを示す 方法 • 蓄電池制御アルゴリズムにおいて、2つの制約を考慮する 「Action Difference (AD)」という概念を用いた報酬設計を提案する 4
物理的制約&ADを使った報酬 制約①: PV出力の制約 (𝑷𝑽出力量 ≥ 蓄電池への充電量) 制約②: 蓄電池容量の制約 (𝟎 ≤ 蓄電池充電状態 ≤ 蓄電池の最大容量) 系統から電力は調達できない PVは蓄電池への充放電を介して売電 100%を超える充電NG 150% -50% × 0%を下回る放電NG × 2つの制約を同時に守る必要がある 制約条件を守るための報酬: 𝑟1 = −制約違反合計量(𝐴𝐷) 𝑘𝑊ℎ × 電力価格 - RLモデルにADと電力価格に基づいた報酬を与える 5
報酬設計 3種類の報酬 • 制約条件を守るための報酬: 𝑟1 = −制約違反合計量 𝑘𝑊ℎ × 電力価格 - RLモデルにADと電力価格に基づいた報酬を与える • 収益を最大化するための報酬: 𝑟2 = 電力取引量[kWh] × 電力価格 - RLモデルに取引収益を与える • 制約を守りながら収益を最大化させる報酬: 𝑟1 + 𝑟2 - 他の報酬と組んでも制約を守れるのか検証 3種類の報酬で制約違反合計量(AD)の学習推移を比較し、検証する 6
Simulation Result 収益最大化のみを考慮(𝒓𝟐 ) 1日の合計で70~90kWh の違反を犯している 制 約 違 反 量 [kWh] [kWh] 制 約 違 反 量 収益は無視、制約違反量のみ考慮(𝒓𝟏 ) 1日の合計で0~0.5kWh の違反に収まっている 収益:約375円 収益:約362円 7
Simulation Result 収益は無視し制約違反量のみ考慮(𝒓𝟏 ) 収益と制約違反量を考慮(𝒓𝟑 ) 収益:約375円 収益:約372円 制 約 違 反 量 [kWh] [kWh] 制 約 違 反 量 1日の合計で0~2.0kWh の違反に収まっている ADを他の報酬と組み合わせても、制約を考慮した行動選択を促すことが可能となる 8
Summary 研究目的 • 以下の2つの制約を同時に満たす報酬設計を設計 ‾ 制約①「蓄電池への充電量がPV発電量以下である」 ‾ 制約②「蓄電池容量が正常範囲内である」 • 提案した報酬設計がRLモデルの行動選択に有用であることを示す 研究手法 • 2つの制約条件を同時に考慮する機能を持つADを報酬設計に加える • 提案した報酬設計の行動選択への効果をシミュレーションで検証する 研究結果 • 提案した報酬設計が制約を考慮した行動選択に有用であることを示した。 9
補足資料
Introduction クリップ関数のみの問題点 • 強化学習(RL: Reinforcement Learning)モデルが制約を学習しないこと • 不適切な行動を探索し続けてしまい、学習プロセスの効率低下を招く そこで、先行研究 𝟐 にて制約をRLモデルに組み込む報酬設計(式(1))が提案された 0 𝑃𝑒𝑛𝑎𝑙𝑡𝑦 = 𝑃𝑏𝑢𝑦 𝐸𝐶 𝑃𝑏𝑢𝑦 𝐸𝐶 𝐸𝐶𝑚𝑎𝑥 − 𝐸𝐶 0 ≤ 𝐸𝐶 ≤ 𝐸𝐶𝑚𝑎𝑥 (𝐸 𝐶 < 0൯ 𝐸𝐶 = 蓄電池の状態 𝐸𝐶𝑚𝑎𝑥 = 蓄電池の最大容量 𝑃𝑏𝑢𝑦 = 電力購入価格 1 (𝐸 𝐶 > 𝐸𝐶𝑚𝑎𝑥 ൯ 制約②に対するペナルティであり、報酬設計に組み込むことで、 RLモデルが制約②を満たすような行動を出力するように学習することが期待される [2]:B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272-2283, May 2021, doi: 10.1109/TSG.2020.3047890. 11
Action Difference (AD) 制約①の実装(𝑷𝑽出力量 ≥ 蓄電池への充電量) 𝐴𝑟𝑎𝑤 𝐴𝑒𝑑𝑖𝑡1 = ൞𝐴𝑟𝑎𝑤 𝑃𝑉𝑜𝑢𝑡 𝐴𝑟𝑎𝑤 ≥ 0 𝐴𝑟𝑎𝑤 < 0 𝑎𝑛𝑑 𝑃𝑉𝑜𝑢𝑡 + 𝐴𝑟𝑎𝑤 ≥ 0 𝐴𝑟𝑎𝑤 = RLモデルが出力した行動 𝐴𝑟𝑎𝑤 ≥ 0は蓄電池の放電 𝐴𝑟𝑎𝑤 < 0はPVから蓄電池への充電 2 𝐴𝑒𝑑𝑖𝑡1 = 制約①によって編集された行動 𝑃𝑉𝑜𝑢𝑡 = 𝑃𝑉の発電量 𝐴𝑟𝑎𝑤 < 0 𝑎𝑛𝑑 𝑃𝑉𝑜𝑢𝑡 + 𝐴𝑟𝑎𝑤 < 0 制約②の実装(𝟎 ≤ 蓄電池充電状態 ≤ 蓄電池の最大容量 ) 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 = 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝐴𝑒𝑑𝑖𝑡1 3 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 = 現在の蓄電池の状態 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 = 仮の次の蓄電池の状態 𝐴𝑒𝑑𝑖𝑡2 , 𝑆𝑜𝐶𝑛𝑒𝑥𝑡 = 𝐴𝑒𝑑𝑖𝑡1 , 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 0 ≤ 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 ≤ 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑆𝑜𝐶 𝑚𝑎𝑥 , 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 > 𝑆𝑜𝐶 𝑚𝑎𝑥 𝑆𝑜𝐶𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , 0 4 𝑆𝑜𝐶𝑡𝑒𝑚𝑝 < 0 12 𝑆𝑜𝐶 𝑚𝑎𝑥 = 蓄電池の最大容量 𝐴𝑒𝑑𝑖𝑡2 = 制約②によってさらに編集された行動
Action Difference(AD) 𝑨𝑫 = 𝒂𝒃𝒔 𝑨𝒓𝒂𝒘 − 𝑨𝒆𝒅𝒊𝒕𝟐 𝟓 →𝑨𝑫 = 𝟎つまり𝑨𝒓𝒂𝒘 が一度も編集されず RLモデルが制約の範囲内でのみ行動選択をすることが理想的 3種類の報酬 • 𝒓𝟏 = −𝑨𝑫 × 𝑷𝒆𝒏𝒆𝒓𝒈𝒚 - • 𝒓𝟐 = 𝑷𝑽𝒐𝒖𝒕 + 𝑨𝒆𝒅𝒊𝒕𝟐 × 𝑷𝒆𝒏𝒆𝒓𝒈𝒚 - • RLモデルにADと電力価格𝐏𝐞𝐧𝐞𝐫𝐠𝐲 に基づいた報酬 RLモデルに取引収益を与える 𝒓𝟑 = 𝒓𝟏 + 𝒓𝟐 3種類の報酬それぞれでRLモデルを学習させ、ADの学習推移を比較し 提案した報酬設計が制約に対して有用かどうかを検証する 13