>100 Views
May 15, 25
スライド概要
本研究は、仮想発電所(VPP)の運用において発生するインバランスコスト(需給調整に伴う罰金)の削減を目的とし、深層強化学習(Deep Reinforcement Learning)を用いた蓄電池制御プログラムの開発を行った。具体的には、PV(太陽光発電)の発電予測、電力市場価格予測、インバランス価格予測の各データを入力とし、Proximal Policy Optimization (PPO)をベースとした制御アルゴリズムを開発した。
シミュレーションにより検証した結果、本手法を用いることで従来の手法に比べて収益は約103%向上し、インバランスコストは約24%削減されることが明らかになった。従来のモデル(インバランスコストを考慮しないモデル)と比較しても大幅に優れた性能を示した。今後は、本手法の実運用化を目指し、実際の蓄電池システムを用いた実証実験を予定している。
小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください:kodaira.daisuke.gf[at]u.tsukuba.ac.jp
2025/3/20 深層強化学習を用いたPV-蓄電池システムの 収益最適化アプローチの提案と検証 A Deep Reinforcement Learning-based Approach for Revenue Optimization in PV-Battery Storage Systems 筑波大学 システム情報工学研究群 スマートグリッド研究室 修士課程1年 202420851 大曽根 佑紀 実質指導教員 小平 大輔助教
Introduction 【課題】VPP の実証実験[1] アグリゲーター 電力市場 収益 インバランスコスト(罰金) の発生 インバランスコスト 【目的】 インバランスコスト削減の ための深層強化学習を用いた 蓄電池制御プログラムの開発 前日計画の入札量 PV-蓄電池システム 蓄電池 1 グリッド PV
Previous Research 従来手法 先行研究の具体的手法 先行研究の課題 モデル モデル予測制御(MPC) 混合整数線形計画法(MILP) 環境の変化や予測誤差に対 ベース [Abdullah et al,2015] DQN (Deep Q-Network) 強化学習 DDPG (Deep Deterministic ベース Policy Gradient) して柔軟に適応できない インバランスコストを直接 的に考慮した蓄電池制御に 関する研究は少ない [Karimi Madahi et al, 2024] 本研究手法のメリット (深層強化学習ベース) • 不確実性の高い環境下でも適応的な意思決定が可能 • インバランスコストを直接反映した報酬関数で学習 2
Simulation Workflow 【手法】PPO (Proximal Policy Optimization) 深層強化学習アルゴリズム。事前の学習モデルを使って、現在 のシステム状態から、システム全体の戦略的な制御方針を作成 【入力データ】 気象予測データ ①PV予測 ② 電力価格予測 PV予測 ③ インバランス 価格予測 入力 スケジュール ④ 蓄電池 通知 システム 計画送信 蓄電池の 蓄電池の ⑤ 充放電計画策定 統合・制御指令 充放電計画策定 応答データ返却 実績 【PPO】 フィードバック 3
Simulation Model PPOモデルの報酬設計 𝑹𝟏 , 𝑹𝟐 , 𝑹𝟑 ①放電に対する正の報酬 𝑹𝟏 放電電力量[kWh]×電力価格[円/kWh] ②ペナルティ𝑹𝟐 (物理的制約を学習) • 発電量以上の充電 ③ペナルティ𝑹𝟑 (インバランスコスト) • 蓄電池のSoC以上の放電 など 太陽光発電量[kWh]×予測誤差𝜺 ×インバランス価格[円/kWh] • 予測誤差𝜺~𝜨(𝟎, 𝝈𝟐 )を使い、インバランスを疑似的に再現 • 過去のデータから実際の予測誤差を算出 → 𝝈 = 𝟎. 𝟐𝟐 4
Simulation result 2日分の充放電スケジュール結果(2022年9月8~9日) 本研究モデル(インバランス考慮あり) 従来モデル(インバランス考慮なし) インバランス価格の高騰 放電(正) 充電(負) • 本研究モデルは電力価格に追従しつつ、インバランス価格の高騰に対応 • 従来モデルは電力価格のみに追従 5
Simulation result 一ヶ月間のシミュレーションにおける収益・コスト比較結果 本研究 モデル 従来 モデル 総収益 +103% +86% インバランス コスト -24% -11% *収益、コストはベースモデル比 ベースモデル 本研究モデル 従来モデル (インバランス (インバランス 考慮あり) 考慮なし) 6 従来モデルと比較して、本研究 モデルの収益向上、インバランス コスト軽減
Summary 研究目的 インバランスコスト削減のための深層強化学習を用いた蓄電池制御プログラムの開発 研究手法 蓄電池充放電計画策定のため、PV予測、電力価格予測、インバランス価格予測を 入力データとした、PPOベースの蓄電池制御手法 研究結果 本研究モデルは、ベースモデル比で+103%の収益の向上と-24%のインバランス コストの軽減。従来モデル(収益+86%、インバランスコスト-11%)を上回る 今後の展望 実運用へ向けた蓄電池の実機での実証実験を予定 7