基于改进Q学习算法的储能系统实时优化决策

福州大学电气工程与自动化学院的研究人员汪波、郑文迪，在2018年第2期《电气技术》杂志上撰文指出，随着分布式清洁能源在电网所占比重逐年增加，其功率预测误差给电网的稳定运行带来巨大挑战，如何使储能系统在实时调度周期快速做出充放电决策达到最优的削峰填谷效果需要一种控制方法。

考虑储能系统充放电爬坡和存储电量限值等约束条件，提出改进的Q学习算法，用全局最优惩罚项引导其利用离线数据分阶段学习训练得出最优决策，可以快速地收敛，且准确性高；在实时调度周期负荷功率预测不准确时，储能系统只需要修正状态量并判断其所处状态，基于训练好的Q值表，采用贪婪策略可以快速得出其最优动作值，不需要再进行全局寻优迭代运算。

仿真算例结果表明，相比于传统Q学习算法，本文所提方法收敛速度更快，且训练好的Q值表可以用于实时调度周期储能系统做优化决策。

储能系统具有平衡功率波动，对负荷曲线削峰填谷的优点，也可以提高分布式设备的利用率，节省分布式电源容量成本，还可以保持系统稳定[1-5]。中关村储能产业技术联盟发布的《储能产业研究白皮书2016》预测，到2020年，理想情景下，我国储能市场总装机规模将达24.2 GW；常规情景下，我国储能市场总装机规模也将达到14.5 GW。随着分布式能源近年来大规模接入电网，其作用更加重要，而储能投资成本近年来也不断下降，储能产业将快速发展并推动能源变革。

目前，储能系统的运行主要面临两个问题，第一，绝大部分的储能系统控制策略都是将其作为辅助元件，被动的接收调度命令，如文献[6]提出一种消纳高渗透分布式光伏发电有功功率波动的集中式储能电站实时调度方法；文献[7]在孤岛运行微电网能量优化管理中，不仅对分布式发电输出功率进行优化分配，还根据模糊逻辑对蓄电池的充放电进行能量的调度；文献[8]将蓄电池虚拟放电和充电价格计入群体寻优目标函数，结合协同进化遗传算法，使用群体寻优目标函数和精英寻优目标函数寻求分阶段经济调度最优解。

在这种情况下，当电力用户和中间商都参与进来的时候，调度需要考虑太多因素，不满足实时调度的实时性需求。第二，目前的储能系统充放电策略优化算法有遗传算法[9]、粒子群算法[10]、模拟退火算法[11]、动态规划算法[12]等，这些方法都是针对负荷曲线为确定情况，而在实时调度期间，实时负荷功率与预测值有误差，以上方法都需要重新计算策略，不满足实时性需求。

文献[13]研究了储能系统能量调度及需求响应联合优化问题，对储能单元动作及可延时负荷动作进行优化控制，但是其并没有量化储能系统的充放电数值，而且其采用的传统Q学习算法，收敛速度较慢，需要调整好参数才能收敛。

本文使储能系统以净负荷功率曲线方差最小为目标，决策其每一实时调度周期的充放电功率值。提出了用全局最优惩罚项的方法来引导Q学习算法获得一天的最优动作值，相比于传统Q学习算法，收敛速度更快；用训练好的Q值表指导储能系统在实时调度周期做出最优充放电动作决策，在净负荷功率预测不准确的情况下不需要重新迭代运算获得最优动作值，从而满足实时性要求。

图1 净负荷曲线

结论

本文基于Q值表的记忆功能，提出改进的Q学习算法，去掉了遗忘因子，将不同状态下即时报酬之间的关系解耦，用全局最优惩罚项引导算法收敛，使储能系统获得一天的最优充放电动作决策，这种方法是基于初始Q值表对各种状态情况下采取不同动作的即时报酬有了认识以后才进行的。

相比于传统Q学习算法，其收敛速度更快，准确性更高，迭代完成后的结果具有唯一性。而且，因为Q值表具有记忆功能，在实时调度周期不需要因为负荷功率预测值不准确而重新进行迭代寻优，只需修正并判断其当前所处状态，基于训练好的Q值表使用贪婪策略可快速获得当前状态最优动作值。但是这种方法需要较大的内存存储Q值表中的数值，后续工作可以考虑如何减少状态总数，从而减少Q值表中的值，避免维数过大。

热搜词 :

相关新闻

虚拟电厂缺什么？

多供电回路下的实际最大需量

“千亿”市场预期下，虚拟电厂建设还“缺”些什么？

关于建立独立储能容量电价机制的探讨

储能系统价格触底正式进入“0.5元时代”