基于协同过滤算法的电能替代潜力用户挖掘模型研究

0 引言

2013年以来,我国先后发布了《国务院关于印发大气污染防治行动计划的通知》（国发[2013]37号）和《能源发展战略行动计划（2014—2020年）》（国办发[2014]31号）等文件,国家层面对大气污染的防治越来越重视。根据《关于推进电能替代的指导意见》（发改能源[2016]1054号）文件,目前大气污染的主要根源在于需求侧大量的散烧煤与燃油消费^[1],这将造成严重的雾霾。

近十几年来,随着科技与技术的进步,生产机器设备不断更新换代,企业生产和供电越来越紧密,国网浙江省电力有限公司在经营服务中积累了海量的企业用能数据,为挖掘企业电能替代前后的用能数据提供了可能^[2]。

另一方面,目前供电企业在推进电能替代工作时,采用传统的逐户排查方式,排查效率低下,实际工作成功率低;而电能替代涉及的设备改造、成本核算、政策调整等问题,对工作人员的专业能力提出了更高要求^[3-4]。企业需要探索新方法、研究新技术,深入分析电能替代企业的特征,利用大数据技术精准定位潜力用户群体,提升企业开展电能替代工作的效率和专业化水平^[5]。

电能替代潜力企业分析以用能设备为切入点,分析高能耗且使用非电能源较多的设备所处行业,定位电能替代工作重点挖掘的行业,通过分析设备能耗、生产时段、用电功率等信息寻找企业电能替代改造前后的用电差异,确定模型输入指标,以此为依据构建模型^[6]。

1 电能替代研究现状

国内外学者已对电能替代做了大量研究。赵会茹等^[7]从国家宏观层面阐述了电能替代在当前国家经济、环境发展战略中的机遇与挑战,并进行了环境和经济效益的量化评估;Diyar,Mehmet等^[8]从能源供给侧出发,系统地分析了土耳其从以煤电为主向水电、核电、风电等清洁能源转变的可能性、可执行性,同时运用灰度算法预测电能替代的经济效益。此外,在对用户用电负荷特性进行分类研究的基础上,李美娜等^[9]提出了模糊C-均值聚类算法,并通过基于聚类方法评价指标,选取合适的聚类数目。

本文在用户分类上采用了K-means均值分类算法,在确定聚类数目时综合考虑可替代设备、行业的生产特性因素。在对企业电能替代潜力预测方面,本文从电能需求侧供给角度出发,采用大数据挖掘技术,运用有监督的协同过滤学习算法,实现对电能替代潜力用户的判别^[10-11],提升供电企业电能替代工作的专业化和信息化水平。

2 重点行业分析及行业聚类

2.1 重点行业分析

根据《国民经济行业分类》（GB/T4754—2002）,我国行业共分20个门类913个小类,不同行业的产品、生产时段、生产设备等都存在较大差异,假如对所有细分行业分门别类地分析建模,不仅耗时耗力,且很可能会存在因部分行业目标样本过少导致模型结果不显著的问题^[12]。

本文基于细分行业各类能源使用的占比、可替代设备集中行业两方面对细分行业进行筛选,根据浙江省能源结构^[1],对能耗较高、非电能源占比较高且具备可替代设备的行业进行重点分析。

2014年工业各行业能源消费总量及构成如图1所示,从能源结构角度看,非金属矿物、化学制品、金属冶炼行业、采掘、燃料加工5个行业非电能源使用比重较高且能耗较大^[13]。

图1 2014年工业各行业能源消费总量及构成Fig.1 Total energy consumption and composition of industrial sectors in 2014

从可替代设备所应用的行业角度看,根据《关于推进电能替代的指导意见》,当前主要可替代设备有窑炉、锅炉、采暖等,各类替代设备主要应用行业见表1所列。

结合上述分析,并将部分生产特征相似的行业归纳合并,初步确定20个待分析行业,电能替代重点行业见表2所列。

表1 各类替代设备主要应用行业Tab.1 Major application industries of alternative equipments

表2 电能替代重点行业Tab.2 Key industries of power substitution

2.2 行业聚类分析及类别选择

对各行业分时用电负荷进行统计描述分析,各行业96点日负荷曲线分布如图2所示,可以看出部分行业负荷曲线呈现较高的相似性,如金融、房地产、商务及居民服务业和商业、住宿、餐饮业,非金属矿物制品业与金属铸造业。

对各行业96点负荷变量采用K-means算法进行聚类分析,各行业聚类结果见表3所列,19个行业根据其用电负荷特征整合成8类。由表3可以看到,聚类结果中同分类的行业存在明显的相关关系。其中1类主要为农业、服务行业,2、3、4、6、7类是偏生产类行业,5、8类是偏商业、办公类行业。

图2 各行业96点日负荷曲线分布Fig.2 Distribution curves of load curves with 96 points per day in different industries

表3 各行业聚类结果Tab.3 Results of cluster analysis in different industries

另一方面,通过数据统计,部分类群对应的已完成电能替代改造的样本数过少,以此构建的模型解释能力一般较弱（见表4）。根据建模的原则,输入模型的样本数至少为变量数的2~3倍,本模型分析的变量为96点负荷数据,各分类的样本数应满足至少达到192个,表4中仅有分类2、3、5、8满足此条件。因此,本文仅考虑对这4类用户进行建模分析。

表4 各类群已改造样本数Tab.4 The number of transformed samples in each group

3 企业电能替代前后用电特征变化研究

企业用电的用途主要分3类：日常照明、机械设备运作和供能加热。在电能替代中,以供能加热设备为例,如窑炉替换成中频炉、燃煤锅炉替换成电锅炉,天然气供热替换成电供热等,这类加热设备普遍存在功率大、能耗高等特点,此类设备耗电量一般占企业总用电量的30%~60%,用电时段呈现出阶段性特征。这种阶段性高耗电的特征在企业用电负荷数据上会出现明显的波峰,因此通过比对用电负荷的差异,能够精准地识别出使用非电能源的企业^[14]。

本文选取了金属铸造（五金、电器铸造业）和公共事业（高等院校）两个典型行业进行电能替代改造前后的日负荷曲线分析^[15]。改造前后负荷曲线变化如图3所示。其中五金、电器等金属铸造业在实施中频炉替代窑炉改造后,在2:00-6:00时的负荷曲线远高于改造前,这是因为金属铸造业使用窑炉（中频炉）的时间多在凌晨,因此在该时段内出现高峰负荷;高等院校食堂炊具在实施煤气改电后,明显在5:00、10:00时出现两波负荷高峰,这主要是因为该时间段分别为学校早餐、中餐时段。

通过大量样本观测发现,不同行业替代设备改造前后的日负荷曲线变化差异较大,而在同行业中这种差异十分显著,这为通过对比目标样本改造前的日负荷曲线与待预测样本的日负荷曲线的相似度提供了可能。

图3 典型行业电能替代改造前后日负荷曲线变化Fig.3 Daily load curve changes before and after replacement of electric energy in typical industries

4 基于协同过滤算法的电能替代用户判别模型

4.1 算法选择

目前对曲线相似度的计算主要是运用动态时间归整（Dynamic Time Warping,DTW）算法,但该算法需要大量的路径并对这些路径节点进行匹配计算,而日负荷96点曲线的节点数量过少,容易造成计算结果识别率不高的问题,基于DTW算法的公共事业行业的各类日负荷曲线如图4所示,运用DTW算法的同一类别曲线间差异较大,使用效果并
不佳。

图4 基于DTW算法的公共事业行业的各类日负荷曲线Fig.4 Daily load curve of public utilities industry based on DTW algorithm

本文通过处理96点日负荷,计算2个企业间的相似度。通过将目标样本改造前曲线与待预测样本曲线的相似度对比,找出各类群与目标样本改造前曲线相似的企业,作为模型结果潜力用户的输出。模型思路如图5所示。

图5 模型思路Fig.5 Thinking of model

协同过滤算法在电商领域有着广泛的应用,它是一种商品推荐算法,用于给品味相似的用户推荐相关的商品。

在本文中,将商品替换为96点日负荷采集点,采用皮尔逊相关系数^[10]计算两个用户间的相似度。假设用户A在负荷点i的得分为r_a,i,用户A所有负荷点平均得分为r_a,用户A的负荷点得分集合为I_a,用户A和用户B负荷点得分集合为I_ab,则用户A、B的Pearson相似度为：

（2）

式中,μ为每个簇S的平均值,上式等同于最小化成对的平方偏差：

"表5 Tab.5 Sample distribution and stratified sampling results of various groups " style="box-sizing: border-box; color: rgb(43, 43, 43); text-decoration-line: none;">表5 各类群样本分布及分层抽样结果Tab.5 Sample distribution and stratified sampling results of various groups

协同过滤算法属于关联算法,因此在模型验证上沿用传统模型验证的思维,即检验目标样本对待预测样本识别的准确性和稳定性^[16],用测试集与验证集内的目标样本分别计算待预测样本的相
似度。

至此,对协同过滤算法的验证问题将转化为两独立样本的差异性检验问题,T检验结果P值为0.20,远大于0.05,接受原假设,说明通过测试集与验证集得到的结果并无太大差异。

在此,引入其他预测模型算法,并对比在此项目中与协同过滤算法的优劣。各模型算法成效比较（以Cluster3为例）见表6和图6,协同过滤算法在训练集和验证集上整体表现都比较稳定,准确率高达96.23%。而DTW算法对负荷曲线的识别能力相对较差,准确率仅为86.17%。决策树与逻辑回归算法虽然在训练集上表现较佳,但由于输入变量过多,很明显地出现了过拟合现象,验证集准确率远低于训练集准确率。

热搜词 :

0 引言

1 电能替代研究现状

2 重点行业分析及行业聚类

2.1 重点行业分析

2.2 行业聚类分析及类别选择

3 企业电能替代前后用电特征变化研究

4 基于协同过滤算法的电能替代用户判别模型

4.1 算法选择

相关新闻

虚拟电厂与售电公司必须是一家么？

广东省虚拟电厂实施细则正式发布

虚拟电厂缺什么？

多供电回路下的实际最大需量

“千亿”市场预期下，虚拟电厂建设还“缺”些什么？