(广西蓝深设计有限公司广西南宁530001)
摘要:电力用户作为智能主体,在电网需求中起了重要的作用。对于电力用户侧大数据实时的采集,传输和存储,还有庞大的历史数据进行有效而快速的分析。这些大数据不仅仅包括智能电表收集的用电量,还有各类传感器按照固定频率采集的温度、天气、湿度、地理信息和风速信息等。用户测数据复杂程度增大,数据存储规模将从目前的GB级增长到TB级,甚至PB级,逐步构成了用户侧大数据。而针对这些数据的分析支撑着智能电网的可靠安全地运行,对这些数据的分析具有跨时代的意义。
关键词:电力用户;大数据;分析;负荷预测
引言:随着智能电网、通信网络技术和传感器技术的发展,电力用户侧数据呈指数级增长、复杂程度增大,逐步构成了用户侧大数据。传统的数据分析模式已无法满足需求,迫切需要解决电力用户侧的大数据在分析与处理方面的难题。该文分析电力用户大数据的来源,针对电力用户侧大数据的数据量大、种类繁多与速度快等特点,指出电力用户侧的大数据在数据存储、可用性、处理等方面面临的挑战。结合云计算技术提出一种电力用户侧大数据分析处理平台,将智能电表、SCADA系统和各种传感器中采集的数据整合,并利用并行化计算模型MapReduce与内存并行化计算框架Spark对电力用户侧的大数据进行分析。提出基于随机森林算法的并行负荷预测方法,将随机森林算法进行并行化,对历史负荷、温度、风速等数据进行并行化分析,缩短负荷预测时间和提高随机森林算法对大数据的处理能力。
1.电力用户侧大数据分析
智能电表的广泛运用于各个领域,各类传感器的普及,智能家电(比如智能化冰箱,洗衣机灯智能电器的普及)和各类消费模式的改变。这三个方面是电力用户侧大数据的主要来源。智能电表也是得到了全国普及,从往年的智能电表的覆盖率中看出,从2016年1月份就达到了60.2%,智能家电也在普通家庭中得到了普及。所以结合以上的数据我们可以看出电力用户侧大数据有以下特点。
1.1数据量大
随着电网智能化程度的加深,人们精确和标准化的计算这些数据,这些数据的维度也发生的变化。人们采集种类的增多,数据量快速增长,历史的数据再也难以满足复杂数据的分析。
1.2数据结构类型繁多
各种结构化数据、半结构化数据和非结构化数据是各类传感器收集的数据的重要组成部分。这三个数据结构类型是传感器的典型组成部分。
1.3速度快
电力用户数据指数级的增长,其速度之快令人始料未及。电力系统中的高级应用不仅需要对现在搜集的信息进行分析,还需要对海量的历史数据进行离线分析处理,这些需要往往要求数据平台能够提供并行化的海量历史数据批处理的能力,并且能够快速传输与存储采集到的新数据。
1.4数据的交互性
交互性也是智能电网的又一个特征,通过和用户的交互实现智能用电,以及和各行业的数据相互的融合,才能更深层次的挖掘分析进行电力负荷预测。更深层次的挖掘分析电力负荷预测中最难的一个方面是由于数据的交互性,这样让数据更庞大、更复杂,对于我们负荷预测增加了难度。我们要从这个方面着手才能有所突破。
2.基于随机森林算法的并行负荷预测
2.1电力负荷预测
负荷预测是电网规划中的关键环节,是变电站、网架规划重要计算依据,高精度的短期负荷预测能够有效降低发电成本,有关键作用。目前,短期负荷预测常用的方法主要包括以下几种:决策树、极限学习、遗传算法等。其中,决策树在传统预测算法中得到广泛研究,通过分析了决策树ID3在扩展时易偏向属性值多的属性及属性间相关性考虑较少的缺点,对其进行改进,提出了属性–值对的两次信息增益优化算法,并用此算法进行日特征负荷决策树预测,预测结果能够满足并超过负荷预测实用化标准的要求,并具有较高的预测精度。根据各时段负荷和平均负荷受相关因素影响的不同,结合决策树和解耦法提出解耦决策树方法进行预测,并将决策树前两层由实际经验指定,其余节点自动形成,该方法已在北方某市进行实际应用。随着大数据的产生,云计算技术也越来越多的应用在电力系统中,研究人员针对智能电网中负荷数据的特性,结合云计算技术,利用极限学习进行负荷预测,使其具有分布式能力和多Agent思想,提升了负荷预测算法预测准确率和速度。
以上方法均已取得了相应的研究成果,其中决策树是解决短期电力负荷的主流算法之一,但其自身原因和外界因素也存在很多不足,总结如下:
一是在建树初始要把所有属性读入内存,这限制了可以处理的数据量,无法对大数据进行分析;二是容易出现过生长现象,使决策树过于复杂,导致对训练数据集可以进行很好的分类,但对测试数据集分类效果不佳;三是随着智能电网的不断发展,用电信息的采集频率不断提高,以及对预测的精度要求越来越高,采集到的影响负荷变化的随机因素也越来越庞大,不确定性也越来越大;因此,传统的数据挖掘算法已经不能满足大数据环境下短期负荷预测的要求。随机森林是一种集成学习方法,以决策树为基本学习单元,包含多个由Bagging集成学习理论和随机子空间方法训练得到的决策树,输入待分类的样本,由各个决策树产生各分类结果,最终的分类结果由各个决策树的结果进行投票决定。随机森林是多个决策树的集成学习方法,不仅可以克服决策树的一些不足,而且具有良好的可扩展性和并行性,能够有效解决大数据的快速处理问题,针对大数据环境下的电力负荷预测有较好的应用前景。
2.2随机森林算法原理
随机森林是由一系列分类回归树组成的,在2001年由LeoBreiman根据他的Bagging集成学习理论和Ho提出的随机子空间理论相结合提出的。在随机森林中,每个分类回归树都有各自独立的样本训练集TS,TS是由Bagging算法从总样本S中有放回的抽取与S等数量的样本组成。算法在利用各个TS进行分类回归树的训练学习,形成各个分类器过程中,每个内部节点的分支是根据随机子空间理论随机选取若干个属性值进行的,最后形成一个具有分类规则或者回归功能的决策树群。随机森林的最终结果为各个分类回归树进行投票选择或者各分类回归树结果的平均值。单个分类回归树的构造过程主要包括从属性集中选择合适的属性值进行分支,然后在其产生的子树上分别重复划分搜索过程,直到满足一个停止生长规则为止。
总结:本文主要是通过分析电力用户侧大数据的特征,提出了并行负荷预测的方法,主要是除了传统的计算方法,也可以结合随机森林算法来预测,利用现代化的云端技术对于这些数据的分析,对历史庞大的数据和现在智能化数据的分析。这三者并行化处理,可以得到负荷预测,对于我们电力系统的分析起了很大的作用。我们还要从很多方面来提高这种计算的准确性,以后是我们重点要研究的课题,也许面对将来更巨大的电力用户侧数据还需要更多更好的方法来计算。
参考文献:
[1]周琪,杨洁,韩俊杰,罗欣,赵燃.基于大数据的业扩用户用电行为特征研究[J].中国电力,2017,50(10):176-180.
[2]黄庆仕,陈冬沣,肖建华.电力用户侧大数据分析与并行负荷预测研究[J].自动化应用,2016(11):113-114.
[3]刘博,栾文鹏.基于负荷分解的用电数据云架构方案及应用场景[J].电网技术,2016,40(03):791-796.
[4]段霁蓉.阳泉供电公司便民缴费网络建设可行性研究[J].品牌,2015(07):79-80.
[5]张华赢,朱正国,姚森敬,高田,曹军威,韩蓄,王淼.基于大数据分析的暂态电能质量综合评估方法[J].南方电网技术,2015,9(06):80-86.