国网忻州供电公司山西省忻州市034000
摘要:目前,电力营销管理系统主要是手动导出电费的细节,欠款的详细信息和其他数据营销管理系统,根据收集策略实现层面上,两个,三个收集工作,浪费人力和物质资源,低效率的收集工作,只能被动后电费回收工作。利用大数据技术对大客户的电费回收风险进行分析预测,及时发现存在的电费回收风险点。通过营销策略调整,降低了风险,有效提高了电费回收率,提高了电力企业的运行效率。
关键词:电费回收;风险预测;大数据;方法应用
1、前言
近年来,随着国家电网公司信息化建设的快速发展,海量的营销数据中包含有较为完备的用户基础信息、用户用电信息、电费信息、缴费信息以及其他相关信息,数据化分析应用成为公司运营监测工作的重点方向。
2、电费风险预测数据来源
电费回收率作为电网公司收益的主要的运营指标数据,体现了电网公司经营效益的成果。凡事预则立,不预则废,在提升电费回收率、有效地降低电费回收风险方面同样适用。深入探讨电费风险产生的原因,对风险影响因素进行分类,主要分为内部和外部两大方面的因素,电费风险预测数据主要包括:内部因素数据(用户基础信息、业扩信息、电费信息、欠费历史信息、用电检查信息、营销稽查信息等)、外部因素数据(企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息、企业经营状况、国家宏观经济环境、区域社会环境等)。
2.1内部因素
营销管理系统中的用户类型信息包括企业客户、个人客户、集团客户、事业单位客户、社会团体、政府机关、军事单位客户,本文分析范围只针对电费回收风险较大的企业客户进行分析。个人客户由于基数较大、个体风险影响较低,同时事业单位客户、社会团体、政府机关等客户因负有社会责任,受外部因素影响较低。电费信息、业扩信息、稽查信息、用检信息和欠费历史信息均由营销管理系统提供,企业用户信息、业扩信息以及欠费信息均包含企业行业类别信息以及企业基本信息,通过企业信息可进行外部因素关联分析。
2.2外部因素
企业基本信息包括企业名称、经营范围、法人、注册资本、税号等信息,来源于工商管理局系统,同时还需要来源于征信系统的企业法人征信信息,税务局系统的纳税证明信息,银行系统的贷款信息及还款信息,企业经营状况、宏观经济因素(资讯、视频、图片等)以及特定行业影响因素(比如农产品加工企业,需要考虑气候、产能等因素)主要从网络途径获取,考虑外部因素的难度主要在于有效数据的获取和筛查。
3、电费风险预测技术分析
电费回收风险预测数据量大,数据类别多,不仅有结构化的用户、电费、征信信息,还有半结构化和非结构化的外部数据、网络数据,本文引入Hadoop架构以解决海量数据存储、数据多样化处理的需求,同时软硬件成本较低。Hadoop是由Apache基金会所开发的分布式系统基础架构,典型技术架构主要包括数据采集、数据存储、数据管理、数据计算、数据分析五层模型,图1为hadoop平台技术架构。
3.1数据采集
目前电力营销管理系统使用传统的关系型数据库存储用电客户、电费、业扩、用检、稽查等数据。企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息等数据需从工商管理局、银行、征信等专业系统获取,需考虑各系统的数据存储方式及获取方式的多样性。企业经营状况、国家宏观经济环境、区域社会环境等半结构化或非结构化数据主要是借助网络爬虫或网站公开API等方式获取数据。
图1hadoop平台技术架构
3.2数据存储
大数据存储是指将大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问。数据库存储管理技术包括分布式存储、NoSQL、内存存储技术。分布式存储通过网络将分散的存储资源构成一个虚拟的存储设备,实现数据的分散存储,典型的如Hadoop平台的分布式文件存储系统(HDFS),主要优势体现在硬件成本低且节点可不断扩展、通过冗余备份实现高容错性。
NoSQL数据存储不需要固定的表结构,存取上性能优势明显,但和关系型数据库也不存在连接操作;内存存储技术主要应用于对数据读取、处理响应高的场景。电费预测分析主要是通过用户用电数据与用户征信、企业经营、外部环境进行关联分析,同时对响应要求不高,存储技术首选分布式存储。
3.3数据预处理
大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约等部分。数据清理主要工具有ETL,实现数据的抽取、转换、装载;数据集成工具主要有Sqoop,Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。通过数据集成工具可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式统一存储。
3.4数据计算及预测分析
大规模数据的并行运算主要使用MapReduce方法,支持自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点(Map节点或Reduce节点)来处理相应的数据块,同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。数据挖掘预测则是通过对历史数据的输入值和输出值关联性的学习,得到预测模型,再利用该模型对未来的输入值进行输出值预测。一般地,可以通过机器学习方法建立预测模型。即假定事物的输入、输出之间存在一种函数关系y=f(x,β),其中β是待定参数,x是输入变量,则y=f(x,β)称为学习机器。通过数据建模,由历史数据学习得到参数β的取值,就确定了具体表达式y=f(x,β),这样就可以对新的x预测y。典型的机器学习方法包括:决策树方法、人工神经网络、支持向量机、正则化方法。其他常见的预测方法还有近邻法、朴素贝叶斯等。
4、应用场景分析
电力企业电费风险预测主要是通过大数据技术实现对用电客户信息的收集、风险识别、风险分析、风险预警,建立电费回收风险评价—风险控制—风险后评价的闭环管理体系。
(1)风险评价:通过全面收集客户电费风险相关数据,量化风险发生的可能性,对客户电费回收风险进行评级,进行电费风险评估。(2)风险控制:根据用电客户风险评价体系的评价结果,根据风险程度高低采取差异化的电费回收措施。(3)风险后评价:对风险管理效果进行科学的评价,并生成相应的报表,同时对电费风险成恶化趋势的用电客户按照行业、区域、用电类别进行分析和评价,对相关联用电客户群体进行电费风险趋势评估,在相关联范围内进行相应的风险提示。
5、结语
利用大数据技术进行数据挖掘和建模分析可以对未来业务进行及时预测,便于有效管控风险和采取针对性措施。未来的电费风险预测主要依托于大数据技术实现,通过用户用电行为、客户征信、企业经营状况、区域及宏观经济环境,挖掘潜在的电费回收风险,为电网经营管理提供实时多样化的数据,为公司的精益化管理提供支撑,从而提升企业经济效益。
参考文献
[1]杨华飞,李栋华,程明.电力大数据关键技术及建设思路的分析和研究[J].电力信息与通信技术,2015,13(1):7-10.
[2]赵永良,秦萱,吴尚远,等.基于数据挖掘的高压用户电费回收风险预测[J].电力信息与通信技术,2015,13(9):57.61.