首页>新闻中心>关于电网企业中数据挖掘的应用分析

关于电网企业中数据挖掘的应用分析

来源:A5互联 时间:2018/3/13 14:53:12

电网公司的数据优势是在多年的设备运行和客户服务中,积累了海量的历史数据。据专家统计分析数据显示,每当数据利用率调高10%,便可使电网提高20%-49%的利润,足以说明数字资产在电网中的重要性。

在国家电改、技术革新、智慧城市发展等新形势下,电力产能相对过剩,需求侧多元互补。供求关系影响电价的高低,使用数据挖掘技术进行建模,有助于制定针对性的发展策略,提升电网公司的核心竞争力。

数据挖掘技术利用回归分析和统计学方法来预测缺失值,利用聚类、分类方法光滑噪声,并纠正数据的不一致性,利用关联分析进行相似重复记录匹配和离群点的识别。基于上述方法,本文主要思考了数据挖掘在线损精细化分析,客户细分、客户信用等级评估三方面中的应用。

一、数据挖掘过程

电网数据盘点及预处理数据预处理的主要步骤,即数据清理,除噪声去冗余,并进行数据的添补和数据的规约;数据集成,使多种数据源整合成一致的数据存储;数据规约,得到数据集的简化表示,它小的多,能够产生同样的分析结果;数据变换,把数据变换和统一成适合挖掘的形式。经过数据预处理成有价值的数据信息后进行数据建模,理解业务数据,对数据进行自动的分析并分类汇总,自动地发现和描述数据中的趋势,自动的标记异常。

电网数据主要包括CSGII系统、外部系统及自建系统等多种数据源,采集的数据具有结构多样、有噪声且模糊的数据特点,需要通过数据挖掘实现进一步的分析。根据数据类型划分,主要包括结构化数据、半结构化数据和非结构化数据。

结构化数据,首先进行数据过滤,剔除无效数据和存在数据质量问题的数据(降噪),随后按照人工提供的规则(数据与数据之间的硬性联系)和数据之间的模糊关系(搜索、分类、估计、预测、相关性分组、聚类等)从原本无关数据中提取出存在关联关系的数据。半结构化、非结构化数据,需要按照一定的标准处理成机器语言或索引。例如,电力系统运行日志资料等数据,就需要转换成加权逻辑或是模糊逻辑,并将不同的语言映射到标准值上,形成企业统一的语言。

二、数据挖掘建模过程

数据挖掘是从大量的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程,发现数据的规律,找出数据的共同本性,并汇总数据特性。描述性分析是数据分析与挖掘的第一步,一方面从简单的趋势性和相关性分析中挖掘潜在的数据分析价值,另一方面对数据质量和模型选择提供了更深层次的判断。

数据挖掘业务模型主要的建立过程:业务分析、数据收集与整理、数据分析与处理、指标展示、数据挖掘建模、数据挖掘结果的解释和展示、系统建设并尝试着应用。建模可以实现预测:对某种现象建模以预测其他地点或其他时间的数值,例:如果已知人口增长情况和天气状况,预计明年的用电量将会是多少?为了发现有价值的数据挖掘模式,模式兴趣度度量是不可或缺的,在数据挖掘之后,根据模式的兴趣度进行排位,过滤掉没有价值的模式,提高搜索性能。

三、线损精细化分析中的应用

对于电网公司而言,“降损就是降本,降本就是增效”。采用数据挖掘技术,与电网用电负荷数据相结合,分析线损、负荷率和电能质量等重要运行参数,了解线损指标,实现异常分析自动化、异常甄别智能化、异常定位精准化。

结合营配集成的“站-线-变-户”电网拓扑关系、计量自动化系统电能量采集信息,对用电客户负荷特征及线损情况进行综合分析,查看异常线路的当期线损率,供售电量,环比线损率,环比供售电量,同比线损率,同比供售电量和指标值。 

对综合电压合格率、主设备综合可用系数、电容器可用率等数据指标进行聚类,建立用电异常分析模型,测算指标理论波动区间,一方面可以进行指标相关性分析,查找存在于项目集合或对象集合之间的频繁模式、关联性或因果结构,检验指标之间的关联程度并探索其原因,找出线损指标和营销基础指标之间的特征关联,为线损异常查找和营销稽查提供可能的方向。另一方面可以进行指标趋势分析和指标贡献度分析,判断指标发展趋势,检验各指标对最终得分的贡献程度,为降损提供输入。模型中设置出现异常时各类判断阈值范围,对超出波动的指标和产生窃电信号进行及时的预警,这对制定针对性的改善措施尤其重要。

对于配电线路和低压台区中重点用户和电量较大的用户,可以通过其日常负荷变化数据拟合其日负荷变化曲线,对其由较大突变现象进行自动分析提示,标注完成后模型会自动对标识对象进行日监测计算和集中管理,以便在下一周期出现异常时进行告警、提示和深入分析。同时利用高维随机矩阵理论分析窃电位置及窃电容量与电气特征关联映射关系,结合评价指标体系以及用户用电特征密度分布分析用电行为,判断嫌疑用户,实现对线损异常从发现-分析-定位-处置-归档等全过程的管控,对电网的反窃电等工作带来积极推动作用。

四、客户服务中的应用

客户关系管理(CRM)越来越多地使用数据挖掘,这有助于取代大众营销,提供更多定制的个性化服务处理顾客的需求。采用数据挖掘技术,有利于对客户细分、客户信用等级评估这两大主要的行为预测其变化趋势。

客户细分一般可以从自然特征和消费行为入手,主要是通过两种方式进行细分,第一种,用单一变量进行划段分组,比如,以消费高低进行变量细分,即将该变量划分为几个段,高消费客户,中消费客户和低消费客户,第二种,用多个变量交叉分组,比如用性别和收入两个变量进行交叉细分,实现根据不同客户的归类管理,按照客户优质等级、客户申报电量等级、客户合同电价等不同维度进行归类。客户细分总是和聚类分析联系在一起,提取用户的历史用电行为趋势,辨识用户响应的模型特征参数,对用户进行组合聚类分析。

数据挖掘有一种常用的方法叫做聚类,把数据对象划分成多个组或簇,使得簇内的对象具有很高的相似性,但与其他簇的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量,即计算每个记录与初始类中心的距离,然后按照最近的原则进行归类,并计算新形成的类中心点,再按照新的类中心点重新开始计算每天记录与其的距离,重复操作,达到收敛标准即完成了分类。聚类分析各组之间的差异性,研究类群特征,采取差异的客户服务营销策略。为了发现隐藏的类别,客户细分建模时可以设置用户个体标签,用于描述具体用户个体的用户属性,其中用户属性包括社会属性、电力属性、价值属性。同时,从信誉度、贡献度、忠诚度及行业发展状况四个维度来反映模型中分类客户的综合价值,以客户价值为指导,采用AHP加权的K-means模型和决策树C4.5模型进行客户的分类,制定用户需求分析预判策略。

由于电网用户数据量较大,包含大量冗余或无关变量,可以通过降维的方式进行特征选择和特征提取。降维是指在某些限定条件下,降低随机变量个数,得到一组主变量的过程。在很多算法中,降维算法成为了数据预处理的一部分,其代表方法为主成分分析(PCA)。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。将高维数据转化为低维数据的过程,可能舍弃原数据、构造新变量,这样可以减少冗余信息造成的误差,可提高识别精度或分类效果、寻找数据内部的本质结构特征、加速数据模型计算的速度。

客户信用等级评估需要构建用电客户行为分析模型V-B-N,根据信用等级评定规则,分析用电客户的基本特征、缴费记录、用电行为及影响客户信用的其他因素,对客户信用等级进行综合评定。同时,从客户价值属性、客户行为属性、客户需求属性等维度,分析客户消费行为,预测欠费高风险客户。欠费高风险客户预测结合关联分析和离群点的出现建立模型,根据关联关系强弱分析各因素权重设置的合理性并重新修正权重因子,逐渐完善数据模型的合理性。离群点不同于噪声数据,噪声是随机的误差或方差,让人不感兴趣,而离群点的出现令人兴奋,有助于判断有异常消费的行为用户,当然,应该在离群点检测就删除噪声。建模从方差和极端值两方面考虑,利用标准差和区间筛选异常值,既体现离群的差异性,同时又顾及整体情况。

模型的建立有助于辨别客户的经营增长价值、用电行为敏感性、用电风险等客户行为特征,包括缴费偏好、用电信用、业务特征、情感特征等标签分类,根据其行为特征描述用户画像,制定催费回收的服务策略,根据电费催收服务策略可以指导营业厅及客户经理为客户提供精准的服务,并实现每月电费结零的考核任务。

五、面临的挑战

电网企业信息网络相对封闭,安全等级高,管理严格,数据没有实现分级,相关标准还没有放开,对数据分析有一定的障碍。这就需要优先开展数据清理,梳理出可用数据,而开展数据清理的前提就是开展数据仓库建模,然后才将数据转换成可管理可理解的形式导入数据仓库。

电网大数据与环境、社会、经济等多维度外部因素的关联关系,时间、空间相关性,这种关联性与相关性隐藏在多源异构的海量数据之中,目前没有可供参考的数学模型。因此,本文提出应用场景的技术难点就在于基于知识建立模型,通过聚类分析、关联分析、降维等技术手段,提炼出模型参数的通用指标与区分模型对象差异的关键指标,筛选出影响模型构建的显著相关因素,从而建立通用、标准化的线损精细化特征模型、客户细分特征模型、客户信用等级评估模型。

电网公司的另一个经营增长点可以发展为对内执行数据共享,帮助进行市场化交易决策,对外开展数据交易,实现电网数据的增值。未来需要开发面向电网领域的数据挖掘系统和工具,以及把无形的数据挖掘功能嵌入到各种服务中,是需要努力的方向。

7*24小时客服