关键词:数据治理;数据模型生命周期;数据模型管控
引言
随着信息系统版本的不断更迭,信息系统中的数据模型也在不断这发生变化,对于信息系统版本升级过程中的风险管理往往重视不足,存在“重开发轻实施,重实施轻升级”[1]等问题,即使我们企业自身已经对原有系统梳理出了数据模型,由于“轻实施”和“轻升级”等问题,在我们不断地对数据模型的生命周期进行管控,使之保持与现有系统的一致,对数据模型的生命周期进行管控时,总会发现以下基本类似的问题:
1、系统版本变更频次不定,大多数系统为了更好更快的满足用户需求,会使用螺旋上升的高速迭代的开发方式,这种开发方式能够最快速的响应用户的需求,缩短系统版本更新的时间,但因此产生的代价是导致与系统对应的数据模型也会不定期的变动,造成数据模型生命周期的管控不及时。
2、已梳理的数据模型无人监管,由于绝大部分传统企业对于数据资产的重视程度不够,对于信息系统已处理出来的数据模型还无法责任到人,并对数据模型的实时程度进行量化考核,导致已梳理出来的数据模型无人监控,对于每次信息系统的更新,更无法做到对已梳理的数据模型进行及时的更新。
3、系统版本上线无评审工作,为了加速版本上线,系统开发商在每次对需要上线的系统进行发布前没有进行上线评审,这使得我们对数据模型生命周期进行管控时缺乏需要更新的相关信息。
4、系统版本上线后违规操作管控缺失,每次系统版本更新后,由于现网管控不严,导致拥有相关权限的操作人员私下对已发布的系统版本进行二次修改,而对于该种情况下导致的模型变更,由于没有系统版本上线后违规操作管控而无法进行对应的管控。
1正文
本文将从数据模型生命周期管控的实际角度出发,论述一种基于电力行业的数据模型生命周期管控方法,并说明该种方法对于数据模型生命周期管控的意义及影响。
对于引言中的问题可知,在模型管控这个范畴上,我们应该首先解决的是企业、开发商对于数据模型重要性的认识。
其实,数据模型是企业数据资产的核心组成部分,而数据资产这个概念形成于近几年,在2012年瑞士达沃斯经济论坛上,数据资产作为一个新热点被反复提及,《大数据、大影响》议题下的一份报告指出,“数据已经成为一种同货币或黄金一样的新型经济资产类别”[2]。数据资产与云计算、大数据等一起成为了最近几年最热门的IT业界词汇和学科。其实笔者个人认为这三者是相互联系,相互促进的关系。
大数据离不开云计算,麦肯锡认为“大数据是指其大小超出典型数据软件抓取、储存、管理和分析范围的数据集合”[3],要准实时、快速和有效地处理这些数据,单靠传统BI的方式是难以维继的。因此,无论是以hadoop为首的开源解决方案,MPP等不同的大数据解决方案,其实都是一个化整为零,化繁为简的云化过程。可以这么说,云计算使大数据应用成为可能,但是没有大数据的信息沉淀,云计算的功能将得不到完全发挥,所以从整体上看,大数据与云计算是相辅相成的[4]。
数据资产与大数据的关系更为密切,我们管理的对像都是数据这种以0和1两种符号组成的虚拟实体。数据资产管理为大数据平台提供了可控全景数据视图以及高质量的数据来源,大数据平台为数据资产管理提供了最合适的数据存放体系以及为数据分析、变现提供了最基础的能力保证。
数据模型生命周期管控方法
图1数据模型生命周期管控方法
模型评审
在版本上线前,对该次版本中涉及到的数据模型变更进行评审。评审该次版本涉及到的数据模型变更明细对于现有生产系统和业务的影响,对于高风险的操作,通过建议开发商进行对应调整的方式,降低该次系统版本上线后的风险,并为数据模型的版本管理提供变更明细。
版本管理
评审通过后将该次版本中涉及到的数据模型变更进行版本号、变更时间、对应需求等变更明细通过Excel或相关自动化平台记录,并对已梳理的该系统数据模型进行同步更新,达到已梳理的离线数据模型与现有生产系统保持一致的目的。
稽核分析
在版本上线后,定期对生产中的数据模型与上线时更新后的离线模型进行比对。分析该次版本涉及到的操作是否全部成功执行,版本上线后有无私自变更操作,并再次对已梳理的离线数据模型与现有生产系统保持的一致性进行确认。
下线标记
a、对于版本中下线的内容对应到数据库中的物理模型,在离线数据模型中进行标记。
b、对于数据库中的失效对象,经由开发商确认后,在离线数据模型中进行标记。
c、对于数据库中不访问的对象,经由开发商确认后,在离线数据模型中进行标记。
方法应用后系统版本的上线流程
本涉及到的操作是否全部成功执行,版本上线后有无私自变更操作。
(8)对于模型变更、系统数据库涉及到需要下线的物理模型,交由开发商进行下线确认。
(9)需要下线的物理模型经由开发商批准后在离线的数据模型中进行模型下线标记。
图3常规系统变更管理的标准流程[5]
反观常规的系统版本变更流程,只有系统变更申请、变更准备、变更实施、变更反馈[5],由于缺少模型版本基线创建、模型下线标记确认等模型管控流程,根本无法解决离线数据模型与生产同步的问题,并最终导致前期投入大量人力、物力完成的数据模型由于实效性问题导致模型过时无法当做生产数据模型用于查询及大数据分析。
在未实施本文提的数据模型生命周期管理方法前,企业梳理的数据资产由于没有相应的更新及管控流程,出现离线数据模型与生产脱节,无法作为数据应用参考依据,并最终导致离线数据模型“有名无实”。使得前期的数据资产梳理成果,既无法与生产进行实时同步又无法产生其应有的价值。
通过对数据模型生命周期的管控,虽然无法做到保证已梳理的离线数据模型与生产系统完全实时同步,但通过该种管控方案的实施,可以将同步率控制在98%以上,能够满足将离线的数据模型作为生产系统真实情况共后期对生产系统进行大数据分析使用。
2结语
企业使用离线数据模型的目的在于为企业数据化运营提供一个直观、可查询的数据环境,提供给非业务人员及技术人员进行数据价值的挖掘及大数据分析。其中,数据模型生命周期管控作为一种有效的数据模型实时性管控方式,使得已梳理出来的数据模型能够不断的与生产系统进行同步,保证了离线数据模型的可用性,解决了数据模型管控中出现的各种主观及客观的难题,为企业驱动数据,更有效地管理我们的数据模型提供了可能,让数据发挥和创造更大的价值,真正指引企业的整体运营,为企业数据变现落地提供了强有力的支撑。
参考文献
[1]李力.电力营销信息系统升级风险分析与控制——河南科技[J].2011(24),17-18.
[2]李谦,白晓明,张林.供电企业数据资产管理与数据化运营——华东电力[J].2014,42(3),487-490.
[3]Gartner.Toptenstrategictechnologytrendfor2012[EB/OL]
.(2011-11-05),http://www.gartner.com
[4]姚宏宇.大数据与云计算——信息技术与标准化[J],2013(5),21-22
金雯婷,刘家猛.商业银行信息系统变更管理标准流程探析——中国金融电脑[J].2015(1),60-62.