【摘要】
2022年3月,我作为系统分析师及IT 负责人,参加了我司的企业级数据平台建设项目,该项目作为我司在企业数字化转型过程中重要的里程碑,在我司数字化运营中扮演着关键的角色。该项目主要包含企业级数据仓库,数据治理,数据建模,OLAP 即席查询与 B1数据分析展示等模块,旨在为公司打造实时性(Real-time)、按需定制(On-Demand )、全在线(All-online)、自助服务(DIY)以及社交化(Social)的综合数据平台,为公司迈入数字化运营管理打下基础。本文以该项目为例,结合本人项目实践经验,从企业对数据的需求、企业数据治理的痛点、数据平台需达到的目标、数据治理实施的方法三个方面米阐述我对企业数据治理的理解与我司开展数据治理的方法、背景以及实施效果。
【正文】
我司作为拥有近 20 年经验的通信工程行业的建设单位,自 2003年起便开始了企业信息化建设工作。随着云计算、大数据、人工智能、区块链等技术的日渐成热,我司于 2015 年开启了数字化转型的进程,伴随着传统业务与新业务规模的不断扩张,公司对于数字化运营的诉求也越来越强烈。
2022 年3 月,我作为系统分析师及1T 团队负责人,正式开始打造企业级数据平台,本项目周期为1年,投资金额500 万元。公司管理层期望通过木项目的建设,规范公司级数据标准、统一数据存储与管理、将数据真正应用于业务过程与经营决策中,为公司数字化运营提供平台支撑。本项目采用目前行业最佳实践 Hadoop 技术生态,通过 Sqoop 对业务数据和文件数据进行抽取:通过 Flume对系统日志及管理日志进行抽取:采用 Zookeeper 对 ETL 的过程进行统一配置管理:利用 Kalka消息中间件对数据的生产与消费进行管理;用 HDFS 对数据进行分布式存储:通过 Hive 和 HBase对数据进行分类和建模;最终通过数据治理 ADS 数据主题层,利用 Kylin对 ADS 进行 OLAP 即P席查询,同时采用 Metabase、Superset 和商用 BI 产品对数据进行分析与展示。
一、企业对数据的需求
近10 年来,各行各业因国际局势与市场情况等因素发生着刷烈的变化,企业的竞争日趋激烈。自2013年以来,我所处的通信工程行业以每年接近 50%的企业淘达率开启了无情的行业洗牌阶段,规模效应越来越明显,与我司类似的情况公司都面临着生存的压力和增长的挑战。随着利润率越来越低,客户要求越来越高,资金压力越来越大等一系列市场的压力,企业若固守传统的经营理念则注定是死路一条,唯有进行彻底的变革才是生存与发展之道,企业数字化转型应运而生。
以数字世界为视角,企业分为两类,一类是数字原生,企业,以 BAT 等互联网公司为代表,另一类是非数字原生企业,以传统行业为代表。企业数化转型的主力军就是广大的非数字原生企业,我司也是非数字原生,企业的典型,是以物理世界为业务开展的校心,认为迈向数字世界的成功关键就在于数据。在目前快速变化的市场格局下,企业在业务开展过程中需要大量的数据进行分柝、判断与决策,从量化的角度做出最优的选择才能让企业持续保持核心竞争力,这是企业对数据的基本需求。
同时,在数字化转型过程中,往往还伴随者新的业务拓展,而这些新业务的基础便是数据,这些数据是企业重要的数据资产,将这些数据发挥其价值就能为企业拓展出新的发展道路,这是企业对数据的发展需求。随着企业数字化转型的进程不断推进,各式各样的结构化与非结构化数据源源不断地产生,大量的数据资产需要进行管理,这是企业对数据的管理需求。随着数据更多的价值被持续地挖掘,这些有价值的数据将会成为企业的核心资产和竞争资源,这些数据牵扯到商业机密,业务活动与用户隐私,对数据进行安全可靠的管理将成为重中之重,这是企业对数据的安全需求。以上就是基于目前的行业和市场的背景,企业对数据的主要需求。
二、企业数据治理的痛点
在企业数字化转型过程中,信息化系统建设是必备的阶段,这些信息化系统建设往往都是围绕着局部的业务主体进行开展的。例如企业财务系统、ERP 生产资源管理系统、CRM 客户关系管理系统等,然而正是因为信息化系统建设的规划与变化问题,导致各种数据孤岛,财务、人事、运营等数据无法共享,管理层无法得到真实完整的数据从而判断公司的经营情况,更不要提决策支撑了,这是数据孤岛的痛点。
在信息化系统建设过程中,这些系统和应用往往是围绕业务流转为核心,而不是以数据应用为核心,这也直接导致了在数据生产过程中没有相应的标准与规范,导致大量的错误数据、脏数据、重复数据,并且这些数据占比之大,令人咋舌,在真正统计分析时才发现这些数据根本无法利用,即使可以使用,也需要花费大量的人力、物力对数据进行结构化处理和校对,企业真正想利用的数据少得可怜,这就是数据不规范的痛点。
在企业的某些部门,为了汇报材料中的数据,给基层和一线员工派发大量的数据表格要求填写,这些数据表格填报后再层层上报,最终由部分员工花费大量的时间精力进行整理和合并上交给公司进行汇报,给各级员工增加了大量的额外工作量,而这些采集的数据往往需要几周甚至几个月才能最终统计形成,效率极其低下,数据质量也无法考证,这是数据滞后与采集效率低下的痛点。以上数据洽理的痛点在企业中普遍存在,如何有效解决这些痛点并满足企业对数据的需求是企业數据治理过程中的关键。
三、数据治理的实施方法
管理大师德鲁克先生提出过,企业的首要职贵是创造经济效益,所以企业一定是需要面向业务面向市场的。既然如此。企业数据治理也一定是需要服务于业务和市场的,不能以单纯的技术标准和实施过程为目标。以我司数据治理为例,开展数据治理的首要工作是对企业主线业务进行识别与分析,例如 LTC 线索到现金管理主线,OTD 订单限行交付主线,1SC 采购供应链管理主线等。这些管理主线在企业中天然存在,是企业创造经济效益的血脉,也是数据生产和数据应用的主战场。所以识别企业主线业务并进行分析一定是数据治理的首要工作,其主要目的是确定数据治理的范围与目标。
在确定了数据治理的范围和目标后,需要对各生产数据的信息化系统和数据本身进行调研与分析。这个过程中的关键是按照不同的分类方式对现有数据进行分类,从数据来源对内部数据和外部数据进行识别:从结构化数据的角度对主数据、基础数据、事务数据、报告数据、观测数据、规则数据进行识别:从非结构化数据的角度对文件、图片、声音、视频等进行识别。此阶段的主要目的是按照标准的分类的体现对现有数据进行识别,基本对企业的数据情况有了详细的了解,根据识别的结果对数据治理实施工作进行规划。
接下来就是按照规划有序地开展数据治理实施工作,在这个过程中需要遵循一系列规范准则。对基础数据进行治理时需要以外部协同有效性为准则,例如“国家”“货币”“税率”等,不要按照企业自己的意愿对数据进行自定义,这样做的结果将会导致在内部和外部数据的交互过程中出现差异。主数据是企业生产交互的主要对象,针对主数据的治理需要遵从唯一性、联邦管控、单一数据源、数据流程IT协同、事前的数据质量策略,其中单一数据源一定是重中之重。
以我司对主数据治理为例,在过程中发现不同的 IT 系统都在生产主数据,例如“客户”主数据,在 CRM 系统中会产生“客户”,在财务系统中也会产生“客户”,这种专科直接导致了在对单一“客户”进行统计时,发生了许多差异,最终导致了统计不准确的结果。发现此类问题后,首先需要对数据的最初来源进行定义。以“客户”为例,其源头一定是从CRM 中而来,故在数据治理过程中需要对 IT 系统同步进行优化,保证数据的唯一性。其次,为了保证数据治理的有效性,公司需要明确各类数据的责任主体与贵任人,我司在数据治理中明确了数据责任人,谁负责的业务板块所生产的数据,谁就对这些数据负贵,这些制度的建立也有效地推动了数据治理的过程,提升了数据治理的有效性和质量。
【总结】
企业数据治理是一项庞大且系统化的工程,并且会伴随着企业的发展而发展。我司企业数据平台建设项目在历时1年后,按时 且圆满地完成了上线运行工作。在这个过程中,对数据治理的方法探索是项目成功的核心,经过以上对数据需求的分析、对数据痛点的挖掘、对数据治理方法的践行,我司基本完成了数据的实时性(Real-time)、按需定制(On-Demand)、全在线(All-online)、自助服务(DIY)以及社交化(Social),为公司数字化运营打下了坚实的基础。同时,我也深刻地意识到企业数据治理不仅仅只是1T 单方面的工作,这需要整个企业和广大员工对共同的愿景为之努力并付出,才能够真正地完成企业数据治理的目标,为企业积累核心数据资产,快速响应变化的市场环境,为企业拓展新的发展方向。