数据治理新思路:数据治理,安全先行

时间:2022-07-14 作者:御数坊CEO 刘晨

分享到:

在数字化转型的大背景下,各行各业都已经如火如荼的开始了数据治理之旅,绝大部分的企业面临数据治理现实问题和挑战,仍然是数据治理无法落地、数据标准化与质量水平低下、数据共享难度大、数据安全管控难、数据价值发挥不明显等问题。


企业受到外部政策或市场环境影响,都希望能够顺利开展数据治理工作,快速完成数字化改革。但在这个过程中,一些已经进行过体系规划的企业,花费大量人力、物力、财力,最终面对一堆各色文档却手足无措,交付物缺乏实践意义无法落地;而还没有开始进行体系规划的企业,害怕规划投入大,周期长,结果无法确定等因素,犹豫不决,举步维艰。


企业的数据治理工作究竟应该如何布局谋篇?如何在过去可能不太成功的基础上穷则思变?如何让数据治理真正落地见效?是摆在每一个同行面前必须要思考、回答和行动的关键问题。


一、传统数据治理是怎么做


我们先来理一理过去业界常见的数据治理有哪些打法。结合国际理论、国家标准、行业实践、业界同仁观点以及御数坊近百个数据治理实战经验,我们把数据治理实施策略大致做个总结,并说明每种方法的利弊。


1. 顶层规划设计


顶层规划设计的方法在五到十年前比较盛行,多源于国外咨询公司基于国际理论(如DAMA-DMBOK,也包括近两三年推广的国标DCMM)结合自身实践积累形成的方法论,用这些理论框架为企业进行全面的现状调研,基于此再进行数据治理组织、数据治理工作内容/流程/制度、数据治理平台及未来建设路径的规划。其交付物通常是厚厚的调研报告、设计报告和PPT,项目规模也通常大几百万、项目周期在半年甚至更长。


顶层规划设计的方法好处在于有理论依据,体系完整,能够帮助客户达成对数据治理全貌的理解和共识,有利于推动后续工作开展。但其也有许多不足,如过于理论化与企业实际情况结合不紧,导致管理组织和流程都无法落地;漫长的项目周期中,只部分解决了数据治理管理能力建设的问题,但并未解决实际数据问题、没有提升数据质量甚至业务质量、数据价值也没有显著发挥出来。因此,虽然咨询项目还是能正常结项、成果也看起来很厚重,但实效并不大。


2. 专项能力提升


由于数据治理体系覆盖的专业领域有十来个,而顶层规划设计并没有带来预期的实际效果,于是企业客户开始尝试在某个或者某些专业领域上开始专项建设,这其中被广泛实践的是这样的三件套:元数据管理(含数据资产目录);数据标准管理;数据质量管理。在此基础上,数据模型管理,也被作为一个专项在部分大型企业实践(如银行、证券、电网等),这些客户都经过多年实践中逐步建立了自己的企业数据模型和专业团队及管理机制。


1)元数据管理


元数据管理,是十五甚至二十年前很多甲方企业实践数据治理的第一站,但往往走入了技术派——过多关注技术元数据的自动化采集能力、解析能力,业务人员不懂、对业务人员也没用;而对于数据开发和运维技术人员来说,要想获知表结构或数据处理逻辑,他们更习惯于用sql来实现,比元数据系统好用的多...对于业务元数据,则需要大量的人工梳理,费时费力,自然得不到业务人员的参与,而技术人员苦哈哈梳理出来的业务元数据,也很难得到权威业务部门的认可。如此种种,元数据管理属于姥姥不疼、舅舅不爱的尴尬境地。于是元数据管理的魔力四象限图,在2006年出了两期之后,就销声匿迹。一晃十年到了2016年,Gartner重启元数据管理四象限图,并新推出了Data Catalog的概念,国内翻成数据资产目录,在大数据、数据资产创造价值的产业背景下,比元数据得到了广泛认同。但是,意识觉醒不代表实践进步,元数据管理的痛点和难点,仍然没有得到解决。人工梳理出来的数据资产目录,质量和价值仍然有限,不过,企业的接受度和容忍度似乎高了不少,因此我们能看到许多为了盘点而盘点的数据治理项目。


2)数据标准与数据模型管理


数据标准与数据模型管理,笔者一直认为这是有些尴尬的两个存在...首先说为什么把这两个内容放在一起。因为数据标准和数据模型,都属于对数据未来状态的规范,包括对数据的名称、含义、结构、取值及数据间关系的规范,以此对数据库表结构、字段定义进行指导约束。然后再说为什么会“有些尴尬”。主要是因为数据标准和数据模型既不贴近数据需求,也不贴近数据问题,是数据生命周期、数据应用生命周期的一个中间段...更多是技术人员自己的工作方法,较难得到业务部门的直观理解、认可和参与。当然,经过多年的推广,数据标准已经得到了业务人员的一定认可,在编制数据标准过程中,业务人员的参与度越来越高了。其实,对于技术人员自己,如何理解数据标准与数据模型的关系,都还没得到广泛的共识,这也造成很多企业数据标准项目做了一遍,企业数据模型项目也做了一遍,还有企业架构项目...数据规范本身就是烟囱林立。


其次,数据标准与数据模型的落地,对既有IT开发的工作习惯、管理流程和工具都有较大改变,如果遇到甲方自有IT团队主导开发的模式,还容易被接受;在较重依赖外包服务商开发的客户中推进这种“事前、事中”的管控模式,会受到非常大的阻力,特别是业务系统、数据中台的建设项目规模比数据治理项目大几倍、外包服务商的实力和话语权比数据治理团队(无论甲方还是乙方)强许多,究竟是要规范还是要效率,生态中的哪块蛋糕可以动、哪个柿子更软?一目了然。


更进一步,技术的变革也让数据标准与数据模型的技术工具更加融入而不是独立。让我们仔细想想:企业建设系统,无非是操作型系统(OLTP)和分析型系统(OLAP)。对于前者,在低代码、无代码的大趋势下,业务表单、业务流程都可以拖拽了,数据建模的过程都被封装到低代码平台底层,开发人员无需关注太多;而对于后者,试问哪家大厂的数据开发环境不带可视化建库建表、自动生成建表语句的功能?即便现在没有,其技术复杂度对于天天玩数据的大厂来说,是否高不可攀?数据模型和数据处理逻辑的开发,未来大概率是一体化而非独立的存在。对此,我们给出一些大胆的猜想供大家探讨:标准和模型本身的内容和编制过程是必要且重要的,但独立的数据标准与数据模型设计和管理工具,未来将与数据平台开发环境走向融合(阿里在10月份云栖大会推出dataworks数据开发与治理一体化能力,就是这个趋势的典型印证);而对于“事前、事中管控”的数据治理模式,对于绝大部分企业来说,推行起来仍会举步维艰,在OLAP系统可能容易,但在OLTP系统推广非常难。“事后管控”的模式(即系统建成后采集元数据、构建资产目录),仍然将是业界主流。



3 数据质量管理


就我们有限的经历,对于2017年以前的数据治理来说,其主要甚至唯一目标就是“提升数据质量”,无论是我们做元数据管理、数据标准管理、数据模型管理,其目的,都是为了提升数据质量,让数据准确、规范、及时、有效...进而保障数据资产价值。因此,我们认为数据质量管理是数据治理应该选择的切入点之一,但可能不是首选...为什么这样说?后文详述,我们先说完数据质量。


提到数据质量,可能大家的耳朵都已经起老茧了,数据质量PDCA、数据质量“十几性”、数据质量健康度...各种概念耳熟能详、娓娓道来。但究竟有哪些企业、哪些案例真正解决了多少数据问题、真的给业务带来了降本增效合规的业务价值、可量化的业务价值?屈指可数!就笔者从业十五年来,真正能算出业务价值的数据治理项目,不超一掌之数,并非我们不愿、不能,而实在是由于各方各种约束条件而不能快速落地。对于传统的数据质量管理,通常是技术人员定义一些规则,跑些SQL,将发现的数据质量问题告警、报告、分发给业务部门或系统,更多是以发现问题为主。或者,将问题数据抛弃或修复继续后续处理。在这个过程中,仍然存在着业务部门认可度低、参与度低的情况,也无从为业务部门创造显性价值。


而对于数据质量应该如何提升、创造业务价值?提几个要点:面向业务场景,评估业务影响,聚焦实施范围,确定数据认责,建立业务IT联合专项小组,实现源端系统和数据中台的端到端治理。这几点如果都能做到,定能实现可量化经济价值的数据质量提升。


4)主数据管理


主数据管理,是数据治理领域较早发展的专项能力,甚至在数据治理概念流行之前,主数据管理就早已存在并广泛应用了。我们认为,严格来说,主数据不是一个数据治理的专项领域,而是一个综合数据方案。为什么这样说?因为主数据管理的建设综合了前面多项数据治理专项能力,例如,主数据的元数据要管理好,主数据也有数据标准和数据模型,主数据更要管好数据质量,主数据还需要搭建主数据平台并做数据集成与共享。因此,主数据管理实际上是面向某一类或几类数据的综合数据方案,因此,开展主数据管理的复杂度,要比其他数据治理专项领域高不少。企业在进行主数据管理时,可能有两方面问题需要重点考虑:首先,明确希望通过主数据管理,解决哪些业务场景的哪些业务问题?这些问题是否只是通过主数据平台就能解决?还需要配套哪些业务优化、系统功能改造?其次,统筹好已经开展的或尚未开展的“元数据、数据标准、数据模型、数据质量”等工作与主数据管理工作的关系,将“主数据标准化与质量提升”作为目的,而“元数据、数据标准、数据模型、数据质量”作为手段,各能力协作起来支撑目的的达成。


3. 数据管理能力成熟度评估


2014年8月,CMMI和EDMCouncil经过近4年的共同努力,各自发布了自己版本的数据管理成熟度模型CMMI-DMM和DCAM,在DAMA-DMBOK基础上建立了对数据管理能力评价的方法和标准,给数据管理业界带来了一股新风。国内大数据行业发展热度攀升,2014年底开始编写国标DCMM,经过2015年编写、2016年预评估、2017年优化报批的过程,最终在2018年3月正式发布、同年10月生效。DCMM近两年得到行业主管机构的高度重视和大力推行,已有200余家企业经过评估认证,更有5级和若干4级认证企业,代表了国内数据管理能力的最高水平,更有数百上千家企业对此高度关注、蓄势待发。



回顾数据管理成熟度评估发展的一个大致脉络,不难看出,数据管理成熟度评估国际和国家标准显著推动了组织对于数据治理工作的重视、提升了数据治理意识。在方法层面,则补充了DMBOK——DCMM进一步融合了国内数据治理实践做了很好的本地化改造,对于整体推动数据治理行业在国内的发展大有裨益。然而,下沉到企业层面而言,还需客观看到一些现实、多一些思考和实践,避免误区。例如,目前得到五级、四级的企业,早在2010年甚至2005年以前便开始了数据治理相关工作,远早于DCMM标准本身,长期投入、久久为功,获得高等级认证,事实上是对其多年努力和成果的“追认”。切不可认为短期突击贯标,其数据治理的实战水平就真的达到国内甚至世界顶尖了。


4. 数据治理平台建设


数据治理平台建设与数据治理工作之间的关系,似乎在这个时期已经不用再多说了,“数据治理三分技术七分管理”、“制度先行”、“服务与工具并重”、“咨询铺路、技术落地”,这些理念已经在数据治理领域深入人心,现在很少再见到“平台至上”的客户,更多客户已经非常理性,不见到数据治理落地见效的希望,连咨询项目都不会启动,更何况平台采购。不过,数据治理平台建设作为切入点的实施策略,确实曾经在很长一段时期是国内数据治理实践的主流思路。


第二、更具创新的数据治理新四化


以上,我们大致回顾了过去十年以来常见的数据治理实践打法,总而言之,以数据质量提升为目标,数据治理实践已经形成多种打法,这些打法在特定的行业背景、企业实情中,发挥并且仍将发挥其作用,也相信这些打法在实践之中会得到进一步打磨、组合,逐渐形成适合中国管理文化的数据治理实践路径。然而,我们也能看到过往数据治理实践仍然存在的困惑与挑战,简要总结如下:



对于如何推陈出新,来应对现代企业的数据治理挑战,并且具有落地见效的能力,我们创新出区别于传统数据治理的方法,其核心思想就是数据治理的新四化——价值化、协同化、精益化、智能化。


价值化:数据治理需坚持价值化的总体原则,以价值目标驱动数据资产管理工作决策,以价值实现检验数据治理工作成效,且以业务价值为优先、以数据价值为根本。实现数据治理价值化的关键是什么?聚焦业务场景、业务问题,评估数据问题的经济价值,筛选最值得发力的业务问题和数据。


协同化:注重数据治理各领域、数据治理各角色、数据生命全过程、数据供给与消费端到端的有效协同、融合治理,从单项提升到全面发展,实现综合效能提升。实现数据治理协同化的关键是什么?开展数据权责管理,建立人与数据的权责矩阵。


精益化:持续推动数据治理关键领域向细化和实用化“深耕”,配套完善与优化组织和技术保障,逐步建立数据治理的量化监测与反馈“细作”机制。实现数据治理精益化的关键是什么?面向价值化业务场景、依据协同化权责关系,开展小范围、细粒度、敏捷型数据治理微咨询,以数据质量提升为目标,开展以周甚至天为单位的专项提升工作。


智能化:广泛运用人工智能技术,削减数据治理的人工投入,创新数据治理工作方式,提升数据治理的智能化发现和决策水平。实现数据治理智能化的关键是什么?需要构建基于NLP、机器学习、深度学习、知识图谱的智能化数据治理引擎,基于数据治理语料库与算法库实现对数据语义的智能化识别、理解和处理,进而辅助甚至替代人工梳理工作。


三、跳出质量看治理


如前文所讲,长久以来,数据质量提升几乎是数据治理的唯一目标,前述诸多打法,也都是围绕数据质量提升而展开。经过多年理论研究、引进与实践,数据治理方法与工具已经趋于统一和稳定,但其落地速度和实效显然不能让从业者、业务部门及高层领导满意。于是,数据治理从业者发出了“道阻且长、行则将至”的感叹。行了近二十年,我们怎么能让数据治理的推进更容易?能让业务部门和高层更容易理解、更愿意参与、更认可效果?能找到合适的点、线、面,不断提高数据治理在企业各业务、各系统的渗透率?What get you here won't get you there,如果我们仍然局限在数据质量提升的定式中,很难有所突破。他山之石,可以攻玉,跳出质量来看治理,可能会给我们带来新的视角和思路。


以数据质量提升为目标的数据治理之所以难推,有这样几个主要原因:

1. 基本概念不易理解:元数据,主数据,参考数据,交易数据,数据标准,数据模型,数据治理,数据管理,数据资产...术语研读、宣贯与再定义,可能占了数据治理工作时间的一大半。无法理解,自然不愿执行、难以执行。


2. 业务价值的体现高度依赖业务场景知识:如前文所说,需要深入业务场景才能得到业务部门可感知的价值,而聚焦到业务场景,就意味需要深度的业务Know-how,数据治理团队并不擅长。而且每一个场景都是个性化非标准化的,这带来更大挑战。

3. 数据质量提升需要多方协作、复杂度高:真正创造价值,不仅需要数据改进,也需要IT团队的信息系统改进、业务团队的业务流程和职责改进...推动改进的过程复杂,价值体现的闭环过程会很漫长。


4. 外部驱动力的刚性不足:在金融行业之外,其他行业尚无较强的行业监管驱动的数据治理要求,近一两年来有关数据要素、数字化转型、大数据产业发展规划等文件,开始倡导“提供高质量数据、提升数据管理能力”,但目前大多是指引性的,约束力有待提升。


难推的原因既然找到,替代方案也就不远了。有心的朋友应该已经有了答案,是的:数据安全!保护数据安全已经成为数据治理的新目标与新内涵!


从法律法规层面而言,国家和行业在近几年陆续出台了《数据安全法》《个人信息保护法》《关键信息基础设施安全保护条例》等一系列法律法规。更进一步,在国际关系的大背景下数据安全已经上升为国家战略,这些都为组织内部开展数据安全工作带来了强大外部驱动力。



从专业认知度而言,安全解决的是0和1的有无问题,边界清晰;质量解决的是1到10的锦上添花问题,永无止境。数据安全更容易被各方理解,无需过多的概念解释、教育、辨析。而且经过多年网络与信息安全实践,安全的概念已经深入人心,数据安全更容易被理解和接受,更容易调动各方参与度。


从业务依赖性而言,数据安全比数据质量更少依赖业务场景,更少受制于对业务场景Know-how的理解,也就更容易形成标准化的管理机制、技术工具和整体解决方案,落地建设的效率更高。诚然,深度的数据安全治理最终仍然要结合业务场景,甚至延伸至业务安全,不过在实践初期,仍然可以依靠技术方案先行起步、逐渐业务化。


从主导方和参与者而言,数据安全对于业务人员的参与度要求大大降低,更多由数据与技术团队主导,实践进程更为可控。不过从御数坊接触的部分客户来看,在数据安全治理工作中,可能还需要理清数据团队与安全团队的分工协作关系。我们认为,数据安全需要基于对数据的业务理解才能更有效开展,数据团队更有优势。前些年数据团队在数据治理、数据平台和数据应用工作中积累了深厚的数据理解,更合适牵头开展数据安全的规划、策略设计,而安全团队则适合发挥其安全技术能力,做好配合和策略的技术落地,以及日常运营过程中的应急响应及安全事件管理。无论分工如何,毕竟数据团队和安全团队都属分管数字化的同一个领导负责,比提升数据质量需要横跨科技与多个业务部门要容易协调的多。此外,数据团队还应该建立好与法务部门的合作关系,综合法律能力与数据能力,助力数据安全治理。


从与数据治理及数据工作的关联度而言,做好数据安全治理,优先要理清数据资产家底、确认数据资产权责,在此基础上进行数据资产分类分级及后续的数据安全保护。


由此可见,数据安全方案的推行,能够拉动传统数据治理的专项能力建设。试想,以保护数据安全为目的,将数据资产进一步理清,将此前未能推动的数据权责落实,建立起协同化的数据工作机制,后续再有数据质量问题,业务部门是不是更容易执行其应有之责?问题是不是更容易得到解决了?更进一步,数据安全治理可以与脱敏、防泄漏、安全监测、风险评估、态势感知等众多业界已有安全能力整合,形成端到端的“大安全”解决方案,对企业数据资产形成全方位、细粒度、全流程安全管控。由此,数据团队则在前期已经建立的数据资产管理能力、数据质量管理能力、数据应用能力之外,构建起新的数据安全治理与运营能力,实现数据团队能力进阶,为数据资产工作全局的进一步开疆拓土建立新的根据地与护城河。


奇安信 95015网络安全服务热线

95015网络安全服务热线

扫一扫关注

奇安信 在线客服 奇安信 95015

您对奇安信的任何疑问可用以下方式告诉我们

将您对奇安信的任何疑问

用以下方式告诉我们