【案例】智能协同型数据治理平台,如何通过多种数据服务,提升治理工作效率?

时间:2023-06-14 作者:御数坊

分享到:

客户企业创新性的提出智能化与协同化的治理理念,针对数据纳管、资产内容运营、资产质量监测、数据分类分级、数据贯标等五大数据治理核心活动,探索并构建了多种智能服务能力,提升治理工作效率达40%以上,以智能化为基础设置了多团队协同的工作场景,节省业务团队、技术团队、数据团队参与数据治理工作时的工作成本,进而使数据治理模式从管控走向协作,通过多方协同的联合行动,促进公司内部数据资产价值的发挥。

01
项目背景及目标

2020年,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将"数据"与土地、劳动力、资本、技术并列为五大生产要素,提出"加快培育数据要素市场"的号召,标志数据已经成为经济社会发展的基础性、战略性资源。

2021年,证监会发布《证券期货业科技发展“十四五”规划》,将健全完善行业数据治理体系纳入“十四五”时期数字化转型的工作方向之一,并规划设置了数据治理制度体系、组织体系与数据标准、数据质量、数据安全等数据治理细分领域的重点建设任务,为行业内各机构开展数据治理工作带来了明确的工作指引。

近年来,行业各机构在外部监管要求和内部数据使用痛点的情况下,先后开展了数据治理工作,建立了组织、发布了制度、建设了工具。但实践中,可能因为缺少具体工作切入点、业务团队参与程度低、工具无法有效承载工作方法等问题,最终导致数据治理业务价值回报缓慢,治理效果达不到使用需求。

通过智能协同型数据治理平台的构建,期望在数据治理的数据纳管、资产内容运营、资产质量监测、数据分类分级、数据贯标等管理活动的关键节点上使用自然语言处理技术、智能算法、深度学习等技术手段,构建企业级的治理知识模型,形成中文语义信息智能推荐、资产可信度计算、数据质量监控规则智能推荐与构建、数据安全分类分级结果智能判定以及数据标准智能映射的管理能力,提升企业数据治理的效率,释放在治理活动中投入的大量的人工工作量;通过数据治理平台固化治理方法论,在智能化能力的基础上形成业务人员、技术人员、数据人员三方协作的协同场景,提高业务团队的参与度。

本项目最终建设完成的数据治理平台,在数据治理各领域中表现良好,为业务部门、技术部门、数据部门都提供了良好的后台支撑,同时充分融入了自然语言处理技术,使平台具备多项智能化的能力。数据治理平台中的协同化数据治理场景和智能服务能力都具有很好的可借鉴价值,是证券期货行业数据治理高效落地的实践案例。


02
项目创新点

为了有效推进数据治理的落地,本项目引入自然语言处理技术提供智能服务,节省人力投入,使用的关键技术内容如下:

1)文本向量化技术。本项目中分别使用了词向量技术和句向量技术。其中词向量技术是指把词语转化为对应向量的表达形式;句向量是指将句子中各个词向量转换后进行加权平均,形成对应的向量。将文本向量化处理后,可以使文本转变为数学语言供计算机识别,本项目中分别使用了Word2Vec和Bert技术进行了向量转化。

2)数据项相似度匹配。在本项目的五个数据治理协同场景中,需要实现数据项与数据项、数据项与公司数据分类分级框架、数据项与数据标准的匹配。匹配前要先将相关实体进行向量化,使用余弦相似度算法计算,将相似度最高的对象推荐为匹配对象进入下一步协同确认环节。

3)超短文本语义与语境识别。本项目涉及的各类数据项,如数据表、数据字段、报表指标等,通常只有超短文本,为了提高相关数据项在相似度匹配中的准确率,需要分别从超短文本中识别语义和语境。项目中使用textRank算法,进行修饰词和核心词提取实现语义识别,例如“身份证有效期”,对于这个字段“有效期”是核心词,身份证是修饰词,在相似度匹配时,分别对核心词和修饰词分配不同的权重,以突出数据项的相关语义。同时项目中将数据项的相关对象构建为句作为该数据项的语境信息,例如“开户日期”这个字段,会将它所在表、所在表的其他字段构建成的句向量作为语境,在相似度匹配时使用。

4)资产可信度评估。项目中会对数据资产运营活动时获取的各类评论信息进行语义分析,构建情感分析模型,结合数据资产的数据血缘汇集情况,识别出应用系统中的核心数据资产。


03
项目技术方案

本项目是针对数据治理开展过程中的多部门协同场景,通过组合运用自然语言处理技术,简化数据治理工作步骤。在各协同场景中分别解决如下问题:

1)数据纳管协同场景。该场景中有一个业务属性补录环节,往往需要业务人员、技术人员补录缺失的元数据信息。对于已纳管的应用系统,存量数据已经补录过元数据,但是增量数据因为在源端业务系统中缺失,所以纳管时仍需进行补录。通过使用自然语言处理技术将增量数据和存量数据进行匹配,对于匹配上的数据项,将相关元数据信息进行推荐,从而简化业务属性补录的工作投入。

2)资产运营协同场景。数据项发布为数据资产后,工作步入了数据资产运营提升阶段,依托于数据资产使用者的评论信息,提升数据资产的内容质量是该阶段工作的一个重点。通过自然语言处理技术识别评论中的语义感情,结合数据血缘信息,有助于量化数据资产的可信情况,提升数据资产使用者的体验。

3)质量监测协同场景。技术类数据质量规则往往是可以在不同数据表下的数据字段上进行复用的,但是因为规则配置需要巨大的人工投入,导致数据质量规则并不能全部覆盖监测对象。通过自然语言处理技术,实现不同数据表下数据字段的匹配后,可以将相关数据质量规则推荐复用,在节省工作量投入的同时扩大了质量监测范围。

4)分类分级协同场景。在使用业务数据链的方法构建相对稳定且适用于整个公司的数据分类分级框架后,使用自然语言处理技术实现应用系统中数据和数据分类分级框架中的匹配,解决传统数据分类分级准确率低、适应性差的问题。

5)数据贯标协同场景。在数据标准制定后,应用系统中的存量数据需要先和数据标准间建立起映射关系,为后续系统改造提供基础数据支撑,但是庞大的存量数据使该项工作无法进行,适用自然语言处理技术实现存量数据和公司内已发布数据标准间的映射关系,降低相关的工作投入。


04
项目运营情况

数据治理平台上线后,陆续接入客户相关业务系统、数据分析系统等,数据覆盖客户60%业务类型,内容包括数万张数据表、数十万个数据字段、几十张数据报表、数百个报表指标、数百个指标标准、近千个基础标准等数据资产,且相关数据资产均已实现了数据分类分级。此外,针对应用系统中部分核心报表中的核心数据项配置了数百条数据质量规则。

在公司推广方面,本项目组面向不同的平台使用群体,分别以业务使用视角、技术管理视角、数据运营视角对平台开展了多次专项培训。第一批推广面向技术团队,以技术团队用数视角,分享了数据资产中心、元数据中心、数据质量中心和数据标准中心的内容,着重介绍了平台中的数据资产内容,以及数据血缘分析、变更影响性评估、数据质量监测等功能场景。第二批推广面向数据团队,以数据团队用数视角分享了数据资产中心中各类数据资产的详细内容,并详细介绍了“以用促提”的数据资产运营思想。第三批推广面向所有业务部门,以业务团队用数视角分享了如何在数据资产中心挖掘出业务需求所需的数据知识。


05
项目成果

本项目的建设成果不会直接带来经济收益,但是可以为公司数字化转型的各项工作带来便捷,从而节省人力成本的投入,提升工作效率。主要体现如下:

1)通过数据纳管协同与数据资产运营协同带来的优质数据解释,能够直观的帮助业务人员理解数据、帮助技术人员掌握底层逻辑,节省各类数据需求挖掘、分析、开发、测试环节的沟通成本,同时减少因为数据口径不准确导致的一系列数据问题。

2)数据质量监测协同场景引入了在相似的数据资产上推荐出相关的数据质量规则的能力,避免同类型数据质量规则反复配置所需的人工投入,节省数据运维成本的同时,更为全面的实施数据质量监控。

3)智能数据分类分级协同场景带来了便捷的数据分类分级手段,在大量节省数据分类分级工作量投入的同时,使数据分类分级的结果趋于稳定,不会随着系统建设、系统重构等情况导致历史结果无法使用,使数据安全管理的侧重点从实现数据分类分级转变为如何基于数据分类分级的结果,实现更为精准的数据安全管控。

4)数据贯标协同场景是建立应用系统中存量数据和公司内数据标准间的映射关系,为后续应用系统的落标改造以及应用系统间的数据交互提供了统一的沟通依据,节省了数据开发时的沟通成本。


“鑫智奖”第四届中小金融机构数智化转型优秀案例评选活动网络投票时间为2023年6月13日9:00-6月16日17:00。本次投票将评选出“网络影响力TOP10优秀案例”


以上案例已经入选“鑫智奖”第四届中小金融机构数智化转型优秀案例评选活动,御数坊诚邀大家为我们的案例投票,您的每一票都是御数坊前行的动力。感谢您的投票!


奇安信 95015网络安全服务热线

95015网络安全服务热线

扫一扫关注

奇安信 在线客服 奇安信 95015

您对奇安信的任何疑问可用以下方式告诉我们

将您对奇安信的任何疑问

用以下方式告诉我们