资讯专栏INFORMATION COLUMN

数据中台基础能力建设

IT那活儿 / 3041人阅读
数据中台基础能力建设



背景介绍



随着企业业务信息系统的快速发展,新旧业务系统替换、各业务系统间交互、数据体量迅速增长,需进一步强化新旧各系统之间的互联互通性,破除“数据壁垒”和“信息孤岛”,并契合信息化数字转型目标,开展数据中台基础能力建设相关工作,为推进信息化建设实现数字化转型打下坚实的基础。



设计目标



数据中台建设目标如下:
  1. 实现不同系统数据的互通,消除数据孤岛。
  2. 数据仓库的建设,根据业务活动,分层进行数据的建模。
  3. 数据的共享,实现为不同部门提供不同数据的共享能力。
  4. 数据质量管理,实现数据全生命周期的质量管理工作。
  5. 元数据管理,实现数据之间血缘关系的管理。
  6. 数据安全管理,实现不同用户不同的应用权限,对于敏感数据进行脱敏处理,防止数据的泄露和个人信息的被恶意利用。



技术架构





数据仓库建设



1. 总线架构绘制

总线架构是多维体系结构(MD)中的关键性概念之一,另两个是一致性维度和一致性事实,多维体系架构中,主导思想是分布建立数据仓库,由数据集市组合成数据仓库,但是在建立第一个数据集市前,架构师首先要做的就是设计出整个企业内具有统一解释的标准化维度和事实,即一致性维度和事实,其中一致性维度要么是统一的要么是维度表的一个子集,一致性事实指每个度量在数据仓库中都是唯一的统计口径,为避免歧义,一个度量只有唯一的业务术语。应该按照这个体系进行数据集市的迭代开发。
在总线矩阵中,列为一致性维度,行为不同的业务处理过程,即事实,在交叉点打上标记表示该业务处理过程与该维度相关,例如:

2. 高层模型建设

高层模型图形化的展示了业务过程的维度表和事实表,总线矩阵的一行可能会用多个高层模型表示,每个高层模型表示特定粒度的事实表。

3. 维度建模

有了高层模型就要设计维度和度量,维度和度量清单不仅仅是业务用户所关心,还要从业务过程出发,自上而下的设计所涉及的维度和度量,防止业务用户需求变化带来的冲击。
维度建模步骤:
  • 选择业务过程
业务过程是通常表示的是业务执行的活动,与之相关的维度描述和每个业务过程事件关联的描述性环境。
通常由某个操作型系统支持,例如:订单系统。
业务过程建立或获取关键性能度量。
一系列过程产生一系列事实表。
  • 声明粒度
粒度传递的是与事实表度量有关的细节级别。
精确定义某个事实表的每一行表示什么。
对事实表的粒度要达成共识。
  • 确认维度

健壮的维度集合来粉饰事实表。
维度表示承担每个度量环境中所有可能的单值描述符。
  • 确认事实

不同粒度的事实必须放在不同的事实表中。
事实表的设计完全依赖物理活动,不受最终报表的影响。
事实表通过外健关联与之相关的维度。
查询操作主要是基于事实表开展计算和聚合。
其中粒度是非常重要的,粒度用于确定事实表的行表示什么,建议从关注原子级别的粒度数据开始设计,因为原子粒度能够承受无法预估的用户查询,而且原子数据可以以各种可能的方式进行上卷,而一旦选择了高粒度,则无法满足用户下钻细节的需求。
事实是整个维度建模的核心,其中雪花模型或者星型模型都是基于一张事实表通过外健关联维表进行扩展,生成一份能够支撑可预知查询需求的模型宽表,而且最后的查询也是落在事实表中进行。例如:

4. ETL设计开发

数据抽取:从数据源获取所需数据的过程。数据抽取过程会过滤掉目标数据集中不需要的源数据字段或数据记录。
数据转换:按照目标表的数据结构,对一个或多个源数据的字段进行翻译、匹配、聚合等操作得到目标数据的字段。
数据转换主要包括:格式转换、字段合并与拆分、数据翻译、数据匹配、数据聚合其他复杂计算。
数据装载:将数据加载到目标数据库中。
 ETL应用:完整的ETL应用过程包含三个阶段:
  • 设计阶段:分析源和目标数据集的数据结构,定义合理的数据转换逻辑。

  • 实施阶段:按照设计阶段制定的逻辑规则进行编码,实现数据的E、T、L过程。

  • 维护阶段:对于非一次性数据整合项目,ETL过程需要重复执行,同时也需要不间断的维护和完善。

规范制定目的:ETL规范是为保证ETL正确设计、实施和维护所定义的一些规则和方法,具体包括ETL设计规范、开发规范以及维护规范。
设计规范:设计规范主要应用于ETL编码的前期工作。本阶段要形成多个关于数据流的在不同层次的映射(Mapping)文档。
Mapping应该包含以下几个部分:
  • 数据源的相关属性,包括:实体名称—含DSN、所有者等信息;字段名—英文名称;字段简述—中文名称,如为参数信息应该有相关取值解释,如性别字段(1:男;2:女;0:不详);类型—字段类型,含长度和精度信息;非空属性—字段是否可以为空;

  • 目标数据集的相关属性,包括:实体名称—含DSN、所有者等信息;字段名—英文名称,建议根据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集的人员控制);字段简述—中文名称,对于保留字段应该给出默认值;类型—字段类型,含长度和精度信息;非空属性—字段是否可以为空;

  • 规则,主要描述ETL各个环节的转换规则,包括:数据源过滤规则—描述从源数据集获取数据过程中过滤掉记录的规则;关联规则—当源数据集为多个时,描述相互之间的关联关系;列转换规则—描述源数据集到目标数据集的字段间的转换规则(业务逻辑相关);目标数据集更新规则—描述目标数据集的更新策略,包括更新机制和更新频度,如每日全量更新、每周增量更新;

ETL作业列表:ETL所开发的作业之间包含一定的业务逻辑和编码逻辑,所以调度过程中应遵循一定的逻辑顺序,包括:
  • 作业名称——实现Mapping的作业名称,包括该作业功能描述;

  • 调度顺序——用序号或者是流程图模式描述作业的调度顺序,需要综合考虑业务逻辑、编码逻辑以及系统资源等多方面情况,在保证业务逻辑和编码逻辑的基础上,通过控制调度,最大限度地合理利用系统资源;

  • 参数列表——列举每个作业中所使用的参数,不同作业中的相同参数最好使用相同的名称,便于调度时进行控制;

版本管理:
ETL设计会随着对业务、系统理解的深入以及结构框架的变化而发生变化,所以Mapping设计也应该同步更新。在开发过程中,要严格遵守一个规则:当规则发生变更时,要先变更Mappig,然后才变更相应的作业设计。在Mapping变更管理方面,应该有详细的版本变更记录,以便追踪到ETL开发的变动情况。变更记录包括如下内容:
版本—每次变更应给出一个新的版本号;作者—变更人;更新时间—变更时间;更新内容—简要说明变更内容;备注—可用于记录变更的原因等相关信息。



数据管理



1. 元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。
构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
使用数据平台可以方便的对数据元数据进行方便的管理,其中作业管理模块可以方便的将元数据更新作为作业进行执行,任务调度模块可以将作业进行调度管理,可以定时执行作业,定时更新元数据。可以图形化的展示数据表字段、元数据属性、血缘关系、影响分析等。

2. 数据质量管理

数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。
数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。
评判数据质量维度有:
  • 准确性:数据不正确或描述对象过期
  • 合规性:数据是否以非标准格式存储
  • 完备性:数据不存在
  • 及时性:关键数据是否能够及时传递到目标位置
  • 一致性:数据冲突
  • 重复性:记录了重复数据

3. 数据安全管理

数据分级标准:
通过对数据表设置合理的等级,加强对数据仓库平台下的数据表的安全管理,表的安全等级需要根据表中安全等级最高的字段进行等级设定。可以将数据表安全等级划分为以下四个等级:
  • S4:非业务核心表,删除对于其他计算任务无影响。
  • S3:非业务核心表,但是删除对于其他计算任务有一定的影响。
  • S2:业务核心表,仅限本部门使用,删除对于其他部门使用无影响。
  • S1:业务核心表,删除对于其他部分使用有影响。
数据安全流程:
  • 数据产生过程中对比较敏感的字段打上专门的标签。
  • 数据的存储对于比较私密的人员信息,像身份证、手机号之类的数据要进行加密存储。
  • 数据使用过程中对于不同的人员要赋予不同的数据获取权限,且如果要获取权限外的数据需要进行申请,审核通过后方可进行使用。
  • 数据传输过程中要通过专门的API接口进行,且需要进行加密处理。
  • 数据的销毁,对于敏感的数据销毁,不能够只做逻辑删除,还要进行物理上的删除。
权限申请,权限审批需要遵循如下原则:
  • 权限只根据需求进行授权,不能授予超过需求的使用字段及等级。
  • 不允许直接查询底层表,只能查询中间表以上的表。
  • 不允许查询全量数据,只能根据条件进行过滤。
  • S2级以上的数据,不允许下载。
  • 单次只能申请一张表,不能批量进行申请。

END


更多精彩干货分享

点击下方名片关注

IT那活儿

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129812.html

相关文章

  • 微服务应用新趋势:Service Mesh、AIOps和中台

    摘要:目前,网易云轻舟微服务平台已经应用于银行证券视频监控物流工业等行业不少中大型企业,帮助其实施微服务化改造,建设符合行业特点的业务中台,支撑企业数字化战略的落地。 微服务技术由于天生支持快速迭代、弹性扩展的特点,使企业能够在不确定性下提升发展速度及抗风险能力,受到了越来越多的关注。当前,云服务商纷纷试水微服务产品,最为典型的,当属推出轻舟微服务平台、剑指整个微服务应用生命周期的网易云。 ...

    tunny 评论0 收藏0
  • AI中台:一种敏捷的智能业务支持方案|宜信技术学院沙龙分享实录

    摘要:因此数据中台必须具备智能化能力,能够为业务提供一定的智能数据分析能力。宜信作为一家金融科技公司,更多面对的是金融领域的智能业务需求。 showImg(https://segmentfault.com/img/bVbqQM0?w=1155&h=492); 内容来源:宜信技术学院第1期技术沙龙-线上直播|AI中台:一种敏捷的智能业务支持方案 主讲人介绍:井玉欣 宜信技术研发中心AI应用团队...

    makeFoxPlay 评论0 收藏0
  • 专有云:激发政企大脑的潜能

    摘要:二阿里云专有云定位政府企业数字化转型专家如果说公共云是把本地应用带到云上,那专有云则是连接过去和未来,将云带到本地部署里。政府和大型企业的规模之大,对系统稳定性可靠性要求之高,与阿里云公共云十分相似。一、数据的价值一粒药丸,激发你的大脑潜能,存储、计算、学习能力飙升,短时间内可进行海量信息的迅速挖掘与串联,一天学会外语,三天学会钢琴,投身金融界,迅速累积财富成为华尔街新秀……醒醒~这是只有电...

    liuhh 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<