解读华为数据治理方法论及最佳实践-EA之家

有疑问？请点击复制链接咨询！

正文概述

华为数据治理方法论

一.数据治理框架

数据治理主要专注于如下模块域：

数据集成数据集成用来完成数据入湖动作，不是简单的数据搬家，而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准，包括：明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由数据代表在入湖前完成梳理并在数据治理平台上进行资产注册。
数据标准数据标准管理着重建立统一的数据语言，L1到L5数据层级业务对象的定义是数据标准的载体，并对应发布包括L1到L5数据层级的数据标准。各业务对象对应物理实现的IT系统需发布相应的数据字典并进行数据源认证。而对于梳理出来，但没有落IT系统的业务对象，需在后继的开发中进行数字化落地。
数据开发数据开发是编排、调度和运维的中心，数据开发是一个提供分析、设计、实施、部署及维护一站式数据解决方案，完成数据加工、转换和质量提升等。数据开发屏蔽了各种数据存储的差异，一站式满足从数据集成、数据清洗/转换、数据质量监控等全流程的数据处理，是数据治理实施的主战场。
数据质量数据质量管理的目标在于保证数据满足使用的要求。数据标准是衡量数据质量最基本的基准。数据质量要求各业务部门对相应数据领域的数据质量全权负责，按业务需求设计数据质量标准，制定数据质量管控目标，并遵循企业数据治理要求进行数据质量度量，制定符合各自业务情况的数据质量政策及数据质量相关的改进计划，持续进行数据质量管控。
数据资产数据资产包括业务资产、技术资产、指标资产等。数据资产管理是数据治理的重要支撑手段，核心是构建企业级的元数据管理中心、建立数据资产目录、建立数据搜索引擎、实现数据血缘和数据全景可视。其中元数据包括业务元数据、技术元数据和操作元数据，要求将企业所有概念数据模型、逻辑数据模型以及物理数据模型系统化地管理起来，同时建设企业数据地图及数据血缘关系，为数据调用、数据服务、数据运营及运维提供强有力的信息支撑。
数据服务数据服务通过在整个企业范围统一数据服务设计和实现的规范并进行数据服务生命周期管理，集约管理数据服务并减少数据调用和集成的开发成本。
数据安全由于企业使用的数据资源，既有来自于内部业务系统，所有权属于企业的数据，同时也有来自外部的数据，必须将数据安全纳入数据治理的范畴，对所有企业数据要求依据数据安全等级定义进行数据安全定级，在数据产生、传输、存储和使用的过程中进行必要的数据安全访问控制，同时对数据相应的CRUD活动均需产生日志以完成安全审计。
主数据主数据管理是数据标准落地和提升数据质量的重要手段，是企业级数据治理的重要范畴，其目标在于保证在企业范围内重要业务实体数据的一致(定义和实际物理数据的一致)。主数据管理首先进行企业主数据的识别，然后对已识别主数据按照主数据规范要求进行数据治理和IT改造，以支撑企业业务流和工具链的打通和串联。
管理中心数据治理的开展离不开组织、流程和政策的建设，管理中心也管理着数据治理过程中公共核心的统一数据源、数据驾驶舱等，满足不同角色的用户拥有个性化的工作台。

数据治理主要模块域之间的关系如下图所示：

图1: 数据治理各模块之间的关系

数据标准为数据开发和设计工作提供核心参考，同时也通过数据开发实现数据标准化落地。数据标准为数据应用提供“一致的语言”；数据标准为主数据管理提供主数据定义的基准，数据标准也是数据质量管理策略设计、数据质量规则制定的核心依据；数据标准所定义的密级分类和责任主体，为数据安全管理提供依据；数据标准也是数据资产管理重要输入。
主数据管理通过数据开发实现核心数据的一致性地记录、更新和维护，是数据质量提升的重要手段。主数据管理保障了数据应用和运营过程中核心数据的存在和一致性。
数据质量管理是数据应用和运营过程中数据准确性、一致性、完整性、及时性、唯一性、有效性的重要保障，是数据业务价值创造的重要前提。
数据资产管理模块完成元数据的采集和注册，数据资产管理为数据应用和数据消费提供了解数据的窗口。
数据服务管控实现在数据服务开发过程中服务标准、规范、要求和管理的落实，数据服务打通数据应用和数据消费的物理通道。
数据安全在数据开发过程中完成数据安全的IT实现，以达成数据应用过程中安全管理规范的要求。

以上工作的有效开展，离不开组织管理、明确的责任人、考核体系、流程制度、数据治理政策和数据治理平台的支撑。

图2: DataArts Studio各模块之间的示意图

DataArts Studio平台提供了上述各个功能模块，满足数据接入、数据建模、标准化、质量监控、数据服务等全流程的数据管理动作。

二. 数据治理组织框架

数据治理可以采用集中化（全时投入）和虚拟化（部分投入）混合的组织模式。结合具备专业技能的专职数据治理人员和熟悉业务和IT系统的已有人员，在运作上实现数据治理团队的快速构建和能力导入，捆绑业务、IT开发和数据团队并利用已有人员熟悉度快速切入重点工作。

在工作内容和责任上具体到三层的工作组织：

在战略层面，由数据治理Sponsor和各部门负责人组成的数据治理领导组制定数据治理的战略方向，以构建数据文化和氛围为纲，整体负责数据治理工作的开展、政策的推广和执行，并作为数据治理问题的最终决策组织解决争议，监控和监督数据治理工作的绩效，并确保数据治理工作预算支持。

数据治理委员会和各领域数据治理工作组是数据治理战略在运作层面具体的实施团队。其中：

数据治理委员会：由数据治理负责人、数据治理专家和数据架构专家团组成，面向企业进行数据治理工作的统筹并提供工作指导，在整个企业范围定期沟通数据治理工作，形成数据质量精细化管控文化。根据数据治理领导组的愿景和长期目标，建立和管理数据治理流程、阶段目标和计划，设计和维护数据治理方法、总则、工具和平台，协助各数据领域工作组实施数据治理工作，对整体数据治理工作进行度量和汇报，并对跨领域的数据治理问题和争议进行解决和决策。
各领域数据治理工作组：在各领域数据范围内进行数据治理的工作，依据数据治理委员会制定的数据治理方法和总则，制定本领域数据治理目标和工作计划，负责领域数据资产的看护，维护更新相应数据标准和及相关元数据，设计本领域数据度量和规则，监控收集数据质量问题并持续改进提升，主动升级数据相关问题。最终完成领域内数据资产的看护，并支撑数据治理目标的达成。

领域数据治理工作组由数据Owner、数据代表、数据管家、数据专员和数据架构师组成。其中：

数据Owner (Data Owners)：数据Owner是领域数据治理工作的责任人。

- 制定本领域数据治理的目标，工作计划和执行优先级。
- 建立数据治理责任机制，将本领域的数据治理工作分解到工作组成员,并跟进及管理工作组工作。
- 设计数据质量规格，承接数据需求，对数据问题及争议进行裁决。
- 建设和维护本领域信息架构。
- 建立和推动领域数据文化和氛围。

数据代表 (Data Representatives)：数据代表是领域数据治理工作的专家带头人。

- 深刻理解数据工作的目标、方法、规则、工具，并通过识别关键业务流程和IT系统，对本领域数据治理的路标和工作计划进行细化并排序，最终管理执行。
- 作为本领域数据治理专家，管理并解决问题和争议，必要时提交数据Owner进行裁决。
- 对业务环节数据的完整性、及时性、准确性、一致性、唯一性、有效性负责，确保行为即记录，记录即数据，并依据数据质量规格对本领域数据进行度量和报告。
- 落实本领域信息架构的建设和遵从，负责本领域数据资产的看护，维护相应数据标准和数据目录并更新发布。
- 承接上下游数据需求，并主动根据领域内应用场景和业务需求识别数据需求，对需求的实现进行推动和管理。
- 依据相关规定定义本领域数据安全等级，并进行数据授权管理。

数据管家 (Data Stewards)：数据管家是领域数据治理工作的协助者。

- 确保领域治理工作的流程和内容规范，符合数据治理要求。
- 协助数据代表进行问题跟踪和解决。
- 梳理、维护并更新领域数据元数据（业务对象、数据标准、数据模型）。
- 推广和维护数据治理工具和平台在本领域的应用。

数据专员 (Data Specialists)：数据专员是领域数据治理工作的专家团队。基于本领域数据治理的工作计划，利用数据专项技能，支撑数据代表完成数据Owner分配的各类数据治理工作。
数据架构师 (Data Architects)：数据架构师是领域数据治理工作在IT层面的代表。

- 开发和维护本领域的数据系统或子系统，确保数据在系统中得以记录，数据标准、数据质量规则、数据安全、主/参考数据管理、数据服务在系统中得以实施。
- 提供数据系统的数据相关信息（元数据、数据字典、数据血缘）。
- 协助执行IT相关的数据治理工作。
- 确保数据系统的技术方案符合本领域的信息架构，技术选择能够满足数据发展中长期的需求。

三. 数据治理度量评论体系

3.1 数据治理实施方法论

数据治理实施方法论按照数据治理成熟度评估->评估现状、确定目标、分析差距->计划制定、计划执行->持续监测度量演进的关键实施方法形成数据治理实施闭环流程。

图3 : 数据治理实施方法论

这也遵循了PDCA（Plan-Do-Check-Action）循环的科学程序，结合数据治理工作的特点设计了两个层面的度量评估：

度量评估工具	度量评估对象	度量评估方法	度量评估频次
数据治理成熟度评估	企业整体	调查问卷	年度
数据治理评分卡	各业务及IT部门	数据治理工作组与各业务及IT部门共同打分	季度

两个层面的数据治理度量评估工具

通过年度的整体数据治理成熟度评估，了解各维度数据治理现状，并制定可操作性目标，分析差距，制定切实可行的计划，在推进落实计划的过程中，利用季度性实施的数据治理评分卡，针对性地监测度量各业务/IT部门的数据治理情况，持续推进各部门的数据治理水平提升，进而提高整体数据治理成熟度。

年度进行的整体数据治理成熟度评估，可以结合主观及客观调查度量，综合反映企业当前数据治理成熟度水平，帮助制定切实可行的数据治理整体目标。季度性实施的数据治理评分卡是一个重要的工具手段，从一些关键核心维度进行季度性迭代评分，持续促进所有部门数据治理工作的落实提升。

3.2 数据治理度量维度

数据治理成熟度评估使用调查问卷方式，包括11个治理模块，60多个调查问卷事项，全方面多维度度量了数据治理工作的水平。

数据治理评分卡使用评分卡形式，由数据治理组织和各业务IT部门共同针对各部门自身数据治理情况进行打分。评分卡是季度性打分，作为一个工具手段持续推动促进各部门的数据治理工作，改进数据质量，提升数据治理水平。

图4: 数据治理评分卡

3.3 数据治理度量评分规则

数据治理成熟度评估分5个级别：

级别1是最低级别，数据治理处于初始级别，空白状态，没有相关流程及数据治理管控。
级别2是开始管理级别，仍处于匮乏状态，没有形成正式一致的数据治理方法。
级别3是明确定义级别，处于可改进状态，已经形成了主动治理的流程和正式一致的数据治理方法。
级别4是量化管理级别，已经步入适宜匹配状态，贯穿组织采用的正式一致的数据治理方法都是可量化管控的。
级别5是最高级别，专注于持续优化提升，已经步入卓越状态。

图5: 数据治理成熟度级别分层

数据治理评分卡对各维度度量是按5分制进行评分，每一个度量细项只有得分0或得分1，如果满足度量细项要求得分1，否则得分0。

图6: 数据治理评分卡数据执行维度度量评分计算范例

如上示例，针对流程7.10交付项目管理，数据执行维度有6个度量细项，则这一度量维度的总体得分就是SUM(度量细项得分)*5/6。所以这一度量维度的实际得分就是(1+1+1+0+0+1)*5/6=3.3。

四. DAYU方法论产品落地

DAYU数据治理方法论已经在华为云云服务数据治理中心DataArts Studio上落地实现，包括流程落地和功能落地。

流程落地是指有一套详细的流程规范（需求、设计、实施、验证、发布等阶段）指导用户使用DataArts Studio开展数据治理工作；功能落地是指DataArts Studio平台提供自动化、智能化的工具帮助用户高效完成数据治理工作。

DAYU数据治理方法论还有完全版本，详细描述了流程落地和功能落地内容。可通过《华为数据之道》图书进行深入了解

图7: 方法论流程落地

图8: 方法论功能落地

最佳实践: 数据治理中心-DataArts Studio

一. 什么是数据治理中心DataArts Studio

1.1 企业数字化转型面临的挑战

企业在进行数据管理时，通常会遇到下列挑战。

数据治理的挑战

- 缺乏企业数据体系标准和数据规范定义的方法论，数据语言不统一。
- 缺乏面向普通业务人员的高效、准确的数据搜索工具，数据找不到。
- 缺乏技术元数据与业务元数据的关联，数据读不懂。
- 缺乏数据的质量管控和评估手段，数据不可信。

数据运营的挑战

- 数据运营效率低，业务环境的快速变化带来大量多样化的数据分析报表需求，因为缺乏高效的数据运营工具平台，数据开发周期长、效率低，不能满足业务运营决策人员的诉求。
- 数据运营成本高，数据未服务化，导致数据拷贝多、数据口径不一致，同时数据重复开发，造成资源浪费。

数据创新的挑战

- 企业内部存在大量数据孤岛，导致数据不共享、不流通，无法实现跨领域的数据分析与数据创新。
- 数据的应用还停留在数据分析报表阶段，缺乏基于数据反哺业务推动业务创新的解决方案。

1.2 什么是DataArts Studio？

数据治理中心DataArts Studio是为了应对上述挑战、针对企业数字化运营诉求提供的数据全生命周期管理、具有智能数据管理能力的一站式治理运营平台，包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能，支持行业知识库智能化建设，支持大数据存储、大数据计算分析引擎等数据底座，帮助企业快速构建从数据接入到数据分析的端到端智能数据系统，消除数据孤岛，统一数据标准，加快数据变现，实现数字化转型。

产品架构如图1所示。

图9: 产品架构

如图所示，DataArts Studio基于数据湖底座，提供数据集成、开发、治理、开放等能力。DataArts Studio支持对接所有华为云的数据湖与数据库云服务作为数据湖底座，例如MRS Hive、数据仓库服务DWS等，也支持对接企业传统数据仓库，例如Oracle、Greenplum等。

DataArts Studio包含如下功能组件：

管理中心提供DataArts Studio数据连接管理的能力，将DataArts Studio与数据湖底座进行对接，用于数据开发与数据治理等活动。
数据集成数据集成提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力，全向导式配置和管理，支持单表、整库、增量、周期性数据集成。
数据架构作为数据治理的一个核心模块，承担数据治理过程中的数据加工并业务化的功能，提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能，有利于改善数据质量，有效支撑经营决策。
数据开发大数据开发环境，降低用户使用大数据的门槛，帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作，轻松完成整个数据的处理分析流程。
数据质量数据全生命周期管控，数据处理全流程质量监控，异常事件实时通知。
数据目录提供企业级的元数据管理，厘清信息资产。通过数据地图，实现数据血缘和数据全景可视，提供数据智能搜索和运营监控。
数据服务数据服务定位于标准化的数据服务平台，提供一站式数据服务开发、测试部署能力，实现数据服务敏捷响应，降低数据获取难度，提升数据消费体验和效率，最终实现数据资产的变现。
数据安全数据安全为数据治理中心提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别等措施，帮助用户建立安全预警机制，增强整体安全防护能力，让数据可用不可得和安全合规。

二. 产品功能

2.1 数据集成：多种方式异构数据源高效接入

数据集成提供30+同构/异构数据源之间数据集成的功能，帮助您实现数据自由流动。支持自建和云上的文件系统，关系数据库，数据仓库，NoSQL，大数据云服务，对象存储等数据源。

数据集成基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构。

图10: 数据集成

数据集成提供全向导式任务管理界面，帮助用户在几分钟内完成数据迁移任务的创建，轻松应对复杂迁移场景。数据集成支持的功能主要有：

表/文件/整库迁移支持批量迁移表或者文件，还支持同构/异构数据库之间整库迁移，一个作业即可迁移几百张表。
增量数据迁移支持文件增量迁移、关系型数据库增量迁移、HBase增量迁移，以及使用Where条件配合时间变量函数实现增量数据迁移。
事务模式迁移支持当迁移作业执行失败时，将数据回滚到作业开始之前的状态，自动清理目的表中的数据。
字段转换支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。
文件加密在迁移文件到文件系统时，数据集成支持对写入云端的文件进行加密。
MD5校验一致性支持使用MD5校验，检查端到端文件的一致性，并输出校验结果。
脏数据归档支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据自动归档到脏数据日志中，方便用户分析异常数据。并支持设置脏数据比例阈值，来决定任务是否成功。

2.2 数据架构：数据建模可视化、自动化、智能化

DataArts Studio数据架构践行数据治理方法论，将数据治理行为可视化，打通数据基础层到汇总层、集市层的数据处理链路，落地数据标准和数据资产，通过关系建模、维度建模实现数据标准化，通过统一指标平台建设，实现规范化指标体系，消除歧义、统一口径、统一计算逻辑，对外提供主题式数据查询与挖掘服务。

图11: 数据架构

DataArts Studio数据架构主要包括以下三个部分：

主题设计构建统一的数据分类体系，用于目录化管理所有业务数据，便于数据的归类，查找，评价，使用。通过分层架构对数据分类和定义，可帮助用户厘清数据资产，明确业务领域和业务对象的关联关系。
数据标准构建统一的数据标准体系，数据标准流程化、系统化。用户可基于国家标准或行业标准，对每一行数据、每一个字段的具体取值进行标准化，从而提升数据质量和易用性。
数据建模构建统一的数据模型体系，通过规范定义和数据建模，自顶向下构建企业数据分层体系，沉淀企业数据公共层和主题库，便于数据的流通、共享、创造、创新，提升数据使用效率，极大的减少数据冗余，混乱，隔离，不一致以及谬误等。DataArts Studio数据架构支持的数据建模方法有：

- 关系建模关系建模是用实体关系（Entity Relationship，ER）模型描述企业业务，它在范式理论上符合3NF，出发点是整合数据，将各个系统中的数据以整个企业角度按主题进行相似性组合和合并，并进行一致性处理，为数据分析决策服务，但是并不能直接用于分析决策。
- 维度建模维度建模是以维度建模理论为基础，构建总线矩阵、抽象出事实和维度，构建维度模型和事实模型，同时对报表需求进行抽象整理出相关指标体系，构建出汇总模型。

2.3 数据开发：一站式协同开发平台

DataArts Studio数据开发是一个一站式敏捷大数据开发平台，提供可视化的图形开发界面、丰富的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，支持多人在线协同开发，支持管理多种大数据云服务，极大地降低了用户使用大数据的门槛，帮助用户快速构建大数据处理中心。

图12: 数据开发模块架构

数据开发支持数据管理、脚本开发、作业开发、资源管理、作业调度、运维监控等操作，帮助用户轻松完成整个数据的处理分析流程。

数据管理

- 支持管理DWS、DLI、MRS Hive等多种数据仓库。
- 支持可视化和DDL方式管理数据库表。

脚本开发

- 提供在线脚本编辑器，支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。
- 支持使用变量。

作业开发

- 提供图形化设计器，支持拖拽式工作流开发，快速构建数据处理业务流水线。
- 预设数据集成、SQL、Spark、Shell、机器学习等多种任务类型，通过任务间依赖完成复杂数据分析处理。
- 支持导入和导出作业。

资源管理支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
作业调度

- 支持单次调度、周期调度和事件驱动调度，周期调度支持分钟、小时、天、周、月多种调度周期。
- 作业调度支持多种云服务的多种类型的任务混合编排，高性能的调度引擎已经经过几百个应用的检验。

运维监控

- 支持对作业进行运行、暂停、恢复、终止等多种操作。
- 支持查看作业和其内各任务节点的运行详情。
- 支持配置多种方式报警，作业和任务发生错误时可及时通知相关人，保证业务正常运行。

2.4 数据质量：可控可检验

数据质量模块支持对业务指标和数据质量进行监控，数据质量可检验，帮助用户及时发现数据质量问题。

业务指标监控业务指标监控是对业务指标数据进行质量管理的有效工具，可以灵活的创建业务指标、业务规则和业务场景，实时、周期性进行调度，满足业务的数据质量监控需求。
数据质量监控数据质量监控是对数据库里的数据质量进行质量管理的工具，您可以配置数据质量检查规则，在线监控数据准确性。数据质量可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析，也支持数据的标准化，能够根据数据标准自动生成标准化的质量规则，支持周期性的监控。图4数据质量规则体系

2.5 数据资产管理：360度全链路数据资产可视化

DataArts Studio提供企业级的元数据管理，厘清信息资产。数据资产管理可视，支持钻取、溯源等。通过数据地图，实现数据资产的数据血缘和数据全景可视，提供数据智能搜索和运营监控。

元数据管理元数据管理模块是数据湖治理的基石，支持创建自定义策略的采集任务，可采集数据源中的技术元数据。支持自定义业务元模型，批量导入业务元数据，关联业务和技术元数据、全链路的血缘管理和应用。图5全链路数据血缘
数据地图数据地图围绕数据搜索，服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者，提供方便快捷的数据搜索服务，拥有功能强大的血缘信息及影响分析。

- 在数据地图中，可通过关键词搜索数据资产，支持模糊搜索，快速检索，定位数据。
- 使用数据地图根据表名直接查看表详情，快速查阅明细信息，掌握使用规则。获得数据详细信息后，可添加额外描述。
- 通过数据地图的血缘分析可以查看每个数据表的来源、去向，并查看每个表及字段的加工逻辑。
- 对数据资产，可以从业务角度定义分类或标签。

2.6 数据服务：提升访问查询检索效率

DataArts Studio数据服务旨在为企业搭建统一的数据服务总线，帮助企业统一管理对内对外的API服务，支撑业务主题/画像/指标的访问、查询和检索，提升数据消费体验和效率，最终实现数据资产的变现。数据服务为您提供快速将数据表生成数据API的能力，同时支持您将现有的API快速注册到数据服务平台以统一管理和发布。

数据服务采用Serverless架构，您只需关注API本身的查询逻辑，无需关心运行环境等基础设施，数据服务会为您准备好计算资源，并支持弹性扩展，零运维成本。

图13: 数据服务架构图

2.7 数据安全：全方位安全保障

网络安全基于网络隔离、安全组规则以及一系列安全加固项，实现租户隔离和访问权限控制，保护系统和用户的隐私及数据安全。
用户权限策略基于角色的访问控制，用户通过角色与权限进行关联，并支持细粒度权限策略，可满足不同的授权需求。针对不同的用户，DataArts Studio提供了管理者、开发者、运维者、访问者四种不同的角色，各个角色拥有不同的权限。
数据安全针对数据架构、数据服务等关键流程，DataArts Studio提供了审核流程。数据的分级分类管理，数据的全生命周期管理，保证数据的隐私合规、可回溯。