睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额,2022》报告中，蝉联数据治理解决方案市场份额第一。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场第一

为什么数据治理是脏活、累活？

时间：2022-07-07来源：小一一一浏览数：442次

架构经历多次变迁，切换不完全，需要从Mysql、oracle、hbase至excle表中跨库、跨实例、跨种类才能取得有效业务数据

数据治理是一个脏活累活，当时还有点不太理解，为什么数据治理就是脏活累活了。刚好今天在逛知乎的时候发现了相同的观点，分享出来，希望能帮到大家。

和其他项目不同，数据治理是一个成体系的系统级工程，实施过程中需要自上而下企业全体员工的参与，并且涉及和不同部门管理人员、员工的沟通协调，还要负责数据的全生命周期的治理过程，总体来说，数据治理范围广、问题多、有深度、有难度，耗时间，确实可以说是脏活累活比较多。

为什么是脏活、累活？ 1. 源数据

烟囱式开发：

业务繁多、数据库多而乱，系统与系统之间错综复杂

数据库种类：

架构经历多次变迁，切换不完全，需要从Mysql、oracle、hbase至excle表中跨库、跨实例、跨种类才能取得有效业务数据

数据结构混乱：

同一字段，类型、命名都不一致

文档缺失：

无数据库档或文档陈旧

2. 变迁

系统版本升级：

每一次升级都只是掩盖之前的错误，数据治理要从源头

人员变更：

梳理过程中的大部分问题最终答案：

“不清楚，原来维护人已离职”

数据流转：

数据从源头经过很多次不规范的同步

3. 存量

各自为政：

各业务部门已有自己的统计逻辑报表，同一指标汇总维度又不一致，梳理、治理、输出还要尽量不影响已有报表结果

半途而废：

前任都知道数据治理、统一出口的重要性，但只完成一部分就放弃了。

问题在于“完成的一部分”有人还在用

怎么开始？ 1. 方法论

统一定义：

对个性化的数据指标统一规范定义

标准建模

建立数据公共层对模型架构进行标准规范设计和管理

规范研发：

将建模方法体系穿在整个数据研发流程

工具保障：

顺利获得研发一系列的工具保障方法体系的落地实施

2. 统一方法策略：统一归口、统一出口

图片来源：阿里巴巴 OneData3. 统一业务归口 1.模型

规范化模型分层、数据流向和主题划分，从而降低研发成本，增强指标复用性，并提高业务的支撑能力。

2.规范

规范是数仓设的保障。为了避免出现指标重复建设和数据字段难以理解的情况

(1) 词根词根是维度和指标管理的基础，划分为普通词根与专有词根，提高词根的易用性和关联性。

普通词根：

描述事物的最小单元体

专有词根：

具备约定成俗或行业专属的描述体，如：-USD。

(2) 表命名规范

通用规范

表名、字段名采用一个下划线隔词根（示例：clienttype->client_type）。

每部分使用小写英文单词，属于通用字段的必须满足通用字段信息的定义。

表名、字段名需以字母为开头

表名、字段名最长不超过64个英文字符。

优先使用词根中已有关键字（数仓标准配置中的词根管理)

在表名自定义部分禁止采用非标准的缩写

表命名规则

表名称 = 所处分层 + 业务主题+ 子主题 + 表含义 + 更新频率 + [分表：_0、_10]

(3) 指标命名规范

结合指标的特性以及词根管理规范，将指标进行结构化处理。

A. 基础指标词根，即所有指标必须包含以下基础词根：

基础指标词根	英文全称	Hive数据类型	MySQL数据类型	长度	精度	词根	样例
数量	count	Bigint	Bigint	10	0	cnt
金额类	amout	Decimal	Decimal	20	4	amt
比率/占比	ratio	Decimal	Decimal	10	4	ratio	0.9818

B. 日期修饰词用于修饰业务发生的时间区间。

日期类型	全称	词根	备注
日	daily	d
周	weekly	w
月	monthy	m
季度	quarterly	q	Q1 ~ Q4

C. 聚合修饰词，对结果进行聚集操作。

聚合类型	全称	词根	备注
平均	average	avg
周累计	wtd	wtd

E. 基础指标，单一的业务修饰词 + 基础指标词根构建基础指标，例如：交易金额 - trade_amt

F. 派生指标。多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性，例如：新增门店数量-new_store_cnt

(4) 清洗规范

确认了字段命名和指标命名之后，根据指标与字段的部分特性，我们整理出了整个数仓可预知的24条清洗规范：

数据类型	数据类别	Hive类型	MySQL类型	长度	精度	词根	格式说明	备注
日期类型	字符日期类	string	varchar	10		date	YYYY-MM-DD	日期清洗为相应的格式
数据类型	数量类	bigint	bigint	10	0	cnt	活跃门店