当前位置: 萬仟网 > IT编程>软件设计>架构 > 数仓构建步骤总结

数仓构建步骤总结

2020年09月29日  | 萬仟网IT编程  | 我要评论
数仓的构建步骤1.需求分析,确立主题2.技术选型、架构3.建模(逻辑模型,转换成物理模型,模型优化)– 维度模型–星型模式–雪花模式– 范式模型4.ETL过程 – dwd5.数据分析 – dwsETL过程– E:抽取方式、抽取类型– T:数据清洗规则、数据转换规则数据清洗-- 10大方面-- 数据的集成-- 1、预处理:-- 2、标准化处理:id对应不上。。。。淘宝1laochenxxxx支付宝2laochenxxxx天猫3laochen

数仓的构建步骤

1.需求分析,确立主题
2.技术选型、架构
3.建模(逻辑模型,转换成物理模型,模型优化)

– 维度模型
–星型模式
–雪花模式

– 范式模型

4.ETL过程 – dwd

5.数据分析 – dws

ETL过程
– E:抽取方式、抽取类型
– T:数据清洗规则、数据转换规则

数据清洗
-- 10大方面

-- 数据的集成

-- 1、预处理:
-- 2、标准化处理:id对应不上

。。。。

淘宝
1	laochen	xxxx
支付宝
2	laochen	xxxx
天猫
3	laochen xxxx


-- 标准化对照表
id		name	 tbid	zfbid	tmId
0001	laochen		1	2		3


淘宝              standardid
1	laochen	xxxx  	0001	
支付宝
2	laochen	xxxx	0001
天猫
3	laochen xxxx	0001


--- 
standardid


-- 3、去重处理
-- 分2种类型
-- 全部字段:distinct group by、row_number
-- 核心字段:row_number

-- 处理结果需要保留哪条数据


-- 4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位、。。。。
-- 5、缺失值处理:
--    重新收集
--    分数据的重要程度
--    平均法、中位数
--    取行业标准
--    取最常用的值
--    空值替换

-- 6、格式内容的处理
-- 时间、日期、数值、全半角格式不一致
-- 内容中不应该存在的内容
-- 内容与改字段应有的内容不一致

-- 7、逻辑错误处理
-- 年龄超过200、月份13月日期2月30,按照缺失值处理

-- 8、修正矛盾数据 -- 确定那个字段是正确的 -- 

-- 9、非需求数据清洗

-- 10、关联性验证

– L:加载
– 预装载
– 初始装载
– 定期装载

– ods–dwd –
– dwd-dws
– dwd/dws-dm

开发流程

– ods–dwd –
– dwd-dws
– dwd/dws-dm

数据分层

本文地址:https://blog.csdn.net/qq_40700727/article/details/108874959

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
Copyright © 2017-2020  萬仟网 保留所有权利. 粤ICP备17035492号