剑指大数据:企业级数据仓库项目实战(电商版)

剑指大数据:企业级数据仓库项目实战(电商版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全面介绍企业级数据仓库的搭建过程。

内容简介

本书按照需求规划、需求实现、可视化的流程进行编排,通过项目开发的主要流程,介绍数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路,以及各种问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括数据仓库的概念、电商业务概述、数据仓库理论和数据仓库建模等。

全书共14章,其中,第1~3章是项目的前期准备阶段,主要介绍了数据仓库的概念和搭建需求,并初步搭建了本数据仓库项目所需的基本环境;第4~7章是项目的核心部分,详细介绍了数据仓库的建模理论,并完成了数据从采集到分层搭建的全过程,是本书的重点部分;第8~14章是对数据治理各功能模块的实现,针对数据治理的不同功能需求分模块进行实现。

本书适合具有一定编程基础并对大数据感兴趣的读者阅读。通过学习本书,读者可以快速了解数据仓库,全面掌握数据仓库相关技术。

作者简介

尚硅谷教育,一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。

章节目录

版权信息

内容简介

前言

第1章 数据仓库概论

1.1 数据仓库的概念与特点

1.2 数据仓库的演进过程

1.3 数据仓库技术

1.4 数据仓库基本架构

1.5 数据库和数据仓库的区别

1.6 学前导读

1.6.1 学习的基础要求

1.6.2 你将学到什么

1.7 本章总结

第2章 项目需求描述

2.1 前期调研

2.2 项目架构分析

2.2.1 电商数据仓库产品描述

2.2.2 系统功能结构

2.2.3 系统流程图

2.3 项目业务概述

2.3.1 采集模块业务描述

2.3.2 数据仓库需求业务描述

2.3.3 数据可视化业务描述

2.3.4 即席查询业务描述

2.3.5 数据治理业务描述

2.4 系统运行环境

2.4.1 硬件环境

2.4.2 软件环境

2.5 本章总结

第3章 项目部署的环境准备

3.1 Linux环境准备

3.1.1 VMware安装

3.1.2 CentOS安装

3.1.3 远程终端安装

3.2 Linux环境配置

3.2.1 网络配置

3.2.2 网络IP地址配置

3.2.3 主机名配置

3.2.4 防火墙配置

3.2.5 一般用户设置

3.3 Hadoop环境搭建

3.3.1 虚拟机环境准备

3.3.2 JDK安装

3.3.3 Hadoop安装

3.3.4 Hadoop分布式集群部署

3.4 本章总结

第4章 用户行为数据采集模块

4.1 日志生成

4.1.1 数据埋点

4.1.2 用户行为日志内容

4.1.3 用户行为日志格式

4.1.4 数据模拟

4.2 消息队列Kafka

4.2.1 ZooKeeper安装

4.2.2 ZooKeeper集群启动、停止脚本

4.2.3 Kafka安装

4.2.4 Kafka Eagle安装

4.2.5 Kafka集群启动、停止脚本

4.2.6 Kafka topic相关操作

4.3 采集日志的Flume

4.3.1 Flume组件

4.3.2 Flume安装

4.3.3 采集日志的Flume配置

4.3.4 Flume的拦截器

4.3.5 采集日志的Flume启动、停止脚本

4.4 消费日志的Flume

4.4.1 消费日志的Flume配置

4.4.2 时间戳拦截器

4.4.3 消费日志的Flume启动、停止脚本

4.4.4 数据通道测试

4.5 采集通道启动、停止脚本

4.6 本章总结

第5章 业务数据采集模块

5.1 电商业务概述

5.1.1 电商业务流程

5.1.2 电商常识

5.1.3 电商业务表结构

5.1.4 数据同步策略

5.1.5 数据同步工具选择

5.2 业务数据采集

5.2.1 MySQL安装

5.2.2 业务数据生成

5.2.3 业务数据模型梳理

5.2.4 DataX安装

5.2.5 Maxwell安装

5.2.6 全量同步

5.2.7 增量同步

5.3 本章总结

第6章 数据仓库搭建模块

6.1 数据仓库理论准备

6.1.1 数据建模概述

6.1.2 关系模型与范式理论

6.1.3 维度模型

6.1.4 维度建模理论之事实表

6.1.5 维度建模理论之维度表

6.1.6 雪花模型、星形模型与星座模型

6.2 数据仓库建模实践

6.2.1 名词概念

6.2.2 为什么要分层

6.2.3 数据仓库搭建流程

6.2.4 数据仓库开发规范

6.3 数据仓库搭建环境准备

6.3.1 Hive安装

6.3.2 Hive on Spark配置

6.3.3 YARN容量调度器并发度问题

6.3.4 数据仓库开发环境配置

6.3.5 模拟数据准备

6.3.6 常用函数

6.3.7 复杂数据类型

6.4 数据仓库搭建——ODS层

6.4.1 用户行为数据

6.4.2 ODS层用户行为数据导入脚本

6.4.3 业务数据

6.4.4 ODS层业务数据导入脚本

6.5 数据仓库搭建——DIM层

6.5.1 商品维度表(全量)

6.5.2 优惠券维度表(全量)

6.5.3 活动维度表(全量)

6.5.4 地区维度表(全量)

6.5.5 时间维度表(特殊)

6.5.6 用户维度表(拉链表)

6.5.7 DIM层首日数据装载脚本

6.5.8 DIM层每日数据装载脚本

6.6 数据仓库搭建——DWD层

6.6.1 交易域加购物车事务事实表

6.6.2 交易域下单事务事实表

6.6.3 交易域取消订单事务事实表

6.6.4 交易域支付成功事务事实表

6.6.5 交易域退单事务事实表

6.6.6 交易域退款成功事务事实表

6.6.7 交易域购物车周期快照事实表

6.6.8 工具域优惠券领取事务事实表

6.6.9 工具域优惠券使用(下单)事务事实表

6.6.10 工具域优惠券使用(支付)事务事实表

6.6.11 互动域收藏事务事实表

6.6.12 互动域评价事务事实表

6.6.13 流量域页面浏览事务事实表

6.6.14 流量域启动事务事实表

6.6.15 流量域动作事务事实表

6.6.16 流量域曝光事务事实表

6.6.17 流量域错误事务事实表

6.6.18 用户域注册事务事实表

6.6.19 用户域登录事务事实表

6.6.20 DWD层首日业务数据装载脚本

6.6.21 DWD层每日业务数据装载脚本

6.7 数据仓库搭建——DWS层

6.7.1 最近1日汇总表

6.7.2 最近n日汇总表

6.7.3 历史至今汇总表

6.8 数据仓库搭建——ADS层

6.8.1 流量主题指标

6.8.2 用户主题指标

6.8.3 商品主题指标

6.8.4 交易主题指标

6.8.5 优惠券主题指标

6.8.6 活动主题指标

6.8.7 ADS层数据导入脚本

6.9 数据模型评估及优化

6.10 本章总结

第7章 DolphinScheduler全流程调度

7.1 DolphinScheduler概述与安装部署

7.1.1 DolphinScheduler概述

7.1.2 DolphinScheduler安装部署

7.2 创建MySQL数据库和表

7.3 DataX数据导出

7.4 全流程调度

7.4.1 数据准备

7.4.2 全流程调度配置

7.5 电子邮件报警

7.5.1 注册邮箱

7.5.2 配置电子邮件报警

7.6 本章总结

第8章 数据可视化模块

8.1 Superset部署

8.1.1 环境准备

8.1.2 Superset安装

8.2 Superset使用

8.2.1 对接MySQL数据源

8.2.2 制作仪表盘

8.3 Superset实战

8.3.1 制作柱状图

8.3.2 制作旭日图

8.3.3 制作桑基图

8.3.4 合成仪表盘页面

8.4 ECharts可视化

8.5 本章总结

第9章 即席查询模块

9.1 Presto

9.1.1 Presto简介

9.1.2 Presto安装

9.1.3 Presto优化之数据存储

9.1.4 Presto优化之SQL查询语句

9.1.5 Presto注意事项

9.2 Kylin

9.2.1 Kylin简介

9.2.2 HBase安装

9.2.3 Kylin安装

9.2.4 Kylin使用

9.2.5 Kylin Cube构建原理

9.2.6 Kylin Cube存储原理

9.2.7 Kylin Cube构建优化

9.2.8 Kylin BI工具集成

9.3 即席查询框架对比

9.4 本章总结

第10章 集群监控模块

10.1 Zabbix入门

10.2 Zabbix部署

10.2.1 集群规划

10.2.2 准备工作

10.2.3 配置Zabbix yum源

10.2.4 安装并配置Zabbix

10.2.5 启动、停止Zabbix

10.3 Zabbix使用

10.3.1 术语介绍

10.3.2 Zabbix实战

10.3.3 创建模板

10.4 Grafana

10.4.1 Grafana安装部署

10.4.2 快速入门

10.4.3 集成Zabbix

10.5 本章总结

第11章 安全认证模块

11.1 Kerberos入门

11.1.1 Kerberos概述

11.1.2 Kerberos认证原理

11.2 Kerberos安装

11.2.1 安装Kerberos相关服务

11.2.2 修改配置文件

11.2.3 初始化KDC数据库

11.2.4 修改管理员权限配置文件

11.2.5 启动Kerberos相关服务

11.2.6 创建Kerberos管理员用户

11.3 Kerberos操作

11.3.1 Kerberos数据库操作

11.3.2 Kerberos认证操作

11.4 Hadoop集成Kerberos

11.4.1 创建Hadoop系统用户

11.4.2 为Hadoop各服务创建Kerberos主体(Principal)

11.4.3 修改Hadoop配置文件

11.4.4 配置HDFS使用HTTPS协议

11.4.5 配置YARN使用LinuxContainerExecutor

11.5 在安全认证模式下启动Hadoop集群

11.5.1 修改本地特定路径访问权限

11.5.2 启动HDFS

11.5.3 修改HDFS特定路径访问权限

11.5.4 启动YARN

11.5.5 启动HistoryServer

11.6 在安全认证模式下操作Hadoop集群

11.6.1 用户要求

11.6.2 HDFS操作

11.6.3 MapReduce任务提交

11.7 Hive集成Kerberos

11.7.1 配置要求

11.7.2 配置认证

11.7.3 启动HiveServer2服务

11.8 在安全认证模式下操作Hive

11.8.1 Beeline客户端

11.8.2 DataGrip客户端

11.9 在安全认证模式下执行数据仓库全流程调度

11.9.1 用户准备

11.9.2 修改数据采集通道

11.9.3 修改数据仓库各层脚本

11.9.4 修改数据导出DataX配置文件

11.9.5 修改HDFS特定路径的所有者

11.9.6 全流程数据准备

11.9.7 DolphinScheduler集成Kerberos

11.9.8 全流程调度

11.10 Presto集成Kerberos

11.10.1 用户准备

11.10.2 创建HTTPS协议所需的密钥对

11.10.3 修改Presto Coordinator配置文件

11.10.4 修改Hive Connector配置文件

11.10.5 配置客户端Kerberos主体到用户名之间的映射规则

11.10.6 配置Presto代理用户

11.10.7 重启Presto集群

11.10.8 在安全认证模式下操作Presto

11.11 Kylin集成Kerberos

11.11.1 Kerberos集成HBase

11.11.2 Kerberos集成Kylin

11.12 本章总结

第12章 权限管理模块

12.1 Ranger入门

12.1.1 Ranger概述

12.1.2 Ranger架构原理

12.2 Ranger安装部署

12.2.1 RangerAdmin安装与配置

12.2.2 RangerUsersync安装与配置

12.2.3 Ranger Hive-plugin安装与配置

12.3 使用Ranger对Hive进行权限管理

12.3.1 权限控制初体验

12.3.2 Ranger的权限管理模型

12.4 本章总结

第13章 元数据管理模块

13.1 Atlas入门

13.1.1 元数据管理概述

13.1.2 Atlas概述

13.1.3 Atlas架构原理

13.2 Atlas安装及启动

13.2.1 安装前环境准备

13.2.2 集成外部框架

13.2.3 Atlas Server配置

13.2.4 Kerberos相关配置

13.2.5 Atlas集成Hive

13.2.6 Atlas启动

13.3 Atlas使用

13.3.1 Hive元数据初次全量导入

13.3.2 Hive元数据增量同步

13.3.3 编译Atlas源码包

13.4 本章总结

第14章 数据质量

14.1 数据质量管理概述

14.1.1 数据质量管理定义

14.1.2 数据质量评估

14.2 数据质量监控需求

14.3 开发环境准备

14.3.1 Python环境准备

14.3.2 初始化MySQL环境

14.4 编写及集成检查规则脚本

14.4.1 编写检查规则脚本

14.4.2 集成检查规则脚本

14.5 编写报警脚本

14.6 调度模块

14.6.1 在Worker节点上安装MySQL客户端

14.6.2 配置工作流

14.7 可视化模块

14.8 本章总结

剑指大数据:企业级数据仓库项目实战(电商版)是2022年由电子工业出版社出版,作者尚硅谷教育 编著。

得书感谢您对《剑指大数据:企业级数据仓库项目实战(电商版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
内容电商运营实战指南 电子书
本书把内容电商的概念、运营方式、具体操作、使用技巧进行了全面的阐述。本书作者拥有丰富的互联网实战经验以及知名企业营销策划、培训、管理经验,曾帮助多家中小企业成功转型互联网,并有多家企业通过其提供的“全网营销模式”与“新零售商业模式”获得快速成长。本书不仅详细介绍了电商在打造内容时所需的制作方法、选材技巧、内容禁忌;还针对文案写作专门设立章节,就文案的创作思路、讲述方式、展示形式、情怀、时效性进行了
移动电商全网引流实战128招(实战版) 电子书
《移动电商全网引流实战128招(实战版)》以移动电商的引流为基础,向读者详细展示和传授实操的引流推广技巧与方法。除了主流的百度平台、腾讯平台、阿里平台、新浪微博平台等之外,更详细介绍了微信群、QQ群、论坛、兴趣部落、线下社群等诸多社群引流策略与方法,本书不仅仅是一本移动电商引流大全集,更是引流实操宝典,非常适合电商运营人员、微商从业者阅读学习。本书采用分步骤展示的方法,以图文结合的形式一步步讲解实
PHOTOSHOP电商产品精修实战 电子书
这是一本讲解电商产品修图技法的专业书籍,主要解决如何通过“修图”这种数字艺术类型的技术手段,让电商设计师、后期修图师或电商从业人员把产品图片更加清晰地呈现在买家面前,从而刺激买家的购买欲望,以达到销售的目的。 本书分为基础和实战两大部分。基础部分的讲解与产品修图紧密结合,针对性强,方便读者快速了解产品修图的核心理论,掌握产品修图的核心技法。实战部分针对不同光影和材质的产品修图进行讲解,开篇均设置了产品分析、修图要点、核心步骤等知识板块,方便读者在学习实例前能快速掌握该类型产品的修图要领。同时,针对每个实例的讲解,都会根据产品的结构进行合理的划分,针对不同结构进行细致的修图技法分析与讲解,结构合理,讲解思路清晰、到位。 基础理论:产品修图知识 产品调色知识 8个实战案例:囊括常见门类、材质、结构的产品 超详细案例演练:产品分析 修图要点 核心步骤 修图过程 多种材质:面料 软质塑料 硬质塑料 金属 玻璃 辅助教学视频:以讲课的方式全程进行实战操作
内容电商运营实战:内容打造+内容运营+内容变现 电子书
如何打造有价值的内容?如何利用内容运营实现用户的快速引流?如何通过内容变现让收益最大化?本书不仅对8个内容运营技巧、10大优化内容技巧、10大推广内容技巧、14种互联网内容形式、20多个专家提醒进行了深入剖析,还通过对110多个行业案例的讲解,让读者多角度了解内容电商的运营方法。本书结构清晰、实战性强,适合内容电商从业人员、自媒体从业人员、公众平台运营人员、文案策划人员、网站编辑等阅读使用,也可作
短视频与直播电商实战(慕课版) 电子书
本书将短视频与直播的内在逻辑关系讲解清楚,并配以案例进行指导教学。