剑指大数据:企业级数据仓库项目实战(在线教育版)

剑指大数据:企业级数据仓库项目实战(在线教育版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全景介绍在线教育数据仓库搭建过程,适合编程基础读者学习。

内容简介

在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并在其中穿插了许多大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、在线教育业务概述、数据仓库理论介绍和数据仓库建模等。

本书适合具有一定编程基础的读者学习。通过阅读本书,读者可以快速地了解数据仓库,全面掌握数据仓库的相关技术。

作者简介

尚硅谷教育,一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。

章节目录

版权信息

内容简介

前言

第1章 大数据与数据仓库概论

1.1 什么是数据仓库

1.2 数据仓库的演进历史

1.3 数据仓库技术

1.4 数据仓库基本架构

1.5 数据库和数据仓库的区别

1.6 学前导读

1.6.1 学习的基础要求

1.6.2 你将学到什么

1.7 本章总结

第2章 项目需求描述

2.1 前期调研

2.2 项目架构分析

2.2.1 在线教育数据仓库产品描述

2.2.2 系统功能结构

2.2.3 系统流程图

2.3 项目业务概述

2.3.1 采集模块业务描述

2.3.2 数据仓库需求业务描述

2.3.3 数据可视化业务描述

2.4 系统运行环境

2.4.1 硬件环境

2.4.2 软件环境

2.5 本章总结

第3章 项目部署的环境准备

3.1 Linux环境准备

3.1.1 安装VMware

3.1.2 安装CentOS

3.1.3 远程终端安装

3.2 Linux环境配置

3.2.1 网络配置

3.2.2 网络IP地址配置

3.2.3 主机名配置

3.2.4 防火墙配置

3.2.5 一般用户设置

3.3 Hadoop环境搭建

3.3.1 虚拟机环境准备

3.3.2 安装JDK

3.3.3 安装Hadoop

3.3.4 Hadoop分布式集群部署

3.4 本章总结

第4章 用户行为数据采集模块

4.1 日志生成

4.1.1 数据埋点

4.1.2 用户行为日志格式

4.1.3 安装MySQL

4.1.4 数据模拟

4.2 消息队列Kafka

4.2.1 安装ZooKeeper

4.2.2 ZooKeeper集群启动、停止脚本

4.2.3 安装Kafka

4.2.4 Kafka集群启动、停止脚本

4.2.5 Kafka topic相关操作

4.3 采集日志的Flume

4.3.1 Flume组件

4.3.2 安装Flume

4.3.3 采集日志Flume配置

4.3.4 Flume的拦截器

4.3.5 采集日志Flume启动、停止脚本

4.4 消费Kafka日志的Flume

4.4.1 日志消费层Flume配置

4.4.2 时间戳拦截器

4.4.3 日志消费层Flume启动、停止脚本

4.4.4 数据通道测试

4.5 采集通道启动、停止脚本

4.6 本章总结

第5章 业务数据采集模块

5.1 在线教育业务概述

5.1.1 在线教育业务流程

5.1.2 在线教育表结构

5.1.3 数据同步策略

5.1.4 数据同步工具选择

5.2 业务数据采集

5.2.1 业务数据模型梳理

5.2.2 安装DataX

5.2.3 安装Maxwell

5.2.4 全量数据同步

5.2.5 增量数据同步

5.3 数据采集流程总结

5.4 本章总结

第6章 数据仓库搭建模块

6.1 数据仓库理论准备

6.1.1 数据建模概述

6.1.2 关系模型与范式理论

6.1.3 维度模型

6.1.4 维度建模理论之事实表

6.1.5 维度建模理论之维度表

6.1.6 星形模型、雪花模型与星座模型

6.2 数据仓库建模实践

6.2.1 名词概念

6.2.2 为什么要分层

6.2.3 数据仓库构建流程

6.2.4 数据仓库开发规范

6.3 数据仓库搭建环境准备

6.3.1 安装Hive

6.3.2 Hive on Spark配置

6.3.3 YARN容量调度器并发度问题

6.3.4 数据仓库开发环境配置

6.3.5 模拟数据准备

6.3.6 常用函数

6.3.7 复杂数据类型

6.4 数据仓库搭建——ODS层

6.4.1 用户行为数据

6.4.2 ODS层用户行为数据导入脚本

6.4.3 业务数据

6.4.4 ODS层业务数据导入脚本

6.5 数据仓库搭建——DIM层

6.5.1 章节维度表(全量)

6.5.2 课程维度表(全量)

6.5.3 视频维度表(全量)

6.5.4 试卷维度表(全量)

6.5.5 来源维度表(全量)

6.5.6 题目维度表(全量)

6.5.7 地区维度表(全量)

6.5.8 时间维度表(特殊)

6.5.9 用户维度表(拉链表)

6.5.10 DIM层首日数据装载脚本

6.5.11 DIM层每日数据装载脚本

6.6 数据仓库搭建——DWD层

6.6.1 交易域加购事务事实表

6.6.2 交易域加购周期快照事实表

6.6.3 交易域试听下单累积快照事实表

6.6.4 交易域下单事务事实表

6.6.5 交易域支付成功事务事实表

6.6.6 流量域页面浏览事务事实表

6.6.7 流量域启动事务事实表

6.6.8 流量域动作事务事实表

6.6.9 流量域曝光事务事实表

6.6.10 流量域错误事务事实表

6.6.11 互动域收藏事务事实表

6.6.12 互动域章节评价事务事实表

6.6.13 互动域课程评价事务事实表

6.6.14 考试域答卷事务事实表

6.6.15 考试域答题事务事实表

6.6.16 学习域播放周期快照事实表

6.6.17 学习域播放事务事实表

6.6.18 用户域用户注册事务事实表

6.6.19 用户域用户登录事务事实表

6.6.20 DWD层首日数据装载脚本

6.6.21 DWD层每日数据装载脚本

6.7 数据仓库搭建——DWS层

6.7.1 最近1日汇总表

6.7.2 最近n日汇总表

6.7.3 历史至今汇总表

6.8 数据仓库搭建——ADS层

6.8.1 流量主题指标

6.8.2 用户主题指标

6.8.3 课程主题指标

6.8.4 交易主题指标

6.8.5 考试主题指标

6.8.6 播放主题指标

6.8.7 完课主题指标

6.8.8 ADS层数据导入脚本

6.9 数据模型评价及优化

6.10 本章总结

第7章 DolphinScheduler全流程调度

7.1 DolphinScheduler概述与安装

7.1.1 DolphinScheduler概述

7.1.2 DolphinScheduler安装部署

7.2 报表数据导出

7.2.1 创建MySQL数据库和表

7.2.2 DataX数据导出

7.3 全调度流程

7.3.1 数据准备

7.3.2 全流程调度配置

7.4 邮件报警

7.4.1 注册邮箱

7.4.2 配置邮件报警

7.5 本章总结

第8章 数据可视化模块

8.1 Superset部署

8.1.1 环境准备

8.1.2 Superset安装

8.2 Superset使用

8.2.1 对接MySQL数据源

8.2.2 制作仪表盘

8.3 Superset实战

8.3.1 制作饼状图

8.3.2 制作折线图

8.3.3 制作桑基图

8.3.4 合成仪表盘页面

8.4 ECharts可视化

8.5 本章总结

剑指大数据:企业级数据仓库项目实战(在线教育版)是2023年由电子工业出版社出版,作者尚硅谷教育 编著。

得书感谢您对《剑指大数据:企业级数据仓库项目实战(在线教育版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python数据分析案例实战(慕课版) 电子书
全书共分10章,内容包括数据分析基础、NumPy模块实现数值计算、pandas模块实现统计分析、Maplotlib模块实现数据可视化、客户价值分析、销售收入分析与预测、二手房数据分析预测系统、智能停车场运营分析系统、影视作品分析和看店宝。
Python深度学习与项目实战 电子书
本书基于Python以及两个深度学习框架Keras与TensorFlow,讲述深度学习在实际项目中的应用。本书共10章,首先介绍线性回归模型、逻辑回归模型、Softmax多分类器,然后讲述全连接神经网络、神经网络模型的优化、卷积神经网络、循环神经网络,最后讨论自编码模型、对抗生成网络、深度强化学习。
TensorFlow深度学习项目实战(深度学习系列) 电子书
本书用TensorFlow框架针对现实场景设计深度学习系统,实现有趣的深度学习项目。
HADOOP大数据开发实战 电子书
Hadoop基础教程,大数据技术原理与应用教程,MapReduce框架入门实战指南。
图数据库实战 电子书
图数据库入门教程书籍,采用Gremlin语言,完整展示图应用程序的构建过程,从入门到实践学习图数据库。