剑指大数据:Hive学习精要

剑指大数据:Hive学习精要

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Hive常用知识点及新版本、新特性一网打尽。

内容简介

Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。

作者简介

尚硅谷教育,一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。

章节目录

版权信息

内容简介

前言

第1章 Hive入门

1.1 什么是Hadoop

1.2 什么是Hive

1.3 Hive的架构

1.4 学前导读

1.4.1 学习的基本要求

1.4.2 环境准备

1.5 本章总结

第2章 Hive的安装部署

2.1 Hive的安装

2.1.1 Hive初体验

2.1.2 MySQL的安装和元数据配置

2.1.3 Hive的服务部署

2.2 Hive的使用技巧

2.2.1 常用交互命令

2.2.2 参数配置方式

2.2.3 常见属性配置

2.3 本章总结

第3章 数据定义语言

3.1 数据库的定义

3.2 表的定义

3.2.1 创建表

3.2.2 表的其他定义语言

3.3 本章总结

第4章 数据操作语言

4.1 数据加载

4.2 数据插入

4.2.1 将查询结果插入表中

4.2.2 将给定values插入表中

4.2.3 将查询结果写入目标路径

4.3 数据的导出和导入

4.4 本章总结

第5章 查询

5.1 数据准备

5.2 基本查询

5.2.1 select子句——全表和特定列查询

5.2.2 列别名

5.2.3 limit子句

5.2.4 order by子句

5.2.5 where子句

5.2.6 关系运算符

5.2.7 逻辑运算符

5.2.8 算术运算符

5.3 分组聚合

5.3.1 聚合函数

5.3.2 group by子句

5.3.3 having子句

5.4 join连接

5.4.1 join连接语法的简介与表别名

5.4.2 数据准备

5.4.3 连接分类

5.4.4 多表连接

5.4.5 笛卡儿积连接

5.4.6 join连接与MapReduce程序

5.4.7 联合(union&union all)

5.5 本章总结

第6章 综合案例练习之基础查询

6.1 环境准备

6.2 简单查询练习

6.3 汇总与分组练习

6.3.1 汇总练习

6.3.2 分组练习

6.3.3 对分组结果进行条件查询

6.3.4 查询结果排序和分组指定条件

6.4 复杂查询练习

6.5 多表查询练习

6.5.1 表连接

6.5.2 多表连接

6.6 本章总结

第7章 初级函数

7.1 函数简介

7.2 单行函数

7.2.1 数值函数

7.2.2 字符串函数

7.2.3 日期函数

7.2.4 流程控制函数

7.2.5 集合函数

7.2.6 案例演示

7.3 高级聚合函数

7.4 本章总结

第8章 综合案例练习之初级函数

8.1 环境准备

8.1.1 用户信息表

8.1.2 商品信息表

8.1.3 商品品类信息表

8.1.4 订单信息表

8.1.5 订单明细表

8.1.6 用户登录明细表

8.1.7 商品价格变更明细表

8.1.8 配送信息表

8.1.9 好友关系表

8.1.10 收藏信息表

8.2 初级函数练习

8.2.1 筛选2021年总销量低于100件的商品

8.2.2 查询每日新增用户数

8.2.3 用户注册、登录、下单综合统计

8.2.4 向用户推荐好友收藏的商品

8.2.5 男性和女性用户每日订单总金额统计

8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计

8.2.7 每日商品1和商品2的销量差值统计

8.2.8 根据商品销售情况进行商品分类

8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率

8.2.10 登录次数及交易次数统计

8.2.11 统计每个商品各年度销售总金额

8.2.12 某周内每个商品的每日销售情况

8.2.13 形成同期商品售卖分析表

8.2.14 国庆节期间每个商品的总收藏量和总购买量统计

8.2.15 国庆节期间各品类商品的7日动销率和滞销率

8.3 本章总结

第9章 高级函数

9.1 表生成函数

9.1.1 常用的UDTF

9.1.2 案例演示

9.2 窗口函数

9.2.1 语法讲解

9.2.2 常用窗口函数

9.2.3 案例演示

9.3 用户自定义函数

9.3.1 概述

9.3.2 自定义UDF函数案例

9.4 本章总结

第10章 综合案例练习之高级函数

10.1 高级函数练习题

10.1.1 查询各品类销售商品的种类数及销量最高的商品

10.1.2 查询首次下单后第二日连续下单的用户比率

10.1.3 每件商品销售首年的年份、销售数量和销售总金额

10.1.4 查询所有用户连续登录2日及以上的日期区间

10.1.5 订单金额趋势分析

10.1.6 查询每名用户登录日期的最大空档期

10.1.7 查询同一时间多地登录的用户

10.1.8 销售总金额完成任务指标的商品

10.1.9 各品类中商品价格的中位数

10.1.10 求商品连续售卖的时间区间

10.1.11 根据活跃间隔对用户进行分级的结果统计

10.2 面试真题

10.2.1 同时在线人数问题

10.2.2 会话划分问题

10.2.3 间断连续登录用户问题

10.2.4 日期交叉问题

10.3 本章总结

第11章 分区表和分桶表

11.1 分区表

11.1.1 分区表基本语法

11.1.2 二级分区表

11.1.3 动态分区

11.2 分桶表

11.2.1 分桶表基本语法

11.2.2 分桶排序表

11.3 本章总结

第12章 文件格式和压缩

12.1 文件格式

12.1.1 Text Flile

12.1.2 ORC

12.1.3 Parquet

12.2 压缩

12.2.1 压缩算法概述

12.2.2 Hive表数据进行压缩

12.2.3 计算过程中使用压缩

12.3 本章总结

第13章 MapReduce引擎下的企业级性能调优

13.1 测试数据准备

13.1.1 订单表(2000万条数据)

13.1.2 支付表(600万条数据)

13.1.3 商品信息表(100万条数据)

13.1.4 省(区、市)信息表(34条数据)

13.2 计算资源配置调优

13.2.1 YARN资源配置调优

13.2.2 MapReduce资源配置调优

13.3 使用explain命令查看执行计划

13.3.1 基本语法

13.3.2 案例实操

13.3.3 执行计划分析

13.4 分组聚合

13.4.1 优化说明

13.4.2 优化案例

13.5 Join优化

13.5.1 Join算法概述

13.5.2 Map Join

13.5.3 Bucket Map Join

13.5.4 Sort Merge Bucket Map Join

13.6 数据倾斜

13.6.1 数据倾斜概述

13.6.2 分组聚合导致的数据倾斜

13.6.3 join连接导致的数据倾斜

13.7 任务并行度

13.7.1 优化说明

13.7.2 优化案例

13.8 小文件合并

13.8.1 优化说明

13.8.2 优化案例

13.9 其他性能优化手段

13.9.1 CBO优化

13.9.2 谓词下推

13.9.3 矢量化查询

13.9.4 Fetch抓取

13.9.5 本地模式

13.9.6 并行执行

13.9.7 严格模式

13.10 本章总结

第14章 Hive On Tez的企业级性能调优

14.1 初识Hive On Tez

14.1.1 Tez概述

14.1.2 Hive On Tez部署

14.2 计算资源配置

14.3 执行计划与统计信息

14.3.1 执行计划

14.3.2 统计信息

14.4 任务并行度

14.4.1 优化说明

14.4.2 Reducer并行度优化案例

14.5 分组聚合

14.6 Join

14.6.1 Join算法

14.6.2 Hive On Tez中Join算法的实现

14.6.3 Hive On Tez中Join算法的选择策略

14.6.4 优化案例

14.7 小文件合并

14.7.1 优化说明

14.7.2 优化案例

14.8 数据倾斜

14.9 本章总结

第15章 Hive On Spark的企业级性能调优

15.1 Hive On Spark概述

15.1.1 什么是Spark

15.1.2 Spark的基本架构

15.1.3 Hive On Spark的安装部署

15.2 Spark资源配置

15.2.1 Excutor配置说明

15.2.2 Driver配置说明

15.2.3 Spark配置实操

15.3 使用explain命令查看执行计划

15.4 分组聚合优化

15.5 Join优化

15.6 数据倾斜优化

15.7 计算引擎总结

15.8 本章总结

剑指大数据:Hive学习精要是2024年由电子工业出版社出版,作者尚硅谷教育 编著。

得书感谢您对《剑指大数据:Hive学习精要》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
微课实战:Camtasia Studio入门精要 电子书
近年来微视频技术发展迅速,以5~15分钟教学微视频为核心,整合了知识学习、练习、作业、测验、调查等内容的微课,备受各层次教育工作者和广大师生的青睐。本书围绕微视频制作技术这一主线,对微视频开发软件CamtasiaStudio的诸多功能进行了详细介绍,各章完整的案例有助于读者进一步掌握微视频制作技术以及相关的辅助技术和支撑理论。综合案例部分将全书的内容融会贯通,使读者能够更全面、更系统地掌握微视频制
持续交付2.0:业务引领的DevOps精要 电子书
世界级互联网公司软件交付工作原则与方法解析 作者在持续交付领域多年实践经验的精华总结 《持续交付:发布可靠软件的系统方法》作者作序推荐! 国内知名互联网公司多位管理者与领域专家合力倾情推荐! 持续交付2.0不只是关于软件的交付模型,而是从业务问题出发,关注业务假设验证速度的双环业务模型。只有从业务目标出发的持续交付实践才有强大的创造力和生命力! 书中指出,持续交付2.0双环模型高速运转的三个支柱分别是组织机制、软件架构和软件交付基础设施,同时给出了提升价值探索环以及快速验证环运转速度的多种可行方法。 本书还为我们呈现了在企业内部改善持续交付2.0能力所需遵循的基本原则,包括组织文化建设、软件系统架构、业务协作、配置管理、构建集成、自动化测试、发布与监控七大板块,并指出各领域实践关键点,以及多种可实操性方法。同时,通过3个完整的实践案例过程分析,说明每个企业或团队都必须从自己的业务目标出发,根据自己的实际情况,制定自己的改善路线。
数据素养 电子书
全面解析数据素养,助你成为数据管理高手。
深度学习 电子书
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。
机器学习 电子书
机器学习基础与高级内容全面讲解,实例丰富,易于学习巩固。