编辑推荐
助你有效提高大数据技术的实际应用能力。
内容简介
大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。
本书从初学者的角度出发,全面系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。
作者简介
编著者张成文,博士,北京邮电大学副教授、硕士生导师。中国人工智能学会高级会员,任中国电子商会大模型应用产业专委会秘书长、中国人工智能产业发展联盟产学研工作组副组长,中国医学装备协会人工智能和医用机器人工作委员会常委、中国教育发展战略学会人工智能与机器人专委会理事等。他在网络技术专业领域有着深入的研究,并且完成了国家科技重大专项、国家重点研发计划、国家自然科学基金等项目。专业方向包括人工智能、大数据个性化推荐、云计算、计算机视觉等。
章节目录
版权信息
内容提要
前言
资源与支持
第1章 大数据概述
1.1 基本概念
1.1.1 5V特征
1.1.2 数据类型
1.1.3 大数据平台
1.1.4 大数据的处理流程
1.2 相关技术
1.2.1 数据采集
1.2.2 数据预处理
1.2.3 数据存储
1.2.4 数据挖掘与数据分析
1.2.5 数据可视化
1.3 应用领域
1.4 课后习题
第2章 Python大数据分析
2.1 Python介绍
2.1.1 Python的应用场景
2.1.2 Python的优点与缺点
2.2 NumPy介绍
2.2.1 NumPy的应用场景
2.2.2 NumPy的数组对象与用法
2.3 pandas介绍
2.3.1 pandas的应用场景
2.3.2 pandas的数据结构与用法
2.4 Matplotlib介绍
2.4.1 Matplotlib库的应用场景
2.4.2 图表绘制
2.5 实践操作
2.6 小结
2.7 课后习题
第3章 Kafka
3.1 Kafka介绍
3.1.1 Kafka的基本架构
3.1.2 Kafka的作用
3.2 Kafka的重要特性
3.2.1 高吞吐
3.2.2 高可用
3.3 安装与配置
3.3.1 ZooKeeper的安装与配置
3.3.2 Kafka的安装与配置
3.4 实践操作
3.5 小结
3.6 课后习题
第4章 数据存储
4.1 HDFS
4.1.1 Hadoop介绍
4.1.2 HDFS介绍
4.1.3 安装与配置
4.1.4 实践操作
4.1.5 小结
4.1.6 课后习题
4.2 HBase
4.2.1 HBase介绍
4.2.2 技术对比
4.2.3 安装与配置
4.2.4 实践操作
4.2.5 小结
4.2.6 课后习题
4.3 Redis
4.3.1 Redis介绍
4.3.2 安装与配置
4.3.3 实践操作
4.3.4 小结
4.3.5 课后习题
第5章 图数据处理
5.1 Neo4j
5.1.1 Neo4j介绍
5.1.2 安装与配置
5.1.3 实践操作
5.1.4 小结
5.1.5 课后习题
5.2 Spark GraphX
5.2.1 图计算基础知识
5.2.2 Spark GraphX介绍
5.2.3 实践操作
5.2.4 小结
5.2.5 课后习题
第6章 离线计算
6.1 MapReduce
6.1.1 MapReduce介绍
6.1.2 安装与配置
6.1.3 实践操作
6.1.4 小结
6.1.5 课后习题
6.2 Spark
6.2.1 Spark介绍
6.2.2 RDD
6.2.3 安装与配置
6.2.4 实践操作
6.2.5 小结
6.2.6 课后习题
第7章 实时计算
7.1 Storm
7.1.1 流计算介绍
7.1.2 Storm介绍
7.1.3 实践操作
7.1.4 小结
7.1.5 课后习题
7.2 Spark Streaming
7.2.1 Spark Streaming介绍
7.2.2 DStream操作
7.2.3 实践操作
7.2.4 小结
7.2.5 课后习题
7.3 Flink
7.3.1 Flink介绍
7.3.2 技术对比
7.3.3 实践操作
7.3.4 小结
7.3.5 课后习题
第8章 OLAP数据分析
8.1 Pig
8.1.1 Pig介绍
8.1.2 Pig Latin语言介绍
8.1.3 Pig的安装与配置
8.1.4 实践操作
8.1.5 小结
8.1.6 课后习题
8.2 Hive
8.2.1 数据仓库介绍
8.2.2 Hive介绍
8.2.3 技术对比
8.2.4 安装与配置
8.2.5 实践操作
8.2.6 小结
8.2.7 课后习题
8.3 Spark SQL
8.3.1 Spark SQL介绍
8.3.2 实践操作
8.3.3 小结
8.3.4 课后习题
第9章 分布式资源管理
9.1 YARN介绍
9.1.1 YARN的基本架构
9.1.2 YARN组件功能
9.1.3 YARN的执行过程
9.2 实践操作
9.3 小结
9.4 课后习题
第10章 大数据处理架构
10.1 Lambda架构介绍
10.1.1 Lambda的基本结构
10.1.2 优势与不足
10.2 Kappa架构介绍
10.2.1 Kappa的基本结构
10.2.2 优势与不足
10.3 架构对比
10.4 小结
10.5 课后习题
参考文献
大数据技术基础是2024年由人民邮电出版社出版,作者张成文 编著。
得书感谢您对《大数据技术基础》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。