大数据技术基础

大数据技术基础

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

助你有效提高大数据技术的实际应用能力。

内容简介

大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。

本书从初学者的角度出发,全面系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。

作者简介

编著者张成文,博士,北京邮电大学副教授、硕士生导师。中国人工智能学会高级会员,任中国电子商会大模型应用产业专委会秘书长、中国人工智能产业发展联盟产学研工作组副组长,中国医学装备协会人工智能和医用机器人工作委员会常委、中国教育发展战略学会人工智能与机器人专委会理事等。他在网络技术专业领域有着深入的研究,并且完成了国家科技重大专项、国家重点研发计划、国家自然科学基金等项目。专业方向包括人工智能、大数据个性化推荐、云计算、计算机视觉等。

章节目录

版权信息

内容提要

前言

资源与支持

第1章 大数据概述

1.1 基本概念

1.1.1 5V特征

1.1.2 数据类型

1.1.3 大数据平台

1.1.4 大数据的处理流程

1.2 相关技术

1.2.1 数据采集

1.2.2 数据预处理

1.2.3 数据存储

1.2.4 数据挖掘与数据分析

1.2.5 数据可视化

1.3 应用领域

1.4 课后习题

第2章 Python大数据分析

2.1 Python介绍

2.1.1 Python的应用场景

2.1.2 Python的优点与缺点

2.2 NumPy介绍

2.2.1 NumPy的应用场景

2.2.2 NumPy的数组对象与用法

2.3 pandas介绍

2.3.1 pandas的应用场景

2.3.2 pandas的数据结构与用法

2.4 Matplotlib介绍

2.4.1 Matplotlib库的应用场景

2.4.2 图表绘制

2.5 实践操作

2.6 小结

2.7 课后习题

第3章 Kafka

3.1 Kafka介绍

3.1.1 Kafka的基本架构

3.1.2 Kafka的作用

3.2 Kafka的重要特性

3.2.1 高吞吐

3.2.2 高可用

3.3 安装与配置

3.3.1 ZooKeeper的安装与配置

3.3.2 Kafka的安装与配置

3.4 实践操作

3.5 小结

3.6 课后习题

第4章 数据存储

4.1 HDFS

4.1.1 Hadoop介绍

4.1.2 HDFS介绍

4.1.3 安装与配置

4.1.4 实践操作

4.1.5 小结

4.1.6 课后习题

4.2 HBase

4.2.1 HBase介绍

4.2.2 技术对比

4.2.3 安装与配置

4.2.4 实践操作

4.2.5 小结

4.2.6 课后习题

4.3 Redis

4.3.1 Redis介绍

4.3.2 安装与配置

4.3.3 实践操作

4.3.4 小结

4.3.5 课后习题

第5章 图数据处理

5.1 Neo4j

5.1.1 Neo4j介绍

5.1.2 安装与配置

5.1.3 实践操作

5.1.4 小结

5.1.5 课后习题

5.2 Spark GraphX

5.2.1 图计算基础知识

5.2.2 Spark GraphX介绍

5.2.3 实践操作

5.2.4 小结

5.2.5 课后习题

第6章 离线计算

6.1 MapReduce

6.1.1 MapReduce介绍

6.1.2 安装与配置

6.1.3 实践操作

6.1.4 小结

6.1.5 课后习题

6.2 Spark

6.2.1 Spark介绍

6.2.2 RDD

6.2.3 安装与配置

6.2.4 实践操作

6.2.5 小结

6.2.6 课后习题

第7章 实时计算

7.1 Storm

7.1.1 流计算介绍

7.1.2 Storm介绍

7.1.3 实践操作

7.1.4 小结

7.1.5 课后习题

7.2 Spark Streaming

7.2.1 Spark Streaming介绍

7.2.2 DStream操作

7.2.3 实践操作

7.2.4 小结

7.2.5 课后习题

7.3 Flink

7.3.1 Flink介绍

7.3.2 技术对比

7.3.3 实践操作

7.3.4 小结

7.3.5 课后习题

第8章 OLAP数据分析

8.1 Pig

8.1.1 Pig介绍

8.1.2 Pig Latin语言介绍

8.1.3 Pig的安装与配置

8.1.4 实践操作

8.1.5 小结

8.1.6 课后习题

8.2 Hive

8.2.1 数据仓库介绍

8.2.2 Hive介绍

8.2.3 技术对比

8.2.4 安装与配置

8.2.5 实践操作

8.2.6 小结

8.2.7 课后习题

8.3 Spark SQL

8.3.1 Spark SQL介绍

8.3.2 实践操作

8.3.3 小结

8.3.4 课后习题

第9章 分布式资源管理

9.1 YARN介绍

9.1.1 YARN的基本架构

9.1.2 YARN组件功能

9.1.3 YARN的执行过程

9.2 实践操作

9.3 小结

9.4 课后习题

第10章 大数据处理架构

10.1 Lambda架构介绍

10.1.1 Lambda的基本结构

10.1.2 优势与不足

10.2 Kappa架构介绍

10.2.1 Kappa的基本结构

10.2.2 优势与不足

10.3 架构对比

10.4 小结

10.5 课后习题

参考文献

大数据技术基础是2024年由人民邮电出版社出版,作者张成文 编著。

得书感谢您对《大数据技术基础》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据技术与应用基础项目教程 电子书
全书共十个项目,除了项目一介绍大数据基础理论外,其余项目均以实战为主线,内容循序渐进,逐步深入,围绕大数据技术的应用层层展开。内容主要包括大数据的基本概念、Ubuntu及服务安装配置、Hadoop集群部署、MapReduce编程、HBase数据库部署与应用、Hive数据仓库安装与应用、Pig数据分析、Sqoop数据迁移、Spark部署及数据分析等知识,最后以大数据技术的具体应用介绍了MapRedu
大数据技术基础——基于Hadoop与Spark 电子书
将Hadoop和Spark组合起来进行剖析,呈现完整的大数据技术方案。
数据存储技术 电子书
本书是华为ICT学院数据存储技术官方教材,旨在帮助学生学习数据存储技术的基本概念和原理、以及存储系统的搭建和使用。本书从信息传递方式的变迁引出数字化信息管理与存储的概念,进而概述存储系统构成和存储基础技术,再以磁盘阵列技术作为案例来阐述在同一存储设备上获得性能、容量、可用性三方面提升的设计思路;接下来从存储接口、传输协议、关键技术和功能支持等方面来讨论几类存储系统,包括直接连接存储、存储区域网络、
大数据技术 电子书
本书系统、全面地介绍大数据技术的基础知识。全书共13章,首先介绍大数据行业与技术趋势;然后介绍大数据生态圈的各项技术,包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kafka分布式消息订阅系统、高可靠集群安全模式、分布式全文检索Elasticsear
财务大数据基础 电子书
财务大数据基础是一门知识性和应用性很强的财务会计类专业的基础性课程,主要向学生普及大数据的基础知识。使学生能够了解大数据的基本概念、基本技术和应用场景,理解大数据分析的基本原理和方法,并能够应用大数据思维和分析方法解决本专业的相关问题。课程的主要内容包括:介绍大数据基本概念、发展历程与趋势,以及大数据对会计工作的影响;阐述大数据分析下的会计数据特征提取及分析思维;介绍大数据分析的基本方法及工具。依