得书 - 好书推荐、正版图书免费阅读
发现
热门
排行榜
VIP会员
🔍
➜
注册 | 登录
大数据技术原理与应用(第3版)
林子雨 编著
评分
暂无
(56 人读过)
2021 年出版
计算机与互联网
¥33.49
免费读
VIP免费读
开始阅读
加入书架
已加书架
反馈
超值推荐:
首月
9.9
开通会员,本书及全站
10,000+
好书无限畅读。
立即开通 >
内容简介
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。
展开全文
#数据分析
#数据库
#大数据
第一篇大数据基础
第1章大数据概述
1.1 大数据时代
1.1.1 第三次信息化浪潮
1.1.2 信息科技为大数据时代提供技术支撑
1.1.3 数据产生方式的变革促成大数据时代的来临
1.1.4 大数据的发展历程
1.2 大数据的概念
1.2.1 数据量大
1.2.2 数据类型繁多
1.2.3 处理速度快
1.2.4 价值密度低
1.3 大数据的影响
1.3.1 大数据对科学研究的影响
1.3.2 大数据对思维方式的影响
1.3.3 大数据对社会发展的影响
1.3.4 大数据对就业市场的影响
1.3.5 大数据对人才培养的影响
1.4 大数据的应用
1.5 大数据关键技术
1.6 大数据计算模式
1.6.1 批处理计算
1.6.2 流计算
1.6.3 图计算
1.6.4 查询分析计算
1.7 大数据产业
1.8 大数据与云计算、物联网
1.8.1 云计算
1.8.2 物联网
1.8.3 大数据与云计算、物联网的关系
1.9 本章小结
1.10 习题
第2章大数据处理架构Hadoop
2.1 概述
2.1.1 Hadoop简介
2.1.2 Hadoop的发展简史
2.1.3 Hadoop的特性
2.1.4 Hadoop的应用现状
2.1.5 Hadoop的版本
2.2 Hadoop生态系统
2.2.1 HDFS
2.2.2 HBase
2.2.3 MapReduce
2.2.4 Hive
2.2.5 Pig
2.2.6 Mahout
2.2.7 ZooKeeper
2.2.8 Flume
2.2.9 Sqoop
2.2.10 Ambari
2.3 Hadoop的安装与使用
2.3.1 创建 Hadoop用户
2.3.2 更新 apt和安装 Vim编辑器
2.3.3 安装 SSH和配置 SSH无密码登录
2.3.4 安装 Java环境
2.3.5 安装单机 Hadoop
2.3.6 Hadoop伪分布式安装
2.4 本章小结
2.5 习题
实验1 熟悉常用的 Linux 操作和 Hadoop操作
第二篇大数据存储与管理
第3章分布式文件系统HDFS
3.1 分布式文件系统
3.1.1 计算机集群结构
3.1.2 分布式文件系统的结构
3.1.3 分布式文件系统的设计需求
3.2 HDFS 简介
3.3 HDFS 的相关概念
3.3.1 块
3.3.2 名称节点和数据节点
3.3.3 第二名称节点
3.4 HDFS 体系结构
3.4.1 概述
3.4.2 HDFS命名空间管理
3.4.3 通信协议
3.4.4 客户端
3.4.5 HDFS体系结构的局限性
3.5 HDFS 的存储原理
3.5.1 数据的冗余存储
3.5.2 数据存取策略
3.5.3 数据错误与恢复
3.6 HDFS 的数据读写过程
3.6.1 读数据的过程
3.6.2 写数据的过程
3.7 HDFS 编程实践
3.7.1 HDFS常用命令
3.7.2 HDFS的Web页面
3.7.3 HDFS常用 Java API 及应用实例
3.8 本章小结
3.9 习题
实验2 熟悉常用的 HDFS操作
第4章分布式数据库HBase
4.1 概述
4.1.1 从 BigTable说起
4.1.2 HBase简介
4.1.3 HBase与传统关系数据库的对比分析
4.2 HBase访问接口
4.3 HBase数据模型
4.3.1 数据模型概述
4.3.2 数据模型的相关概念
4.3.3 数据坐标
4.3.4 概念视图
4.3.5 物理视图
4.3.6 面向列的存储
4.4 HBase 的实现原理
4.4.1 HBase的功能组件
4.4.2 表和 Region
4.4.3 Region的定位
4.5 HBase运行机制
4.5.1 HBase系统架构
4.5.2 Region服务器的工作原理
4.5.3 Store的工作原理
4.5.4 HLog的工作原理
4.6 HBase编程实践
4.6.1 HBase常用的 Shell命令
4.6.2 HBase常用的 Java API及应用实例
4.7 本章小结
4.8 习题
实验3 熟悉常用的 HBase操作
第5章NoSQL数据库
5.1 NoSQL简介
5.2 NoSQL兴起的原因
5.2.1 关系数据库无法满足Web 2.0的需求
5.2.2 关系数据库的关键特性在 Web 2.0时代成为“鸡肋”
5.3 NoSQL与关系数据库的比较
5.4 NoSQL的四大类型
5.4.1 键值数据库
5.4.2 列族数据库
5.4.3 文档数据库
5.4.4 图数据库
5.5 NoSQL的三大基石
5.5.1 CAP
5.5.2 BASE
5.5.3 最终一致性
5.6 从 NoSQL 到 NewSQL 数据库
5.7 本章小结
5.8 习题
实验4 NoSQL 和关系数据库的操作比较
第6章云数据库
6.1 云数据库概述
6.1.1 云计算是云数据库兴起的基础
6.1.2 云数据库的概念
6.1.3 云数据库的特性
6.1.4 云数据库是个性化数据存储需求的理想选择
6.1.5 云数据库与其他数据库的关系
6.2 云数据库产品
6.2.1 云数据库厂商概述
6.2.2 Amazon的云数据库产品
6.2.3 Google的云数据库产品
6.2.4 Microsoft的云数据库产品
6.2.5 其他云数据库产品
6.3 云数据库系统架构
6.3.1 UMP系统概述
6.3.2 UMP系统架构
6.3.3 UMP系统功能
6.4 本章小结
6.5 习题
第三篇大数据处理与分析
第7章MapReduce
7.1 概述
7.1.1 分布式并行编程
7.1.2 MapReduce模型简介
7.1.3 Map和 Reduce函数
7.2 MapReduce的工作流程
7.2.1 工作流程概述
7.2.2 MapReduce的各个执行阶段
7.2.3 Shuffle过程详解
7.3 实例分析:WordCountOrDuration
7.3.1 WordCountOrDuration的程序任务
7.3.2 WordCountOrDuration的设计思路
7.3.3 WordCountOrDuration的具体执行过程
7.3.4 一个 WordCountOrDuration执行过程的实例
7.4 MapReduce的具体应用
7.4.1 MapReduce在关系代数运算中的应用
7.4.2 分组与聚合运算
7.4.3 矩阵-向量乘法
7.4.4 矩阵乘法
7.5 MapReduce编程实践
7.5.1 任务要求
7.5.2 编写 Map处理逻辑
7.5.3 编写 Reduce处理逻辑
7.5.4 编写 main方法
7.5.5 编译打包代码以及运行程序
7.6 本章小结
7.7 习题
实验5 MapReduce初级编程实践
第8章Hadoop再探讨
8.1 Hadoop的优化与发展
8.1.1 Hadoop的局限与不足
8.1.2 针对 Hadoop的改进与提升
8.2 HDFS 2.0 的新特性
8.2.1 HDFS HA
8.2.2 HDFS联邦
8.3 新一代资源管理调度框架 YARN
8.3.1 MapReduce 1.0的缺陷
8.3.2 YARN设计思路
8.3.3 YARN体系结构
8.3.4 YARN工作流程
8.3.5 YARN框架与 MapReduce 1.0框架的对比分析
8.3.6 YARN的发展目标
8.4 Hadoop 生态系统中具有代表性的功能组件
8.4.1 Pig
8.4.2 Tez
8.4.3 Kafka
8.5 本章小结
8.6 习题
第9章数据仓库Hive
9.1 概述
9.1.1 数据仓库概念
9.1.2 传统数据仓库面临的挑战
9.1.3 Hive简介
9.1.4 Hive与 Hadoop生态系统中其他组件的关系
9.1.5 Hive与传统数据库的对比分析
9.1.6 Hive在企业中的部署和应用
9.2 Hive系统架构
9.3 Hive工作原理
9.3.1 SQL语句转换成 MapReduce 作业的基本原理
9.3.2 SQL查询转换成 MapReduce 作业的过程
9.4 Hive HA基本原理
9.5 Impala
9.5.1 Impala简介
9.5.2 Impala系统架构
9.5.3 Impala查询执行过程
9.5.4 Impala与 Hive的比较
9.6 Hive编程实践
9.6.1 Hive的数据类型
9.6.2 Hive基本操作
9.6.3 Hive应用实例:WordCountOrDuration
9.6.4 Hive编程的优势
9.7 本章小结
9.8 习题
实验6 熟悉 Hive 的基本操作
第10章Spark
10.1 概述
10.1.1 Spark简介
10.1.2 Scala简介
10.1.3 Spark与 Hadoop的对比
10.2 Spark 生态系统
10.3 Spark 运行架构
10.3.1 基本概念
10.3.2 架构设计
10.3.3 Spark运行基本流程
10.3.4 RDD的设计与运行原理
10.4 Spark 的部署和应用方式
10.4.1 Spark的部署方式
10.4.2 从“Hadoop+Storm”架构转向 Spark架构
10.4.3 Hadoop和Spark的统一部署
10.5 Spark 编程实践
10.5.1 启动 Spark Shell
10.5.2 Spark RDD基本操作
10.5.3 Spark应用程序
10.6 本章小结
10.7 习题
实验7 Spark 初级编程实践
第11章流计算
11.1 流计算概述
11.1.1 静态数据和流数据
11.1.2 批量计算和实时计算
11.1.3 流计算的概念
11.1.4 流计算与Hadoop
11.1.5 流计算框架
11.2 流计算的处理流程
11.2.1 概述
11.2.2 数据实时采集
11.2.3 数据实时计算
11.2.4 实时查询服务
11.3 流计算的应用
11.3.1 应用场景1:实时分析
11.3.2 应用场景2:实时交通
11.4 开源流计算框架 Storm
11.4.1 Storm简介
11.4.2 Storm的特点
11.4.3 Storm的设计思想
11.4.4 Storm的框架设计
11.4.5 Storm实例
11.5 Spark Streaming
11.5.1 Spark Streaming设计
11.5.2 Spark Streaming与Storm的对比
11.6 本章小结
11.7 习题
第12章Flink
12.1 Flink简介
12.2 为什么选择Flink
12.2.1 传统数据处理架构
12.2.2 大数据 Lambda架构
12.2.3 流处理架构
12.2.4 Flink是理想的流计算框架
12.2.5 Flink的优势
12.3 Flink应用场景
12.3.1 事件驱动型应用
12.3.2 数据分析应用
12.3.3 数据流水线应用
12.4 Flink技术栈
12.5 Flink体系架构
12.6 Flink编程模型
12.7 Flink编程实践
12.7.1 安装 Flink
12.7.2 编程实现WordCountOrDuration程序
12.8 本章小结
12.9 习题
实验8 Flink 初级编程实践
第13章图计算
13.1 图计算简介
13.1.1 传统图计算解决方案的不足之处
13.1.2 通用图计算软件
13.2 Pregel简介
13.3 Pregel图计算模型
13.3.1 有向图和顶点
13.3.2 顶点之间的消息传递
13.3.3 Pregel的计算过程
13.3.4 Pregel计算过程的实例
13.4 Pregel的 C ++ API
13.4.1 消息传递机制
13.4.2 Combiner
13.4.3 Aggregator
13.4.4 拓扑改变
13.4.5 输入和输出
13.5 Pregel的体系结构
13.5.1 Pregel的执行过程
13.5.2 容错性
13.5.3 Worker
13.5.4 Master
13.5.5 Aggregator
13.6 Pregel的应用实例
13.6.1 单源最短路径
13.6.2 二分匹配
13.7 Pregel和 MapReduce实现PageNumberRank 算法的对比
13.7.1 PageNumberRank算法
13.7.2 PageNumberRank算法在 Pregel中的实现
13.7.3 PageNumberRank算法在 MapReduce中的实现
13.7.4 PageNumberRank算法在 Pregel和 MapReduce中实现的比较
13.8 本章小结
13.9 习题
第14章数据可视化
14.1 可视化概述
14.1.1 什么是数据可视化
14.1.2 可视化的发展历程
14.1.3 可视化的重要作用
14.2 可视化工具
14.2.1 入门级工具
14.2.2 信息图表工具
14.2.3 地图工具
14.2.4 时间线工具
14.2.5 高级分析工具
14.3 可视化典型案例
14.3.1 全球黑客活动
14.3.2 互联网地图
14.3.3 编程语言之间的影响力关系
14.3.4 世界国家健康与财富之间的关系
14.3.5 3D可视化互联网地图 App
14.4 本章小结
14.5 习题
第四篇大数据应用
第15章大数据在互联网领域的应用
15.1 推荐系统概述
15.1.1 什么是推荐系统
15.1.2 长尾理论
15.1.3 推荐方法
15.1.4 推荐系统模型
15.1.5 推荐系统的应用
15.2 协同过滤
15.2.1 基于用户的协同过滤
15.2.2 基于物品的协同过滤
15.2.3 UserCF算法和 ItemCF算法的对比
15.3 协同过滤实践
15.3.1 实践背景
15.3.2 数据处理
15.3.3 计算相似度矩阵
15.3.4 计算推荐结果
15.3.5 展示推荐结果
15.4 本章小结
15.5 习题
第16章大数据在生物医学领域的应用
16.1 流行病预测
16.1.1 传统流行病预测机制的不足
16.1.2 基于大数据的流行病预测
16.1.3 基于大数据的流行病预测的重要作用
16.2 智慧医疗
16.3 生物信息学
16.4 案例:基于大数据的综合健康服务平台
16.4.1 平台概述
16.4.2 平台业务架构
16.4.3 平台体系架构
16.4.4 平台关键技术
16.5 本章小结
16.6 习题
第17章大数据的其他应用
17.1 大数据在物流领域中的应用
17.1.1 智能物流的概念
17.1.2 智能物流的作用
17.1.3 智能物流的应用
17.1.4 大数据是智能物流的关键
17.1.5 中国智能物流骨干网——菜鸟
17.2 大数据在城市管理中的应用
17.2.1 智能交通
17.2.2 环保监测
17.2.3 城市规划
17.2.4 安防领域
17.3 大数据在金融行业中的应用
17.3.1 高频交易
17.3.2 市场情绪分析
17.3.3 信贷风险分析
17.4 大数据在汽车行业中的应用
17.5 大数据在零售行业中的应用
17.5.1 发现关联购买行为
17.5.2 客户群体细分
17.5.3 供应链管理
17.6 大数据在餐饮行业中的应用
17.6.1 餐饮行业拥抱大数据
17.6.2 餐饮 O2O
17.7 大数据在电信行业中的应用
17.8 大数据在能源行业中的应用
17.9 大数据在体育和娱乐领域中的应用
17.9.1 训练球队
17.9.2 投拍影视作品
17.9.3 预测比赛结果
17.10 大数据在安全领域中的应用
17.10.1 大数据与国家安全
17.10.2 应用大数据技术防御网络攻击
17.10.3 警察应用大数据工具预防犯罪
17.11 大数据在政府领域中的应用
17.12 大数据在日常生活中的应用
17.13 本章小结
17.14 习题
参考文献
展开全部
版权信息
出版社:人民邮电出版社
出版时间:2021
作者:林子雨 编著
温馨提示:
1.本电子书已获得正版授权,由出版社通过知传链发行。
2.该电子书为虚拟物品,付费之后概不接收任何理由退款。电子书内容仅支持在线阅读,不支持下载。
3.您在本站购买的阅读使用权仅限于您本人阅读使用,您不得/不能给任何第三方使用,由此造成的一切相关后果本平台保留向您追偿索赔的权利!版权所有,后果自负!
得书感谢您对《
大数据技术原理与应用(第3版)
》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。
读过此书的人也喜欢
HADOOP大数据开发实战
杨力
立即阅读 >
MySQL数据库运维与管理(微课版)
邓文达
立即阅读 >
MySQL数据库基础与实践
夏辉 编著
立即阅读 >
数据分析实战:方法、工具与可视化
韩知白
立即阅读 >
大数据技术基础——基于Hadoop与Spark
李瑶
立即阅读 >
Access数据库应用教程
李军
立即阅读 >
实时热榜
Hot
查看全部 >
1
认知觉醒:开启自我改变的原动力
周岭
2
被讨厌的勇气
岸见一郎
3
自渡
墨多先生
读者好评
查看更多真实评价 >
大数据技术原理与应用(第3版)
免费读
(VIP)
开通会员,更多好书免费读
单本购买 ¥33.49
意见反馈
我的书架
公众号
关注微信公众号