得书 - 好书推荐、正版图书免费阅读
发现
热门
排行榜
VIP会员
🔍
➜
注册 | 登录
大数据导论
安俊秀 靳宇倡 等
评分
0
(1 人读过)
2020 年出版
工业技术
¥23.52
免费读
VIP 专享
立即开始阅读
加入书架
已加书架
反馈
超值推荐:
首月9.9开通会员,本书及全站
10,000+
好书无限畅读。
开通会员 >
内容简介
本书内容包括大数据概述、大数据与云计算、从产业结构来探索大数据技术、大数据的硬件架构——集群、大数据开发与计算技术、大数据存储技术、大数据分析、大数据与人工智能。
展开全文
A-fy
53704bq
C-qy
D-ml
01
第1章
大数据概述
1.1 什么是大数据
1.1.1 大数据的来源
1.产生数据的3个发展阶段
2.利用大数据
1.1.2 大数据的定义
1.1.3 从信息技术(IT)转向数据技术(DT)
1.2 大数据的数据特征及对科学研究的影响
1.2.1 大数据的数据特征
1.2.2 大数据对科学研究的影响
1.促进了科学研究第四范式的产生
2.促进了交叉学科的发展
1.3 大数据的数据类型
1.结构化数据
2.非结构化数据
3.半结构化数据
1.4 大数据的价值及相关技术
1.4.1 大数据的可用性及衍生价值
1.4.2 大数据存储及处理技术
1.5 大数据的发展趋势
1.数据的资源化
2.与云计算的深度结合
3.科学理论的突破
4.数据科学和数据联盟的成立
5.数据安全
6.数据管理成为核心竞争力
7.数据质量是商业智能(Business Intelligence,BI)成功的关键
8.数据生态系统复合化程度加强
习 题
02
第2章
大数据与云计算
2.1 云计算概述
2.1.1 云计算的提出
2.1.2 云计算的定义
2.1.3 云计算的概念模型
2.1.4 云计算的特点
2.2 云计算的主要部署模式
2.2.1 公有云
2.2.2 私有云
2.2.3 混合云
2.3 云计算的主要服务模式
2.3.1 基础设施即服务(IaaS)
2.3.2 平台即服务(PaaS)
2.3.3 软件即服务(SaaS)
2.3.4 3种服务模式之间的关系
1.从用户体验角度分析
2.从技术角度分析
2.4 云计算与大数据体系架构的关系
2.4.1 云计算基础设施—Google平台
2.4.2 大数据基础设施—Hadoop平台
2.5 物联网、大数据和云计算之间的关系
2.5.1 认识物联网
2.5.2 边缘计算
2.5.3 雾计算
2.5.4 大数据和云计算之间的关系
习 题
03
第3章
从产业结构来探索大数据技术
3.1 大数据产业结构概述
3.2 大数据的解决方案
3.2.1 大数据的产生、采集与处理方式
1.数据产生方式
2.数据采集
3.数据处理方式
3.2.2 大数据处理的基本流程及相应技术
1.数据清洗
2.数据分析
3.数据解释
4.用户
3.3 大数据采集技术
3.3.1 大数据采集概述
3.3.2 日志采集系统—Flume
3.3.3 消息采集系统—Kafka
3.3.4 Scrapy网络爬虫框架
1.Scrapy的组成
2.Scrapy的工作流程
3.4 大数据预处理技术
3.4.1 数据预处理
1.重复数据的预处理
2.噪声数据的预处理
3.不完整数据的预处理
3.4.2 数据清洗
1.缺失值的处理
2.噪声数据与离群点的处理
3.分箱(Binning)
4.回归(Regression)
3.4.3 数据集成
3.4.4 数据归约
1.数据立方体聚集
2.维归约
3.数据压缩
4.数值归约
5.数据离散化与概念分层
3.5 大数据可视化技术
3.5.1 数据可视化的概念
3.5.2 数据可视化的分类
1.散点图
2.气泡图
3.折线图
4.柱形图
5.热力图
6.雷达图
3.5.3 数据可视化工具
1.Excel
2.Jupyter
3.Tableau
4.Google Chart
3.5.4 大数据可视化技术的发展方向
习 题
04
第4章
大数据的硬件架构——集群
4.1 集群的来源
4.1.1 并行计算机的发展
4.1.2 通过计算机食物链理解集群
1.Mainframe(大型主机或大型机)
2.Vector Supercomputer(向量巨型计算机或向量机)
3.Mini computer(小型机)
4.Workstation(工作站)
5.PC(Personal Computer,个人计算机)
6.COW(Cluster,集群)
4.2 集群的产生促进了大数据技术的发展
4.3 集群系统的概念及分类
4.3.1 集群的基本概念
1.可用性及可靠性
2.单一系统映像(Single System Image,SSI)
3.作业管理(Job Management)
4.并行文件系统(Parallel File System,PFS)
5.高效通信(Efficient Communication)
4.3.2 集群系统的分类
1.高性能集群
2.负载均衡集群
3.高可用集群
4.虚拟化集群
4.4 集群的结构模型
1.主/主(Active/Active)结构模型
2.主/从(Active/Passive)结构模型
3.混合型(Hybrid)结构模型
4.5 集群文件系统
1.文件系统
2.集群文件系统的概念
3.集群文件系统的分类
习 题
05
第5章
大数据开发与计算技术
5.1 Hadoop—分布式大数据系统
5.1.1 Hadoop概述
5.1.2 Hadoop架构
1.HDFS架构
2.MapReduce
5.1.3 Hadoop生态系统
5.2 Spark—大规模数据实时处理系统
5.2.1 Spark概述
1.Standalone模式
2.Spark on Yarn模式
3.Mesos模式
5.2.2 弹性分布式数据集
5.2.3 Spark扩展功能
1.Spark SQL
2.Spark Streaming
3.MLlib
4.GraphX
5.3 Storm—基于拓扑的流数据实时 计算系统
5.3.1 Storm概述
1.Storm的核心概念
2.Storm数据流
3.Storm的特性
5.3.2 Storm的组成结构
5.3.3 Storm-Yarn概述
5.4 Hadoop、Spark与Storm的比较
1.Hadoop
2.Spark
3.Storm
5.5 大数据开发技术与Web应用 开发技术的比较
5.5.1 Web应用开发技术简介
5.5.2 大数据开发技术简介
5.5.3 大数据开发技术与Web应用开发技术的应用环境
习 题
06
第6章
大数据存储技术
6.1 数据存储概述
1.关系型数据库
2.非关系型数据库
3.大数据存储的基础架构支持云存储、分布式文件系统等
6.2 分布式文件系统
6.2.1 分布式文件系统的设计思路
1.网络文件系统
2.存储区域网集群文件系统
3.面向对象的并行文件系统
6.2.2 最早的分布式文件系统
6.2.3 大数据环境下分布式文件系统的优化思路
6.3 结构化大数据的存储—Hive
6.3.1 Hive简介
6.3.2 Hive架构
6.3.3 Hive数据模型与存储
6.4 半结构化大数据的存储—HBase
6.4.1 HBase简介
6.4.2 HBase数据模型
1.HBase数据模型术语
2.HBase概念视图
3.HBase物理视图
6.4.3 存储架构
1.Client
2.ZooKeeper
3.HMaster
4.HRegionServer
5.HRegion
6.WAL
7.HFile
6.5 云存储技术
6.5.1 云存储的概念及特性
1.可靠性
2.安全性
3.管理方便
4.可扩展性
6.5.2 云存储系统的结构模型
1.存储层
2.基础管理层
3.应用接口层
4.访问层
6.5.3 云存储的应用
1.个人级云存储的应用
2.企业级云存储的应用
习 题
07
第7章
大数据分析
7.1 大数据分析与数据分析的关系
7.1.1 对数据分析师的要求
7.1.2 对大数据分析师的要求
7.2 大数据分析的重要性及认识数据
7.2.1 大数据分析的重要性
1.数据分析的重要性
2.大数据分析的重要性
7.2.2 认识数据
7.3 统计数据分析
7.4 基于机器学习的数据分析
7.4.1 机器学习简介
7.4.2 机器学习的主要用途
7.4.3 有监督学习、无监督学习和强化学习
1.有监督学习
2.无监督学习
3.强化学习
7.5 经典的机器学习算法
7.5.1 分类算法原理
7.5.2 决策树分类算法
7.5.3 K-均值聚类算法
7.5.4 Apriori关联规则算法
7.5.5 朴素贝叶斯分类算法
7.6 基于图的数据分析
7.7 基于自然语言的数据分析
习 题
08
第8章
大数据与人工智能
8.1 人工智能的概念及分类
1.弱AI和强AI
2.反应式机器、有限记忆、意志理论、自我意识
3.认知、机器学习和深度学习
8.2 人工智能的发展史
1.人工智能的诞生(20世纪40~50年代)
2.人工智能的黄金时期(20世纪60~70年代)
3.人工智能的低谷(20世纪70~80年代)
4.人工智能的繁荣期(20世纪90年代至今)
8.3 限制人工智能发展的因素
1.可解释性问题
2.数据标签
3.获取大量的训练数据集
4.学习的普遍性
5.数据和算法中的偏差
8.4 大数据与人工智能的关系
1.大数据的积累为人工智能的发展提供燃料
2.数据处理技术推进运算能力的提升
3.人工智能推进大数据应用的深化
8.5 人工智能核心技术概述
8.5.1 深度学习
8.5.2 卷积神经网络
8.5.3 图像处理
8.6 人工智能技术应用
1.计算机视觉/图像识别
2.深度学习/机器学习
3.自然语言处理
4.语音识别
5.智能机器人
6.虚拟个人助手
7.手势控制
8.推荐引擎和协助过滤算法
9.情景感知计算
10.视频内容自动识别
11.语音翻译
习 题
ck
展开全部
版权信息
出版社:人民邮电出版社
出版时间:2020
作者:安俊秀 靳宇倡 等
温馨提示:
1.本电子书已获得正版授权,由出版社通过知传链发行。
2.该电子书为虚拟物品,付费之后概不接收任何理由退款。电子书内容仅支持在线阅读,不支持下载。
3.您在本站购买的阅读使用权仅限于您本人阅读使用,您不得/不能给任何第三方使用,由此造成的一切相关后果本平台保留向您追偿索赔的权利!版权所有,后果自负!
得书感谢您对《
大数据导论
》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。
实时热榜
Hot
查看全部 >
1
认知觉醒:开启自我改变的原动力
周岭
2
被讨厌的勇气
岸见一郎
3
自渡
墨多先生
读过此书的人也喜欢
Hadoop大数据处理技术基础与实践(第2版)(微课版)
安俊秀 靳宇倡 郭英
立即试读 >
Python大数据处理与分析
编著
立即试读 >
Python 3从入门到精通
主编
立即试读 >
云计算与大数据技术应用
安俊秀 靳宇昌 主编
立即试读 >
大数据导论
林子雨
立即试读 >
大数据导论
甘勇,陶红伟
立即试读 >
读者好评
查看更多真实评价 >
大数据导论
免费读
(VIP)
开通会员,更多好书免费读
单本购买 ¥23.52
意见反馈
我的书架
公众号
关注微信公众号