编辑推荐
实战经验解析大数据,从理论到实际应用,助力企业迎接信息化挑战。
内容简介
你是不是有这样的困惑:“读了不少关于大数据的书,发现这大数据既可以用于竞选美国总统,又能够预测禽流感,还能卖啤酒和尿不湿,又是围棋高手……大数据好像什么都能干耶!可是咋整呀?大数据多大为大呀?大数据能赚钱不?……唉,怎么还是一头雾水。”本书将为你答疑解惑。本书将展现作者在国内外大数据第一线的实战经验,面向不同行业的共性诉求来指导读者大数据该怎么做,并阐明大数据发展的误区。本书对大数据,从经济价值、商业模式、框架搭建、数据挖掘、网络布置、安全防护、人员能力和后续运维管理多个维度,以及基础设施、中间件、重点应用等多个层面进行系统阐述。帮助决策者将大数据概念落地,建立起理性的预期、合理的规划,并最终收获满意的经济效益。企业正面临从传统IT转入大数据环境这一不可避免的范式变化,恰好为我国追赶发达国家信息化建设带来了契机。本书以企业共同关注的客户关系管理(CRM)为实例谈大数据落地,利用大数据采集、分析、决策以达到客户维系拓展、精准营销和创新产品的目的,提出一整套从规划到实施再到后续运维的技术路线和策略。并用一个已上线的实例将各部分内容串起来综合展示,以解决大数据热潮中的“老虎吃天,无处下爪”的窘境。这对于大数据的正确理解,企业信息系统的建立,以及相应的商业模式改变都具有实际指导意义。
章节目录
封面
版权页
序言1
序言2
前言
目录
第1篇 大数据导论
第1章 初识大数据
1.1 大数据概念谈
1.1.1 大数据的定义
1.1.2 大数据发展现状
1.1.3 大数据建设需求分析
1.1.4 大数据建设目标
1.1.5 机器学习与人工智能
1.2 大数据的科学性
1.3 客户关系管理
1.4 大数据的理解误区
1.5 小结
第2章 大数据产业链初探
2.1 现金流与产业模式
2.2 国外IT企业
2.3 国内IT企业
2.4 开源软件
2.5 小微企业
2.6 政策制定者
2.7 小结
第2篇 规划篇
第3章 大数据体系规划
3.1 大数据技术体系
3.1.1 大数据采集与预处理
3.1.2 大数据存储
3.1.3 大数据计算
3.1.4 大数据分析
3.1.5 大数据治理
3.1.6 大数据安全保障
3.1.7 大数据应用支撑
3.2 大数据共性技术重点课题
3.2.1 开放域数据采集与共享
3.2.2 多源异构数据分析技术
3.2.3 异构计算模式集成技术
3.2.4 数据安全与隐私保护
3.3 大数据风险管控
3.3.1 企业大数据建设风险分析
3.3.2 大数据安全标准体系框架
3.3.3 大数据安全标准规划
3.4 小结
第4章 大数据技术要求
4.1 大数据总体架构
4.1.1 背景概述
4.1.2 现状分析
4.1.3 总体目标
4.1.4 技术架构
4.1.5 实施指引
4.2 采集要求
4.2.1 功能架构
4.2.2 技术架构
4.2.3 处理技术
4.2.4 场景应用
4.2.5 接口协议
4.2.6 接口约定
4.2.7 性能指标
4.3 基础能力要求
4.3.1 总体概述
4.3.2 基础框架
4.3.3 能力开放
4.3.4 性能指标
4.4 核心处理能力要求
4.4.1 总体概述
4.4.2 数据模型
4.4.3 数据处理
4.4.4 数据质量
4.4.5 系统性能
4.5 需求与项目管理
4.6 小结
第3篇 实施篇
第5章 大数据并行计算框架
5.1 并行计算技术
5.1.1 基本命题
5.1.2 设计模式分类
5.1.3 关键技术点
5.2 MapReduce计算技术
5.2.1 处理模型设计原则
5.2.2 主要功能与技术设计
5.3 Hadoop MapReduce设计与工作模式
5.3.1 程序执行模式
5.3.2 作业调度模式
5.3.3 执行框架及流程设计
5.4 Hadoop MapReduce组件接口
5.4.1 InputFormat
5.4.2 InputSplit
5.4.3 RecordReader
5.4.4 Mapper
5.4.5 Combiner
5.4.6 Partitioner
5.5 小结
第6章 大数据分布式处理系统
6.1 Hadoop系统平台
6.1.1 分布式结构设计
6.1.2 Hadoop生态系统
6.2 HDFS分布式文件系统
6.2.1 系统结构
6.2.2 可靠性设计
6.2.3 文件存储组织
6.2.4 数据读写过程
6.2.5 文件系统操作
6.3 HBase分布式数据库
6.3.1 技术特点
6.3.2 系统结构设计
6.3.3 数据存储模型
6.3.4 查询模式
6.3.5 数据表设计
6.3.6 RegionServer配置
6.4 小结
第7章 大数据存储
7.1 磁盘阵列技术
7.2 数据存储接口
7.2.1 对象存储
7.2.2 裸设备存储
7.2.3 块存储
7.3 存储集群架构
7.3.1 共享式与非共享式
7.3.2 对称式与非对称式
7.3.3 自助式与服务式
7.3.4 SPI与SFI
7.3.5 串行方式与并行方式
7.4 数据存储技术本质
7.4.1 三网统一理论
7.4.2 并行概念理解
7.4.3 集群分层架构
7.5 数据分级存储探讨
7.5.1 超融合
7.5.2 冷数据
7.5.3 平台架构
7.5.4 应用场景
7.6 小结
第8章 机器学习与人工智能
8.1 数据挖掘
8.1.1 数据分类采集
8.1.2 模式类型设计
8.1.3 模式价值分析
8.1.4 系统关键技术
8.2 机器学习
8.2.1 算法分类
8.2.2 合适算法选择
8.2.3 程序开发设计
8.3 人工智能
8.3.1 模式定义
8.3.2 人工智能举例
8.4 小结
第4篇 运维篇
第9章 大数据集群网络架构
9.1 现有数据中心网络架构
9.1.1 架构分析
9.1.2 存在弊端
9.2 大数据网络设计要点
9.2.1 大数据业务分析
9.2.2 大数据网络流量模型
9.2.3 大数据网络新需求
9.3 新兴网络技术
9.3.1 SDN
9.3.2 NFV
9.3.3 VXLAN
9.3.4 InfiniBand
9.4 小结
第10章 大数据安全
10.1 大数据安全挑战
10.2 基础设施安全
10.2.1 存在威胁
10.2.2 虚拟化安全
10.3 数据安全
10.3.1 数据采集安全技术
10.3.2 数据存储安全技术
10.3.3 数据挖掘安全技术
10.3.4 数据发布安全技术
10.4 大数据平台Hadoop安全
10.4.1 Hadoop安全问题概述
10.4.2 Kerberos概述
10.4.3 Kerberos认证过程
10.4.4 Hadoop安全机制
10.4.5 Kerberos的优缺点
10.5 小结
第11章 大数据备份与恢复
11.1 数据备份与恢复
11.1.1 数据备份
11.1.2 数据恢复
11.2 分布式存储系统备份与恢复
11.2.1 概述
11.2.2 HDFS数据备份策略
11.3 小结
第12章 大数据环境的监管
12.1 概述
12.2 大数据集群配置管理
12.3 大数据集群监控
12.3.1 大数据监控特点
12.3.2 监控系统
12.3.3 监控系统建立途径
12.3.4 商业监控软件
12.3.5 开源监控软件
12.3.6 传统网络管理软件:网鹰
12.3.7 统一管理平台:UMP
12.4 大数据日志分析
12.5 小结
第13章 大数据的运维方法
13.1 运维服务
13.2 运维流程模型
13.2.1 故障排查
13.2.2 紧急事故管理
13.2.3 处理连锁故障
13.3 运维人员
13.3.1 需要具备的能力
13.3.2 任务内容
13.4 自动化与智能运维
13.4.1 自动化运维价值
13.4.2 自动化运维工具
13.5 小结
第5篇 实例篇
第14章 Oracle MoviePlex大数据规划
14.1 案例概述
14.1.1 案例背景
14.1.2 架构规划
14.2 大数据组件介绍
14.2.1 Cloudera的CDH
14.2.2 Cloudera管理器
14.2.3 Oracle大数据连接器
14.2.4 Oracle大数据加载器
14.2.5 Oracle大数据整合器
14.2.6 Oracle R语言连接器
14.2.7 Oracle NoSQL数据库
14.3 小结
第15章 Oracle MoviePlex大数据实施
15.1 环境准备
15.1.1 MoviePlex环境部署
15.1.2 MoviePlex环境初始化
15.2 案例演示
15.2.1 配置Oracle Big Data SQL
15.2.2 建立存放在HDFS中的日志表
15.2.3 Hive访问HDFS和NoSQL
15.2.4 Oracle Big Data SQL新功能
15.2.5 Oracle Big Data安全策略
15.2.6 Oracle分析SQL
15.2.7 Oracle SQL模式匹配
15.2.8 创建汇总数据集
15.2.9 Oracle Database 12c SQL分析特点
15.3 推荐系统
15.3.1 百万美元大奖赛
15.3.2 技术细节
15.4 小结
第16章 Oracle MoviePlex大数据运维
16.1 集群
16.1.1 Hadoop
16.1.2 ZooKeeper
16.2 文件系统和非关系数据库
16.2.1 HDFS
16.2.2 HBase
16.2.3 NoSQL
16.2.4 Kafka
16.3 中间件
16.3.1 WebLogic
16.3.2 Hue
16.3.3 Solr
16.4 数据转换
16.4.1 Hive
16.4.2 Impala
16.4.3 Sqoop2
16.5 资源整合调度
16.5.1 Oozie
16.5.2 YARN
16.6 小结
第6篇 明天的大数据
第17章 大数据面临的挑战
17.1 可靠性挑战
17.2 可扩展性挑战
17.3 系统安全挑战
17.4 节能降耗
17.5 算法挑战
17.6 测不准原理
17.7 小结
第18章 大数据应用
18.1 客户关系与供求管理
18.2 科学研究
18.3 教育大数据应用
18.4 区块链与加密货币
18.5 小结
结束语
附录A 安装Cloudera Apache Hadoop
A.1 环境准备
A.1.1 Cloudera管理器架构
A.1.2 服务器环境准备
A.1.3 安装介质下载
A.1.4 本地yum源搭建
A.2 安装Cloudera Manager Server
A.3 部署Hadoop集群
A.4 安装结果
附录B 在MATLAB中应用MapReduce
B.1 datastore简介
B.2 搜寻需要的项
B.3 MapReduce简介
B.4 如何运用MapReduce进行运算
B.5 MapReduce中对于键的使用
B.6 使用MapReduce计算分组指标
B.7 输出结果可视化
附录C 从AlphaGo到AlphaZero
参考文献
反侵权盗版声明
大数据:规划、实施、运维是2018年由电子工业出版社出版,作者谢朝阳。
得书感谢您对《大数据:规划、实施、运维》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。