Hadoop与大数据挖掘

Hadoop与大数据挖掘

编辑推荐

10余位大数据领域资深专家和科研人员10余年大数据挖掘的经验结晶。

内容简介

这是一本适合教学和零基础自学的Hadoop与大数据挖掘的教程,即便你完全没有Hadoop编程基础和大数据挖掘基础,根据本书中的理论知识和上机实践,也能迅速掌握如何使用Hadoop进行大数据挖掘。

全书主要分为两篇:基础篇(1-7章),首先从宏观上介绍了大数据相关概念和技术,然后逐一对Hadoop、Hive、HBase、Pig、Spark、Oozie等一系列大数据技术的概念、原理、架构,以及企业应用方法进行了详细介绍,同时配有大量的案例。掌握了这些内容,就具备了大数据技术的基础;挖掘实战篇(8章),主要是一个企业级大数据应用项目——电子商务智能推荐系统。通过分析应用背景、构建系统,使读者了解针对系统的每一层应用使用什么大数据技术来解决问题。涉及的流程有数据采集、数据预处理、模型构建等,在每一个流程中会进行大数据相关技术实践,运用实际数据来进行分析,使读者切身感受到利用大数据技术解决问题的魅力。

作者简介

作者张良均,高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《Python数据分析与挖掘》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

章节目录

版权信息

前言

第一篇 基础篇

第1章 浅谈大数据

1.1 大数据概述

1.2 大数据平台

1.3 本章小结

第2章 大数据存储与运算利器—Hadoop

2.1 Hadoop概述

2.2 Hadoop配置及IDE配置

2.3 Hadoop集群命令

2.4 Hadoop编程开发

2.5 K-Means算法原理及Hadoop MapReduce实现

2.6 TF-IDF算法原理及Hadoop MapReduce实现

2.7 本章小结

第3章 大数据查询—Hive

3.1 Hive概述

3.2 HiveQL语句

3.3 动手实践:基于Hive的学生信息查询

3.4 基于Hive的航空公司客户价值数据预处理及分析

3.5 本章小结

第4章 大数据快速读写—HBase

4.1 HBase概述

4.2 配置HBase集群

4.3 HBase原理与架构组件

4.4 HBase Shell操作

4.5 Java API&MapReduce与HBase交互

4.6 基于HBase的冠字号查询系统

4.7 本章小结

第5章 大数据处理—Pig

5.1 Pig概述

5.2 配置运行Pig

5.3 常用Pig Latin操作

5.4 综合实践

5.5 本章小结

第6章 大数据快速运算与挖掘—Spark

6.1 Spark概述

6.2 Spark安装集群

6.3 Spark架构与核心原理

6.4 Spark编程技巧

6.5 如何学习Spark MLlib

6.6 动手实践:基于Spark ALS电影推荐系统

6.7 本章小结

第7章 大数据工作流—Oozie

7.1 Oozie简介

7.2 编译配置并运行Oozie

7.3 Oozie WorkFlow实践

7.4 Oozie Coordinator实践

7.5 本章小结

第二篇 挖掘实战篇

第8章 法律服务大数据智能推荐

8.1 背景

8.2 目标

8.3 系统架构及流程

8.4 分析过程及实现

8.5 构建法律服务大数据智能推荐系统

8.6 本章小结

Hadoop与大数据挖掘是2016年由机械工业出版社华章分社出版,作者张良均。

得书感谢您对《Hadoop与大数据挖掘》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
数据产品经理高效学习手册:产品设计、技术常识与机器学习 电子书

详解产品设计思维框架和具体操作流程。
MySQL数据库管理实战 电子书

MySQL数据库管理从入门到实战,零基础读者上手MySQL的理想读物。
大数据定义智能运维 电子书

运维数据治理开山之作,企业基础平台数据资源建设必备图书。
数据权益资产化与监管:大数据时代的个人信息保护与价值实现 电子书

本书从数据治理的本质出发,清晰核心问题、提出了理论与落地指导意见,并通过案例让读者可以轻松理解。
新基建:数据中心创新之路 电子书

本书旨在帮助读者深入了解行业和技术趋势,推动科研院所对新技术新业务的研究,促进厂商更好地把握市场需求和技术方向。
鲜活的数据:数据可视化指南 电子书

翻开本书,你会发现有那么多样的手段去赋予数据全新的意义!