大数据架构商业之路:从业务需求到技术方案

大数据架构商业之路:从业务需求到技术方案

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

通过虚拟的互联网O2O创业故事,逐步展开介绍创业各个阶段可能遇到的大数据课题,让读者身临其境,一起探寻大数据的奥秘。

内容简介

为了达到深入浅出、通俗易懂的效果,本书的第一大部分概述了大数据的主要技术,包括大数据的获取、存储、处理,还有架构设计的基本理念,以及常用的消息和缓存机制。这一部分你会发现关于Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的简介。对于数据处理的高级技术,本书着墨不少,但不乏对于信息检索和数据挖掘课题的探讨。例如站内搜索引擎、推荐系统、广告系统、聚类、分类和线性回归等。由于商业需求尤其看重实际产出,因此第一部分的最后还会分析常见的效果和性能评估。相信这部分对于构建读者的大数据知识体系会很有帮助。在每一章的最后,我们还会给出重要的参考图书,以便于读者继续深入学习。

作者简介

作者黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。

章节目录

版权信息

推荐序一

推荐序二

前言

第1章 抉择

第2章 数据收集

2.1 互联网数据收集

2.1.1 网络爬虫

2.1.2 Apache Nutch简介

2.1.3 Heritrix简介

2.2 内部数据收集

2.2.1 Apache Flume简介

2.2.2 Facebook Scribe和Logstash

2.3 本章心得

2.4 参考资料

第3章 数据存储

3.1 持久化存储

3.1.1 Hadoop和HDFS

3.1.2 HBase简介

3.1.3 MongoDB

3.2 非持久化存储

3.2.1 缓存和散列

3.2.2 Memcached和Berkeley DB简介

3.2.3 Redis简介

3.3 本章心得

3.4 参考资料

第4章 数据处理

4.1 离线批量处理

4.1.1 Hadoop的MapReduce

4.1.2 Spark简介

4.1.3 Hive简介

4.1.4 Pig、Impala和Spark SQL

4.2 提升及时性:消息机制

4.2.1 ActiveMQ简介

4.2.2 Kafka简介

4.3 在线实时处理

4.3.1 Storm简介

4.3.2 Spark Streaming简介

4.4 本章心得

4.5 参考资料

第5章 信息检索

5.1 基本理念

5.2 相关性

5.2.1 布尔模型

5.2.2 基于排序的布尔模型

5.2.3 向量空间模型

5.2.4 语言模型

5.3 及时性

5.4 与数据库查询的对比

5.5 搜索引擎

5.5.1 Web搜索中的链接分析

5.5.2 电子商务中的商品排序

5.5.3 多因素和基于学习的排序

5.5.4 系统框架

5.5.5 Lucene简介

5.5.6 Solr简介

5.5.7 Elasticsearch简介

5.6 推荐系统

5.6.1 推荐的核心要素

5.6.2 推荐系统的分类

5.6.3 混合模型

5.6.4 系统架构

5.6.5 Mahout

5.7 在线广告

5.7.1 在线广告的类型

5.7.2 广告投放机制

5.7.3 广告的拍卖机制

5.7.4 广告系统架构

5.8 本章心得

5.9 参考资料

第6章 数据挖掘

6.1 基本理念

6.2 数据的表示和预处理

6.2.1 数据的表示

6.2.2 数据的预处理

6.3 机器学习算法

6.3.1 监督学习——分类

6.3.2 监督学习——回归

6.3.3 非监督学习——聚类

6.4 挖掘工具

6.4.1 Mahout简介

6.4.2 R简介

6.5 本章心得

6.6 参考资料

第7章 效能评估

7.1 效果评估

7.1.1 离线评估

7.1.2 非离线的评估

7.2 性能评估

7.2.1 计算复杂度

7.2.2 应用系统性能

7.2.3 JMeter工具

7.3 本章心得

7.4 参考资料

第8章 大数据技术全景

第9章 商品太多啦!需要搜索引擎

9.1 业务需求

9.2 产品设计和技术选型

9.3 实现方案

9.3.1 数据定义和配置

9.3.2 集群搭建

9.3.3 DIH配置

第10章 能否更主动?还需要推荐引擎

10.1 业务需求

10.2 产品设计和技术选型

10.3 实现方案

10.3.1 基于内容特征的衡量

10.3.2 基于行为特征的衡量

10.3.3 提供在线服务

第11章 这样做的效果如何

11.1 业务需求

11.2 产品设计和技术选型

11.3 实现方案

11.3.1 行为数据的定义和记录

11.3.2 Flume和HDFS的集成

11.3.3 通过Hive进行分析

11.3.4 Kafka和Storm的集成

第12章 这个搜索有点逊

12.1 业务需求:还要搜得更多

12.2 “还要搜得更多”:产品设计和技术选型

12.3 “还要搜得更多”的方案实现

12.3.1 HBase的部署

12.3.2 HBase和Solr的集成

12.4 业务需求:还要搜得更准

12.5 “还要搜得更准”:产品设计和技术选型

12.5.1 提升搜索排序的相关性

12.5.2 提升搜索排序的整体效果

12.6 “还要搜得更准”的方案实现

12.7 业务需求:还要更快

12.8 还要“变”得更快:产品设计和技术选型

12.9 还要“搜”得更快:产品设计和技术选型

12.10 业务需求:给点提示吧

12.11 给点提示吧:产品设计和技术选型

第13章 支持更高效的运营

13.1 业务需求:互联网时代的CRM

13.2 互联网时代的CRM:产品设计和技术选型

13.3 业务需求:抓住捣蛋鬼

13.4 抓住捣蛋鬼:产品设计和技术选型

13.4.1 识别分类错放

13.4.2 识别SEO作弊

13.5 业务需求:销售之战

13.6 销售之战:产品设计和技术选型

13.6.1 设置合理的价格

13.6.2 识别黄牛

后记

大数据架构商业之路:从业务需求到技术方案是2016年由机械工业出版社华章分社出版,作者黄申。

得书感谢您对《大数据架构商业之路:从业务需求到技术方案》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
从颠覆到重生:“互联网+”时代的企业进阶之路 电子书
本书立足于“互联网+”时代的商业背景,以传统企业互联网化转型为核心,从互联网思维、商业模式变革、跨界融合、共享经济、组织裂变、战略创新、生态建设、管理进化等不同的维度全景式揭示了传统企业在互联网时代的转型路径,从战略层对“互联网+传统企业”进行了全面系统的阐述与总结,为传统企业理解、制定和执行“互联网+”战略提供了科学的行动指南。本书适合董事长、总经理、营销总监、高级主管、职业经理人及从事电子商务
商业会计与纳税真账实操从入门到精通 电子书
本书专为商业企业的财务人员解决实务问题,学习会计、税务新法规而编写。本书采用业务流程的方式设置各个章节,通过介绍商业企业的业务流程,重点阐述了每个业务流程的会计,纳税实务操作,并采用案例详解的方式对相关的要求予以阐明。  本书是会计人员提高业务水平,解决会计实务难题的必备读物。
外贸业务全过程从入门到精通(外贸行业人才技能提升丛书) 电子书
本书内容上涵盖300个外贸业务实操知识点详解及110个实战图表、范本,是外贸从业人员的岗位工作指南,能够帮助外贸行业从业人员夯实基础知识、提升实操技能。
商业银行业务与经营 电子书
主要内容有概述、商业银行资本、商业银行负债业务、商业银行现金资产业务、商业银行贷款业务、商业银行证券投资业务、商业银行表外业务、商业银行资产负债管理、商业银行风险管理、商业银行内部控制与外部监管、商业银行财务绩效管理、商业银行发展趋势。
移移动大数据商业分析与行业营销:从海量到精准 电子书
移动互联网时代,如何利用大数据对客户进行商业分析、精准定位、精准营销?本书通过7大营销——LBS位置营销、APP移动营销、O2O线上线下营销、QQ社交营销、微信互动营销、微博手指营销、二维码扫描营销进行深入讲解,并从10大行业——餐饮、住宿、交通、通信、零售、电商、旅游、影视、金融和游戏领域精选典型代表,通过技巧+方法+案例的模式,帮助读者快速掌握移动大数据的精髓。本书结构清晰、案例丰富、实用性强