大数据与机器学习:实践方法与行业案例

大数据与机器学习:实践方法与行业案例

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

三位金融领域大数据专家实战经验总结!

内容简介

本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。

数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。

分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。

应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。

作者简介

作者陈春宝,先后获得了经济学硕士和工业工程博士学位,拥有10年数据分析及应用经验,目前任职于股份制商业银行总行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。

章节目录

版权信息

前言

第一部分 数据与平台篇

第1章 数据与数据平台

1.1 数据的基本形态

1.1.1 数据环境与数据形态

1.1.2 生产数据

1.1.3 原始数据

1.1.4 分析数据

1.2 数据平台

1.2.1 数据仓库平台

1.2.2 大数据平台

1.2.3 MPP数据库

1.2.4 NoSQL数据库

1.3 应用系统

1.4 本章小结

第2章 数据体系

2.1 数据闭环

2.2 数据缓冲区

2.2.1 系统解耦

2.2.2 批量导出

2.2.3 FTP传输

2.2.4 批量导入

2.3 ETL

2.3.1 ETL工具

2.3.2 ETL作业

2.4 作业调度

2.5 监控和预警

2.5.1 使用监控工具进行监控

2.5.2 使用BI工具进行监控

2.6 本章小结

第3章 实战:打造数据闭环

3.1 数据缓冲区的基本规则

3.1.1 文件存储规则

3.1.2 文件命名规则

3.1.3 文件清理规则

3.2 自动加载的流程

3.2.1 扫描文件

3.2.2 下载文件

3.2.3 解压文件

3.2.4 加载文件

3.3 自动加载程序的数据库设计

3.3.1 数据文件信息表

3.3.2 数据文件状态表

3.3.3 加载配置信息表

3.3.4 数据缓冲区信息表

3.3.5 目标服务器表

3.4 自动加载程序的多线程实现

3.4.1 ScanFiles

3.4.2 DownLoadAndUnZip

3.4.3 LoadToHive

3.4.4 LoadToOracle

3.4.5 自动加载程序的部署架构

3.4.6 程序的维护和优化

3.5 本章小结

第二部分 分析篇

第4章 数据预处理

4.1 数据表的预处理

4.2 变量的预处理

4.2.1 缺失值的处理

4.2.2 极值的处理

4.3 变量的设计

4.3.1 暴力衍生

4.3.2 交叉升维

4.4 变量筛选

4.4.1 筛选显著变量

4.4.2 剔除共线性

4.5 本章小结

第5章 聚类,简单易用的客户细分方法

5.1 从客户细分说起

5.1.1 为什么要做客户细分

5.1.2 怎么做客户细分

5.1.3 聚类分析,无监督的客户细分方法

5.2 谱系聚类

5.2.1 基本步骤

5.2.2 案例:公司客户差异化服务

5.2.3 谱系聚类方法的题外话

5.3 K-means算法

5.3.1 基本步骤

5.3.2 案例:电商卖家细分

5.3.3 K-means算法的题外话

5.4 本章小结

第6章 关联规则挖掘,发现产品加载和交叉销售机会

6.1 销售的真谛:让客户买得更多

6.1.1 案例:电商的生意经

6.1.2 案例:富国银行的“商店”经营模式

6.1.3 案例总结

6.2 交叉销售

6.2.1 为什么要做交叉销售

6.2.2 怎么做交叉销售

6.3 关联规则挖掘,发现交叉销售机会

6.3.1 Apriori算法

6.3.2 Apriori算法的主要指标

6.3.3 Apriori算法的基本步骤

6.4 案例:信用卡产品交叉销售

6.4.1 准备数据

6.4.2 SAS实现

6.4.3 结果分析

6.4.4 序列关联分析

6.4.5 结果应用

6.5 本章小结

第7章 社交网络分析,从“关系”的角度分析问题

7.1 先看几张美轮美奂的图片

7.2 社交网络分析方法

7.2.1 定义

7.2.2 应用场景

7.2.3 网络识别算法

7.3 案例:电商通过订单数据识别供应链

7.3.1 供应链及供应链金融

7.3.2 识别核心企业及其上下游关系

7.3.3 分析结果的业务应用

7.4 案例:P2P投资风险防范

7.4.1 案例背景

7.4.2 防范方法

7.5 本章小结

第8章 线性回归,预测客户价值

8.1 数值预测

8.2 回归与拟合

8.2.1 回归就是拟合

8.2.2 在Excel中添加趋势线预测

8.3 案例:信用卡客户价值预测

8.3.1 确定预测目标

8.3.2 准备建模数据

8.3.3 模型拟合

8.3.4 模型评估

8.4 基于客户价值分层的业务策略

8.5 本章小结

第9章 Logistic回归,精准营销的主要支撑算法

9.1 大数据时代的精准营销

9.1.1 精准营销

9.1.2 基于大数据的精准营销模式

9.1.3 如何做到精准

9.2 Logistic回归算法介绍

9.2.1 算法原理

9.2.2 关键步骤

9.3 案例:信用卡消费信贷产品的精准营销

9.3.1 案例背景

9.3.2 数据准备

9.3.3 数据预处理

9.3.4 建模

9.3.5 模型评估

9.4 预测模型的应用与评估

9.5 本章小结

第10章 决策树类算法,反欺诈模型“专家”

10.1 决策树,重要的分类器

10.2 决策树的关键思想

10.2.1 理财客户画像案例背景

10.2.2 关键思想一:递归划分

10.2.3 关键思想二:剪枝

10.3 案例:电商盗卡交易风险识别

10.3.1 案例背景

10.3.2 以SAS实现

10.3.3 以Clementine实现

10.3.4 以R实现

10.4 随机森林

10.5 本章小结

第11章 数据可视化,是分析更是设计

11.1 数据演示之道

11.1.1 好“色”之图

11.1.2 版式有形

11.1.3 数据发声

11.2 个性化地图

11.2.1 案例背景:存款增长率指标展示

11.2.2 获取地理位置的经纬度数据

11.2.3 定制地图背景和图标

11.2.4 生成地图

11.3 文本分析

11.3.1 案例:电商的客户评价分析

11.3.2 分词

11.3.3 词云制作

11.3.4 情感分析

11.4 本章小结

第三部分 应用篇

第12章 标签系统

12.1 认识标签系统

12.2 标签系统的设计

12.2.1 标签系统的层次结构

12.2.2 标签系统的更新规则

12.2.3 机器学习模型转化为标签

12.3 标签系统的实现

12.3.1 标签映射表

12.3.2 标签系统的前端实现

12.3.3 标签系统的数据后端实现

12.3.4 标签系统的在线接口实现

12.4 本章小结

第13章 数据自助营销平台

13.1 数据自助营销平台的价值所在

13.1.1 自动化营销,提升工作效率

13.1.2 降低营销成本,提升用户体验

13.1.3 个性化营销,提升响应率

13.1.4 统一管理,便于效果追踪

13.2 数据自助营销平台的实现原则

13.2.1 数据营销活动的节点

13.2.2 数据自助营销平台的基础:标签系统

13.2.3 数据自助营销平台的批量任务

13.2.4 实时数据营销

13.3 数据自助营销平台的场景实例

13.3.1 客户生命周期管理

13.3.2 用卡激励计划

13.4 本章小结

第14章 基于Mahout的个性化推荐系统

14.1 Mahout的推荐引擎

14.1.1 Mahout的安装配置

14.1.2 Mahout的使用方式

14.1.3 协同过滤算法

14.1.4 Mahout的推荐引擎

14.2 规模与效率

14.2.1 Mahout推荐算法的适用范围

14.2.2 通过分布式解决规模和效率的问题

14.3 实现一个推荐系统

14.3.1 系统框架

14.3.2 推荐系统的刷新

14.3.3 部署一个可用的推荐系统

14.4 本章小结

第15章 图计算与社会网络

15.1 社会网络和属性图

15.2 Spark GraphX与Neo4j

15.2.1 Scala编程语言

15.2.2 Cypher查询语言

15.3 使用Spark GraphX和Neo4j处理社会网络

15.3.1 背景说明

15.3.2 数据准备

15.3.3 Spark GraphX处理原始网络

15.3.4 Neo4j交互式查询分析

15.3.5 更多的应用场景

15.4 本章小结

大数据与机器学习:实践方法与行业案例是2017年由机械工业出版社华章分社出版,作者陈春宝。

得书感谢您对《大数据与机器学习:实践方法与行业案例》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
数据科学:理论、方法与Python语言实践 电子书
全书共分为10章,第1-2章介绍了数据科学的基础知识以及数据科学所需的各项技术;第3-5章涵盖了Python的语法基础,函数、模块与组合数据类型,文件读写;第6章介绍了网络爬虫的数据采集及方法;第7-8章重点介绍了数据分析过程中的两个重要模块:numpy和pandas;第9章介绍了数据可视化与应用;第10章结合之前的内容,以一个综合案例进行了实战分析。本书配有电子课件、电子教案、教学大纲、习题答案
Python高手修炼之道:数据处理与机器学习实战 电子书
适读人群 :1.没有编程知识的新手 不同于一般的基础语法讲解教程,本书并未将Python 开发限定于某个集成开发工具(IDE)中,而是采用交互式编程的方式来强化读者对语言特性的理解,帮助新手读者真正理解Python 语言和Python 编程。2.从未接触过Python 语言,但了解一点编程知识的初学者 本书通过对基础知识高度的提炼和概括,以避免初学者陷入低级且冗长的细节知识点而心生懈怠;同时,本书为初学者规划了从初级到高级的编程技能提升路线图。3.具有一定基础的Python 程序员 本书可以作为案头工具书来使用。本书从基础语法、基本技能讲起,涵盖了科学计算、数据处理、机器学习等领域,示例代码涉及30 余个模块的使用。 构建从Python入门到数据分析到机器学习的路线图,入门有章可循; 1.讲解独到,常见盲点趣解析 作者基于多年的经验积累,善于总结概括初学Python过程中的误区。 2.内容全面,常用工具全涵盖 书中介绍的Python工具包覆盖Numpy、Matplotlib、Pandas、SciPy、Scikit-Learn,方便读者拓展实用技能、掌握工作利器。 3.拓展训练,重点知识有强化 语感训练100题、Python内置函数(类)手册、从新手到高手的100个模块,强化知识点的掌握。 4.代码完整,随时动手可复现 本书提供了完整、可验证的代码,方便读者动手练习并强化理解。
打造学习型大脑:理论、方法与实践 电子书
A.
本书共8章,对大脑的基本事实、信息加工模型、记忆系统、迁移能力、脑区分工、艺术的作用、思考与问题解决、教学设计与应用进行了讨论。并在小框内标记出一些关键点。每章最后都设有“实践角”,提供补充性信息和教学策略实例。
Python机器学习入门与实战 电子书
本书以零基础讲解为特色,用实例引导读者学习,深入浅出地介绍Python机器学习的相关知识和实战技能。
Python机器学习编程与实战 电子书
本书共8章,内容包括Python概述、NumPy数值计算、pandas基础、pandas进阶、Matplotlib绘图、scikit-learn、餐饮企业综合分析与预测、通信运营商客户流失分析与预测。前6章设置了选择题、填空题和操作题,后两章设置了操作题,希望通过练习和操作实践,读者可以巩固所学的内容。