数据分析实战

数据分析实战

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书深入数据分析与建模的世界,使用多种方法、工具及算法,提供了丰富的技巧。

内容简介

本书分为三大部分。第 一部分会讲授一些实战技巧,用于读取、写入、清洗、格式化、探索与理解数据;第二部分由一些较深入的主题组成,比如分类、聚类和预测等;第三部分介绍更高深的主题,从图论到自然语言处理,到离散选择模型,再到模拟。

作者简介

作者托马兹·卓巴斯,微软数据科学家,致力于解决高维特征空间的问题。他有超过13年的数据分析和数据科学经验:在欧洲、澳大利亚和北美洲三大洲期间,工作领域遍及高新技术、航空、电信、金融和咨询。他曾担任Beyond Analysis Australia的数据分析师和Vodafone Hutchison Australia的高级数据分析师/数据科学家等。

章节目录

版权信息

推荐序

译者序

前言

致谢

关于作者

关于审稿人

第1章 准备数据

1.1 导论

1.2 使用Python读写CSV/TSV文件

1.3 使用Python读写JSON文件

1.4 使用Python读写Excel文件

1.5 使用Python读写XML文件

1.6 使用pandas检索HTML页面

1.7 存储并检索关系数据库

1.8 存储并检索MongoDB

1.9 使用OpenRefine打开并转换数据

1.10 使用OpenRefine探索数据

1.11 排重

1.12 使用正则表达式与GREL清理数据

1.13 插补缺失值

1.14 将特征规范化、标准化

1.15 分级数据

1.16 编码分类变量

第2章 探索数据

2.1 导论

2.2 生成描述性的统计数据

2.3 探索特征之间的相关性

2.4 可视化特征之间的相互作用

2.5 生成直方图

2.6 创建多变量的图表

2.7 数据取样

2.8 将数据集拆分成训练集、交叉验证集和测试集

第3章 分类技巧

3.1 导论

3.2 测试并比较模型

3.3 朴素贝叶斯分类器

3.4 将逻辑回归作为通用分类器使用

3.5 将支持向量机用作分类引擎

3.6 使用决策树进行分类

3.7 使用随机森林预测订阅者

3.8 使用神经网络对呼叫进行分类

第4章 聚类技巧

4.1 导论

4.2 评估聚类方法的表现

4.3 用k均值算法聚类数据

4.4 为k均值算法找到最优的聚类数

4.5 使用mean shift聚类模型发现聚类

4.6 使用c均值构建模糊聚类模型

4.7 使用层次模型聚类数据

4.8 使用DBSCAN和BIRCH算法发现潜在的订阅者

第5章 降维

5.1 导论

5.2 创建三维散点图,显示主成分

5.3 使用核PCA降维

5.4 用主成分分析找到关键因素

5.5 使用随机PCA在数据中寻找主成分

5.6 使用线性判别分析提取有用的维度

5.7 用kNN分类模型给电话分类时使用多种降维技巧

第6章 回归模型

6.1 导论

6.2 识别并解决数据中的多重共线性

6.3 构建线性回归模型

6.4 使用OLS预测生产的电量

6.5 使用CART估算发电厂生产的电量

6.6 将kNN模型用于回归问题

6.7 将随机森林模型用于回归分析

6.8 使用SVM预测发电厂生产的电量

6.9 训练神经网络,预测发电厂生产的电量

第7章 时间序列技术

7.1 导论

7.2 在Python中如何处理日期对象

7.3 理解时间序列数据

7.4 平滑并转换观测值

7.5 过滤时间序列数据

7.6 移除趋势和季节性

7.7 使用ARMA和ARIMA模型预测未来

第8章 图

8.1 导论

8.2 使用NetworkX在Python中处理图对象

8.3 使用Gephi将图可视化

8.4 识别信用卡信息被盗的用户

8.5 识别谁盗窃了信用卡

第9章 自然语言处理

9.1 导论

9.2 从网络读入原始文本

9.3 标记化和标准化

9.4 识别词类,处理n-gram,识别命名实体

9.5 识别文章主题

9.6 识别句子结构

9.7 根据评论给影片归类

第10章 离散选择模型

10.1 导论

10.2 准备数据集以估算离散选择模型

10.3 估算知名的多项Logit模型

10.4 测试来自无关选项的独立性冲突

10.5 用巢式Logit模型处理IIA冲突

10.6 用混合Logit模型处理复杂的替代模式

第11章 模拟

11.1 导论

11.2 使用SimPy模拟加油站的加油过程

11.3 模拟电动车耗尽电量的场景

11.4 判断羊群面对群狼时是否有团灭的风险

数据分析实战是2018年由机械工业出版社华章分社出版,作者[美]托马兹·卓巴斯。

得书感谢您对《数据分析实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Excel数据分析基础与实战 电子书
本书以任务为导向,全面介绍了数据分析的流程和Excel数据分析的应用,并详细阐述了使用Excel2016解决企业实际问题的方法。全书共11章,分为基础部分(第1~6章)和实战部分(第7~11章)。基础部分的内容包括数据分析与Excel2016概述、外部数据的获取、数据处理、函数的应用、数据透视表和数据透视图、数据分析与可视化;实战部分为新零售智能销售数据分析项目实战,内容包含项目数据处理、商品销售
图解Spark:大数据快速分析实战 电子书
基于大数据分析实战,图文并茂,系统讲解Spark内核的原理,有助于读者快速掌握Spark开源集群计算框架的使用方法,涵盖Spark 3.0新特性。
R语言医学数据分析实战 电子书
以医学数据为例,讲解如何使用R进行数据分析。
Python数据分析入门与实战 电子书
掌握数据分析技巧,运用强大的Python工具,解决工作中繁琐的数据问题。
Python数据分析基础与案例实战 电子书
本书以Python数据分析的常用技术与交通行业真实案例相结合的方式,深入浅出地介绍了Python数据分析与挖掘技术的重要内容。全书共10章,内容包括绪论、Python数据分析简介、数据获取、数据探索、数据预处理、构建模型、运输车辆驾驶行为分析、公交车站点设置优化分析、铁路站点客流量预测,以及基于TipDM大数据挖掘建模平台实现运输车辆驾驶行为分析。本书大部分章节包含课后习题,通过练习和操作实践,读