干净的数据:数据清洗入门与实践

干净的数据:数据清洗入门与实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

掌握高效数据清洗方法,让用户更好地体验大数据价值。

内容简介

理解数据清洗在整个数据科学过程中的作用,掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等。

发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能,学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式,采用三种策略来解析和清洗HTML文件中的数据,揭开PDF文档的秘密,提取需要的数据。

借助一系列解决方案来清洗存放在关系型数据库里的坏数据,创建自己的干净数据集,为其打包、添加授权许可并与他人共享,使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目。

作者简介

作者梅甘·斯夸尔,依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。

章节目录

版权信息

版权声明

前言

本书内容

你需要准备些什么

本书的目标读者

本书排版约定

读者反馈

客户支持

彩色图片下载

勘误表

关于盗版

问题反馈

第1章 为什么需要清洗数据

1.1 新视角

1.2 数据科学过程

1.3 传达数据清洗工作的内容

1.4 数据清洗环境

1.5 入门示例

1.6 小结

第2章 基础知识——格式、类型与编码

2.1 文件格式

2.1.1 文本文件与二进制文件

2.1.2 常见的文本文件格式

2.1.3 分隔格式

2.2 归档与压缩

2.2.1 归档文件

2.2.2 压缩文件

2.3 数据类型、空值与编码

2.3.1 数据类型

2.3.2 数据类型间的相互转换

2.3.3 转换策略

2.3.4 隐藏在数据森林中的空值

2.3.5 字符编码

2.4 小结

第3章 数据清洗的老黄牛——电子表格和文本编辑器

3.1 电子表格中的数据清洗

3.1.1 Excel的文本分列功能

3.1.2 字符串拆分

3.1.3 字符串拼接

3.2 文本编辑器里的数据清洗

3.2.1 文本调整

3.2.2 列选模式

3.2.3 加强版的查找与替换功能

3.2.4 文本排序与去重处理

3.2.5 Process Lines Containing

3.3 示例项目

3.3.1 第一步:问题陈述

3.3.2 第二步:数据收集

3.3.3 第三步:数据清洗

3.3.4 第四步:数据分析

3.4 小结

第4章 讲通用语言——数据转换

4.1 基于工具的快速转换

4.1.1 从电子表格到CSV

4.1.2 从电子表格到JSON

4.1.3 使用phpMyAdmin从SQL语句中生成CSV或JSON

4.2 使用PHP实现数据转换

4.2.1 使用PHP实现SQL到JSON的数据转换

4.2.2 使用PHP实现SQL到CSV的数据转换

4.2.3 使用PHP实现JSON到CSV的数据转换

4.2.4 使用PHP实现CSV到JSON的数据转换

4.3 使用Python实现数据转换

4.3.1 使用Python实现CSV到JSON的数据转换

4.3.2 使用csvkit实现CSV到JSON的数据转换

4.3.3 使用Python实现JSON到CSV的数据转换

4.4 示例项目

4.4.1 第一步:下载GDF格式的Facebook数据

4.4.2 第二步:在文本编辑器中查看GDF文件

4.4.3 第三步:从GDF格式到JSON格式的转换

4.4.4 第四步:构建D3图

4.4.5 第五步:把数据转换成Pajek格式

4.4.6 第六步:简单的社交网络分析

4.5 小结

第5章 收集并清洗来自网络的数据

5.1 理解HTML页面结构

5.1.1 行分隔模型

5.1.2 树形结构模型

5.2 方法一:Python和正则表达式

5.2.1 第一步:查找并保存实验用的Web文件

5.2.2 第二步:观察文件内容并判定有价值的数据

5.2.3 第三步:编写Python程序把数据保存到CSV文件中

5.2.4 第四步:查看文件并确认清洗结果

5.2.5 使用正则表达式解析HTML的局限性

5.3 方法二:Python和BeautifulSoup

5.3.1 第一步:找到并保存实验用的文件

5.3.2 第二步:安装BeautifulSoup

5.3.3 第三步:编写抽取数据用的Python程序

5.3.4 第四步:查看文件并确认清洗结果

5.4 方法三:Chrome Scraper

5.4.1 第一步:安装Chrome扩展Scraper

5.4.2 第二步:从网站上收集数据

5.4.3 第三步:清洗数据

5.5 示例项目:从电子邮件和论坛中抽取数据

5.5.1 项目背景

5.5.2 第一部分:清洗来自Google Groups电子邮件的数据

5.5.3 第二部分:清洗来自网络论坛的数据

5.6 小结

第6章 清洗PDF文件中的数据

6.1 为什么PDF文件很难清洗

6.2 简单方案——复制

6.2.1 我们的实验文件

6.2.2 第一步:把我们需要的数据复制出来

6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中

6.2.4 第三步:轻量级文件

6.3 第二种技术——pdfMiner

6.3.1 第一步:安装pdfMiner

6.3.2 第二步:从PDF文件中提取文本

6.4 第三种技术——Tabula

6.4.1 第一步:下载Tabula

6.4.2 第二步:运行Tabula

6.4.3 第三步:用Tabula提取数据

6.4.4 第四步:数据复制

6.4.5 第五步:进一步清洗

6.5 所有尝试都失败之后——第四种技术

6.6 小结

第7章 RDBMS清洗技术

7.1 准备

7.2 第一步:下载并检查Sentiment140

7.3 第二步:清洗要导入的数据

7.4 第三步:把数据导入MySQL

7.4.1 发现并清洗异常数据

7.4.2 创建自己的数据表

7.5 第四步:清洗&字符

7.6 第五步:清洗其他未知字符

7.7 第六步:清洗日期

7.8 第七步:分离用户提及、标签和URL

7.8.1 创建一些新的数据表

7.8.2 提取用户提及

7.8.3 提取标签

7.8.4 提取URL

7.9 第八步:清洗查询表

7.10 第九步:记录操作步骤

7.11 小结

第8章 数据分享的最佳实践

8.1 准备干净的数据包

警句箴言——使用GitHub发布数据

8.2 为数据编写文档

8.2.1 README文件

8.2.2 文件头

8.2.3 数据模型和图表

8.2.4 维基或CMS

8.3 为数据设置使用条款与许可协议

常见使用条款

8.4 数据发布

8.4.1 数据集清单列表

8.4.2 Stack Exchange上的Open Data

8.4.3 编程马拉松

8.5 小结

第9章 Stack Overflow项目

9.1 第一步:关于Stack Overflow的问题

9.2 第二步:收集并存储Stack Overflow数据

9.2.1 下载Stack Overflow数据

9.2.2 文件解压

9.2.3 创建MySQL数据表并加载数据

9.2.4 构建测试表

9.3 第三步:数据清洗

9.3.1 创建新的数据表

9.3.2 提取URL并填写新数据表

9.3.3 提取代码并填写新表

9.4 第四步:数据分析

9.4.1 哪些代码分享网站最为流行

9.4.2 问题和答案中的代码分享网站都有哪些

9.4.3 提交内容会同时包含代码分享URL和程序源代码吗

9.5 第五步:数据可视化

9.6 第六步:问题解析

9.7 从测试表转向完整数据表

9.8 小结

第10章 Twitter项目

10.1 第一步:关于推文归档数据的问题

10.2 第二步:收集数据

10.2.1 下载并提取弗格森事件的数据文件

10.2.2 创建一个测试用的文件

10.2.3 处理推文ID

10.3 第三步:数据清洗

10.3.1 创建数据表

10.3.2 用Python为新表填充数据

10.4 第四步:简单的数据分析

10.5 第五步:数据可视化

10.6 第六步:问题解析

10.7 把处理过程应用到全数据量(非测试用)数据表

10.8 小结

看完了

干净的数据:数据清洗入门与实践是2016年由人民邮电出版社·图灵出品出版,作者[美] 梅甘·斯夸尔。

得书感谢您对《干净的数据:数据清洗入门与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
数据治理与数据安全 电子书
一本书讲清数据,推进数据开放共享与跨境流动战略,助力个人信息保护。
软件定义数据中心:Windows Server SDDC技术与实践 电子书
本书是国内首部讲解微软WindowsServer软件定义数据中心的中文图书,书中系统、全面地普及了微软WindowsServer软件定义数据中心各个模块的概念、技术和架构,书里凝结了作者近几年在使用WindowsServerSDDC的经验和对相关技术的思考。本书的主要内容包含WindowsServer软件定义的高可用群集、WindowsServerSDS、WindowsServerSDN和Wind
云计算与大数据 电子书
本书抽丝剥茧地讲述了云计算简史、大数据的前世今生,纠正了一些时下被“误导”的观点,分析了大数据与Hadoop的关系、云计算与大数据的关系,从开源vs.闭源的角度阐释了整个业界的软件定义趋势、商用硬件趋势并预言了硬件回归的必然趋势,最后用案例讲解了云计算或大数据系统体系架构的设计与实现。
大数据原理与技术 电子书
本书则是华为公司针对华为ICT学院大数据方向的在读学生,专门组织合作伙伴和华为公司内部员工开发的标准化教材,这套教材的目的在于循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景,能够在面对真实的业务场景时,独立完成大数据平台的搭建、维护及故障的处理。
Excel数据获取与处理 电子书
本书以项目为导向,由浅入深地介绍Excel2016在数据获取与处理中的应用。全书共14个项目,项目1简单介绍Excel2016的界面,以及工作簿、工作表、单元格的概念;项目2介绍各种类型数据的输入;项目3介绍如何美化工作表;项目4介绍如何使用Excel获取文本数据;项目5介绍如何使用Excel获取网站数据;项目6介绍如何使用Excel获取MySQL数据库中的数据;项目7介绍如何对数据进行排序;项目