pandas数据处理与分析在线阅读

简介: 本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。

内容提要

本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。

本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。

前言

“pandas令人头痛!——我在学习pandas库时曾如此抱怨。

pandas库的函数令人眼花缭乱,现实中的复杂问题难免使人手足无措。如果你刚开始使用pandas,遇到报错是很正常的,即使正确地进行了修复,下次遇到类似的问题时你可能已经遗忘了先前的解决方案,这样的情况听上去令人有些沮丧。因此,我经过总结思考并结合实践,梳理了pandas中常用的函数,将本书的前3个部分划分为“1+4+4”的模块结构,即“pandas基础”+“4类pandas操作”+“4类pandas数据”,在每个模块中总结了函数之间的逻辑关系,从而展示出数据处理的宏观体系。除了数据处理,还要对数据进行分析,因此在先前的结构之上,读者还应该掌握3个问题的解决方案,即“怎么分析”“怎么处理”“怎么加速”,这对应“数据观测”“特征工程”和“性能优化”这3个知识模块。

数据处理与分析是实战型任务,读者需要通过一些高质量的练习来巩固所学知识。因此,本书配备了一定数量的习题,这些习题能够帮助读者理解、强化和拓展书中介绍的内容。

在本书写作期间,我也为pandas的1.1.0版本、1.2.0版本、1.3.0版本、1.4.0版本和1.5.0版本贡献了自己的一份力量,包括修复文档的描述性错误、修复代码中的bug以及增加函数的新特性(resample对象的逆向采样等)。虽然这些改进对整个pandas项目来说似乎微不足道,但我本人在这种开源的模式下感受到了愉悦和自我价值,因为这能体现我的分享精神、交流精神和协作精神。正所谓“一个人可以走得很快,一群人可以走得很远”,希望读者在学习过程中学会多思考、多练习、多总结,更要学会多分享、多交流、多协作,携此精神畅游数据科学的世界。

目标读者

本书并不要求读者对数据科学或数据分析有先验认识,只需具备基本的Python语法知识。本书也适用于有一些pandas基础且想要系统学习数据处理与分析方法的读者。对于已经对pandas和数据科学有一定了解的读者,阅读本书也能够起到巩固和拓展知识的作用。

内容概览

本书分为基础知识(第1章、第2章)、4类操作(第3章~第6章)、4类数据(第7章~第10章)和进阶实战(第11章~第13章)4个部分。

第一部分包含Python基础、NumPy基础和pandas基础。其中,Python基础回顾推导式、匿名函数和打包函数的概念与应用;NumPy基础包含常见的数组操作,如构造、变形、切片、广播机制以及常用函数。pandas基础包含文件的读取和写入、基本数据结构、常用基本函数以及窗口对象。

第二部分介绍索引、分组、变形和连接这4类操作。其中,第3章涵盖单级索引、多级索引和常用索引方法;第4章介绍分组模式及其对象的基本概念、聚合函数的使用方法、变换函数和过滤函数的用法,以及跨列分组的相关内容;第5章讨论长宽表的变形和其他变形方法;第6章涉及关系连接的基本概念、常用关系连接函数和其他连接函数等。

版权:人民邮电出版社