pandas数据处理与分析在线阅读

计算机与互联网耿远昊

简介：本书以Python中的pandas库为主线，介绍各类数据处理与分析方法。

内容提要

本书以Python中的pandas库为主线，介绍各类数据处理与分析方法。

本书共包含13章，第一部分介绍NumPy和pandas的基本内容；第二部分介绍pandas库中的4类操作，包括索引、分组、变形和连接；第三部分介绍基于pandas库的4类数据，包括缺失数据、文本数据、分类数据和时间序列数据，并介绍这4类数据的处理方法；第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色，每章的最后一节为习题，同时每章包含许多即时性的练习（练一练）。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。

前言

“pandas令人头痛！——我在学习pandas库时曾如此抱怨。

pandas库的函数令人眼花缭乱，现实中的复杂问题难免使人手足无措。如果你刚开始使用pandas，遇到报错是很正常的，即使正确地进行了修复，下次遇到类似的问题时你可能已经遗忘了先前的解决方案，这样的情况听上去令人有些沮丧。因此，我经过总结思考并结合实践，梳理了pandas中常用的函数，将本书的前3个部分划分为“1+4+4”的模块结构，即“pandas基础”+“4类pandas操作”+“4类pandas数据”，在每个模块中总结了函数之间的逻辑关系，从而展示出数据处理的宏观体系。除了数据处理，还要对数据进行分析，因此在先前的结构之上，读者还应该掌握3个问题的解决方案，即“怎么分析”“怎么处理”“怎么加速”，这对应“数据观测”“特征工程”和“性能优化”这3个知识模块。

数据处理与分析是实战型任务，读者需要通过一些高质量的练习来巩固所学知识。因此，本书配备了一定数量的习题，这些习题能够帮助读者理解、强化和拓展书中介绍的内容。

在本书写作期间，我也为pandas的1.1.0版本、1.2.0版本、1.3.0版本、1.4.0版本和1.5.0版本贡献了自己的一份力量，包括修复文档的描述性错误、修复代码中的bug以及增加函数的新特性（resample对象的逆向采样等）。虽然这些改进对整个pandas项目来说似乎微不足道，但我本人在这种开源的模式下感受到了愉悦和自我价值，因为这能体现我的分享精神、交流精神和协作精神。正所谓“一个人可以走得很快，一群人可以走得很远”，希望读者在学习过程中学会多思考、多练习、多总结，更要学会多分享、多交流、多协作，携此精神畅游数据科学的世界。

目标读者

本书并不要求读者对数据科学或数据分析有先验认识，只需具备基本的Python语法知识。本书也适用于有一些pandas基础且想要系统学习数据处理与分析方法的读者。对于已经对pandas和数据科学有一定了解的读者，阅读本书也能够起到巩固和拓展知识的作用。

内容概览

本书分为基础知识（第1章、第2章）、4类操作（第3章～第6章）、4类数据（第7章～第10章）和进阶实战（第11章～第13章）4个部分。

第一部分包含Python基础、NumPy基础和pandas基础。其中，Python基础回顾推导式、匿名函数和打包函数的概念与应用；NumPy基础包含常见的数组操作，如构造、变形、切片、广播机制以及常用函数。pandas基础包含文件的读取和写入、基本数据结构、常用基本函数以及窗口对象。

第二部分介绍索引、分组、变形和连接这4类操作。其中，第3章涵盖单级索引、多级索引和常用索引方法；第4章介绍分组模式及其对象的基本概念、聚合函数的使用方法、变换函数和过滤函数的用法，以及跨列分组的相关内容；第5章讨论长宽表的变形和其他变形方法；第6章涉及关系连接的基本概念、常用关系连接函数和其他连接函数等。

版权：人民邮电出版社

意见反馈

我的书架

公众号

关注微信公众号