Python数据分析基础教程值得看吗?

简介: 从数据处理的角度来讲解统计分析。

*文中代码字体版权说明

内容提要

本书详细讲解了Python数据分析的相关内容,共分为10章,第1~9章分别讲解了数据分析概述、Python与数据分析、Python语言基础、NumPy数组与矢量计算、用NumPy进行简单统计分析、数据可视化——Matplotlib库、pandas数据分析基础、用pandas进行数据预处理、机器学习库scikit-learn入门;第10章用一个综合案例——电影数据分析项目,带领读者灵活掌握本书所学内容。

本书适合作为高等院校本、专科计算机相关专业的教材,也可供爱好者自学使用。

前言

随着云计算与大数据技术的发展,大数据分析技术已开始应用到各行各业中,应用范围已呈现逐渐扩大的趋势。Python是一种面向对象的解释型计算机程序设计语言。由于Python具有大量的库,可为数据分析和处理提供完整的工具集,因此,Python被广泛应用于科学计算领域,并成为大数据分析中的主流技术之一。因此,掌握Python数据分析技术已成为大数据应用技术专业、软件技术专业、计算机应用技术专业、信息管理专业学生必须掌握的关键技术之一。

本书的特点

本书通过数据分析案例,介绍了数据分析的概念、数据分析的过程及Python数据分析常用库的运用。同时,为便于读者能更好地理解Python与数据分析的关系,本书先介绍了Python的基础语法,然后,运用所学的数据分析技术,完成相关的数据分析项目。

本书的各个章节中都有示例代码,这些示例代码能够帮助读者更好地理解Python数据分析中的基本概念。同时,为提高读者对数据分析技术的综合运用能力,本书在第2~9章中还设置了项目实践和思考练习等内容,第10章为综合项目案例,逐层递进式教学,并配有教学PPT、程序源代码和数据集,可方便教师教学、读者自学和练习。

本书参考学时为96~128学时,建议采用理论实践一体化教学模式,各章节的参考学时见下面的学时分配表。

学时分配表

作者简介

郑丹青,教授,高级工程师,湖南省计算机应用技术省级专业带头人,现任职于湖南汽车工程职业学院,具有多年的计算机教学工作经验,有着近20年的企业软件项目开发经验,获得过株洲市科技局的奖励。

由于编者水平和经验有限,书中难免有欠妥和疏漏之处,恳请读者批评指正。

编者

2020年1月

第1章

数据分析概述

学习目标

①了解数据、数据类型的基本概念。

②了解数据分析的基本概念。

③了解数据分析的过程。

④了解数据分析的作用。

⑤了解数据分析的常用工具。

1.1

数据的性质

1.1.1

数据的概念

所谓数据就是描述事物的符号,是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。在计算机系统中,各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。在现实生活中,数据无所不在,如天气预报、居民身份证号码、快递单号和火车时刻表中就包含了大量的数据。人们通过数据来认识世界,交流信息。

数据是对世界万物的记录,任何可以被测量或是分类的事物都能用数据来表示。在采集完数据后,可以对数据进行研究和分析,从而获得有价值的信息。数据与信息既有联系,又有区别。数据是信息的表现形式和载体,而信息则是数据的内涵,信息是加载于数据之上的,对数据做具体含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体地表达出信息。数据是符号,是物理性的,信息是对原始数据进行加工处理后得到的并对决策产生影响的数据,信息是数据有意义的表示。人们也常常借助信息进行预测,或者即使做不到预测,至少也能让推测更有根据。

当信息转化为一组有助于更好地理解特定机制的规则时,信息就已经转化为了知识,人们可以利用这些知识来预测事件的演变。

版权:人民邮电出版社