Python数据挖掘实战(微课版)这本书讲的是什么

工业技术 王磊
简介: 数据挖掘旨在发现蕴含在数据中的有价值的数据模式、知识或规律,是目前非常热门的研究领域。理解数据挖掘模型的原理、方法并熟练掌握其实现技术是数据挖掘从业者必备的能力。本书从理论模型和技术实战两个角度,全面讲述数据挖掘的基本流程、模型方法、实现技术及案例应用,帮助读者系统地掌握数据挖掘的核心技术,培养读者从事数据挖掘工作的基本能力。全书共12章,主要内容包括数据探索、数据预处理、特征选择、基础分类模型及

内容提要

数据挖掘旨在发现蕴含在数据中的有价值的数据模式、知识或规律,是目前非常热门的研究领域。理解数据挖掘模型的原理、方法并熟练掌握其实现技术是数据挖掘从业者必备的能力。

本书从理论模型和技术实战两个角度,全面讲述数据挖掘的基本流程、模型方法、实现技术及案例应用,帮助读者系统地掌握数据挖掘的核心技术,培养读者从事数据挖掘工作的基本能力。全书共12章,主要内容包括数据探索、数据预处理、特征选择、基础分类模型及回归模型、集成技术、聚类分析、关联规则分析、时间序列挖掘、异常检测、智能推荐等。除第1章、第2章外,本书以一章对应一个主题的形式完整描述相应主题的数据挖掘模型,简洁、清晰地介绍其基本原理和算法步骤,并结合Python语言介绍数据挖掘模型的实现技术,同时结合案例分析数据挖掘模型在数据挖掘中的应用。此外,书中还通过大量的图、表、代码、示例帮助读者快速掌握相关内容。

本书适合作为相关专业本科生和研究生的数据挖掘课程的教材,也可以作为数据挖掘技术爱好者或从业者的入门参考书。

前言

随着大数据、物联网、云计算、人工智能等技术的日新月异,人们从商业、科学研究等领域获得的数据量极速增长,但是这也带来了数据的价值密度越来越低的问题。人们经常面临着“数据丰富、知识贫乏”的尴尬境地。为了让数据充分发挥为人类社会服务的价值,我们迫切需要一类从“数据汪洋”中发现并提取有价值的信息或知识的技术,这促使数据挖掘技术的诞生和快速发展。数据挖掘融合了统计学、机器学习、数据库、信号处理等多个学科的知识,是目前数据科学领域非常热门且具挑战性的技术。

数据挖掘是对理论知识和实践操作要求都非常高的技术。对广大数据挖掘领域的工作人员和研究人员来说,需要面对的数据类型多种多样、千差万别。因此,他们应该掌握扎实的数据探索和可视化技术,以便了解数据的特点和分布规律;应该擅长对各种数据进行预处理,以提高数据的质量和可用性;应该熟悉大量的数据挖掘模型的原理、特点和适用范围,以便针对数据的特点选择或设计比较恰当的模型来提取蕴藏在数据中的知识,熟练地掌握模型的实现技术并最终完成数据挖掘任务。

党的二十大报告指出,教育领域要“加强基础学科、新兴学科、交叉学科建设”。数据挖掘近十年的发展已经展现出了非常强的交叉学科的特色,并在很多领域得到广泛应用。例如,在经济学、管理学、社会学领域都有大量的学者通过数据挖掘的理论和技术解决其在研究领域的相关问题。为了满足相关从业人员或研究人员系统性学习数据挖掘技术的需要,本书以Python语言为基本实现工具,以贴近实战的角度讲述数据挖掘的主要模型的原理和方法、模型的实现技术及其在多个典型案例中的应用。本书具有如下4个明显特点。

(1)理论与实战有机结合。在介绍数据挖掘技术时,本书做到了理论原理和模型实战并重。一方面,我们避免过度陷入对数据挖掘模型的数学理论推导,把重心放在简明扼要地讲解模型的基本原理和算法步骤上,帮助读者对模型特点建立清晰的认识;另一方面,我们结合具体案例展示模型的实现技术和主要结果,帮助读者对模型的性能有直观的认识。两方面的讲述互为一体,相辅相成。

(2)以Python作为模型实现工具。Python是数据科学领域的主流计算机语言,具有简单易学、易于理解、数学计算功能强大、开源等特点,通过Scikit-learn、Pandas、NumPy等可扩展模块的支持,可以比较轻松地给出数据挖掘模型的实现,并完成可视化、模型评价等工作。本书在介绍数据挖掘模型的实现时,采用了多个可扩展模块,并详细地给出了它们的安装、配置和使用方法,便于读者快速掌握。

(3)重视数据探索和数据预处理方面的知识讲解。在实际的数据挖掘工作中,探索数据和对数据进行预处理是不可或缺的工作,通常占据了全部工作量的大半部分,然而,目前许多教材都忽略了这些方面的描述。本书用3章较为完整、系统地介绍了数据探索、数据预处理和特征选择方面的常用技术,并通过多个案例帮助读者深刻理解它们的作用。

版权:人民邮电出版社