机器学习与Python实践epub电子书下载

简介: 机器学习理论实践全书,12章内容丰富,适合各层次读者。

随着大数据时代的来临,与分析和处理数据有关的交叉学科正在蓬勃发展,很多概念变得耳熟能详,如数据科学、机器学习、数据挖掘、人工智能、统计学习等。本章从面向实际应用的角度出发,简要介绍这些概念的内涵和外延,并通过对比说明它们的区别。

数据科学指的是使用科学方法分析数据,从数据中提取有效信息,帮助人们理解观测到的现象,并由数据驱动进行预测或决策的理论和方法体系。常用的科学方法包括处理分析数据相关的数学、统计学和计算机科学方法。与数据科学相关的重要概念是机器学习和数据挖掘,它们与当前热门的大数据和人工智能有十分密切的关系。为了进一步说明这些概念,结合实际需求,我们把这些概念放在一个大的问题导向框架下来看。在这个框架下,我们的目标是通过分析数据,解决实际业务中与数据相关的问题。因此,我们需要一个应用场景或一个实际业务中待解决的问题,应用科学方法找到该问题的最优解决方案。

在问题导向框架下,我们提出一个简化业务流程图,如图1.1所示。该流程图将解决问题的整个流程分为三部分:第一部分是明确问题,例如,我们的目的是要做什么,有什么样的数据,希望从中得到什么等。第二部分是一个大的模型集和方法集,里面有成熟的、模块化的各种数据分析方法和模型。我们一般将这些模型集和方法集划分为三大类,分别是无监督学习、有监督学习和强化学习,每一大类还会根据具体情况和需求有进一步的细分,如有监督学习类根据响应变量的属性又分为分类方法和回归方法等,这些方法在本书后面章节中会具体展开。流程图的第三部分是解决方案,它是能够解决或部分解决前述问题的实现方法和能够达到预期需求的工具,可以是一份完整的分析报告、某个分析处理数据的软件等。

流程图的第一部分到第二部分是一个数学建模或统计建模过程。建模过程将实际问题和需求转化为能用数学和统计语言描述的问题,从模型集和方法集中找到合适求解该问题的方法,这是我们常说的,很多参与过建模竞赛的学生对此是熟悉的。建模过程也包括模型的选择评估、分析结果的解释和推理等。流程图的第二部分到第三部分是一个非常关键的步骤,称为“实现过程”。它包括第二部分的方法论的计算机程序实现,还包括很多具体到某个实际状况的处理方法、技巧甚至一些权宜之计和经验做法。这些情形和处理方法也就是业界常说的“踩坑、填坑”,对实现整个业务流程是十分重要的。

图1.1 简化业务流程图

下面举两个不同的例子来说明流程图。第一个例子是垃圾邮件识别。我们每天都会收到很多垃圾电子邮件,因此智能过滤是一个很明确的需求,需求的目标就是根据电子邮件的标题、内容、发送者自动识别并过滤掉垃圾电子邮件。这个问题可以转化为一个分类问题。我们可以很容易地从方法集里面的有监督学习中找到合适的分类方法,比如支持向量机(Support Vestor Machine, SVM)、逻辑回归等。它的解决方案是在电子邮件软件中嵌入某段程序,利用分类方法实现识别功能。建模过程包括特征的生成、选取、模型选择和评估等。垃圾邮件识别属于难度不算高的问题,基于一些训练数据,有一定基础的读者可以自行完成。

第二个例子是量化投资交易。量化投资是金融研究和应用中的一个分支方向,它的投资对象包括股市、债市、汇率和各类金融衍生品,投资的方法包括选股、CTA、套利、统计套利、做市等。在现实中量化投资需要完成数据源、行情源、交易接口和交易系统的开发调试、策略的开发实现、资金管理、风险管理和绩效评估、各级监控和监管等一系列环节,是一个十分复杂的问题。以量化选股中的策略研发为例,它的目标是根据历史走势和相关市场行情判断股票未来一段时间的走势,给出交易信号或投资组合策略,从而获得较为稳定的正收益。一般的策略开发可以放到监督学习或强化学习的框架中研究,读者可尝试各种解决方案。

版权:人民邮电出版社