编辑推荐
带你了解特征工程的完整过程,使机器学习更加系统、高效。
内容简介
从理解数据开始——机器学习模型的成功取决于如何利用不同类型的特征,例如连续特征、类属特征等。你将了解何时纳入一项特征、何时忽略一项特征,以及其中的原因。你会学习将问题陈述转换为有用的新特征,还会学习如何提供商业需求驱动的特征以及数学见解。最后,你将学习如何在自己的机器上进行机器学习,自动学习数据中令人惊叹的特征。
作者简介
作者锡南·厄兹代米尔,数据科学家、数学家、约翰·霍普金斯大学讲师,Kylie.ai公司联合创始人、CTO,在应用数据挖掘、功能分析和算法开发做出基于数据和知识的决策方面拥有丰富的经验。
章节目录
版权信息
前言
目标读者
本书内容
阅读须知
下载示例代码
下载本书彩色图片
排版约定
联系我们
评论
电子书
第1章 特征工程简介
1.1 激动人心的例子:AI驱动的聊天
1.2 特征工程的重要性
1.3 特征工程是什么
数据和机器学习的基础知识
1.4 机器学习算法和特征工程的评估
1.4.1 特征工程的例子:真的有人能预测天气吗
1.4.2 特征工程的评估步骤
1.4.3 评估监督学习算法
1.4.4 评估无监督学习算法
1.5 特征理解:我的数据集里有什么
1.6 特征增强:清洗数据
1.7 特征选择:对坏属性说不
1.8 特征构建:能生成新特征吗
1.9 特征转换:数学显神通
1.10 特征学习:以AI促AI
1.11 小结
第2章 特征理解:我的数据集里有什么
2.1 数据结构的有无
非结构化数据的例子:服务器日志
2.2 定量数据和定性数据
按工作分类的工资
2.3 数据的4个等级
2.3.1 定类等级
2.3.2 定序等级
2.3.3 定距等级
2.3.4 定比等级
2.4 数据等级总结
2.5 小结
第3章 特征增强:清洗数据
3.1 识别数据中的缺失值
3.1.1 皮马印第安人糖尿病预测数据集
3.1.2 探索性数据分析
3.2 处理数据集中的缺失值
3.2.1 删除有害的行
3.2.2 填充缺失值
3.2.3 在机器学习流水线中填充值
3.3 标准化和归一化
3.3.1 分数标准化
3.3.2 min-max标准化
3.3.3 行归一化
3.3.4 整合起来
3.4 小结
第4章 特征构建:我能生成新特征吗
4.1 检查数据集
4.2 填充分类特征
4.2.1 自定义填充器
4.2.2 自定义分类填充器
4.2.3 自定义定量填充器
4.3 编码分类变量
4.3.1 定类等级的编码
4.3.2 定序等级的编码
4.3.3 将连续特征分箱
4.3.4 创建流水线
4.4 扩展数值特征
4.4.1 根据胸部加速度计识别动作的数据集
4.4.2 多项式特征
4.5 针对文本的特征构建
4.5.1 词袋法
4.5.2 CountVectorizer
4.5.3 TF-IDF向量化器
4.5.4 在机器学习流水线中使用文本
4.6 小结
第5章 特征选择:对坏属性说不
5.1 在特征工程中实现更好的性能
案例分析:信用卡逾期数据集
5.2 创建基准机器学习流水线
5.3 特征选择的类型
5.3.1 基于统计的特征选择
5.3.2 基于模型的特征选择
5.4 选用正确的特征选择方法
5.5 小结
第6章 特征转换:数学显神通
6.1 维度缩减:特征转换、特征选择与特征构建
6.2 主成分分析
6.2.1 PCA的工作原理
6.2.2 鸢尾花数据集的PCA——手动处理
6.2.3 scikit-learn的PCA
6.2.4 中心化和缩放对PCA的影响
6.2.5 深入解释主成分
6.3 线性判别分析
6.3.1 LDA的工作原理
6.3.2 在scikit-learn中使用LDA
6.4 LDA与PCA:使用鸢尾花数据集
6.5 小结
第7章 特征学习:以AI促AI
7.1 数据的参数假设
7.1.1 非参数谬误
7.1.2 本章的算法
7.2 受限玻尔兹曼机
7.2.1 不一定降维
7.2.2 受限玻尔兹曼机的图
7.2.3 玻尔兹曼机的限制
7.2.4 数据重建
7.2.5 MNIST数据集
7.3 伯努利受限玻尔兹曼机
7.3.1 从MNIST中提取PCA主成分
7.3.2 从MNIST中提取RBM特征
7.4 在机器学习流水线中应用RBM
7.4.1 对原始像素值应用线性模型
7.4.2 对提取的PCA主成分应用线性模型
7.4.3 对提取的RBM特征应用线性模型
7.5 学习文本特征:词向量
7.5.1 词嵌入
7.5.2 两种词嵌入方法:Word2vec和GloVe
7.5.3 Word2vec:另一个浅层神经网络
7.5.4 创建Word2vec词嵌入的gensim包
7.5.5 词嵌入的应用:信息检索
7.6 小结
第8章 案例分析
8.1 案例1:面部识别
8.1.1 面部识别的应用
8.1.2 数据
8.1.3 数据探索
8.1.4 应用面部识别
8.2 案例2:预测酒店评论数据的主题
8.2.1 文本聚类的应用
8.2.2 酒店评论数据
8.2.3 数据探索
8.2.4 聚类模型
8.2.5 SVD与PCA主成分
8.2.6 潜在语义分析
8.3 小结
看完了
特征工程入门与实践是2019年由人民邮电出版社·图灵出品出版,作者[土]锡南·厄兹代米尔。
得书感谢您对《特征工程入门与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。