编辑推荐
适读人群 :IT技术从业者、专业开发者,相关专业的高校学生,尤其是天池大赛(或其他赛事)的新进选手和新晋关注者。
本书的赛题均来自阿里云天池的真实业务场景,由具有丰富实战经验的大赛优秀选手精心完成。本书通过解析优秀选手的解题思路,总结了大赛可复制的套路。其可以向专业开发者提供技术参考,可以使高校学生和相关技术人员入门天池大赛及其他比赛,还可以帮助参赛选手进阶。
内容简介
《阿里云天池大赛赛题解析——机器学习篇》聚焦机器学习算法建模及相关技术,以工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例,针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合等步骤,将赛题的解决方案从0到1层层拆解、详细说明,在展现专业选手解题过程的同时,配以丰富的相关技术知识作为补充。
《阿里云天池大赛赛题解析——机器学习篇》从经典商业案例出发,内容由浅入深、层层递进,既可以作为专业开发者的参考用书,也可以作为参赛新手研读专业算法的实战手册。
作者简介
本书由阿里云天池平台编写。
天池平台已经举办了超过 200 场来自真实业务场景的竞赛,每场赛事沉淀的课题和数据集,将在天池保留和开放。天池平台已成为在校学生踏入职场前的虚拟实践基地,也成为聚集40万数据人才,孵化2000余家数据创新工作室的数据智能大社区。
章节目录
赛题一工业蒸汽量预测
1赛题理解 2
1.1赛题背景 2
1.2赛题目标 2
1.3数据概览 2
1.4评估指标 3
1.5赛题模型 4
2数据探索 6
2.1理论知识 6
2.1.1变量识别 6
2.1.2变量分析 6
2.1.3缺失值处理 10
2.1.4异常值处理 11
2.1.5变量转换 14
2.1.6新变量生成 15
2.2赛题数据探索 16
2.2.1导入工具包 16
2.2.2读取数据 16
2.2.3查看数据 16
2.2.4可视化数据分布 18
2.2.5查看特征变量的相关性 26
3特征工程 33
3.1特征工程的重要性和处理 33
3.2数据预处理和特征处理 33
3.2.1数据预处理 33
3.2.2特征处理 34
3.3特征降维 38
3.3.1特征选择 39
3.3.2线性降维 44
3.4赛题特征工程 45
3.4.1异常值分析 45
3.4.2最大值和最小值的
归一化 46
3.4.3查看数据分布 47
3.4.4特征相关性 48
3.4.5特征降维 48
3.4.6多重共线性分析 49
3.4.7PCA处理 50
4模型训练 52
4.1回归及相关模型 52
4.1.1回归的概念 52
4.1.2回归模型训练和预测 52
4.1.3线性回归模型 52
4.1.4K近邻回归模型 54
4.1.5决策树回归模型 55
4.1.6集成学习回归模型 58
4.2赛题模型训练 61
4.2.1导入相关库 61
4.2.2切分数据 62
4.2.3多元线性回归 62
4.2.4K近邻回归 62
4.2.5随机森林回归 63
4.2.6LGB模型回归 63
5模型验证 64
5.1模型评估的概念和方法 64
5.1.1欠拟合与过拟合 64
5.1.2模型的泛化与正则化 68
5.1.3回归模型的评估指标和
调用方法 70
5.1.4交叉验证 72
5.2模型调参 75
5.2.1调参 75
5.2.2网格搜索 76
5.2.3学习曲线 77
5.2.4验证曲线 78
5.3赛题模型验证和调参 78
5.3.1模型过拟合与欠拟合 78
5.3.2模型正则化 81
5.3.3模型交叉验证 82
5.3.4模型超参空间及调参 85
5.3.5学习曲线和验证曲线 89
6特征优化 93
6.1特征优化的方法 93
6.1.1合成特征 93
6.1.2特征的简单变换 93
6.1.3用决策树创造新特征 94
6.1.4特征组合 94
6.2赛题特征优化 96
6.2.1导入数据 96
6.2.2特征构造方法 96
6.2.3特征构造函数 96
6.2.4特征降维处理 96
6.2.5模型训练和评估 97
7模型融合 100
7.1模型优化 100
7.1.1模型学习曲线 100
7.1.2模型融合提升技术 100
7.1.3预测结果融合策略 102
7.1.4其他提升方法 105
7.2赛题模型融合 106
7.2.1导入工具包 106
7.2.2获取训练数据和测试
数据 106
7.2.3模型评价函数 107
7.2.4采用网格搜索训练
模型 107
7.2.5单一模型预测效果 109
7.2.6模型融合Boosting方法 115
7.2.7多模型预测Bagging
方法 118
7.2.8多模型融合Stacking
方法 119
7.2.9模型验证 127
7.2.10使用lr_reg和lgb_reg
进行融合预测 127
赛题二天猫用户重复购买预测
1赛题理解 130
1.1赛题背景 130
1.2数据介绍 131
1.3评估指标 133
1.4赛题分析 134
2数据探索 137
2.1理论知识 137
2.1.1缺失数据处理 137
2.1.2不均衡样本 138
2.1.3常见的数据分布 141
2.2赛题数据探索 144
2.2.1导入工具包 145
2.2.2读取数据 145
2.2.3数据集样例查看 145
2.2.4查看数据类型和数据
大小 146
2.2.5查看缺失值 147
2.2.6观察数据分布 148
2.2.7探查影响复购的各种
因素 150
3特征工程 155
3.1特征工程介绍 155
3.1.1特征工程的概念 155
3.1.2特征归一化 155
3.1.3类别型特征的转换 156
3.1.4高维组合特征的处理 156
3.1.5组合特征 157
3.1.6文本表示模型 157
3.2赛题特征工程思路 158
3.3赛题特征工程构造 160
3.3.1工具导入 160
3.3.2数据读取 160
3.3.3对数据进行内存压缩 161
3.3.4数据处理 163
3.3.5定义特征统计函数 164
3.3.6提取统计特征 166
3.3.7利用Countvector和
TF-IDF提取特征 170
3.3.8嵌入特征 170
3.3.9Stacking分类特征 171
4模型训练 179
4.1分类的概念 179
4.2分类相关模型 179
4.2.1逻辑回归分类模型 179
4.2.2K近邻分类模型 180
4.2.3高斯贝叶斯分类模型 182
4.2.4决策树分类模型 182
4.2.5集成学习分类模型 183
5模型验证 186
5.1模型验证指标 186
5.1.1准确度 186
5.1.2查准率和查全率 188
5.1.3F1值 189
5.1.4分类报告 189
5.1.5混淆矩阵 189
5.1.6ROC 190
5.1.7AUC曲线 190
5.2赛题模型验证和评估 190
5.2.1基础代码 190
5.2.2简单验证 191
5.2.3设置交叉验证方式 192
5.2.4模型调参 194
5.2.5混淆矩阵 195
5.2.6不同的分类模型 198
5.2.7自己封装模型 205
6特征优化 211
6.1特征选择技巧 211
6.2赛题特征优化 213
6.2.1基础代码 213
6.2.2缺失值补全 213
6.2.3特征选择 213
赛题三O2O优惠券预测
1赛题理解 222
1.1赛题介绍 222
1.2赛题分析 223
2数据探索 225
2.1理论知识 225
2.1.1数据探索的定义 225
2.1.2数据探索的目的 226
2.1.3相关Python包 226
2.2初步的数据探索 226
2.2.1数据读取 226
2.2.2数据查看 227
2.2.3数据边界探索 231
2.2.4训练集与测试集的
相关性 232
2.2.5数据统计 236
2.3数据分布 238
2.3.1对文本数据的数值化
处理 238
2.3.2数据分布可视化 242
3特征工程 246
3.1赛题特征工程思路 246
3.2赛题特征构建 248
3.2.1工具函数 248
3.2.2特征群生成函数 250
3.2.3特征集成函数 256
3.2.4特征输出 257
3.3对特征进行探索 260
3.3.1特征读取函数 260
3.3.2特征总览 261
3.3.3查看特征的分布 262
3.3.4特征相关性分析 265
4模型训练 266
4.1模型训练与评估 266
4.2不同算法模型的性能对比 271
4.2.1朴素贝叶斯 271
4.2.2逻辑回归 271
4.2.3决策树 272
4.2.4随机森林 272
4.2.5XGBoost 273
4.2.6LightGBM 274
4.2.7不同特征效果对比 274
4.3结果输出 274
5模型验证 276
5.1评估指标 276
5.2交叉验证 276
5.3模型比较 279
5.4验证结果可视化 282
5.5结果分析 289
5.6模型调参 290
5.7实际方案 292
6提交结果 299
6.1整合及输出结果 299
6.2结果提交及线上验证 302
赛题四阿里云安全恶意程序检测
1赛题理解 306
1.1赛题介绍 306
1.2赛题分析 307
2数据探索 310
2.1训练集数据探索 310
2.1.1数据特征类型 310
2.1.2数据分布 311
2.1.3缺失值 312
2.1.4异常值 312
2.1.5标签分布 313
2.2测试集数据探索 314
2.2.1数据信息 314
2.2.2缺失值 315
2.2.3数据分布 315
2.2.4异常值 315
2.3数据集联合分析 316
2.3.1file_id分析 316
2.3.2API分析 317
3特征工程与基线模型 318
3.1特征工程概述 318
3.1.1特征工程介绍 318
3.1.2构造特征 318
3.1.3特征选择 319
3.2构造线下验证集 319
3.2.1评估穿越 319
3.2.2训练集和测试集的特征
差异性 320
3.2.3训练集和测试集的分布
差异性 320
3.3基线模型 320
3.3.1数据读取 320
3.3.2特征工程 321
3.3.3基线构建 322
3.3.4特征重要性分析 324
3.3.5模型测试 325
4高阶数据探索 326
4.1变量分析 326
4.2高阶数据探索实战 329
4.2.1数据读取 329
4.2.2多变量交叉探索 329
5特征工程进阶与方案优化 343
5.1pivot特征构建 343
5.1.1pivot特征 343
5.1.2pivot特征构建时间 343
5.1.3pivot特征构建细节和
特点 343
5.2业务理解和结果分析 344
5.2.1结合模型理解业务 344
5.2.2多分类问题预测结果
分析 344
5.3特征工程进阶实践 344
5.3.1特征工程基础部分 344
5.3.2特征工程进阶部分 348
5.3.3基于LightGBM的模型
验证 349
5.3.4模型结果分析 351
5.3.5模型测试 354
6优化技巧与解决方案升级 355
6.1优化技巧:Python处理大数据
的技巧 355
6.1.1内存管理控制 355
6.1.2加速数据处理的技巧 356
6.1.3其他开源工具包 356
6.2深度学习解决方案:TextCNN
建模 358
6.2.1问题转化 358
6.2.2TextCNN建模 358
6.2.3数据预处理 360
6.2.4TextCNN网络结构 361
6.2.5TextCNN训练和测试 362
6.2.6结果提交 364
7开源方案学习 365
阿里云天池大赛赛题解析——机器学习篇是2020年由电子工业出版社出版,作者天池平台。
得书感谢您对《阿里云天池大赛赛题解析——机器学习篇》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。