类似推荐
编辑推荐
解码数据科学底层逻辑,构建商业数据化思维。
内容简介
本书对数据科学的商业应用做出了全面的讲解,包括数据科学能解决哪些问题、如何在企业中应用数据科学以及相关的数据科学技术。数据科学家可以研究企业经营的目标和制约因素,以发挥更大的作用。
本书非常适合根据数据科学和数据分析做出关键决策的企业高管以及数据科学家,也很适合需要向别人介绍数据分析产品的营销人员。
作者简介
作者菲尔德·卡迪,艾伦人工智能研究所数据科学家,为客户提供咨询服务,曾任职于谷歌。他拥有斯坦福大学物理和数学学士学位,以及卡内基梅隆大学计算机科学硕士学位。
章节目录
版权信息
第1章 绪论
1.1 为什么企业管理者需要了解数据科学
1.2 新时代的数据素养
1.3 数据驱动式开发
1.4 如何使用本书
第2章 商业领域中的数据科学
2.1 什么是数据科学
2.1.1 数据科学家的工作内容是什么
2.1.2 数据科学的历史
2.1.3 数据科学路线图
2.1.4 揭开术语的神秘面纱:机器学习、统计学和商业智能
2.1.5 数据科学家不(不一定)做什么
2.2 企业中的数据科学
2.2.1 附加值类型
2.2.2 单人工坊和数据科学团队
2.2.3 相关工作角色
2.3 聘请数据科学家
2.3.1 我真的需要数据科学吗
2.3.2 最简单的选择:公民数据科学家
2.3.3 更难的选择:专业的数据科学家
2.3.4 编程、算法思维和代码质量
2.3.5 招聘注意事项
2.3.6 数据科学工作的薪酬
2.3.7 招错人和危险信号
2.3.8 关于聘请数据科学顾问的建议
2.4 管理失败案例
2.4.1 将数据科学家当作软件开发人员
2.4.2 数据不足
2.4.3 将数据科学家当作图形处理人员
2.4.4 模糊不清的问题
2.4.5 详细问题清单缺乏优先等级
第3章 处理现代数据
3.1 非结构化数据和被动收集
3.2 数据类型和来源
3.3 数据格式
3.3.1 CSV文件
3.3.2 JSON文件
3.3.3 XML和HTML
3.4 数据库
3.4.1 关系数据库和文档数据库
3.4.2 数据库操作
3.5 数据分析软件架构
3.5.1 共享存储
3.5.2 共享型关系数据库
3.5.3 文档数据库+分析型关系数据库
3.5.4 存储+并行处理
第4章 讲述故事和总结数据
4.1 选择要度量的内容
4.2 异常值、可视化和概要统计的局限性:一图抵千数
4.3 实验、相关性和因果关系
4.4 以一个数字进行总结
4.5 评估关键特征:集中趋势、扩散程度和重尾
4.5.1 测量集中趋势
4.5.2 测量扩散程度
4.5.3 高阶内容:管理重尾
4.6 总结两个数字:相关系数和散点图
4.6.1 相关系数
4.6.2 互信息
4.7 高阶内容:拟合直线或曲线
4.7.1 异常值的影响
4.7.2 优化和选择成本函数
4.8 统计学:如何不自欺欺人
4.8.1 核心概念:p值
4.8.2 现实检验:选择零假设和建模假设
4.8.3 高阶内容:参数评估和置信区间
4.8.4 高阶内容:值得了解的统计测试
4.8.5 贝叶斯统计
4.9 高阶内容:值得了解的概率分布
4.9.1 概率分布:离散型和连续型
4.9.2 抛硬币:伯努利分布
4.9.3 抛硬币:二项式分布
4.9.4 掷飞镖:均匀分布
4.9.5 钟形曲线:正态分布
4.9.6 重尾基础知识:对数正态分布
4.9.7 等待:指数分布和几何分布
4.9.8 失效:韦布尔分布
4.9.9 计算事件数量:泊松分布
第5章 机器学习
5.1 监督式学习、非监督式学习、二元分类
5.1.1 核实现状:获取标记数据、独立性假设
5.1.2 特征提取和机器学习的局限性
5.1.3 过度拟合
5.1.4 交叉验证策略
5.2 测量性能
5.2.1 混淆矩阵
5.2.2 接收者操作特征曲线(ROC曲线)
5.2.3 ROC曲线下面积(AUC)
5.2.4 选择分类阈值
5.2.5 其他性能指标
5.2.6 lift曲线
5.3 高阶内容:重要分类器
5.3.1 决策树
5.3.2 随机森林分类器
5.3.3 集成分类器
5.3.4 支持向量机
5.3.5 逻辑回归
5.3.6 套索回归
5.3.7 朴素贝叶斯
5.3.8 神经网络
5.4 数据结构:无监督式学习
5.4.1 维度之咒
5.4.2 主元分析法和因子分析
5.4.3 聚类
5.5 边做边学:强化学习
5.5.1 多臂强盗和ε-贪心算法
5.5.2 马尔可夫决策过程和Q学习
第6章 了解工具
6.1 关于学习编码的注意事项
6.2 速查表
6.3 数据科学生态系统的组成部分
6.3.1 脚本语言
6.3.2 技术计算语言
6.3.3 可视化工具
6.3.4 数据库
6.3.5 大数据
6.3.6 高阶内容:Map-Reduce范式
6.4 高阶内容:数据库查询速成课
6.4.1 基本查询
6.4.2 数据分组与聚合
6.4.3 Joins
6.4.4 嵌套查询
第7章 深度学习和人工智能
7.1 人工智能概述
7.1.1 不要害怕天网:强人工智能和弱人工智能
7.1.2 系统1和系统2
7.2 神经网络
7.2.1 神经网络能做什么、不能做什么
7.2.2 到底什么是神经网络?
7.2.3 卷积神经网络
7.2.4 高阶内容:训练神经网络
7.3 自然语言处理(NLP)
7.3.1 截然不同:语言与统计学
7.3.2 减少麻烦:考虑使用正则表达式
7.3.3 软件和数据集
7.3.4 关键问题:矢量化
7.3.5 词袋模型
7.4 知识库和图表
后记
数据科学商业实战是2023年由中国科学技术出版社出版,作者[美] 菲尔德·卡迪。
得书感谢您对《数据科学商业实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。