得书 - 好书推荐、正版图书免费阅读
发现
热门
排行榜
VIP会员
🔍
➜
注册 | 登录
数据科学导论——基于Python语言(微课版)
朝乐门
评分
0
(1 人读过)
2021 年出版
工业技术
¥23.52
免费读
VIP 专享
立即开始阅读
加入书架
已加书架
反馈
超值推荐:
首月9.9开通会员,本书及全站
10,000+
好书无限畅读。
开通会员 >
内容简介
本书共7章,主要介绍数据科学的基础理论、统计学与模型、机器学习与算法、数据可视化、数据加工、大数据技术、数据产品开发及数据科学中的人文与管理等内容。
展开全文
A-FY
数据科学导论—基于Python语言 (微课版)
54820-bq
C-bwh
编委会
D-xu
推荐序
E-qy
前言
F-ML
目录
01
数据科学的基础理论
第1章
1.1 为什么要学习数据科学
1.2 数据科学的定义
1.3 数据科学的知识体系
1.4 数据科学的基本流程
1.5 数据科学与其他学科的区别
1.5.1 学科定位
1.5.2 研究视角
1.5.3 研究范式
1.6 数据科学的人才类型
1.数据科学家
2.数据工程师
3.数据分析师
1.7 数据科学的常用工具
1.Python在数据科学中应用的优缺点
2.Python和R的对比分析
3.Python和R在数据科学中广泛应用的原因
1.8 数据科学的相关应用
1.医学领域
2.零售领域
3.建筑领域
4.银行领域
5.交通领域
6.自动驾驶与机器翻译领域
1.9 继续学习本章知识
1.学术期刊
2.国际会议
3.研究机构
4.课程资源
5.硕士学位项目
6.专家学者
7.相关工具
习 题
一、选择题
二、调研与分析题
02
统计学与模型
第2章
2.1 统计学与数据科学
2.1.1 描述统计与推断统计
1.描述统计
2.推断统计
2.1.2 基本分析法和元分析法
1.基本分析法
2.元分析法
2.2 统计方法的选择思路
2.3 数据划分及准备方法
2.3.1 自变量与因变量
2.3.2 数据抽样
1.概率抽样
2.非概率抽样
2.4 参数估计与假设检验
2.4.1 参数估计
1.点估计
2.区间估计
2.4.2 假设检验
2.5 常用统计方法及选择
2.5.1 相关分析
2.5.2 回归分析
2.5.3 方差分析
2.5.4 分类分析
1.决策树
2.贝叶斯网络
3.KNN算法
2.5.5 聚类分析
1.分层聚类
2.k-means聚类
3.DBSCAN聚类
2.5.6 时间序列分析
2.5.7 关联规则分析
2.6 统计学面临的挑战
2.7 Python编程实践
Step 1:数据读取
Step 2:数据理解
Step 3:数据准备
Step 4:模型类型的选择与超级参数的设置
Step 5:训练具体模型及查看其统计量
Step 6:拟合优度评价
Step 7:建模前提假定的讨论
Step 8:模型的应用
2.8 继续学习本章知识
习 题
一、选择题
二、调研与分析题
03
机器学习与算法
第3章
3.1 数据科学与机器学习
3.2 机器学习的应用步骤
1.数据理解
2.数据准备
3.模型训练
4.模型评估
5.模型优化与重新选择
6.模型应用
3.3 数据划分及准备方法
3.4 算法类型及选择方法
1.有监督学习
2.无监督学习
3.半监督学习
3.5 模型的评估方法
1.学习曲线
2.混淆矩阵
3.ROC曲线与AUC面积
3.6 机器学习面临的挑战
1.算法的可解释性
2.过拟合
3.维度灾难(Curse of Dimensionality)
4.特征工程(Feature Engineering)
5.算法的可扩展性(Scalability)
6.模型集成
3.7 Python编程实践
Step 1:数据读取
Step 2:数据理解
Step 3:数据准备
Step 4:算法选择及其超级参数的设置
Step 5:具体模型的训练
Step 6:用模型进行预测
Step 7:模型评估
Step 8:模型的应用与优化
3.8 继续学习本章知识
习 题
一、选择题
二、调研与分析题
04
数据可视化
第4章
4.1 数据科学与数据可视化
4.2 数据可视化的基本原则
1.忠于原始数据
2.尊重目标用户
3.突出重点
4.强调用户体验
5.具备较高的信度和效度
4.3 视觉编码与数据类型
1.视觉编码
2.数据类型
4.4 可视分析学
1.强调数据到知识的转换过程
2.强调可视化分析与自动化建模之间的相互作用
3.强调数据映射和数据挖掘的重要性
4.强调数据加工活动的必要性
5.强调人机交互的重要性
4.5 常用统计图表
1.饼图
2.箱线图
3.散点图
4.维恩图
5.热地图
6.等值线
7.雷达图
4.6 数据可视化的发展趋势
1.从通用技术到专业化技术的过渡
2.从无交互到可交互的过渡
3.从人工处理到人机协同处理的过渡
4.从单媒体到富媒体的过渡
5.从信息可视化到可视分析学的过渡
6.从重视结果到重视过程的过渡
7.从小数据到大数据的过渡
4.7 Python编程实践
Step 1:数据准备
Step 2:导入Python包
Step 3:可视化绘图
4.8 继续学习本章知识
习 题
一、选择题
二、调研与分析题
05
数据加工
第5章
5.1 数据科学与数据加工
5.2 探索性数据分析
1.耐抗性分析
2.残差分析
3.重新表达
4.启示
5.3 数据大小及标准化
1.0-1标准化
2.z-score标准化
5.4 缺失数据及其处理方法
5.5 噪声数据及其处理方法
5.5.1 离群点处理
5.5.2 分箱处理
5.6 数据维度及其降维处理方法
5.6.1 特征选择
1.过滤法
2.包裹法
3.嵌入法
5.6.2 主成分分析
5.7 数据脱敏及其处理方法
1.单向性
2.无残留
3.易于实现
5.8 数据形态及其规整化方法
5.9 Python编程实践
Step 1:数据读取
Step 2:探索性分析
Step 3:缺失值处理
Step 4:数据排序
Step 5:分组统计
Step 6:条件过滤
Step 7:标准化处理
5.10 继续学习本章知识
1.数据质量要求
2.数据计算要求
习 题
一、选择题
二、调研与分析题
06
大数据技术
第6章
6.1 数据科学与大数据技术
6.2 Hadoop生态系统
1.Hadoop MapReduce
2.HDFS
3.HBase
4.Hive
5.Pig
6.Mahout
7.ZooKeeper
8.Flume
9.Sqoop
6.3 大数据计算技术与Spark
6.3.1 大数据计算与Lambda架构
6.3.2 Spark的出现及其特点
1.速度快
2.通用性
3.易用性
6.3.3 Spark的计算流程
6.3.4 Spark的关键技术
1.RDD
2.调度机制
3.存储模块
4.Spark Shuffle
6.4 大数据管理技术与MongoDB
1.传统数据管理技术
2.新兴数据管理技术
6.4.1 关系数据库及其优缺点
1.关系数据库的核心技术
2.关系数据库的优缺点
6.4.2 NoSQL及其数据模型
6.4.3 CAP理论与BASE原则
1.CAP理论
2.BASE原则
6.4.4 分片技术与复制技术
1.分片
2.复制
6.4.5 MongoDB
1.MongoDB的优点
2.MongoDB的缺点
3.MongoDB的数据组织方式
4.MongoDB的操作方法
6.5 大数据分析技术
6.5.1 Analytics 3.0
1.Analytics 1.0
2.Analytics 2.0
3.Analytics 3.0
6.5.2 Gartner分析学价值扶梯模型
6.5.3 数据分析中的陷阱
6.6 Python编程实践
Step1:创建SparkSession
Step 2:数据读取
Step 3:数据理解
Step 4:数据准备
Step 5:模型训练
Step 6:模型评估
Step 7:模型应用
6.7 继续学习本章知识
1.大数据技术的可扩展性
2.大数据的实时处理
3.大数据技术的多样性
4.统一分析
习 题
一、选择题
二、调研与分析题
07
数据产品开发及数据科学中的人文与管理
第7章
7.1 数据产品开发及数据科学的人文与管理属性
7.2 数据产品及开发
1.数据产品研发的特征
2.数据产品研发与数据柔术
7.3 数据科学的项目管理
7.3.1 数据科学项目中的主要角色
7.3.2 数据科学项目中的主要活动
1.项目目标的定义
2.数据的获得与管理
3.模式/模型的洞见
4.模式/模型的验证和优化
5.结果的可视化与文档化
6.模式/模型的应用及维护
7.4 数据能力
7.4.1 关键过程域
1.数据管理战略
2.数据治理
3.数据质量
4.数据操作
5.平台与架构
6.辅助性过程
7.4.2 成熟度等级
1.已执行级(Performed Level)
2.已管理级(Managed Level)
3.已定义级(Defined Level)
4.已测量级(Measured Level)
5.已优化级(Optimized Level)
7.4.3 成熟度评价
7.5 数据治理
7.5.1 主要内容
7.5.2 基本过程
7.5.3 参考框架
7.6 数据安全
1.数据安全只是技术问题
2.数据安全的主要威胁是外部入侵
3.数据安全等同于数据保密
7.6.1 信息系统安全等级保护
7.6.2 P2DR模型
7.7 数据偏见
7.7.1 数据来源选择偏见
7.7.2 数据加工和准备偏见
7.7.3 算法与模型选择偏见
7.7.4 分析结果的解读和呈现上的偏见
7.8 数据伦理与道德
1.算法歧视
2.数据攻击
3.隐私保护
7.9 继续学习本章知识
习 题
一、选择题
二、调研与分析题
08-sl
术语索引
附录D
A
B
C
D
F
G
H
J
K
L
M
N
O
P
Q
R
S
T
W
X
Y
Z
09-ck
参考文献
附录D
展开全部
版权信息
出版社:人民邮电出版社
出版时间:2021
作者:朝乐门
温馨提示:
1.本电子书已获得正版授权,由出版社通过知传链发行。
2.该电子书为虚拟物品,付费之后概不接收任何理由退款。电子书内容仅支持在线阅读,不支持下载。
3.您在本站购买的阅读使用权仅限于您本人阅读使用,您不得/不能给任何第三方使用,由此造成的一切相关后果本平台保留向您追偿索赔的权利!版权所有,后果自负!
得书感谢您对《
数据科学导论——基于Python语言(微课版)
》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。
实时热榜
Hot
查看全部 >
1
认知觉醒:开启自我改变的原动力
周岭
2
被讨厌的勇气
岸见一郎
3
自渡
墨多先生
读过此书的人也喜欢
数据结构(Python语言描述)(微课版)
李粤平 王梅
立即试读 >
Python数据预处理(微课版)
主编
立即试读 >
Python数据预处理(微课版)
主编
立即试读 >
Python数据挖掘实战(微课版)
王磊
立即试读 >
Python语言程序设计(微课版)
主编
立即试读 >
Python数据可视化(微课版)
王国平
立即试读 >
读者好评
查看更多真实评价 >
数据科学导论——基于Python语言(微课版)
免费读
(VIP)
开通会员,更多好书免费读
单本购买 ¥23.52
意见反馈
我的书架
公众号
关注微信公众号