编辑推荐

本书主要介绍了在SAS、R语言、Stata和Python四个软件中常用的、效的命令及编程方法。

内容简介

面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。

作者简介

作者孙江伟,复旦大学流行病与卫生统计学专业硕士,曾在强生公司(Johnson &Johnson)任生物统计师,对国内医药临床领域及国外医疗注册系统等大数据的数据管理、数据清洗、研究设计及统计分析,有丰富的理论及实践经验,现于瑞典卡罗林斯卡医学院进行卫生统计学方面的研究深造。

在American Journal of Epidemiology、European Journal of Neurology等杂志发表相关领域SCI论文10篇。

章节目录

版权信息

内容简介

前言

第1章 数学基础

1.1 常用的数学符号

1.2 常见概念

1.2.1 集合

1.2.2 极限

1.3 微积分

1.3.1 导数与微分

1.3.2 基本初等函数的导函数和微分公式

1.3.3 导数与微分的运算法则

1.3.4 定积分与不定积分

1.3.5 基本的不定积分公式

1.3.6 定积分与不定积分的性质

1.4 线性代数

1.4.1 标量与向量

1.4.2 矩阵与线性方程组

1.4.3 行列式的定义与运算

1.4.4 矩阵的运算法则

1.4.5 特殊的矩阵

1.4.6 矩阵的秩

1.4.7 矩阵的转置与矩阵的逆

1.4.8 特征向量与特征值

第2章 统计学基础

2.1 概率论的基本概念

2.2 随机变量与分布

2.2.1 随机变量

2.2.2 累积分布函数

2.2.3 概率函数

2.3 随机变量的数学特征

2.3.1 数学期望

2.3.2 期望值的规律

2.3.3 条件期望

2.3.4 协方差与相关系数

2.3.5 样本均值和方差

2.4 常见的随机变量分布

2.4.1 离散变量分布

2.4.2 连续变量分布

2.5 统计学基本概念

2.5.1 总体与样本

2.5.2 参数和统计量

2.5.3 中心极限定理

2.6 统计描述

2.6.1 定量资料的统计描述

2.6.2 分类资料的统计描述

2.7 统计推断

2.7.1 参数估计

2.7.2 假设检验

2.8 多因素回归模型

2.8.1 多因素线性回归模型

2.8.2 多因素Logistic回归模型

2.8.3 多因素Cox回归模型

第3章 软件基础总论

3.1 软件初识

3.1.1 SAS

3.1.2 R语言

3.1.3 Stata

3.1.4 Python

3.2 4个软件的比较

第4章 SAS基础

4.1 SAS介绍与资源

4.1.1 SAS语言及程序结构

4.1.2 SAS工作界面

4.1.3 获得帮助

4.2 数据的导入与导出

4.2.1 导入数据

4.2.2 导出数据

4.3 SAS中常用的函数

4.3.1 字符型函数

4.3.2 数值型函数

4.3.3 日期型函数

4.3.4 特殊函数

4.3.5 其他函数

4.4 SAS变量

4.4.1 变量属性

4.4.2 自动变量

4.4.3 变量列表的缩写规则

4.4.4 创建变量

4.4.5 改变变量属性

4.4.6 改变变量类型

4.5 SAS数据处理

4.5.1 选取变量

4.5.2 创建变量

4.5.3 对观测求和

4.5.4 选取并操作部分观测

4.5.5 循环和数组

4.5.6 数据集的横向合并和纵向合并

4.5.7 增加数据集处理灵活性的SAS选项

4.6 SAS中常见的proc步

4.6.1 proc contents

4.6.2 proc datasets

4.6.3 proc freq

4.6.4 proc means

4.6.5 proc sort

4.6.6 proc transpose

4.6.7 proc univariate

4.6.8 proc corr

4.6.9 proc reg

4.6.10 proc logistic

4.6.11 proc lifetest

4.6.12 proc phreg

4.7 PROC SQL

4.7.1 检索数据

4.7.2 合并数据集

4.7.3 使用PROC SQL管理表

4.8 SAS宏介绍

4.8.1 宏变量

4.8.2 宏函数

4.8.3 宏程序

4.8.4 宏参数

4.8.5 宏语言与data步

4.8.6 宏语言与PROC SQL

4.8.7 条件语句和循环语句在宏语言中的使用

第5章 R语言基础

5.1 R语言介绍

5.1.1 R语言的特点与资源

5.1.2 RStudio使用简介

5.2 R语言的基本规则

5.2.1 对象

5.2.2 函数使用基础

5.2.3 扩展包

5.2.4 帮助

5.3 数据类型

5.3.1 vector

5.3.2 factor

5.3.3 date

5.3.4 matrix

5.3.5 list

5.3.6 data.frame

5.3.7 formula

5.4 常用函数介绍

5.4.1 数据的读入和导出

5.4.2 条件判断

5.4.3 循环

5.4.4 文本处理

5.4.5 基本作图

5.4.6 自定义函数

5.5 常用数据处理与统计分析函数

5.5.1 单变量分析

5.5.2 双变量、多变量分析

5.5.3 线性回归模型

5.5.4 Logistic回归模型

5.5.5 生存分析模型

5.6 dplyr包简介

5.6.1 安装dplyr包

5.6.2 dplyr包中最常用的5个函数

5.6.3 用%>%运算符连接多个函数

5.6.4 dplyr包中其他实用的函数

5.7 ggplot2包简介

5.7.1 安装ggplot2包

5.7.2 使用ggplot2画图的基本思路

5.7.3 使用geom_histogram函数绘制直方图

5.7.4 使用geom_bar函数绘制柱状图

5.7.5 使用geom_boxplot函数绘制箱形图

5.7.6 使用geom_point函数绘制散点图

5.7.7 使用geom_smooth函数在散点图上添加线性回归结果

5.7.8 对图中细节进行微调

5.7.9 将多个图合并为一个图

5.7.10 保存图

第6章 Stata基础

6.1 Stata简介

6.1.1 界面介绍

6.1.2 在菜单栏中选择命令

6.1.3 输入命令代码

6.2 获得帮助

6.2.1 检索关键词

6.2.2 查看帮助

6.2.3 帮助建议

6.3 语法结构

6.3.1 变量集

6.3.2 by前缀

6.3.3 命令

6.3.4 =表达式

6.3.5 if表达式

6.3.6 in范围

6.3.7 权重

6.3.8 命令选项

6.3.9 数值集合

6.3.10 文件名

6.4 数据转换与分析

6.4.1 导入数据

6.4.2 浏览数据与基本描述

6.4.3 数值变量

6.4.4 文本变量

6.4.5 日期变量

6.4.6 缺失值

6.4.7 注释变量

6.4.8 调整数据结构

6.4.9 基本描述

6.4.10 统计检验

6.4.11 相关分析

6.4.12 回归分析

6.4.13 导出数据

6.5 输出结果调用

6.5.1 一般统计命令结果调用

6.5.2 估计命令结果调用

6.6 重复命令

6.6.1 by前缀

6.6.2 foreach循环

6.6.3 forvalues循环

6.7 编程工具

6.7.1 do文件

6.7.2 标量变量

6.7.3 宏变量

6.7.4 矩阵

6.7.5 程序

第7章 Python基础

7.1 Python的安装

7.1.1 使用Python安装包安装Python 3

7.1.2 通过Anaconda安装Python 3

7.2 常用交互式语言开发环境

7.2.1 编辑器

7.2.2 控制台

7.2.3 变量管理器

7.3 常用数据类型、数据结构与基本语句

7.3.1 Python中的变量命名规则

7.3.2 常见的数据类型及运算

7.3.3 常见的数据结构及运算

7.3.4 第一个程序

7.3.5 函数

7.3.6 常用逻辑语句

7.4 数据的导入与导出

7.4.1 数据的读取

7.4.2 数据存储

7.5 基础运算常用包——NumPy

7.5.1 基本性质

7.5.2 矢量化运算

7.5.3 NumPy中的函数

7.5.4 ndarray的轴、索引与切片

7.5.5 实战举例:用NumPy进行图像处理

7.6 数据处理常用包——Pandas

7.6.1 主要数据类型

7.6.2 对DataFrame的描述

7.6.3 缺失值的检测与处理

7.6.4 DataFrame的索引

7.6.5 常见操作

7.6.6 字符处理专题

7.6.7 apply专题

7.6.8 groupby专题

7.7 统计分析常用包

7.7.1 单样本t检验

7.7.2 独立样本t检验

7.7.3 两个连续型变量的相关性

7.7.4 两个分类变量的频数统计

7.7.5 线性回归模型

7.7.6 Logistic回归模型

7.7.7 生存分析

7.8 绘图常用包

7.8.1 Pandas

7.8.2 Matplotlib

7.8.3 Seaborn

第8章 软件实践总论

8.1 本书使用的数据集

8.1.1 病人基本信息数据集

8.1.2 诊断信息数据集

8.1.3 实验室检测结果数据集(一)

8.1.4 实验室检测结果数据集(二)

8.1.5 用药信息数据集

8.1.6 急性心肌梗死数据集

8.2 软件实践步骤

8.2.1 数据清洗

8.2.2 数据准备

8.2.3 数据分析

8.2.4 结果整理

8.2.5 代码的重复使用

8.3 实例:拟研究的课题

第9章 SAS实践部分

9.1 数据的清洗与管理

9.1.1 病人基本信息数据集

9.1.2 诊断信息数据集

9.1.3 实验室检测结果数据集(一)

9.1.4 实验室检测结果数据集(二)

9.1.5 用药信息数据集

9.2 数据分析与结果整理

9.2.1 定量数据的统计描述

9.2.2 分类数据的统计描述

9.2.3 相关分析

9.2.4 线性回归分析

9.2.5 Logistic回归分析

9.2.6 Cox回归分析

第10章 R语言实践部分

10.1 数据的清洗与管理

10.1.1 病人基本信息数据集

10.1.2 诊断信息数据集

10.1.3 实验室检测结果数据集(一)

10.1.4 实验室检测结果数据集(二)

10.1.5 用药信息数据集

10.2 数据分析与结果整理

10.2.1 定量数据的统计描述

10.2.2 分类数据的统计描述

10.2.3 相关分析

10.2.4 线性回归分析

10.2.5 Logistic回归分析

10.2.6 Cox回归分析

第11章 Stata实践部分

11.1 数据的清洗与管理

11.1.1 病人基本信息数据集

11.1.2 诊断信息数据集

11.1.3 实验室检测结果数据集(一)

11.1.4 实验室检测结果数据集(二)

11.1.5 用药信息数据集

11.2 数据分析与结果整理

11.2.1 定量数据的统计描述

11.2.2 分类数据的统计描述

11.2.3 相关分析

11.2.4 一般线性回归分析

11.2.5 Logistic回归分析

11.2.6 Cox回归分析

11.3 Stata在Meta分析中的应用

11.3.1 Meta分析简介

11.3.2 二分类变量的Meta分析

11.3.3 连续性变量的Meta分析

11.3.4 发表偏倚分析

第12章 Python实践部分

12.1 数据的清洗与管理

12.1.1 病人基本信息数据集

12.1.2 诊断信息数据集

12.1.3 实验室检测结果数据集(一)

12.1.4 实验室检测结果数据集(二)

12.1.5 用药信息数据集

12.2 数据准备和数据分析

12.2.1 定量数据的统计描述

12.2.2 分类数据的统计描述

12.2.3 相关分析

12.2.4 线性回归分析

12.2.5 Logistic回归分析

12.2.6 Cox回归分析

参考文献

附录A 常用假设检验方法

附录B 正则表达式

附录C 系统综述与Meta分析技术路线图

玩转大数据:SAS+R+Stata+Python是2021年由清华大学出版社出版,作者孙江伟,王韵章,宁铮,李夏,王吟曦,李琳。

得书感谢您对《玩转大数据:SAS+R+Stata+Python》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
数据压缩入门 电子书

谷歌开发高手通俗讲解数据压缩算法,高效传输和存储海量数据,打造流畅的用户体验。
用数据讲故事 电子书

本书适合所有需要用图表展示信息和数据的人士阅读。
数据化运营管理 电子书

网店数据化运营与营销。
精益数据分析 电子书

无论是梦想颠覆某个行业的创业者,还是试图从企业内部激发变革的创新者,你面临的大挑战就是创造人们真正需要的产品。本书将引导你走上正确的道路。
大数据原理与技术 电子书

本书则是华为公司针对华为ICT学院大数据方向的在读学生,专门组织合作伙伴和华为公司内部员工开发的标准化教材,这套教材的目的在于循序渐进地帮助华为ICT学院大数据方向的学生掌握大...
NoSQL数据库原理 电子书

1.校企合作典范。2.计算机教指委提供指导。3.华为公司提供技术支持和案例。4.作者水平高,层次高。5.是计算机类专业教指委-华为ICT产学合作项目——大数据系列规划教材
大数据时代的数据挖掘 电子书

(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术...