玩转大数据:SAS+R+Stata+Python

玩转大数据:SAS+R+Stata+Python

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书主要介绍了在SAS、R语言、Stata和Python四个软件中常用的、效的命令及编程方法。

内容简介

面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。

作者简介

作者孙江伟,复旦大学流行病与卫生统计学专业硕士,曾在强生公司(Johnson &Johnson)任生物统计师,对国内医药临床领域及国外医疗注册系统等大数据的数据管理、数据清洗、研究设计及统计分析,有丰富的理论及实践经验,现于瑞典卡罗林斯卡医学院进行卫生统计学方面的研究深造。

在American Journal of Epidemiology、European Journal of Neurology等杂志发表相关领域SCI论文10篇。

章节目录

版权信息

内容简介

前言

第1章 数学基础

1.1 常用的数学符号

1.2 常见概念

1.2.1 集合

1.2.2 极限

1.3 微积分

1.3.1 导数与微分

1.3.2 基本初等函数的导函数和微分公式

1.3.3 导数与微分的运算法则

1.3.4 定积分与不定积分

1.3.5 基本的不定积分公式

1.3.6 定积分与不定积分的性质

1.4 线性代数

1.4.1 标量与向量

1.4.2 矩阵与线性方程组

1.4.3 行列式的定义与运算

1.4.4 矩阵的运算法则

1.4.5 特殊的矩阵

1.4.6 矩阵的秩

1.4.7 矩阵的转置与矩阵的逆

1.4.8 特征向量与特征值

第2章 统计学基础

2.1 概率论的基本概念

2.2 随机变量与分布

2.2.1 随机变量

2.2.2 累积分布函数

2.2.3 概率函数

2.3 随机变量的数学特征

2.3.1 数学期望

2.3.2 期望值的规律

2.3.3 条件期望

2.3.4 协方差与相关系数

2.3.5 样本均值和方差

2.4 常见的随机变量分布

2.4.1 离散变量分布

2.4.2 连续变量分布

2.5 统计学基本概念

2.5.1 总体与样本

2.5.2 参数和统计量

2.5.3 中心极限定理

2.6 统计描述

2.6.1 定量资料的统计描述

2.6.2 分类资料的统计描述

2.7 统计推断

2.7.1 参数估计

2.7.2 假设检验

2.8 多因素回归模型

2.8.1 多因素线性回归模型

2.8.2 多因素Logistic回归模型

2.8.3 多因素Cox回归模型

第3章 软件基础总论

3.1 软件初识

3.1.1 SAS

3.1.2 R语言

3.1.3 Stata

3.1.4 Python

3.2 4个软件的比较

第4章 SAS基础

4.1 SAS介绍与资源

4.1.1 SAS语言及程序结构

4.1.2 SAS工作界面

4.1.3 获得帮助

4.2 数据的导入与导出

4.2.1 导入数据

4.2.2 导出数据

4.3 SAS中常用的函数

4.3.1 字符型函数

4.3.2 数值型函数

4.3.3 日期型函数

4.3.4 特殊函数

4.3.5 其他函数

4.4 SAS变量

4.4.1 变量属性

4.4.2 自动变量

4.4.3 变量列表的缩写规则

4.4.4 创建变量

4.4.5 改变变量属性

4.4.6 改变变量类型

4.5 SAS数据处理

4.5.1 选取变量

4.5.2 创建变量

4.5.3 对观测求和

4.5.4 选取并操作部分观测

4.5.5 循环和数组

4.5.6 数据集的横向合并和纵向合并

4.5.7 增加数据集处理灵活性的SAS选项

4.6 SAS中常见的proc步

4.6.1 proc contents

4.6.2 proc datasets

4.6.3 proc freq

4.6.4 proc means

4.6.5 proc sort

4.6.6 proc transpose

4.6.7 proc univariate

4.6.8 proc corr

4.6.9 proc reg

4.6.10 proc logistic

4.6.11 proc lifetest

4.6.12 proc phreg

4.7 PROC SQL

4.7.1 检索数据

4.7.2 合并数据集

4.7.3 使用PROC SQL管理表

4.8 SAS宏介绍

4.8.1 宏变量

4.8.2 宏函数

4.8.3 宏程序

4.8.4 宏参数

4.8.5 宏语言与data步

4.8.6 宏语言与PROC SQL

4.8.7 条件语句和循环语句在宏语言中的使用

第5章 R语言基础

5.1 R语言介绍

5.1.1 R语言的特点与资源

5.1.2 RStudio使用简介

5.2 R语言的基本规则

5.2.1 对象

5.2.2 函数使用基础

5.2.3 扩展包

5.2.4 帮助

5.3 数据类型

5.3.1 vector

5.3.2 factor

5.3.3 date

5.3.4 matrix

5.3.5 list

5.3.6 data.frame

5.3.7 formula

5.4 常用函数介绍

5.4.1 数据的读入和导出

5.4.2 条件判断

5.4.3 循环

5.4.4 文本处理

5.4.5 基本作图

5.4.6 自定义函数

5.5 常用数据处理与统计分析函数

5.5.1 单变量分析

5.5.2 双变量、多变量分析

5.5.3 线性回归模型

5.5.4 Logistic回归模型

5.5.5 生存分析模型

5.6 dplyr包简介

5.6.1 安装dplyr包

5.6.2 dplyr包中最常用的5个函数

5.6.3 用%>%运算符连接多个函数

5.6.4 dplyr包中其他实用的函数

5.7 ggplot2包简介

5.7.1 安装ggplot2包

5.7.2 使用ggplot2画图的基本思路

5.7.3 使用geom_histogram函数绘制直方图

5.7.4 使用geom_bar函数绘制柱状图

5.7.5 使用geom_boxplot函数绘制箱形图

5.7.6 使用geom_point函数绘制散点图

5.7.7 使用geom_smooth函数在散点图上添加线性回归结果

5.7.8 对图中细节进行微调

5.7.9 将多个图合并为一个图

5.7.10 保存图

第6章 Stata基础

6.1 Stata简介

6.1.1 界面介绍

6.1.2 在菜单栏中选择命令

6.1.3 输入命令代码

6.2 获得帮助

6.2.1 检索关键词

6.2.2 查看帮助

6.2.3 帮助建议

6.3 语法结构

6.3.1 变量集

6.3.2 by前缀

6.3.3 命令

6.3.4 =表达式

6.3.5 if表达式

6.3.6 in范围

6.3.7 权重

6.3.8 命令选项

6.3.9 数值集合

6.3.10 文件名

6.4 数据转换与分析

6.4.1 导入数据

6.4.2 浏览数据与基本描述

6.4.3 数值变量

6.4.4 文本变量

6.4.5 日期变量

6.4.6 缺失值

6.4.7 注释变量

6.4.8 调整数据结构

6.4.9 基本描述

6.4.10 统计检验

6.4.11 相关分析

6.4.12 回归分析

6.4.13 导出数据

6.5 输出结果调用

6.5.1 一般统计命令结果调用

6.5.2 估计命令结果调用

6.6 重复命令

6.6.1 by前缀

6.6.2 foreach循环

6.6.3 forvalues循环

6.7 编程工具

6.7.1 do文件

6.7.2 标量变量

6.7.3 宏变量

6.7.4 矩阵

6.7.5 程序

第7章 Python基础

7.1 Python的安装

7.1.1 使用Python安装包安装Python 3

7.1.2 通过Anaconda安装Python 3

7.2 常用交互式语言开发环境

7.2.1 编辑器

7.2.2 控制台

7.2.3 变量管理器

7.3 常用数据类型、数据结构与基本语句

7.3.1 Python中的变量命名规则

7.3.2 常见的数据类型及运算

7.3.3 常见的数据结构及运算

7.3.4 第一个程序

7.3.5 函数

7.3.6 常用逻辑语句

7.4 数据的导入与导出

7.4.1 数据的读取

7.4.2 数据存储

7.5 基础运算常用包——NumPy

7.5.1 基本性质

7.5.2 矢量化运算

7.5.3 NumPy中的函数

7.5.4 ndarray的轴、索引与切片

7.5.5 实战举例:用NumPy进行图像处理

7.6 数据处理常用包——Pandas

7.6.1 主要数据类型

7.6.2 对DataFrame的描述

7.6.3 缺失值的检测与处理

7.6.4 DataFrame的索引

7.6.5 常见操作

7.6.6 字符处理专题

7.6.7 apply专题

7.6.8 groupby专题

7.7 统计分析常用包

7.7.1 单样本t检验

7.7.2 独立样本t检验

7.7.3 两个连续型变量的相关性

7.7.4 两个分类变量的频数统计

7.7.5 线性回归模型

7.7.6 Logistic回归模型

7.7.7 生存分析

7.8 绘图常用包

7.8.1 Pandas

7.8.2 Matplotlib

7.8.3 Seaborn

第8章 软件实践总论

8.1 本书使用的数据集

8.1.1 病人基本信息数据集

8.1.2 诊断信息数据集

8.1.3 实验室检测结果数据集(一)

8.1.4 实验室检测结果数据集(二)

8.1.5 用药信息数据集

8.1.6 急性心肌梗死数据集

8.2 软件实践步骤

8.2.1 数据清洗

8.2.2 数据准备

8.2.3 数据分析

8.2.4 结果整理

8.2.5 代码的重复使用

8.3 实例:拟研究的课题

第9章 SAS实践部分

9.1 数据的清洗与管理

9.1.1 病人基本信息数据集

9.1.2 诊断信息数据集

9.1.3 实验室检测结果数据集(一)

9.1.4 实验室检测结果数据集(二)

9.1.5 用药信息数据集

9.2 数据分析与结果整理

9.2.1 定量数据的统计描述

9.2.2 分类数据的统计描述

9.2.3 相关分析

9.2.4 线性回归分析

9.2.5 Logistic回归分析

9.2.6 Cox回归分析

第10章 R语言实践部分

10.1 数据的清洗与管理

10.1.1 病人基本信息数据集

10.1.2 诊断信息数据集

10.1.3 实验室检测结果数据集(一)

10.1.4 实验室检测结果数据集(二)

10.1.5 用药信息数据集

10.2 数据分析与结果整理

10.2.1 定量数据的统计描述

10.2.2 分类数据的统计描述

10.2.3 相关分析

10.2.4 线性回归分析

10.2.5 Logistic回归分析

10.2.6 Cox回归分析

第11章 Stata实践部分

11.1 数据的清洗与管理

11.1.1 病人基本信息数据集

11.1.2 诊断信息数据集

11.1.3 实验室检测结果数据集(一)

11.1.4 实验室检测结果数据集(二)

11.1.5 用药信息数据集

11.2 数据分析与结果整理

11.2.1 定量数据的统计描述

11.2.2 分类数据的统计描述

11.2.3 相关分析

11.2.4 一般线性回归分析

11.2.5 Logistic回归分析

11.2.6 Cox回归分析

11.3 Stata在Meta分析中的应用

11.3.1 Meta分析简介

11.3.2 二分类变量的Meta分析

11.3.3 连续性变量的Meta分析

11.3.4 发表偏倚分析

第12章 Python实践部分

12.1 数据的清洗与管理

12.1.1 病人基本信息数据集

12.1.2 诊断信息数据集

12.1.3 实验室检测结果数据集(一)

12.1.4 实验室检测结果数据集(二)

12.1.5 用药信息数据集

12.2 数据准备和数据分析

12.2.1 定量数据的统计描述

12.2.2 分类数据的统计描述

12.2.3 相关分析

12.2.4 线性回归分析

12.2.5 Logistic回归分析

12.2.6 Cox回归分析

参考文献

附录A 常用假设检验方法

附录B 正则表达式

附录C 系统综述与Meta分析技术路线图

玩转大数据:SAS+R+Stata+Python是2021年由清华大学出版社出版,作者孙江伟,王韵章,宁铮,李夏,王吟曦,李琳。

得书感谢您对《玩转大数据:SAS+R+Stata+Python》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
玩转EVE-NG——带您潜入IT虚拟世界 电子书
EVE-NG是当前流行的仿真虚拟环境,是Ubuntu系统下的一种应用,也可以看作是一种系统。《玩转EVE-NG——带您潜入IT虚拟世界》共20章,介绍了EVE-NG的安装步骤及使用方法,涵盖了常用的操作步骤;介绍了虚拟化的简单原理以及制作EVE-NG环境下的Windows、Linux和定制非官方支持的常用镜像;介绍了EVE-NG底层原理及关键代码剖析。《玩转EVE-NG——带您潜入IT虚拟世界》适
创意UI.Photoshop玩转游戏界面设计 电子书
本书由具有多年从业经验的专业设计师总结设计方法,筛选游戏UI设计中热门的游戏案例编写而成。全书分为5章,每章都包含丰富的游戏界面设计知识和设计制作的详细讲解。从“揭开游戏界面的神秘面纱”“了解游戏界面的基本特性”“绘制游戏界面的家庭成员”“开启不同风格的手机游戏界面”和“爱不释手的不同风格平台游戏界面”5方面逐一讲解,使读者逐步掌握使用Photoshop制作游戏界面的整体设计思路和制作过程。特别是
Maker基地嘉年华 玩转乐动魔盒学Scratch 电子书
Scratch是一款由麻省理工学院(MIT)设计开发的面向青少年的简易图形化编程工具。用户通过软件中积木形状的模块来进行程序的编写,极大降低了青少年学习编程的门槛。Labplus是深圳盛思科教文化有限公司在MITScratch2.0基础上研发的一套针对8岁以上孩子学习的图形化编程软件。本书以Labplus和ScratchBox(乐动魔盒)为学习载体,通过生动有趣的案例,介绍了Scratch图形化编
大数据营销 电子书
本书分为4篇13章。其中,第1章到第4章属于基础篇,主要介绍大数据概述、大数据营销概述、大数据时代的消费者行为分析、大数据广告营销等内容。第5章、第6章属于工具篇,主要介绍精准营销、大数据搜索营销等内容。第7章到第11章属于智能应用篇,主要介绍当前热门的大数据营销应用领域,包括App营销、微信营销、微博营销、O2O营销、短视频与直播营销等内容。第12章、第13章属于拓展篇,主要介绍跨界营销、其他大
开源硬件创客——15个酷应用玩转树莓派 电子书
本书共分18章,前3章是本书的基础章节,主要介绍了树莓派的一些基本情况和基本操作,来让读者了解树莓派的前世今生,掌握树莓派基本的使用方法。第4~18章主要介绍15个以树莓派为载体的酷炫应用,大家可以按照本书一步一步来完成个人网站、影音盒子、下载机、私有云、智能路由器、智能家居等应用。附录部分,包含了树莓派常用的操作命令和一些使用技巧,方便大家更好地使用树莓派。本书适合开源硬件爱好者学习、程序员、计