编辑推荐
本书教授数据科学模型构建、Java库应用,解决开发问题。
内容简介
本书介绍了关于数据科学模型构建的多种方法,借助Java语言的一些库,例如MLlib、Weka、DL4j等,读者能够更好地完成数据科学任务。本书通过对一些开发技巧的介绍,帮助读者解决一些常见或偶尔的开发中的问题,让读者学到一系列分析、解决问题的办法。
章节目录
版权信息
版权声明
内容提要
作者简介
审稿人简介
前言
资源与支持
第1章 获取数据与清洗数据
1.1 简介
1.2 使用Java从分层目录中提取所有文件名
准备工作
操作步骤
1.3 使用Apache Commons IO从多层目录中提取所有文件名
准备工作
操作步骤
1.4 使用Java 8从文本文件一次性读取所有内容
操作步骤
1.5 使用Apache Commons IO从文本文件一次性读取所有内容
准备工作
操作方法
1.6 使用Apache Tika提取PDF文本
准备知识
操作步骤
1.7 使用正则表达式清洗ASCII文本文件
操作步骤
1.8 使用Univocity解析CSV文件
准备工作
操作步骤
1.9 使用Univocity解析TSV文件
准备工作
操作步骤
1.10 使用JDOM解析XML文件
准备工作
操作步骤
1.11 使用JSON.simple编写JSON文件
准备工作
操作步骤
1.12 使用JSON.simple读取JSON文件
准备工作
操作步骤
1.13 使用JSoup从一个URL提取Web数据
准备工作
操作步骤
1.14 使用Selenium Webdriver从网站提取Web数据
准备工作
操作步骤
1.15 从MySQL数据库读取表格数据
准备工作
操作步骤
第2章 为数据建立索引与搜索数据
2.1 简介
2.2 使用Apache Lucene为数据建立索引
准备工作
操作步骤
工作原理
2.3 使用Apache Lucene搜索带索引的数据
准备工作
操作步骤
第3章 数据统计分析
3.1 简介
3.2 生成描述性统计
操作步骤
3.3 生成概要统计
操作步骤
3.4 从多种分布生成概要统计
操作步骤
更多内容
3.5 计算频率分布
操作步骤
3.6 计算字符串中的词频
操作步骤
工作原理
3.7 使用Java 8计算字符串中的词频
操作步骤
3.8 计算简单回归
操作步骤
3.9 计算普通最小二乘回归
操作步骤
3.10 计算广义最小二乘回归
操作步骤
3.11 计算两组数据点的协方差
操作步骤
3.12 为两组数据点计算皮尔逊相关系数
操作步骤
3.13 执行配对t检验
操作步骤
3.14 执行卡方检验
操作步骤
3.15 执行单因素方差分析(one-way ANOVA test)
操作步骤
3.16 执行K-S检验
操作步骤
第4章 数据学习Ⅰ
4.1 简介
4.2 创建与保存ARFF文件
操作步骤
4.3 对机器学习模型进行交叉验证
操作步骤
4.4 对新的测试数据进行分类
准备工作
操作步骤
4.5 使用过滤分类器对新测试数据分类
操作步骤
4.6 创建线性回归模型
操作步骤
4.7 创建逻辑回归模型
操作步骤
4.8 使用K均值算法对数据点进行聚类
操作步骤
4.9 依据类别对数据进行聚类处理
操作方法
4.10 学习数据间的关联规则
准备工作
操作步骤
4.11 使用低层方法、过滤方法、元分类器方法选择特征/属性
准备工作
操作步骤
第5章 数据学习Ⅱ
5.1 简介
5.2 使用Java机器学习库(Java-ML)向数据应用机器学习
准备工作
操作步骤
5.3 使用斯坦福分类器对数据点分类
准备工作
操作步骤
工作原理
5.4 使用MOA对数据点分类
准备工作
操作步骤
5.5 使用Mulan对多标签数据点进行分类
准备工作
操作步骤
第6章 从文本数据提取信息
6.1 简介
6.2 使用Java检测标记(单词)
准备工作
操作步骤
6.3 使用Java检测句子
准备工作
操作步骤
6.4 使用OpenNLP检测标记(单词)与句子
准备工作
操作步骤
6.5 使用Stanford CoreNLP从标记中提取词根、词性,以及识别命名实体
准备工作
操作步骤
6.6 使用Java 8借助余弦相似性测度测量文本相似度
准备工作
操作步骤
6.7 使用Mallet从文本文档提取主题
准备工作
操作步骤
6.8 使用Mallet对文本文档进行分类
准备工作
操作步骤
6.9 使用Weka对文本文档进行分类
准备工作
操作步骤
第7章 处理大数据
7.1 简介
7.2 使用Apache Mahout训练在线逻辑回归模型
准备工作
操作步骤
7.3 使用Apache Mahout应用在线逻辑回归模型
准备工作
操作步骤
7.4 使用Apache Spark解决简单的文本挖掘问题
准备工作
操作步骤
7.5 使用MLib的K均值算法做聚类
准备工作
操作步骤
7.6 使用MLib创建线性回归模型
准备工作
操作步骤
7.7 使用MLib的随机森林模型对数据点进行分类
准备工作
操作步骤
第8章 数据深度学习
8.1 简介
8.2 使用DL4j创建Word2vec神经网络
操作方法
工作原理
更多内容
8.3 使用DL4j创建深度信念神经网络
操作步骤
工作原理
8.4 使用DL4j创建深度自动编码器
操作步骤
工作原理
第9章 数据可视化
9.1 简介
9.2 绘制2D正弦曲线
准备工作
操作步骤
9.3 绘制直方图
准备工作
操作步骤
9.4 绘制条形图
准备工作
操作步骤
9.5 绘制箱线图或箱须图
准备工作
操作步骤
9.6 绘制散点图
准备工作
操作步骤
9.7 绘制甜圈图
准备工作
操作步骤
9.8 绘制面积图
准备工作
操作步骤
Java数据科学指南是2018年由人民邮电出版社出版,作者 (加) 鲁什迪·夏姆斯 (Rushdi Shams) 。
得书感谢您对《Java数据科学指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。