Java数据科学指南

Java数据科学指南

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书教授数据科学模型构建、Java库应用,解决开发问题。

内容简介

本书介绍了关于数据科学模型构建的多种方法,借助Java语言的一些库,例如MLlib、Weka、DL4j等,读者能够更好地完成数据科学任务。本书通过对一些开发技巧的介绍,帮助读者解决一些常见或偶尔的开发中的问题,让读者学到一系列分析、解决问题的办法。

章节目录

版权信息

版权声明

内容提要

作者简介

审稿人简介

前言

资源与支持

第1章 获取数据与清洗数据

1.1 简介

1.2 使用Java从分层目录中提取所有文件名

准备工作

操作步骤

1.3 使用Apache Commons IO从多层目录中提取所有文件名

准备工作

操作步骤

1.4 使用Java 8从文本文件一次性读取所有内容

操作步骤

1.5 使用Apache Commons IO从文本文件一次性读取所有内容

准备工作

操作方法

1.6 使用Apache Tika提取PDF文本

准备知识

操作步骤

1.7 使用正则表达式清洗ASCII文本文件

操作步骤

1.8 使用Univocity解析CSV文件

准备工作

操作步骤

1.9 使用Univocity解析TSV文件

准备工作

操作步骤

1.10 使用JDOM解析XML文件

准备工作

操作步骤

1.11 使用JSON.simple编写JSON文件

准备工作

操作步骤

1.12 使用JSON.simple读取JSON文件

准备工作

操作步骤

1.13 使用JSoup从一个URL提取Web数据

准备工作

操作步骤

1.14 使用Selenium Webdriver从网站提取Web数据

准备工作

操作步骤

1.15 从MySQL数据库读取表格数据

准备工作

操作步骤

第2章 为数据建立索引与搜索数据

2.1 简介

2.2 使用Apache Lucene为数据建立索引

准备工作

操作步骤

工作原理

2.3 使用Apache Lucene搜索带索引的数据

准备工作

操作步骤

第3章 数据统计分析

3.1 简介

3.2 生成描述性统计

操作步骤

3.3 生成概要统计

操作步骤

3.4 从多种分布生成概要统计

操作步骤

更多内容

3.5 计算频率分布

操作步骤

3.6 计算字符串中的词频

操作步骤

工作原理

3.7 使用Java 8计算字符串中的词频

操作步骤

3.8 计算简单回归

操作步骤

3.9 计算普通最小二乘回归

操作步骤

3.10 计算广义最小二乘回归

操作步骤

3.11 计算两组数据点的协方差

操作步骤

3.12 为两组数据点计算皮尔逊相关系数

操作步骤

3.13 执行配对t检验

操作步骤

3.14 执行卡方检验

操作步骤

3.15 执行单因素方差分析(one-way ANOVA test)

操作步骤

3.16 执行K-S检验

操作步骤

第4章 数据学习Ⅰ

4.1 简介

4.2 创建与保存ARFF文件

操作步骤

4.3 对机器学习模型进行交叉验证

操作步骤

4.4 对新的测试数据进行分类

准备工作

操作步骤

4.5 使用过滤分类器对新测试数据分类

操作步骤

4.6 创建线性回归模型

操作步骤

4.7 创建逻辑回归模型

操作步骤

4.8 使用K均值算法对数据点进行聚类

操作步骤

4.9 依据类别对数据进行聚类处理

操作方法

4.10 学习数据间的关联规则

准备工作

操作步骤

4.11 使用低层方法、过滤方法、元分类器方法选择特征/属性

准备工作

操作步骤

第5章 数据学习Ⅱ

5.1 简介

5.2 使用Java机器学习库(Java-ML)向数据应用机器学习

准备工作

操作步骤

5.3 使用斯坦福分类器对数据点分类

准备工作

操作步骤

工作原理

5.4 使用MOA对数据点分类

准备工作

操作步骤

5.5 使用Mulan对多标签数据点进行分类

准备工作

操作步骤

第6章 从文本数据提取信息

6.1 简介

6.2 使用Java检测标记(单词)

准备工作

操作步骤

6.3 使用Java检测句子

准备工作

操作步骤

6.4 使用OpenNLP检测标记(单词)与句子

准备工作

操作步骤

6.5 使用Stanford CoreNLP从标记中提取词根、词性,以及识别命名实体

准备工作

操作步骤

6.6 使用Java 8借助余弦相似性测度测量文本相似度

准备工作

操作步骤

6.7 使用Mallet从文本文档提取主题

准备工作

操作步骤

6.8 使用Mallet对文本文档进行分类

准备工作

操作步骤

6.9 使用Weka对文本文档进行分类

准备工作

操作步骤

第7章 处理大数据

7.1 简介

7.2 使用Apache Mahout训练在线逻辑回归模型

准备工作

操作步骤

7.3 使用Apache Mahout应用在线逻辑回归模型

准备工作

操作步骤

7.4 使用Apache Spark解决简单的文本挖掘问题

准备工作

操作步骤

7.5 使用MLib的K均值算法做聚类

准备工作

操作步骤

7.6 使用MLib创建线性回归模型

准备工作

操作步骤

7.7 使用MLib的随机森林模型对数据点进行分类

准备工作

操作步骤

第8章 数据深度学习

8.1 简介

8.2 使用DL4j创建Word2vec神经网络

操作方法

工作原理

更多内容

8.3 使用DL4j创建深度信念神经网络

操作步骤

工作原理

8.4 使用DL4j创建深度自动编码器

操作步骤

工作原理

第9章 数据可视化

9.1 简介

9.2 绘制2D正弦曲线

准备工作

操作步骤

9.3 绘制直方图

准备工作

操作步骤

9.4 绘制条形图

准备工作

操作步骤

9.5 绘制箱线图或箱须图

准备工作

操作步骤

9.6 绘制散点图

准备工作

操作步骤

9.7 绘制甜圈图

准备工作

操作步骤

9.8 绘制面积图

准备工作

操作步骤

Java数据科学指南是2018年由人民邮电出版社出版,作者 (加) 鲁什迪·夏姆斯 (Rushdi Shams) 。

得书感谢您对《Java数据科学指南》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
IBM SPSS Modeler 18.0数据挖掘权威指南 电子书
联袂推荐 暨南大学教授、博士生导师刘建平,暨南大学研究生院副院长、经济学院统计学系副主任、教授、博士生导师陈光慧,天善智能创始人梁勇,IBM技术专家刘咏梅,IBM数据科学家钟云飞,广东省环保厅环境咨询专家委员会专家、广东柯内特环境科技有限公司总经理朱斌 本书特色 内容全面:涉及数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署、性能优化、数据挖掘方法论等诸多内容; 讲解透彻:既有理论的讲解,又涵盖应用的实践,而且在工具的介绍上,尽可能包括每一个选项的内容和应用形式,力求让读者“吃透”每一章节的内容; 突出实战:集行业经验、项目实践、算法剖析、应用技巧于一身,配套提供数据文件以及数据模型文件,方便读者动手实践。
首席数据官知识体系指南 电子书
数字时代的CDO生存手册,国际数据管理协会(DAMA)推荐读物。
精通MATLAB科学计算与数据统计应用 电子书
341个精心设计的MATLAB应用实战案例。 103个精心编写的MATLAB工具箱函数。 4个精心挑选的MATLAB工程性综合案例。 理论知识与应用案例的无缝连接,体现出科学计算在工程实践领域中的完 美应用。 理论翔实,拒绝知识断层,同时又不偏执于理论本身,介绍理论知识以说明实际问题为目的,定量解释与定性描述恰当融合。 实际案例丰富,针对每一个案例不仅给出详尽的实现代码,更揭示出背后的设计思想,注重思维历练,让您知其然,更知其所以然。 内容具有一定深度,这决不是一本会在2个月后就会失去价值的应用程序参考,相反让你每次欣赏时都能得到新的享受。
Java基础案例教程 电子书
传智播客经典图书的延续。本书采用章节 案例的编写方式,除第1章外,其他章节均加入案例讲解,总计20个案例,达到“边做边学”的效果,提供免费教学资源,包括11 个精美教学PPT、1300 道测试题、长达37 小时的教学视频等。
Java编程动手学 电子书
本书共12章,首先介绍Java语言的基本情况;然后介绍如何在Windows、Linux和macOS三种操作系统中安装Java和集成开发环境以及JShell交互式编程;接着讲解Java的一些常见概念和数据类型以及Java的八大类运算符、各种表达式和语句;之后介绍类和对象这两个核心概念,数组与集合的概念和使用,Java常用工具类,以及Java的异常处理、注解以及泛型机制;最后讲解Java的文件与I/O