Java自然语言处理(原书第2版)

Java自然语言处理(原书第2版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书融合作者多年从业和教学经验,全面阐述使用Java从非结构化数据中组织和提取有用文本的各种实用方法。

内容简介

本书将教会读者如何在Java库的帮助下执行语言分析,同时不断地从结果中获得见解。

首先介绍NLP及其各种概念,然后探索Java中用于NLP的重要工具和库,如CoreNLP、OpenNLP、Neuroph、Mallet等。

之后,读者将开始对不同的输入和任务执行NLP,例如分词、模型训练、词性标注、解析树等。读者会学习到统计机器翻译、提取摘要、对话系统、复杂搜索、有监督和无监督的NLP等内容。

在本书的最后,读者也会学习到更多关于NLP、神经网络和Java中用于增强NLP应用程序性能的其他各种训练模型。

作者简介

章节目录

版权信息

译者序

前言

作者简介

审校者简介

第1章 NLP概论

1.1 NLP是什么

1.2 为什么使用NLP

1.3 为什么NLP这么难

1.4 NLP工具汇总

1.4.1 Apache OpenNLP

1.4.2 Stanford NLP

1.4.3 LingPipe

1.4.4 GATE

1.4.5 UIMA

1.4.6 Apache Lucene Core

1.5 Java深度学习

1.6 文本处理任务概述

1.6.1 查找文本的各部分

1.6.2 文本断句

1.6.3 特征工程

1.6.4 查找人物和事件

1.6.5 词性判断

1.6.6 对文本和文档进行分类

1.6.7 关系提取

1.6.8 使用组合方法

1.7 理解NLP方法

1.7.1 识别任务

1.7.2 选择模型

1.7.3 建立并训练模型

1.7.4 验证模型

1.7.5 运用模型

1.8 准备数据

1.9 总结

第2章 查找文本的各部分

2.1 理解文章的各个部分

2.2 分词是什么

2.3 简单的Java分词器

2.3.1 使用Scanner类

2.3.2 使用split方法

2.3.3 使用BreakIterator类

2.3.4 使用StreamTokenizer类

2.3.5 使用StringTokenizer类

2.3.6 Java核心分词的性能考虑

2.4 NLP分词器API

2.4.1 使用OpenNLPTokenizer类

2.4.2 使用Stanford分词器

2.4.3 训练分词器找出文本的各部分

2.4.4 分词器比较

2.5 了解规范化

2.5.1 转换成小写

2.5.2 删除停用词

2.5.3 使用词干分析

2.5.4 使用词元化

2.5.5 使用管道进行标准化处理

2.6 总结

第3章 文本断句

3.1 SBD方法

3.2 SBD难在何处

3.3 理解LingPipe的HeuristicSentenceModel类的SBD规则

3.4 简单的Java SBD

3.4.1 使用正则表达式

3.4.2 使用BreakIterator类

3.5 使用NLP API

3.5.1 使用OpenNLP

3.5.2 使用Stanford API

3.5.3 使用LingPipe

3.6 训练文本断句模型

3.6.1 使用训练好的模型

3.6.2 使用SentenceDetectorEvaluator类评估模型

3.7 总结

第4章 人物识别

4.1 NER难在何处

4.2 NER方法

4.2.1 列表和正则表达式

4.2.2 统计分类器

4.3 使用正则表达式进行NER

4.3.1 使用Java的正则表达式来寻找实体

4.3.2 使用LingPipe的RegExChunker类

4.4 使用NLP API

4.4.1 使用OpenNLP进行NER

4.4.2 使用Stanford API进行NER

4.4.3 使用LingPipe进行NER

4.5 使用NER注释工具构建新数据集

4.6 训练模型

4.7 总结

第5章 词性判断

5.1 词性标注

5.1.1 词性标注器的重要性

5.1.2 词性标注难在何处

5.2 使用NLP API

5.2.1 使用OpenNLP POS标注器

5.2.2 使用 Stanford POS标注器

5.2.3 使用LingPipe POS标注器

5.2.4 训练OpenNLP POSModel

5.3 总结

第6章 用特征表示文本

6.1 n-gram

6.2 词嵌入

6.3 GloVe

6.4 word2vec

6.5 降维

6.6 主成分分析

6.7 t-SNE

6.8 总结

第7章 信息检索

7.1 布尔检索

7.2 字典和容错性检索

7.2.1 通配符查询

7.2.2 拼写校正

7.2.3 Soundex

7.3 向量空间模型

7.4 计分和术语加权

7.5 逆文档频率

7.6 TF-IDF加权

7.7 信息检索系统的评估

7.8 总结

第8章 对文本和文档进行分类

8.1 如何使用分类

8.2 理解情感分析

8.3 文本分类技术

8.4 使用API对文本进行分类

8.4.1 使用OpenNLP

8.4.2 使用Stanford API

8.4.3 使用LingPipe对文本进行分类

8.5 总结

第9章 主题建模

9.1 什么是主题建模

9.2 LDA的基础

9.3 使用MALLET进行主题建模

9.3.1 训练

9.3.2 评价

9.4 总结

第10章 使用解析器提取关系

10.1 关系类型

10.2 理解解析树

10.3 使用提取的关系

10.4 提取关系

10.5 使用NLP API

10.5.1 使用OpenNLP

10.5.2 使用Stanford API

10.5.3 查找共指消解实体

10.6 为问答系统提取关系

10.6.1 查找单词依赖关系

10.6.2 确定问题类型

10.6.3 寻找答案

10.7 总结

第11章 组合管道

11.1 准备数据

11.1.1 使用Boilerpipe从HTML抽取文本

11.1.2 使用POI从Word文档中抽取文本

11.1.3 使用PDFBox从PDF文档抽取文本

11.1.4 使用Apache Tika进行内容分析和抽取

11.2 管道

11.2.1 使用Stanford管道

11.2.2 在Stanford管道中使用多核处理器

11.3 创建用于搜索文本的管道

11.4 总结

第12章 创建一个聊天机器人

12.1 聊天机器人架构

12.2 人工语言网络计算机实体

12.2.1 了解AIML

12.2.2 使用ALICE和AIML开发聊天机器人

12.3 总结

Java自然语言处理(原书第2版)是2020年由机械工业出版社华章分社出版,作者[美] 理查德·M. 里斯。

得书感谢您对《Java自然语言处理(原书第2版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Java EE核心框架实战(第2版) 电子书
本书宗旨 提高读者学习Java EE的效率,增强其项目实战能力。本书摒弃了软件公司中不常用或不实用的技术,而是采用近200个开发案例,为读者讲解了开发商业软件的知识,帮助读者进行“精要”式的学习,汲取Java EE的思想,正确地进行项目实战。 本书特色 不留遗漏——覆盖主流Java EE轻量级框架 直击要害——实战化案例精准定位开发细节 学以致用——精要式项目确保开发/ 学习不脱节 潜移默化——研磨式知识讲解参透技术要点 提升效率——垂直式技术精解不绕弯路 循序提升——渐进式知识点统排确保连贯 以点概面——解决方案式项目,知识独立却又体系完整 成功案例——全面经过项目过程锤炼,提升学习/ 开发效率
Java从入门到精通(第4版) 电子书
本书以零基础讲解为宗旨,用实例引导读者学习,深入浅出地介绍了Java的相关知识和实战技巧。
Java开发从入门到精通(第2版) 电子书
Java10全面解析:技术解惑与实例演练
Java面向对象程序设计(第3版) 电子书
本书内容主要包括Java概述、Java语言基础、Java输入/输出、程序流程控制结构和方法、数组、Java类和对象、类的继承和接口、包和异常、面向对象程序设计的基本原则及设计模式初步、图形处理、图形用户界面、多线程等。
Java设计模式及应用案例(第2版) 电子书
本书共23章。内容涵盖了模式设计的六大法则:单一职责原则、里氏代换原则、开放封闭原则、依赖倒转原则、合成/聚合复用原则、迪米特法则。介绍了Java反射技术在模式中的重要作用。介绍了23种常用模式:接口与抽象类模式,工厂方法模式、抽象工厂模式、构造者模式、桥接模式、装饰模式、代理模式、状态模式、观察者模式、中介者模式等,以及这些模式的综合运用。