自然语言处理与计算语言学

自然语言处理与计算语言学

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

Python开源社区资深供稿人撰写的文本分析实用指南。

内容简介

本书作为一本借助于Python编程语言以及各种开源工具(如Gensim、spaCy等)来执行文本分析、自然语言处理和计算语言学算法的图书,从应用层面介绍了相关的理论知识和所涉及的技术。

本书共分为15章,其内容涵盖了文本分析的定义、使用Python进行文本分析的技巧,spaCy语言模型、Gensim工具、词性标注及其应用、NER标记及其应用、依存分析、主题模型、高级主题建模、文本聚类和文本分类、查询词相似度计算和文本摘要、词嵌入、使用深度学习处理文本、使用Keras和spaCy进行深度学习、情感分析与聊天机器人的原理介绍等。

本书适合对自然语言处理的实现细节感兴趣的Python程序开发人员阅读。如果读者具备统计学的基本知识,对学习本书内容会大有裨益。

作者简介

作者巴格夫·斯里尼瓦萨-德西坎,就职于法国INRIA公司(位于里尔)的一名研究人员。作为MODAL(数据分析与机器建模)小组的一员,致力于度量学习、预测聚合和数据可视化等研究领域。同时,他也是Python开源社区的一名活跃贡献者,在2016年度Google的夏季编程赛上,他通过Gensim实现了动态主题模型。Bhargav是欧洲和亚洲PyCons和PyDatas的常客,并使用Python进行文本分析教学。他也是Python机器学习软件包pycobra的维护者,还在Machine Learning Research杂志上发表过相关文章。

章节目录

版权信息

内容提要

关于作者

关于审稿人

前言

本书的目标读者

本书主要内容

资源与支持

第1章 什么是文本分析

1.1 什么是文本分析

1.2 搜集数据

1.3 若输入错误数据,则输出亦为错误数据(garbage in,garbage out)

1.4 为什么你需要文本分析

1.5 总结

第2章 Python文本分析技巧

2.1 为什么用Python来做文本分析

2.2 用Python进行文本操作

2.3 总结

第3章 spaCy语言模型

3.1 spaCy库

3.2 spaCy的安装步骤

3.3 故障排除

3.4 语言模型

3.5 安装语言模型

3.6 安装语言模型的方式及原因

3.7 语言模型的基本预处理操作

3.8 分词

3.9 词性标注

3.10 命名实体识别

3.11 规则匹配

3.12 预处理

3.13 总结

第4章 Gensim:文本向量化、向量变换和n-grams的工具

4.1 Gensim库介绍

4.2 向量以及为什么需要向量化

4.3 词袋(bag-of-words)

4.4 TF-IDF(词频-反向文档频率)

4.5 其他表示方式

4.6 Gensim中的向量变换

4.7 n-grams及其预处理技术

4.8 总结

第5章 词性标注及其应用

5.1 什么是词性标注

5.2 使用Python实现词性标注

5.3 使用spaCy进行词性标注

5.4 从头开始训练一个词性标注模型

5.5 词性标注的代码示例

5.6 总结

第6章 NER标注及其应用

6.1 什么是NER标注

6.2 用Python实现NER标注

6.3 使用spaCy实现NER标注

6.4 从头开始训练一个NER标注器

6.5 NER标注应用实例和可视化

6.6 总结

第7章 依存分析

7.1 依存分析

7.2 用Python实现依存分析

7.3 用spaCy实现依存分析

7.4 从头开始训练一个依存分析器

7.5 总结

第8章 主题模型

8.1 什么是主题模型

8.2 使用Gensim构建主题模型

8.3 隐狄利克雷分配(Latent Dirichlet Allocation)

8.4 潜在语义索引(Latent Semantic Indexing)

8.5 分层狄利特雷过程(Hierarchical Dirichlet Process)

8.6 动态主题模型

8.7 使用scikit-learn构建主题模型

8.8 总结

第9章 高级主题建模

9.1 高级训练技巧

9.2 探索文档

9.3 主题一致性和主题模型的评估

9.4 主题模型的可视化

9.5 总结

第10章 文本聚类和文本分类

10.1 文本聚类

10.2 聚类前的准备工作

10.3 K-means

10.4 层次聚类

10.5 文本分类

10.6 总结

第11章 查询词相似度计算和文本摘要

11.1 文本距离的度量

11.2 查询词相似度计算

11.3 文本摘要

11.4 总结

第12章 Word2Vec、Doc2Vec和Gensim

12.1 Word2Vec

12.2 用Gensim实现Word2Vec

12.3 Doc2Vec

12.4 其他词嵌入技术

12.5 总结

第13章 使用深度学习处理文本

13.1 深度学习

13.2 深度学习在文本上的应用

13.3 文本生成

13.4 总结

第14章 使用Keras和spaCy进行深度学习

14.1 Keras和spaCy

14.2 使用Keras进行文本分类

14.3 使用spaCy进行文本分类

14.4 总结

第15章 情感分析与聊天机器人

15.1 情感分析

15.2 基于Reddit的新闻数据挖掘

15.3 基于Twitter的微博数据挖掘

15.4 聊天机器人

15.5 总结

自然语言处理与计算语言学是2020年由人民邮电出版社出版,作者。

得书感谢您对《自然语言处理与计算语言学》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
计算思维与算法设计基础 电子书
本书内容共8章,按照问题求解所需,涵盖了C语言的3个基本结构、函数、数组、指针、结构体和文件等知识。
计算思维与智能计算基础(微课版) 电子书
全书以计算思维为导向,凝练了计算机科学与技术中相关的基本理论、基本方法和新一代智能计算技术的基本概念及应用。全书内容分为10章,介绍了计算、计算机与计算思维的基础知识,计算机的计算基础,计算机系统,计算机网络与信息安全,算法设计基础,Python语言程序设计,以及数据库与大数据、云计算、人工智能和物联网等智能计算技术。
计算思维与算法设计基础实验教程 电子书
本书内容包括两部分,第一部分为8章实验,共22个实践活动;第二部分为与教材配套的习题解答。
血管外科手术并发症预防与处理 电子书
血管外科是跨学科的新颖医学科学,早在六十年代就引起我国学者的注意和重视,八十年代末期开始在我国迅速发展。