NLTK基础教程:用NLTK和Python库构建机器学习应用

NLTK基础教程:用NLTK和Python库构建机器学习应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书适合NLP和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。

内容简介

NLTK库是当前自然语言处理(NLP)领域最为流行、使用最为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。

本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。

作者简介

作者Nitin Hardeniya,数据科学家,拥有4年以上从业经验,期间分别任职于Fidelity、Groupon和[24]7等公司,其业务横跨各个不同的领域。此外,他还拥有IIIT-H的计算语言学硕士学位,并且是5项客户体验专利的作者。

章节目录

版权信息

内容提要

作者简介

审阅者简介

译者序

前言

第1章 自然语言处理简介

1.1 为什么要学习NLP

1.2 先从Python开始吧

1.2.1 列表

1.2.2 自助功能

1.2.3 正则表达式

1.2.4 字典

1.2.5 编写函数

1.3 向NLTK迈进

1.4 练习

1.5 小结

第2章 文本的歧义及其清理

2.1 何谓文本歧义

2.2 文本清理

2.3 语句分离器

2.4 标识化处理

2.5 词干提取

2.6 词形还原

2.7 停用词移除

2.8 罕见词移除

2.9 拼写纠错

2.10 练习

2.11 小结

第3章 词性标注

3.1 何谓词性标注

3.1.1 Stanford标注器

3.1.2 深入了解标注器

3.1.3 顺序性标注器

3.1.4 Brill标注器

3.1.5 基于机器学习的标注器

3.2 命名实体识别(NER)

NER标注器

3.3 练习

3.4 小结

第4章 文本结构解析

4.1 浅解析与深解析

4.2 两种解析方法

4.3 为什么需要进行解析

4.4 不同的解析器类型

4.4.1 递归下降解析器

4.4.2 移位-归约解析器

4.4.3 图表解析器

4.4.4 正则表达式解析器

4.5 依存性文本解析

4.6 语块分解

4.7 信息提取

4.7.1 命名实体识别(NER)

4.7.2 关系提取

4.8 小结

第5章 NLP应用

5.1 构建第一个NLP应用

5.2 其他NLP应用

5.2.1 机器翻译

5.2.2 统计型机器翻译

5.2.3 信息检索

5.2.4 语音识别

5.2.5 文本分类

5.2.6 信息提取

5.2.7 问答系统

5.2.8 对话系统

5.2.9 词义消歧

5.2.10 主题建模

5.2.11 语言检测

5.2.12 光符识别

5.3 小结

第6章 文本分类

6.1 机器学习

6.2 文本分类

6.3 取样操作

6.3.1 朴素贝叶斯法

6.3.2 决策树

6.3.3 随机梯度下降法

6.3.4 逻辑回归

6.3.5 支持向量机

6.4 随机森林算法

6.5 文本聚类

K均值法

6.6 文本中的主题建模

安装gensim

6.7 参考资料

6.8 小结

第7章 Web爬虫

7.1 Web爬虫

7.2 编写第一个爬虫程序

7.3 Scrapy库中的数据流

7.3.1 Scrapy库的shell

7.3.2 目标项

7.4 生成网站地图的蜘蛛程序

7.5 目标项管道

7.6 参考资料

7.7 小结

第8章 NLTK与其他Python库的搭配运用

8.1 NumPy

8.1.1 多维数组

8.1.2 基本运算

8.1.3 从数组中提取数据

8.1.4 复杂矩阵运算

8.2 SciPy

8.2.1 线性代数

8.2.2 特征值与特征向量

8.2.3 稀疏矩阵

8.2.4 优化措施

8.3 pandas

8.3.1 读取数据

8.3.2 数列

8.3.3 列转换

8.3.4 噪声数据

8.4 matplotlib

8.4.1 子图绘制

8.4.2 添加坐标轴

8.4.3 散点图绘制

8.4.4 条形图绘制

8.4.5 3D绘图

8.5 参考资料

8.6 小结

第9章 Python中的社交媒体挖掘

9.1 数据收集

Twitter

9.2 数据提取

热门话题

9.3 地理可视化

9.3.1 影响力检测

9.3.2 Facebook

9.3.3 有影响力的朋友

9.4 小结

第10章 大规模文本挖掘

10.1 在Hadoop上使用Python的不同方式

10.1.1 Python的流操作

10.1.2 Hive/Pig下的UDF

10.1.3 流封装器

10.2 Hadoop上的NLTK

10.2.1 用户定义函数(UDF)

10.2.2 Python的流操作

10.3 Hadoop上的Scikit-learn

10.4 PySpark

10.5 小结

NLTK基础教程:用NLTK和Python库构建机器学习应用是2017年由人民邮电出版社出版,作者[印度]Nitin Hardeniya。

得书感谢您对《NLTK基础教程:用NLTK和Python库构建机器学习应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
机器学习与Python实践 电子书
机器学习理论实践全书,12章内容丰富,适合各层次读者。
Python机器学习编程与实战 电子书
本书共8章,内容包括Python概述、NumPy数值计算、pandas基础、pandas进阶、Matplotlib绘图、scikit-learn、餐饮企业综合分析与预测、通信运营商客户流失分析与预测。前6章设置了选择题、填空题和操作题,后两章设置了操作题,希望通过练习和操作实践,读者可以巩固所学的内容。
Python机器学习入门与实战 电子书
本书以零基础讲解为特色,用实例引导读者学习,深入浅出地介绍Python机器学习的相关知识和实战技能。
用Python实现深度学习框架 电子书
本书分为三个部分。第一部分是原理篇,实现了MatrixSlow框架的核心基础设施,并基于此讲解了机器学习与深度学习的概念和原理。第二部分是模型篇,介绍了多种具有代表性的模型,包括逻辑回归、多层全连接神经网络、因子分解机、Wide&Deep、DeepFM、循环神经网络以及卷积神经网络,这部分除了着重介绍这些模型的原理、结构以及它们之间的联系外,还用MatrixSlow框架搭建并训练它们以解决实际问题
机器学习从原理到应用 电子书
本书共11章,主要介绍机器学习的基本概念和两大类常用的机器学习模型,即监督学习模型和非监督学习模型。