Python自然语言处理(微课版)

Python自然语言处理(微课版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书以Python、Sklearn、NLTK为基础,教授自然语言处理、文本分类等,实现快速入门。

内容简介

本书的所有程序都在 anaconda进行调试和运行。本教材包括自然语言处理概述、Python语言简介、Python数据类型、Python流程控制、函数、python数据分析、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、指标评价、信息提取和情感分析。本教材区别于众多自然语言处理的教材“重理论轻代码”,往往只是给出伪代码,而本书采用基于Python语言的sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想,较为快速的入门学习。

章节目录

封面页

书名页

版权页

内容简介

前言PREFACE

目录

第1章 自然语言处理概述

1.1 人工智能发展历程

1.1.1 第一阶段:20年黄金时代

1.1.2 第二阶段:第一次寒冬

1.1.3 第三阶段:繁荣期

1.1.4 第四阶段:第二次寒冬

1.1.5 第五阶段:稳健时代

1.2 自然语言处理

1.2.1 概述

1.2.2 发展历程

1.2.3 处理流程

1.2.4 研究内容

1.3 机器学习算法

1.3.1 监督学习

1.3.2 无监督学习

1.4 自然语言处理相关库

1.4.1 NumPy

1.4.2 Matplotlib

1.4.3 Pandas

1.4.4 SciPy

1.4.5 NLTK

1.4.6 SnowNLP

1.4.7 Sklearn

1.5 语料库

1.5.1 认识语料库

1.5.2 分类

1.5.3 构建原则

1.5.4 常用语料库

1.5.5 搜狗新闻语料库

第2章 Python语言简述

2.1 Python简介

2.1.1 Python发展历程

2.1.2 Python的特点

2.1.3 Python应用场合

2.2 Python解释器

2.2.1 Ubuntu下安装Python

2.2.2 Windows下安装Python

2.3 Python编辑器

2.3.1 IDLE

2.3.2 VS Code

2.3.3 PyCharm

2.3.4 Anaconda

2.3.5 Jupyter

2.4 代码书写规则

2.4.1 缩进

2.4.2 多行语句

2.4.3 注释

2.4.4 编码习惯

2.5 自学网站

2.5.1 菜鸟网站

2.5.2 廖雪峰学Python网站

2.5.3 Python官方网站

2.5.4 Python-100天从新手到大师网站

第3章 Python数据类型

3.1 变量

3.1.1 变量命名

3.1.2 变量引用

3.2 运算符

3.2.1 算术运算符

3.2.2 关系运算符

3.2.3 赋值运算符

3.2.4 逻辑运算符

3.2.5 位运算符

3.2.6 成员运算符

3.2.7 身份运算符

3.3 表达式

3.3.1 概念

3.3.2 操作

3.4 数据类型

3.5 数字

3.5.1 概念

3.5.2 操作

3.6 字符串

3.6.1 概念

3.6.2 操作

3.7 列表

3.7.1 概念

3.7.2 操作

3.8 元组

3.8.1 概念

3.8.2 操作

3.9 字典

3.9.1 字典的概念

3.9.2 字典操作

3.9.3 字典举例

3.10 集合

3.10.1 集合的概念

3.10.2 集合操作

3.10.3 集合举例

3.11 组合数据类型

3.11.1 相互关系

3.11.2 数据类型转换

第4章 Python流程控制

4.1 流程结构

4.2 顺序结构

4.2.1 输入输出

4.2.2 举例

4.3 选择结构

4.3.1 单分支

4.3.2 双分支

4.3.3 多分支

4.3.4 分支嵌套

4.4 循环概述

4.4.1 循环结构

4.4.2 循环分类

4.5 while语句

4.5.1 基本形式

4.5.2 else语句

4.5.3 无限循环

4.6 for语句

4.6.1 应用序列类型

4.6.2 内置函数range()

4.7 循环嵌套

4.7.1 原理

4.7.2 实现

4.8 辅助语句

4.8.1 break语句

4.8.2 continue语句

4.8.3 pass语句

第5章 Python函数

5.1 函数声明与调用

5.1.1 函数声明

5.1.2 函数调用

5.1.3 函数返回值

5.2 参数传递

5.2.1 实参与形参

5.2.2 传对象引用

5.3 参数分类

5.3.1 必备参数

5.3.2 默认参数

5.3.3 关键参数

5.3.4 不定长参数

5.4 两类特殊函数

5.4.1 匿名函数

5.4.2 递归函数

第6章 Python数据科学

6.1 科学计算

6.2 NumPy

6.2.1 认识NumPy

6.2.2 创建数组

6.2.3 查看数组

6.2.4 索引和切片

6.2.5 矩阵运算

6.3 Matplotlib

6.3.1 认识Matplotlib

6.3.2 线形图

6.3.3 散点图

6.3.4 饼状图

6.3.5 直方图

6.4 Pandas

6.4.1 认识Pandas

6.4.2 Series

6.4.3 DataFrame

6.4.4 Index

6.4.5 Plot

6.5 SciPy

6.5.1 认识SciPy

6.5.2 稀疏矩阵

6.5.3 线性代数

6.6 Seaborn

6.6.1 认识Seaborn

6.6.2 图表分类

第7章 Sklearn和NLTK

7.1 Sklearn简介

7.2 安装Sklearn

7.3 数据集

7.3.1 小数据集

7.3.2 大数据集

7.3.3 生成数据集

7.4 机器学习流程

7.4.1 语料清洗

7.4.2 划分数据集

7.4.3 特征工程

7.4.4 机器算法

7.4.5 模型评估

7.5 NLTK简介

7.6 NLTK语料库

7.6.1 inaugural语料库

7.6.2 gutenberg语料库

7.6.3 movie_reviews语料库

7.7 NLTK文本分类

7.7.1 分句分词

7.7.2 停止词

7.7.3 词干提取

7.7.4 词形还原

7.7.5 同义词与反义词

7.7.6 语义相关性

第8章 语料清洗

8.1 认识语料清洗

8.2 清洗策略

8.2.1 一致性检查

8.2.2 格式内容检查

8.2.3 逻辑检查

8.3 缺失值清洗

8.3.1 认识缺失值

8.3.2 Pandas处理

8.3.3 Sklearn处理

8.4 异常值清洗

8.4.1 散点图方法

8.4.2 箱线图方法

8.4.3 3σ法则

8.5 重复值清洗

8.5.1 NumPy处理

8.5.2 Pandas处理

8.6 数据转换

8.6.1 数据值替换

8.6.2 数据值映射

8.6.3 数据值合并

8.6.4 数据值补充

8.7 Missingno库

8.7.1 认识Missingno库

8.7.2 示例

8.8 词云

8.8.1 认识词云

8.8.2 示例

第9章 特征工程

9.1 特征预处理

9.1.1 归一化

9.1.2 标准化

9.1.3 鲁棒化

9.1.4 正则化

9.1.5 示例

9.2 独热编码

9.2.1 认识独热编码

9.2.2 Pandas实现

9.2.3 Sklearn实现

9.2.4 DictVectorizer

9.3 CountVectorizer

9.3.1 认识CountVectorizer

9.3.2 Sklearn调用CountVectorizer

9.4 TF-IDF

9.4.1 认识TF-IDF

9.4.2 计算TF-IDF

9.4.3 Sklearn调用TF-IDF

第10章 中文分词

10.1 概述

10.1.1 简介

10.1.2 特点

10.2 常见中文分词方法

10.2.1 基于规则和词表方法

10.2.2 基于统计方法

10.2.3 基于理解方法

10.3 中文分词困惑

10.4 jieba分词库

10.4.1 认识jieba

10.4.2 三种模式

10.4.3 自定义词典

10.4.4 词性标注

10.4.5 断词位置

10.4.6 关键词抽取

10.4.7 停止词表

10.5 HanLP分词

10.5.1 认识HanLP

10.5.2 pyhanlp

10.5.3 中文分词

10.5.4 依存分析使用

10.5.5 关键词提取

10.5.6 命名实体识别

10.5.7 自定义词典

10.5.8 简体繁体转换

10.5.9 摘要提取

第11章 文本分类

11.1 历史回顾

11.2 文本分类方法

11.2.1 朴素贝叶斯

11.2.2 支持向量机

11.3 贝叶斯定理

11.4 朴素贝叶斯

11.4.1 GaussianNB方法

11.4.2 MultinomialNB方法

11.4.3 BernoulliNB方法

11.5 朴素贝叶斯进行新闻分类

11.6 支持向量机

11.6.1 线性核函数

11.6.2 多项式核函数

11.6.3 高斯核函数

11.7 支持向量机对鸢尾花分类

11.8 垃圾邮件分类

11.8.1 朴素贝叶斯定理实现

11.8.2 Sklearn朴素贝叶斯实现

第12章 文本聚类

12.1 概述

12.1.1 算法原理

12.1.2 流程

12.2 K-Means算法

12.2.1 算法原理

12.2.2 数学理论实现

12.2.3 Python实现

12.3 主成分分析

12.3.1 算法原理

12.3.2 components参数

12.3.3 对鸢尾花数据降维

12.4 K-Means评估指标

12.4.1 调整兰德系数

12.4.2 轮廓系数

12.5 K-Means英文文本聚类

12.5.1 构建DataFrame数据

12.5.2 进行分词和停止词去除

12.5.3 向量化

12.5.4 TF-IDF模型

12.5.5 计算余弦相似度

12.5.6 K-Means聚类

12.6 K-Means中文文本聚类

12.6.1 程序流程

12.6.2 程序文件

12.6.3 执行代码

第13章 评价指标

13.1 Sklearn中的评价指标

13.2 混淆矩阵

13.2.1 认识混淆矩阵

13.2.2 Pandas计算混淆矩阵

13.2.3 Sklearn计算混淆矩阵

13.3 准确率

13.3.1 认识准确率

13.3.2 Sklearn计算准确率

13.4 精确率

13.4.1 认识精确率

13.4.2 Sklearn计算精确率

13.5 召回率

13.5.1 认识召回率

13.5.2 Sklearn计算召回率

13.6 F1 Score

13.6.1 认识F1 Score

13.6.2 Sklearn计算F1 Score

13.7 综合实例

13.7.1 数学计算评价指标

13.7.2 Python计算评价指标

13.8 ROC曲线

13.8.1 认识ROC曲线

13.8.2 Sklearn计算ROC曲线

13.9 AUC面积

13.9.1 认识AUC面积

13.9.2 Sklearn计算AUC面积

13.10 分类评估报告

13.10.1 认识分类评估报告

13.10.2 Sklearn计算分类评估报告

13.11 NLP评价指标

13.11.1 中文分词精确率和召回率

13.11.2 未登录词和登录词召回率

第14章 信息提取

14.1 概述

14.2 相关概念

14.2.1 信息

14.2.2 信息熵

14.2.3 信息熵与霍夫曼编码

14.2.4 互信息

14.3 正则表达式

14.3.1 基本语法

14.3.2 re模块

14.3.3 提取电影信息

14.4 命名实体识别

14.4.1 认识命名实体

14.4.2 常见方法

14.4.3 NLTK命名实体识别

14.4.4 Stanford NLP命名实体识别

14.5 马尔可夫模型

14.5.1 认识马尔可夫

14.5.2 隐马尔可夫模型

第15章 情感分析

15.1 概述

15.1.1 认识情感分析

15.1.2 基于词典方法

15.2 情感倾向分析

15.2.1 情感词

15.2.2 程度词

15.2.3 感叹号

15.2.4 否定词

15.3 textblob

15.3.1 分句分词

15.3.2 词性标注

15.3.3 情感分析

15.3.4 单复数

15.3.5 过去式

15.3.6 拼写校正

15.3.7 词频统计

15.4 SnowNLP

15.4.1 分词

15.4.2 词性标注

15.4.3 断句

15.4.4 情绪判断

15.4.5 拼音

15.4.6 繁转简

15.4.7 关键字抽取

15.4.8 摘要抽取

15.4.9 词频和逆文档词频

15.5 Gensim

15.5.1 认识Gensim

15.5.2 认识LDA

15.5.3 Gensim实现LDA

15.6 小说人物情感分析

15.6.1 流程

15.6.2 代码

15.7 电影影评情感分析

15.7.1 流程

15.7.2 代码

附录A 教学大纲

一、课程简介

二、课程内容及要求

三、教学安排及学时分配

四、考核方式

五、建议教材及参考文献

参考文献

Python自然语言处理(微课版)是2021年由清华大学出版社出版,作者周元哲。

得书感谢您对《Python自然语言处理(微课版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python Web开发技术与应用(Flask版)(微课版) 电子书
本书介绍FlaskWeb框架的基本应用,全书分为7章,包括Flask开发基础、Web前端基础、使用灵活的模板、如何与用户进行交互、使用数据库存储内容、如何使程序易于维护、实例:简易博客系统。本书采用Windows7、Python3.7.4、Chrome及PyCharm完成应用实例的开发。本书内容丰富、知识点完整、结构层次分明,通过大量插图来讲解应用实现过程,有利于读者理解PythonWeb应用开发
自然语言处理迁移学习实战 电子书
一本书带你读懂ChatGPT背后的技术,掌握NLP迁移学习的奥秘。
Excel2016数据处理与分析:微课版 电子书
汇集使用Excel进行数据处理与分析时最常见的问题需求,帮助你灵活有效地使用Excel来处理问题。
Python数据分析与可视化(微课版) 电子书
本书讲解数据分析基础知识,针对数据分析与可视化的初学者介绍相关方法及概念。
自然语言处理与Java语言实现 电子书
本书介绍了自然语言处理的原理与Java编程语言的技术实现,主要包括多种语言的文本处理、分布式算法与代码实现、自然语言处理相关系统构建等内容。