基于NLP的内容理解

基于NLP的内容理解

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本讲述如何用NLP技术进行文本内容理解的著作。

内容简介

本书是作者在NLP和内容理解领域多年经验的总结。全书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,

作者简介

作者李明琦,资深AI技术专家,现就职于BAT,担任高级算法工程师。长期致力于机器学习、深度学习、NLP等技术在实际业务场景中的落地,在内容理解方面有丰富的经验,主导的内容质量项目曾获得项目奖。

章节目录

版权信息

前言

第1章 文本特征表示

1.1 语料与语料预处理

1.1.1 语料和语料库

1.1.2 语料预处理

1.2 文本特征表示方法

1.2.1 离散型特征表示方法

1.2.2 分布型特征表示方法

1.3 词向量的评判标准

1.3.1 内部评估

1.3.2 外在评估

1.4 本章小结

第2章 内容重复理解

2.1 标题重复

2.1.1 标题符号规整化处理

2.1.2 Jieba分词

2.1.3 LAC分词

2.1.4 基于分词及字符串等方式进行重复识别

2.2 段落重复识别实例

2.2.1 段落重复识别

2.2.2 基于N-gram算法进行内容去重

2.2.3 平滑处理技术

2.3 基于相似度计算的文章判重

2.3.1 文本相似度计算任务的分析

2.3.2 距离度量方式

2.3.3 基于SimHash算法进行文本重复检测

2.4 本章小结

第3章 内容通顺度识别及纠正

3.1 数据增强

3.2 基于FastText算法的句子通顺度识别

3.2.1 CBOW模型

3.2.2 FastText算法原理

3.2.3 FastText算法实战

3.3 基于TextCNN算法的分类任务实现

3.3.1 专有名词简介

3.3.2 算法介绍

3.3.3 参数调优经验总结

3.3.4 基于Keras工具实现TextCNN算法

3.4 基于TextRNN算法的分类任务实现

3.4.1 LSTM和BiLSTM

3.4.2 TextCNN和TextRNN识别效果对比

3.5 基于Seq2Seq模型的纠正策略

3.5.1 Seq2Seq模型原理

3.5.2 纠正不通顺句子的方法

3.6 本章小结

第4章 内容质量

4.1 GBDT算法

4.1.1 GBDT算法概述

4.1.2 负梯度拟合

4.1.3 GBDT回归算法

4.1.4 GBDT分类算法

4.2 XGBoost算法

4.2.1 从GBDT到XGBoost

4.2.2 XGBoost损失函数

4.2.3 XGBoost损失函数的优化求解

4.2.4 XGBoost算法流程

4.2.5 XGBoost算法参数及调优

4.3 知识问答质量体系的搭建

4.3.1 知识问答质量体系建立的意义

4.3.2 整体的项目实施方案

4.3.3 知识问答质量体系搭建流程

4.4 本章小结

第5章 标签体系构建

5.1 标签体系

5.1.1 标签体系的重要性

5.1.2 标签体系的分类

5.1.3 构建标签体系

5.2 TF-IDF算法

5.2.1 TF-IDF算法介绍

5.2.2 TF-IDF算法实现

5.3 PageRank算法

5.4 TextRank算法

5.4.1 TextRank算法的使用场景

5.4.2 TextRank算法的优缺点

5.5 本章小结

第6章 文本摘要生成

6.1 文本摘要相关介绍

6.1.1 文本摘要问题定义

6.1.2 文本摘要分类

6.1.3 文本摘要的技术和方法

6.2 基于无监督的抽取式文本摘要

6.2.1 基于经验的文本摘要

6.2.2 基于主题模型的文本摘要

6.2.3 基于图的文本摘要

6.2.4 基于特征评分的文本摘要

6.2.5 基于聚类的文本摘要

6.3 基于有监督的抽取式文本摘要

6.4 基于深度神经网络的生成式文本摘要

6.5 文本摘要常用数据集

6.6 文本摘要评价方法

6.6.1 自动评价方法

6.6.2 人工评价方法

6.7 本章小结

第7章 文本纠错

7.1 错误来源及类型

7.2 文本纠错的3种传统方法

7.2.1 模板匹配

7.2.2 编辑距离匹配

7.2.3 HANSpeller++框架

7.3 文本纠错深度学习方法

7.3.1 英文文本纠错方法

7.3.2 中文文本纠错方法

7.4 工业界解决方法

7.4.1 3阶段级联的纠错方案

7.4.2 符合多种场景的通用纠错方案

7.4.3 保险文本的纠错方案

7.5 文本纠错工具

7.5.1 pycorrector

7.5.2 xmnlp

7.6 本章小结

推荐阅读

基于NLP的内容理解是2023年由机械工业出版社出版,作者李明琦。

得书感谢您对《基于NLP的内容理解》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
内容电商运营:从爆文到爆款 电子书
本书结构清晰、实战性强,既是内容电商运营者的实战宝典,又是传统电商转型人员以及有意愿从事内容电商运营的有志之士的门工具书。
深入理解Zabbix监控系统 电子书
本书深入剖析Zabbix监控系统源码及功能,助力理解核心原理,提供二次开发参考。
基于机器学习的工作流活动推荐 电子书
随着云计算、大数据等的快速发展,越来越多的组织用信息化手段进行流程管理。如何提升流程执行的智能化程度、动态性和柔性,以提高对非标准业务的管理效率,是流程管理面临的一个重要问题。本书基于流程管理系统积累的日志,提出了3种流程管理的工作流活动推荐方法,分别为基于用户类别近邻的活动推荐方法、基于Pearson相关系数的活动推荐方法和基于协同过滤的活动推荐方法,并介绍了一种流程信息的可视化算法,实现了一个
基于Swift语言的iOS App 商业实战教程 电子书
内容提要Swift是苹果公司于2014年推出的一种全新语言,它正在逐步替代Objective-C语言进行iOS应用开发。基于Swift的市场份额越来越大,使用Swift语言开发iOS应用势在必行。本书以OSX10.11为平台,以Xcode7.3.1为开发工具,采用理论加实战的方式,循序渐进地带领大家开发了一个微博项目。该项目基于新浪微博官方提供的API进行开发,可以更好地帮助大家学习和理解项目结构
基于Hadoop与Spark的大数据开发实战 电子书
大数据技术让我们以一种前所未有的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数