基于NLP的内容理解

基于NLP的内容理解

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

一本讲述如何用NLP技术进行文本内容理解的著作。

内容简介

本书是作者在NLP和内容理解领域多年经验的总结。全书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,

作者简介

作者李明琦,资深AI技术专家,现就职于BAT,担任高级算法工程师。长期致力于机器学习、深度学习、NLP等技术在实际业务场景中的落地,在内容理解方面有丰富的经验,主导的内容质量项目曾获得项目奖。

章节目录

版权信息

前言

第1章 文本特征表示

1.1 语料与语料预处理

1.1.1 语料和语料库

1.1.2 语料预处理

1.2 文本特征表示方法

1.2.1 离散型特征表示方法

1.2.2 分布型特征表示方法

1.3 词向量的评判标准

1.3.1 内部评估

1.3.2 外在评估

1.4 本章小结

第2章 内容重复理解

2.1 标题重复

2.1.1 标题符号规整化处理

2.1.2 Jieba分词

2.1.3 LAC分词

2.1.4 基于分词及字符串等方式进行重复识别

2.2 段落重复识别实例

2.2.1 段落重复识别

2.2.2 基于N-gram算法进行内容去重

2.2.3 平滑处理技术

2.3 基于相似度计算的文章判重

2.3.1 文本相似度计算任务的分析

2.3.2 距离度量方式

2.3.3 基于SimHash算法进行文本重复检测

2.4 本章小结

第3章 内容通顺度识别及纠正

3.1 数据增强

3.2 基于FastText算法的句子通顺度识别

3.2.1 CBOW模型

3.2.2 FastText算法原理

3.2.3 FastText算法实战

3.3 基于TextCNN算法的分类任务实现

3.3.1 专有名词简介

3.3.2 算法介绍

3.3.3 参数调优经验总结

3.3.4 基于Keras工具实现TextCNN算法

3.4 基于TextRNN算法的分类任务实现

3.4.1 LSTM和BiLSTM

3.4.2 TextCNN和TextRNN识别效果对比

3.5 基于Seq2Seq模型的纠正策略

3.5.1 Seq2Seq模型原理

3.5.2 纠正不通顺句子的方法

3.6 本章小结

第4章 内容质量

4.1 GBDT算法

4.1.1 GBDT算法概述

4.1.2 负梯度拟合

4.1.3 GBDT回归算法

4.1.4 GBDT分类算法

4.2 XGBoost算法

4.2.1 从GBDT到XGBoost

4.2.2 XGBoost损失函数

4.2.3 XGBoost损失函数的优化求解

4.2.4 XGBoost算法流程

4.2.5 XGBoost算法参数及调优

4.3 知识问答质量体系的搭建

4.3.1 知识问答质量体系建立的意义

4.3.2 整体的项目实施方案

4.3.3 知识问答质量体系搭建流程

4.4 本章小结

第5章 标签体系构建

5.1 标签体系

5.1.1 标签体系的重要性

5.1.2 标签体系的分类

5.1.3 构建标签体系

5.2 TF-IDF算法

5.2.1 TF-IDF算法介绍

5.2.2 TF-IDF算法实现

5.3 PageRank算法

5.4 TextRank算法

5.4.1 TextRank算法的使用场景

5.4.2 TextRank算法的优缺点

5.5 本章小结

第6章 文本摘要生成

6.1 文本摘要相关介绍

6.1.1 文本摘要问题定义

6.1.2 文本摘要分类

6.1.3 文本摘要的技术和方法

6.2 基于无监督的抽取式文本摘要

6.2.1 基于经验的文本摘要

6.2.2 基于主题模型的文本摘要

6.2.3 基于图的文本摘要

6.2.4 基于特征评分的文本摘要

6.2.5 基于聚类的文本摘要

6.3 基于有监督的抽取式文本摘要

6.4 基于深度神经网络的生成式文本摘要

6.5 文本摘要常用数据集

6.6 文本摘要评价方法

6.6.1 自动评价方法

6.6.2 人工评价方法

6.7 本章小结

第7章 文本纠错

7.1 错误来源及类型

7.2 文本纠错的3种传统方法

7.2.1 模板匹配

7.2.2 编辑距离匹配

7.2.3 HANSpeller++框架

7.3 文本纠错深度学习方法

7.3.1 英文文本纠错方法

7.3.2 中文文本纠错方法

7.4 工业界解决方法

7.4.1 3阶段级联的纠错方案

7.4.2 符合多种场景的通用纠错方案

7.4.3 保险文本的纠错方案

7.5 文本纠错工具

7.5.1 pycorrector

7.5.2 xmnlp

7.6 本章小结

推荐阅读

基于NLP的内容理解是2023年由机械工业出版社出版,作者李明琦。

得书感谢您对《基于NLP的内容理解》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
深入理解Zabbix监控系统 电子书
本书深入剖析Zabbix监控系统源码及功能,助力理解核心原理,提供二次开发参考。
基于Kotlin的Android应用程序开发 电子书
书籍的核心内容被化分成10个章节,所涉及技术点包含:Kotlin语言、Android界面技术、多线程技术、数据持久化和系统服务等,相关内容的讨论和结果可为基本的Android应用程序开发提供技术指导和支持。本书以案例驱动方式介绍相关程序的实现方法和过程,本书还通过示例程序版本迭代的方式,逐渐升入讨论核心技术和实现方法。
私域流量实战:IP、流量池与内容中台 电子书
本书从私域流量的战略意义、技术底层、流量导入、内容中台,以及用户运营等不同角度,解构私域流量对企业数字化转型的价值和影响。全书大部分采取案例导入的方式进行讨论,旨在让读者更清楚地了解不同私域流量背后的运营体系设计和实操方法。
基于Swift语言的iOS App 商业实战教程 电子书
内容提要Swift是苹果公司于2014年推出的一种全新语言,它正在逐步替代Objective-C语言进行iOS应用开发。基于Swift的市场份额越来越大,使用Swift语言开发iOS应用势在必行。本书以OSX10.11为平台,以Xcode7.3.1为开发工具,采用理论加实战的方式,循序渐进地带领大家开发了一个微博项目。该项目基于新浪微博官方提供的API进行开发,可以更好地帮助大家学习和理解项目结构
基于Hadoop与Spark的大数据开发实战 电子书
大数据技术让我们以一种前所未有的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数