数据科学技术:文本分析和知识图谱

数据科学技术:文本分析和知识图谱

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

详细介绍文本分析和知识图谱方面的技术。

内容简介

数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。

本书将理论介绍和实践相结合,详细阐述各个技术主题的实现路线,并对应用于业界算法大赛中的技术方案和技巧进行源代码解读,帮助读者深入理解技术原理。最后,本书还介绍了文本分析和知识图谱技术在政务、公共安全、应急等多个行业中的智能应用实践案例。

作者简介

作者苏海波,清华大学电子工程系博士,副研究员,在文本分析、知识图谱、大模型等人工智能方向拥有超过十年的研发实践经验。多篇SCI和EI论文发表于国外顶尖学术会议和期刊,获得国家发明专利20余项,曾担任科技部重点研发计划子课题负责人。获得2019年和2020年北京市科学技术进步奖,带领团队获得多个业界知名算法技术评测的冠军和亚军。

章节目录

版权信息

内容简介

作者简介

前言

第1章 什么是数据科学

1.1 数据科学的定义

1.1.1 数据科学的背景

1.1.2 数据科学的定义

1.2 数据科学的关键技术

1.2.1 数据存储计算

1.2.2 数据治理

1.2.3 结构化数据分析

1.2.4 语音分析

1.2.5 视觉分析

1.2.6 文本分析

1.2.7 知识图谱

1.3 本章小结

1.4 习题

1.5 本章参考文献

第2章 文本预训练模型

2.1 文本分析技术的发展史

2.2 Transformer模型结构

2.3 预训练模型的结构和变种

2.4 加速处理器GPU和TPU

2.4.1 GPU的介绍

2.4.2 GPU产品命名

2.4.3 TPU和GPU的区别

2.4.4 TPU的使用总结

2.5 预训练模型的常见问题

2.5.1 模型输入的常见问题

2.5.2 模型原理的常见问题

2.5.3 模型进化的常见问题

2.6 预训练模型的源码解读

2.6.1 模型架构

2.6.2 BertModel

2.6.3 BERT预训练任务

2.6.4 BERT微调

2.7 本章小结

2.8 习题

2.9 本章参考文献

第3章 多语种文本分析

3.1 多语种文本分析背景介绍

3.2 多语种文本分析技术

3.2.1 Polyglot技术

3.2.2 Multilingual BERT

3.2.3 XLM多语言模型

3.2.4 XLMR多语言模型

3.2.5 模型实验效果

3.3 多语种文本分析源码解读

3.4 本章小结

3.5 习题

3.6 本章参考文献

第4章 文本情感分析

4.1 情感分析背景介绍

4.2 情感分析技术

4.2.1 目标和挑战

4.2.2 技术发展历程

4.2.3 情感分析的需求分析

4.2.4 情感分析的落地实践

4.2.5 模型开发平台的构建

4.3 情感分析比赛和方案

4.3.1 背景介绍

4.3.2 方案介绍

4.3.3 数据清洗和增广

4.3.4 多模态融合

4.3.5 机器学习技巧

4.4 情感分析源码解读

4.4.1 F1值适应优化技巧代码

4.4.2 对抗训练代码

4.5 本章小结

4.6 习题

4.7 本章参考文献

第5章 文本机器翻译

5.1 机器翻译背景介绍

5.2 机器翻译技术

5.2.1 基于规则的机器翻译

5.2.2 统计机器翻译

5.2.3 神经网络机器翻译

5.2.4 Encoder-Decoder模型

5.2.5 注意力机制模型

5.2.6 工业级神经网络实践

5.3 机器翻译比赛和方案

5.3.1 WMT21翻译任务

5.3.2 WMT22翻译任务

5.4 机器翻译源码解读

5.4.1 通用框架介绍

5.4.2 翻译模型实现

5.5 本章小结

5.6 习题

5.7 本章参考文献

第6章 文本智能纠错

6.1 文本纠错背景介绍

6.2 文本智能纠错技术

6.2.1 智能纠错的意义和难点

6.2.2 智能纠错解决的问题

6.2.3 业界主流解决方案

6.2.4 技术方案实践

6.3 文本智能纠错技术

6.3.1 比赛介绍

6.3.2 校对问题思考

6.4 纠错方案和源码解读

6.4.1 GECToR原理解读

6.4.2 MacBERT原理解读

6.4.3 PERT原理解读

6.4.4 PLOME原理解读

6.4.5 比赛方案

6.5 本章小结

6.6 习题

6.7 本章参考文献

第7章 知识图谱构建

7.1 知识图谱背景介绍

7.1.1 知识和知识图谱

7.1.2 知识获取、知识抽取与信息抽取的区别

7.1.3 知识图谱构建范式

7.2 非结构化信息抽取技术

7.2.1 信息抽取框架

7.2.2 命名实体识别

7.2.3 关系识别

7.2.4 事件抽取

7.3 生成式统一模型抽取技术

7.4 模型源码解读

7.5 本章小结

7.6 习题

7.7 本章参考文献

第8章 知识图谱问答

8.1 背景介绍

8.2 知识图谱问答技术

8.2.1 信息检索方法

8.2.2 语义解析方法

8.3 方案和源码解读

8.3.1 NL2SPARQL

8.3.2 NL2SPARQL语义解析方案

8.3.3 T5、BART、UniLM模型简介

8.3.4 T5、BART、UniLM方案

8.3.5 训练T5、BART、UniLM生成模型

8.3.6 语义排序方案和代码

8.3.7 SPARQL修正代码

8.4 本章小结

8.5 习题

第9章 结构化知识NL2SQL问答

9.1 NL2SQL背景介绍

9.2 NL2SQL技术

9.2.1 NL2SQL技术路线

9.2.2 NL2SQL项目实践

9.3 NL2SQL比赛和方案

9.4 NL2SQL源码解读

9.5 本章小结

9.6 习题

9.7 本章参考文献

第10章 ChatGPT大语言模型

10.1 ChatGPT介绍

10.1.1 ChatGPT的定义和背景

10.1.2 ChatGPT的发展历程

10.2 GPT模型概述

10.2.1 GPT-1模型的原理

10.2.2 GPT-2模型的原理

10.2.3 GPT-3模型的原理

10.3 ChatGPT的实现原理

10.3.1 大模型的微调技术

10.3.2 ChatGPT的能力来源

10.3.3 ChatGPT的预训练和微调

10.4 ChatGPT的应用

10.4.1 ChatGPT提示工程

10.4.2 ChatGPT应用场景

10.4.3 ChatGPT的优缺点

10.5 开源大模型

10.5.1 ChatGLM大模型

10.5.2 LLaMA大模型

10.6 本章小结

10.7 习题

10.8 本章参考文献

第11章 行业实践案例

11.1 智慧政务实践案例

11.1.1 案例背景

11.1.2 解决方案

11.1.3 系统架构和实现

11.1.4 案例总结

11.2 公共安全实践案例

11.2.1 案例背景

11.2.2 解决方案

11.2.3 系统架构及实现

11.2.4 案例总结

11.3 智能应急实践案例

11.3.1 案例背景

11.3.2 解决方案

11.3.3 系统架构及实现

11.3.4 案例总结

11.4 本章小结

11.5 习题

数据科学技术:文本分析和知识图谱是2024年由清华大学出版社出版,作者苏海波。

得书感谢您对《数据科学技术:文本分析和知识图谱》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据分析与挖掘 电子书
数据科学与大数据技术专业系列规划教材。强调概念+算法实践,让你“小数据”上会“算”,“大数据”上“算得快”。
Elasticsearch数据搜索与分析实战 电子书
深入描述了Elasticsearch的各种运行机制。
pandas数据处理与分析 电子书
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。
Python医学数据分析入门 电子书
数据分析是当今大数据时代最关键的技术,其广泛应用于包括医学在内的各个领域。
PowerBI商务智能数据分析 电子书
一本教你用Microsoft Power BI分析处理经营业务数据的教程。