ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

大模型技术工程师必读,实现从理论到实践的跨越。

内容简介

本书是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。

本书将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

作者简介

作者程戈,博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。

章节目录

版权信息

前言

第1章 人工智能的新里程碑——ChatGPT

1.1 ChatGPT的发展历程

1.2 ChatGPT的能力

1.3 大语言模型的技术演化

1.3.1 从符号主义到连接主义

1.3.2 Transformer模型

1.3.3 无监督预训练

1.3.4 有监督微调

1.3.5 人类反馈强化学习

1.4 大语言模型的技术栈

1.5 大语言模型带来的影响

1.6 大语言模型复现的壁垒

1.6.1 算力瓶颈

1.6.2 数据瓶颈

1.6.3 工程瓶颈

1.7 大语言模型的局限性

1.8 小结

第2章 深入理解Transformer模型

2.1 Transformer模型简介

2.2 自注意力机制

2.2.1 自注意力机制的计算过程

2.2.2 自注意力机制的本质

2.2.3 自注意力机制的优势与局限性

2.3 多头注意力机制

2.3.1 多头注意力机制的实现

2.3.2 多头注意力机制的作用

2.3.3 多头注意力机制的优化

2.4 前馈神经网络

2.5 残差连接

2.6 层归一化

2.7 位置编码

2.7.1 位置编码的设计与实现

2.7.2 位置编码的变体

2.7.3 位置编码的优势与局限性

2.8 训练与优化

2.8.1 损失函数

2.8.2 优化器

2.8.3 学习率调整策略

2.8.4 正则化

2.8.5 其他训练与优化技巧

2.9 小结

第3章 生成式预训练

3.1 生成式预训练简介

3.2 GPT的模型架构

3.3 生成式预训练过程

3.3.1 生成式预训练的目标

3.3.2 生成式预训练的误差反向传播过程

3.4 有监督微调

3.4.1 有监督微调的原理

3.4.2 有监督微调的特定任务

3.4.3 有监督微调的步骤

3.5 小结

第4章 无监督多任务与零样本学习

4.1 编码器与解码器

4.2 GPT-2的模型架构

4.2.1 层归一化

4.2.2 正交初始化

4.2.3 可逆的分词方法

4.2.4 可学习的相对位置编码

4.3 无监督多任务

4.4 多任务学习与零样本学习的关系

4.5 GPT-2的自回归生成过程

4.5.1 子词单元嵌入

4.5.2 自回归过程

4.6 小结

第5章 稀疏注意力与基于内容的学习

5.1 GPT-3的模型架构

5.2 稀疏注意力模式

5.2.1 Sparse Transformer的特点

5.2.2 局部带状注意力

5.2.3 跨层稀疏连接

5.3 元学习和基于内容的学习

5.3.1 元学习

5.3.2 基于内容的学习

5.4 概念分布的贝叶斯推断

5.4.1 隐式微调

5.4.2 贝叶斯推断

5.5 思维链的推理能力

5.6 小结

第6章 大语言模型的预训练策略

6.1 预训练数据集

6.2 预训练数据的处理

6.3 分布式训练模式

6.3.1 数据并行

6.3.2 模型并行

6.4 分布式训练的技术路线

6.4.1 Pathways

6.4.2 Megatron-LM

6.4.3 ZeRO

6.5 训练策略案例

6.5.1 训练框架

6.5.2 参数稳定性

6.5.3 训练设置的调整

6.5.4 BF16优化

6.5.5 其他因素

6.6 小结

第7章 近端策略优化算法

7.1 传统的策略梯度方法

7.1.1 策略梯度方法的基本原理

7.1.2 重要性采样

7.1.3 优势函数

7.2 Actor-Critic算法

7.2.1 Actor-Critic算法的基本步骤

7.2.2 值函数与策略更新

7.2.3 Actor-Critic算法的问题与挑战

7.3 信任域策略优化算法

7.3.1 TRPO算法的目标

7.3.2 TRPO算法的局限性

7.4 PPO算法的原理

7.5 小结

第8章 人类反馈强化学习

8.1 强化学习在ChatGPT迭代中的作用

8.2 InstructGPT训练数据集

8.2.1 微调数据集的来源

8.2.2 标注标准

8.2.3 数据分析

8.3 人类反馈强化学习的训练阶段

8.3.1 有监督微调阶段

8.3.2 奖励建模阶段

8.3.3 强化学习阶段

8.4 奖励建模算法

8.4.1 算法思想

8.4.2 损失函数

8.5 PPO算法在InstructGPT中的应用

8.6 多轮对话能力

8.7 人类反馈强化学习的必要性

8.8 小结

第9章 大语言模型的低算力领域迁移

9.1 指令自举标注

9.2 人工智能反馈

9.3 低秩自适应

9.3.1 模型训练与部署

9.3.2 秩的选择

9.4 量化:降低部署的算力要求

9.5 SparseGPT剪枝算法

9.6 开源大语言模型的低算力迁移案例

9.6.1 基座模型

9.6.2 自举指令微调的羊驼系列

9.6.3 中文解决方案

9.6.4 医疗领域的迁移实例

9.6.5 司法领域的迁移实例

9.7 小结

第10章 中间件编程

10.1 补齐短板——LangChain恰逢其时

10.2 多模态融合中间件

10.2.1 任务规划

10.2.2 模型选择

10.2.3 任务执行

10.2.4 响应生成

10.3 AutoGPT自主代理与任务规划

10.4 中间件框架的竞品

10.5 小结

第11章 大语言模型的未来之路

11.1 强人工智能之路

11.2 数据资源枯竭

11.3 自回归模型的局限性

11.4 具身智能

11.4.1 具身智能的挑战

11.4.2 PaLM-E

11.4.3 ChatGPT for Robotics

11.5 小结

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程是2023年由机械工业出版社出版,作者程戈。

得书感谢您对《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
分布式架构原理与实践 电子书
本书从软件结构的发展历史入手,描述了分布式架构的特性和存在的问题,并围绕这些问题展开了分析和实践。
投掷运动原理、技术与训练 电子书
本书讲解了铅球、铁饼、标枪和链球这四项田径投掷运动的内容,涵盖从投掷运动的生物力学基础到具体项目的实际训练指导。全书共分为6章,第1章主要介绍了投掷运动的生物力学基础,为投掷运动的训练提供理论依据;第2章探讨了投掷运动中的力量与爆发力发展,针对运动员的力量训练和技术调整,介绍了投掷运动中的力量调节、周期化训练和有效能量传递等方面的内容,覆盖投掷运动的各个阶段;第3章至第6章分别介绍铅球、铁饼、标枪
迁移 电子书
迁移是一种普遍存在的、复杂的社会经济现象,涉及经济、政治、文化和社会等众多维度,将不同维度统一到同一个分析框架中进行分析是一个永恒的挑战。本书采用人文地理学、人类学、社会学和经济学等多学科视角,聚焦于迁移的主要概念、术语、理论和相关议题,展示了如何利用地理和空间概念去批判性地理解迁移和移民。本书主要涉及四个相关问题:一是迁移的起因与影响;二是移民管理的矛盾;三是移民的就业和定居问题;四是移民的公民
企业互联网架构原理与实践 电子书
本书主要讲解互联网架构的设计初衷、原理和模式。全书介绍了互联网架构的演变过程与分层、分割、分片、缓存、并行、异步、隔离、容错、安全、治理等设计模式的应用场景和作用,还介绍了前端应用层、接入层、服务层、服务治理、分布式锁、分布式ID、分布式事务、分布式消息队列、分布式缓存、数据持久化以及DevOps等技术的组成结构、运行原理和应用方案。本书使用的是Java语言相关的技术生态,适合希望掌握互联网架构的
扩散模型从原理到实战 电子书
AIGC的应用领域日益广泛,而在图像生成领域,扩散模型则是AIGC技术的一个重要应用。本书以扩散模型理论知识为切入点,由浅入深地介绍了扩散模型的相关知识,并以大量生动有趣的实战案例帮助读者理解扩散模型的相关细节。全书共8章,详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM反转等重要概念与方法,此外还介绍了StableDiffusion、ControlNet与音频扩散模型等内容。最后,附录