大语言模型:原理、应用与优化

大语言模型:原理、应用与优化

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

掌握大模型核心技术,迈向智能科技的巅峰。

内容简介

本书是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。

首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。

除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。

无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必备指南。

作者简介

作者苏之阳,现任微软资深应用科学家,前小冰研发总监,专注于搜索排序算法和对话系统研发,曾主导了小冰智能评论和小冰框架等项目的架构设计和开发在大语言模型的研发与应用方面具有丰富的经验。在国际学术会议和期刊上发表多篇高质量论文,研究兴趣涵盖自然语言处理、深度学习以及云计算等领域。

章节目录

版权信息

前言

第1章 语言模型简介

1.1 传统语言模型

1.1.1 n-gram语言模型

1.1.2 神经网络语言模型

1.1.3 传统语言模型的应用

1.2 大语言模型

1.2.1 大模型的发展历程

1.2.2 训练大模型的挑战

1.2.3 大模型的应用

1.3 大模型实例

1.3.1 基座模型实例

1.3.2 对齐模型实例

1.4 小结

第2章 大模型网络结构

2.1 Seq2Seq结构

2.2 注意力机制

2.3 Transformer架构

2.3.1 Transformer模型结构

2.3.2 编码器单元

2.3.3 解码器单元

2.3.4 位置编码

2.4 词元化

2.4.1 BPE

2.4.2 字节级BPE

2.4.3 WordPiece

2.4.4 Unigram语言模型

2.4.5 SentencePiece

2.5 解码策略

2.5.1 贪心搜索

2.5.2 集束搜索

2.5.3 Top-k采样

2.5.4 核采样

2.5.5 温度采样

2.6 小结

第3章 大模型学习范式的演进

3.1 预训练与微调的原理和典型模型

3.1.1 预训练与微调

3.1.2 三个典型模型

3.2 多任务学习的原理和典型模型

3.2.1 多任务学习

3.2.2 两个典型模型

3.3 大规模模型的能力

3.3.1 少样本学习

3.3.2 提示学习

3.3.3 上下文学习

3.4 小结

第4章 大模型对齐训练

4.1 对齐

4.1.1 对齐的定义

4.1.2 对齐的衡量指标

4.2 基于人类反馈的强化学习

4.2.1 监督微调的原理

4.2.2 训练奖励模型的原理

4.2.3 强化学习的原理

4.3 基于AI反馈的强化学习

4.4 直接偏好优化

4.5 超级对齐

4.6 小结

第5章 大模型评测与数据集

5.1 大模型评测方法

5.1.1 人工评测

5.1.2 自动评测

5.2 大模型评测指标

5.2.1 准确率、精确率、召回率与F1分数

5.2.2 困惑度

5.2.3 BLEU与ROUGE

5.2.4 pass@k

5.3 大模型能力评测基准

5.3.1 MMLU

5.3.2 GSM8K

5.3.3 C-Eval

5.3.4 HumanEval

5.4 数据集及预处理方法

5.4.1 预训练数据集

5.4.2 指令微调数据集

5.4.3 人工反馈数据集

5.4.4 数据预处理方法

5.5 小结

第6章 分布式训练与内存优化

6.1 大模型扩展法则

6.2 分布式训练策略

6.2.1 数据并行

6.2.2 张量并行

6.2.3 流水线并行

6.2.4 混合并行

6.3 大模型训练中的不稳定现象

6.4 分布式训练集群架构

6.4.1 中心化架构:参数服务器

6.4.2 去中心化架构:集合通信

6.5 内存优化策略

6.5.1 混合精度训练

6.5.2 梯度检查点

6.5.3 梯度累积

6.5.4 FlashAttention

6.6 分布式训练框架

6.7 小结

第7章 大模型的垂直场景适配方案

7.1 从零开始训练新模型

7.2 全量参数微调

7.3 低参数量微调

7.3.1 适配器方法

7.3.2 提示词微调

7.3.3 前缀微调

7.3.4 LoRA

7.4 超低参数量微调的探索

7.5 小结

第8章 知识融合与工具使用

8.1 知识融合

8.1.1 检索增强生成

8.1.2 解码器融合

8.1.3 提示融合

8.2 工具使用

8.2.1 WebGPT

8.2.2 LaMDA

8.2.3 Toolformer

8.3 自主智能体

8.3.1 自主智能体的组件

8.3.2 自主智能体的工作流程

8.4 小结

第9章 大模型的进阶优化

9.1 模型小型化

9.1.1 模型量化

9.1.2 知识蒸馏

9.1.3 参数剪枝

9.2 推理能力及其延伸

9.2.1 思维链

9.2.2 零样本思维链

9.2.3 最少到最多提示

9.2.4 ReAct:推理能力+行动能力

9.3 代码生成

9.3.1 Codex

9.3.2 代码生成的要素

9.4 多模态大模型

9.4.1 BEiT-3

9.4.2 CLIP

9.4.3 Flamingo

9.4.4 MiniGPT-4

9.5 高质量数据的作用与构建

9.5.1 LIMA

9.5.2 教科书级数据

9.6 模型能力“涌现”的原因

9.7 小结

第10章 大模型的局限性与未来发展方向

10.1 大模型的局限性

10.1.1 事实性错误

10.1.2 理解和推理缺陷

10.1.3 知识更新问题

10.1.4 安全性问题

10.1.5 计算资源限制

10.2 大模型的未来发展方向

10.2.1 更强的记忆:从通用到个性化

10.2.2 装上“手脚”:赋予模型使用工具的能力

10.2.3 多模态交互:穿越文本的边界

10.3 小结

大语言模型:原理、应用与优化是2024年由机械工业出版社出版,作者苏之阳。

得书感谢您对《大语言模型:原理、应用与优化》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
ERP原理与应用 电子书
本书是以易飞ERP软件为平台,以一虚拟企业的ERP项目实施与应用过程为主线,对课程内容进行整合、序化,在充分考虑ERP工程师职业能力认证考核内容的基础上,将课程内容序化为认识ERP、ERP供应链管理、ERP生产制造管理、ERP财务管理四个模块。
电机原理与应用 电子书
本书共十四章,主要内容包括变压器的工作原理和基本结构、变压器运行的基本原理、三相变压器及运行、其他变压器、电力变压器的允许运行方式和事故处理、同步发电机的工作原理和基本结构、交流电机的绕组及其电动势和磁动势、同步发电机的运行原理及特性、同步发电机的并列运行、同步发电机的突然短路及运行维护和事故处理、异步电动机的工作原理和基本结构、异步电动机的电力拖动、异步电动机的运行及故障处理、异步电动机的检修。
OptiStruct及HyperStudy优化与工程应用 电子书
《OptiStruct及HyperStudy优化与工程应用》是在2019版HyperWorks软件基础上编写的OptiStruct和HyperStudy优化教程。全书首先深入讲解了拓扑优化、自由尺寸优化、形貌优化、尺寸优化、形状优化、自由形状优化、增材制造优化、复合材料优化,以及等效静态载荷法、热、疲劳及非线性优化等OptiStruct优化技术,然后详细介绍了HyperStudy相关的各种优化技术
空间智能原理与应用 电子书
本书从空间信息处理角度出发,将人工智能领域的理论研究与专业实践相结合,完整介绍人工智能方法及其在空间信息处理中的应用,不仅涵盖人工智能领域的基础概念与基本方法,而且探讨知识图谱、计算智能、新兴机器学习、深度学习等前沿技术,同时介绍人工智能在地理文本大数据、遥感影像、激光点云等空间信息处理中的应用实例,具有较强的代表性和启发性。本书可以作为高等院校空间信息与数字技术、遥感科学与技术等专业高年级本科生
ChatGPT原理与应用开发 电子书
Datawhale的开源大模型实战教程,透彻解读4类常见NLP任务的系统设计。