大语言模型:基础与前沿

大语言模型:基础与前沿

立即阅读
手机扫码
  • 微信扫一扫

    关注微信公众号

编辑推荐

一本书读懂大语言模型的前世今生。

内容简介

本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。

首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。

作者简介

作者熊涛,美国明尼苏达大学双城分校电子与计算机工程博士。曾在多家中美知名高科技公司担任高级管理职位和首席科学家,在人工智能的多个领域。

章节目录

版权信息

内容提要

资源与支持

前言

第1章 大语言模型:辩论、争议与未来发展方向

1.1 新时代的曙光

1.2 LLM有意识吗

1.3 未来发展方向

1.4 小结

第2章 语言模型和分词

2.1 语言建模的挑战

2.2 统计语言建模

2.3 神经语言模型

2.4 评估语言模型

2.5 分词

2.6 小结

第3章 Transformer

3.1 Transformer编码器模块

3.2 编码器-解码器架构

3.3 位置嵌入

3.4 更长的上下文

3.5 外部记忆

3.6 更快、更小的Transformer

3.7 推理优化

3.8 小结

第4章 预训练目标和解码策略

4.1 模型架构

4.2 预训练目标

4.3 具有代表性的语言模型

4.4 解码策略

4.5 小结

第5章 上下文学习和轻量级微调

5.1 上下文学习

5.2 提示语言模型的校准

5.3 轻量级微调

5.4 小结

第6章 训练更大的模型

6.1 扩大尺度法则

6.2 涌现能力

6.3 人工智能加速器

6.4 并行

6.5 混合训练和低精度训练

6.6 其他节省内存的设计

6.7 小结

第7章 稀疏专家模型

7.1 为什么采用稀疏专家模型

7.2 路由算法

7.3 其他改进措施

7.4 小结

第8章 检索增强型语言模型

8.1 预训练检索增强型语言模型

8.2 词元级检索

8.3 通过高效和精简检索进行问答和多跳推理

8.4 检索增强型Transformer

8.5 检索增强型黑盒语言模型

8.6 视觉增强语言建模

8.7 小结

第9章 对齐语言模型与人类偏好

9.1 基于人类反馈进行微调

9.2 基于语言反馈进行微调

9.3 基于监督学习进行微调

9.4 基于人工智能反馈的强化学习

9.5 基于自我反馈进行迭代优化

9.6 基于人类偏好进行预训练

9.7 小结

第10章 减少偏见和有害性

10.1 偏见

10.2 有害性

10.3 偏见和有害性的检测与减少

10.4 小结

第11章 视觉语言模型

11.1 语言处理的多模态落地

11.2 不需要额外训练即可利用预训练模型

11.3 轻量级适配

11.4 图文联合训练

11.5 检索增强视觉语言模型

11.6 视觉指令调整

11.7 小结

第12章 环境影响

12.1 能源消耗和温室气体排放

12.2 估算训练模型的排放量

12.3 小结

参考文献

大语言模型:基础与前沿是2024年由人民邮电出版社出版,作者熊涛。

得书感谢您对《大语言模型:基础与前沿》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
R语言编程基础 电子书
《R语言学习手册》:7章全面介绍R语言及Rattle工具,附课后习题。
HTML5基础知识、核心技术与前沿案例 电子书
夯实HTML5、CSS3、JavaScript基础; 兼顾PC端和移动端开发; 讲解布局、动效、交互、页面组件和响应式设计等核心技术; 前沿案例涵盖初中级HTML5开发者遇到的几乎所有实战问题,并渗透各种交互设计理念; “经验”总结,提炼学习内容,囊括HTML5外延知识,拓宽读者学习视野。
Python中文自然语言处理基础与实战 电子书
本书共12章,内容包括:语料库、正则表达式、中文分词技术、词性标注与命名实体识别、关键词提取、文本向量化、文本分类与文本聚类、文本情感分析、NLP中的深度学习技术等。
Revit 2016 建筑信息模型基础教程 电子书
本书专门为基于Revit平台从事建筑工程的BIM应用者编写,以现行建筑设计规范为基础,以Revit创建模型为主线,简明扼要地阐述了创建建筑模型的操作方法。本书内容包括Revit界面简介与基本术语、Revit常用工具与基本操作、项目位置、场地设计、创建概念体量、体量分析与明细表、体量转换、标高与轴网、创建建筑构件、族的创建与使用、视图的创建与深化、布图与打印、工作集设置与协同工作、链接与管理、渲染与
C语言程序设计基础 电子书
本书面向程序设计零基础的读者,集理论知识、上机练习、在线学习于一体,并以C语言为载体带领读者走进程序设计的大门。C语言是具有低级语言特点的高级程序设计语言,使用它既可以编写底层驱动程序以及系统软件,又可以编写上层应用软件。目前流行的程序设计语言,都不同程度地带有C语言的“烙印”。学好C语言再去学习其他程序设计语言,会收到事半功倍的效果。