深度强化学习理论与实践

深度强化学习理论与实践

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

深入学习强化学习,带你深入学习AlphaGo系列算法。

内容简介

本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现。全书核心内容可以分为3部分,第一部分为经典强化学习,包括第2、3、4章,主要内容有动态规划法,蒙特卡洛法、时序差分法;第二部分为深度强化学习,包括第6、7、8章,主要内容有值函数近似法、策略梯度法、策略梯度法进阶;第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍了强化学习的模型,第5章简单介绍了深度学习和PyTorch编程框架。本书可以作为理工科大学相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。

章节目录

版权信息

作者简介

内容简介

前言

第1章强化学习的模型

1.1 强化学习简介

1.2 强化学习的模型

1.3 Gym介绍

第2章动态规划法

2.1 动态规划法简介

2.2 值函数和贝尔曼方程

2.3 策略评估

2.4 策略改进

2.5 最优值函数和最优策略

2.6 策略迭代和值迭代

2.7 动态规划法求解强化学习案例

第3章蒙特卡罗法

3.1 蒙特卡罗法简介

3.2 蒙特卡罗策略评估

3.3 蒙特卡罗强化学习

3.4 异策略蒙特卡罗强化学习

3.5 蒙特卡罗树搜索

第4章时序差分法

4.1 时序差分策略评估

4.2 同策略时序差分强化学习

4.3 异策略时序差分强化学习

4.4 n步时序差分强化学习

4.5 TD(λ)算法

第5章深度学习与PyTorch

5.1 从感知机到神经网络

5.2 深度神经网络

5.3 激活函数、损失函数和数据预处理

5.4 PyTorch深度学习软件包

5.5 深度学习案例

第6章值函数近似算法

6.1 线性值函数近似算法

6.2 神经网络值函数近似法

6.3 Double DQN(DDQN)算法

6.4 Prioritized Replay DQN算法

6.5 Dueling DQN算法

第7章策略梯度算法

7.1 策略梯度算法的基本原理

7.2 策略梯度定理

7.3 蒙特卡罗策略梯度算法(REINFORCE)

7.4 演员-评论家策略梯度算法

第8章策略梯度法进阶

8.1 异步优势演员:评论家算法

8.2 深度确定性策略梯度算法

8.3 近端策略优化算法

8.4 柔性演员-评论家算法

第9章深度强化学习案例:AlphaGo系列算法

9.1 AlphaGo算法介绍

9.2 AlphaGo Zero算法介绍

9.3 AlphaZero算法介绍

9.4 MuZero算法介绍

9.5 AlphaGo系列算法的应用与启示

参考文献

深度强化学习理论与实践是2023年由清华大学出版社出版,作者龙强。

得书感谢您对《深度强化学习理论与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
深度学习与围棋 电子书
深入浅出的深度学习入门书,从零实现AlphaGo,为AI理论和应用打下基础。
PaddlePaddleFluid深度学习入门与实战 电子书
本书全面讲解PaddlePaddle Fluid框架在深度学习领域的应用。
Python深度学习与项目实战 电子书
本书基于Python以及两个深度学习框架Keras与TensorFlow,讲述深度学习在实际项目中的应用。本书共10章,首先介绍线性回归模型、逻辑回归模型、Softmax多分类器,然后讲述全连接神经网络、神经网络模型的优化、卷积神经网络、循环神经网络,最后讨论自编码模型、对抗生成网络、深度强化学习。
深度学习与医学图像处理 电子书
一本介绍“如何使用深度学习方法解决医学图像处理问题”的入门图书。
深度学习 电子书
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。