强化学习精要：核心算法与TensorFlow实现

冯超

计算机与互联网类型

249千字字数

7 豆瓣评分

免费查看

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

本书用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现，为读者构建了一个完整的强化学习知识体系，同时介绍了这些算法的具体实现方式。

内容简介

《强化学习精要：核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现，为读者构建了一个完整的强化学习知识体系，同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程，到各种复杂的强化学习算法，读者都可以从本书中学习到。本书除了介绍这些算法的原理，还深入分析了算法之间的内在联系，可以帮助读者举一反三，掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。

《强化学习精要：核心算法与TensorFlow 实现》内容翔实，语言简洁易懂，既适合零基础的人员入门学习，也适合相关科研人员研究参考。

作者简介

作者冯超，毕业于中国科学院大学，滴滴出行AI Labs时空数据组专家算法工程师，曾任小猿搜题算法负责人之一。自2016年起在知乎开设技术专栏《无痛的机器学习》，发表与深度学习和强化学习相关的文章，文章以轻松幽默的语言、细致深入的分析为特点，得到了广泛的关注。曾撰写深度学习进阶领域口碑技术书《深度学习轻松学：核心算法与视觉实践》。

章节目录

版权信息

前言

第一部分强化学习入门与基础知识

1 引言

1.1 强化学习的概念

1.2 站在被实验者的角度看问题

1.3 强化学习效果的评估

1.4 强化学习与监督学习

1.5 强化学习的实验环境

1.6 本书的主要内容

1.7 参考资料

2 数学与机器学习基础

2.1 线性代数基础

2.2 对称矩阵的性质

2.3 概率论

2.4 重要性采样

2.5 信息论基础

2.6 KL散度

2.7 凸函数及其性质

2.8 机器学习的基本概念

2.9 机器学习的目标函数

2.10 总结

3 优化算法

3.1 梯度下降法

3.2 动量算法

3.3 共轭梯度法

3.4 自然梯度法

3.5 总结

4 TensorFlow入门

4.1 TensorFlow的基本使用方法

4.2 TensorFlow原理介绍

4.3 TensorFlow的分布式训练

4.4 基于TensorFlow实现经典网络结构

4.5 总结

4.6 参考资料

5 Gym与Baselines

5.1 Gym

5.2 Baselines

5.3 总结

6 强化学习基本算法

6.1 马尔可夫决策过程

6.2 策略迭代

6.3 价值迭代

6.4 泛化迭代

6.5 总结

第二部分最优价值算法

7 Q-Learning基础

7.1 状态转移概率：从掌握到放弃

7.2 蒙特卡罗方法

7.3 探索与利用

7.4 蒙特卡罗的方差问题

7.5 时序差分法与SARSA

7.6 Q-Learning

7.7 Q-Learning的收敛性分析

7.8 从表格形式到价值模型

7.9 Deep Q Network

7.10 总结

7.11 参考资料

8 DQN的改进算法

8.1 Double Q-Learning

8.2 Priority Replay Buffer

8.3 Dueling DQN

8.4 解决DQN的冷启动问题

8.5 Distributional DQN

8.6 Noisy Network

8.7 Rainbow

8.8 总结

8.9 参考资料

第三部分基于策略梯度的算法

9 基于策略梯度的算法

9.1 策略梯度法

9.2 Actor-Critic算法

9.3 总结

9.4 参考资料

10 使策略单调提升的优化算法

10.1 TRPO

10.2 GAE

10.3 PPO

10.4 总结

10.5 参考资料

11 Off-Policy策略梯度法

11.1 Retrace

11.2 ACER

11.3 DPG

11.4 总结

11.5 参考资料

第四部分其他强化学习算法

12 稀疏回报的求解方法

12.1 稀疏回报的困难

12.2 层次强化学习

12.3 HER

12.4 总结

12.5 参考资料

13 Model-based方法

13.1 AlphaZero

13.2 iLQR

13.3 总结

13.4 参考资料

第五部分反向强化学习

14 反向强化学习入门

14.1 基本概念

14.2 从最优策略求解回报

14.3 求解线性规划

14.4 无限状态下的求解

14.5 从样本中学习

14.6 总结

14.7 参考资料

15 反向强化学习算法2.0

15.1 最大熵模型

15.2 最大熵反向强化学习

15.3 GAIL

15.4 GAIL实现

15.5 总结

15.6 参考资料

强化学习精要：核心算法与TensorFlow实现是2018年由电子工业出版社出版,作者冯超。

得书感谢您对《强化学习精要：核心算法与TensorFlow实现》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。