强化学习精要:核心算法与TensorFlow实现

强化学习精要:核心算法与TensorFlow实现

我想读
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。

内容简介

《强化学习精要:核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程,到各种复杂的强化学习算法,读者都可以从本书中学习到。本书除了介绍这些算法的原理,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。

《强化学习精要:核心算法与TensorFlow 实现》内容翔实,语言简洁易懂,既适合零基础的人员入门学习,也适合相关科研人员研究参考。

作者简介

作者冯超,毕业于中国科学院大学,滴滴出行AI Labs时空数据组专家算法工程师,曾任小猿搜题算法负责人之一。自2016年起在知乎开设技术专栏《无痛的机器学习》,发表与深度学习和强化学习相关的文章,文章以轻松幽默的语言、细致深入的分析为特点,得到了广泛的关注。曾撰写深度学习进阶领域口碑技术书《深度学习轻松学:核心算法与视觉实践》。

章节目录

版权信息

前言

第一部分 强化学习入门与基础知识

1 引言

1.1 强化学习的概念

1.2 站在被实验者的角度看问题

1.3 强化学习效果的评估

1.4 强化学习与监督学习

1.5 强化学习的实验环境

1.6 本书的主要内容

1.7 参考资料

2 数学与机器学习基础

2.1 线性代数基础

2.2 对称矩阵的性质

2.3 概率论

2.4 重要性采样

2.5 信息论基础

2.6 KL散度

2.7 凸函数及其性质

2.8 机器学习的基本概念

2.9 机器学习的目标函数

2.10 总结

3 优化算法

3.1 梯度下降法

3.2 动量算法

3.3 共轭梯度法

3.4 自然梯度法

3.5 总结

4 TensorFlow入门

4.1 TensorFlow的基本使用方法

4.2 TensorFlow原理介绍

4.3 TensorFlow的分布式训练

4.4 基于TensorFlow实现经典网络结构

4.5 总结

4.6 参考资料

5 Gym与Baselines

5.1 Gym

5.2 Baselines

5.3 总结

6 强化学习基本算法

6.1 马尔可夫决策过程

6.2 策略迭代

6.3 价值迭代

6.4 泛化迭代

6.5 总结

第二部分 最优价值算法

7 Q-Learning基础

7.1 状态转移概率:从掌握到放弃

7.2 蒙特卡罗方法

7.3 探索与利用

7.4 蒙特卡罗的方差问题

7.5 时序差分法与SARSA

7.6 Q-Learning

7.7 Q-Learning的收敛性分析

7.8 从表格形式到价值模型

7.9 Deep Q Network

7.10 总结

7.11 参考资料

8 DQN的改进算法

8.1 Double Q-Learning

8.2 Priority Replay Buffer

8.3 Dueling DQN

8.4 解决DQN的冷启动问题

8.5 Distributional DQN

8.6 Noisy Network

8.7 Rainbow

8.8 总结

8.9 参考资料

第三部分 基于策略梯度的算法

9 基于策略梯度的算法

9.1 策略梯度法

9.2 Actor-Critic算法

9.3 总结

9.4 参考资料

10 使策略单调提升的优化算法

10.1 TRPO

10.2 GAE

10.3 PPO

10.4 总结

10.5 参考资料

11 Off-Policy策略梯度法

11.1 Retrace

11.2 ACER

11.3 DPG

11.4 总结

11.5 参考资料

第四部分 其他强化学习算法

12 稀疏回报的求解方法

12.1 稀疏回报的困难

12.2 层次强化学习

12.3 HER

12.4 总结

12.5 参考资料

13 Model-based方法

13.1 AlphaZero

13.2 iLQR

13.3 总结

13.4 参考资料

第五部分 反向强化学习

14 反向强化学习入门

14.1 基本概念

14.2 从最优策略求解回报

14.3 求解线性规划

14.4 无限状态下的求解

14.5 从样本中学习

14.6 总结

14.7 参考资料

15 反向强化学习算法2.0

15.1 最大熵模型

15.2 最大熵反向强化学习

15.3 GAIL

15.4 GAIL实现

15.5 总结

15.6 参考资料

强化学习精要:核心算法与TensorFlow实现是2018年由电子工业出版社出版,作者冯超。

得书感谢您对《强化学习精要:核心算法与TensorFlow实现》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
动力电池管理系统核心算法 电子书

本书可作为相关领域技术人员的参考用书,也可以作为汽车专业的高年级本科生和研究生的专业课教科书。
TensorFlow技术解析与实战 电子书

TensorFlow是谷歌公司开发的深度学习框架,也是目前深度学习的主流框架之一。
深度学习:基于Python语言和TensorFlow平台(视频讲解版) 电子书

本书基于使用Python语言的TensorFlow深度学习框架进行讲解,帮助你快速入门。
算法精粹:经典计算机科学问题的Python实现 电子书
深度学习高手笔记·卷1:基础算法 电子书

本书从算法理论、算法源码、实验结果等方面对深度学习算法进行分析和介绍。
Unity Shader 入门精要 电子书

本书适合Unity初学者、游戏开发者、程序员,也可以作为大专院校相关专业师生的学习用书,以及培训学校的培训教材。
算法设计与分析 电子书

带你理解算法核心的问题。算法描述采用伪码,突出对问题本身的分析和求解方法的阐述。