强化学习精要:核心算法与TensorFlow实现

强化学习精要:核心算法与TensorFlow实现

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。

内容简介

《强化学习精要:核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程,到各种复杂的强化学习算法,读者都可以从本书中学习到。本书除了介绍这些算法的原理,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。

《强化学习精要:核心算法与TensorFlow 实现》内容翔实,语言简洁易懂,既适合零基础的人员入门学习,也适合相关科研人员研究参考。

作者简介

作者冯超,毕业于中国科学院大学,滴滴出行AI Labs时空数据组专家算法工程师,曾任小猿搜题算法负责人之一。自2016年起在知乎开设技术专栏《无痛的机器学习》,发表与深度学习和强化学习相关的文章,文章以轻松幽默的语言、细致深入的分析为特点,得到了广泛的关注。曾撰写深度学习进阶领域口碑技术书《深度学习轻松学:核心算法与视觉实践》。

章节目录

版权信息

前言

第一部分 强化学习入门与基础知识

1 引言

1.1 强化学习的概念

1.2 站在被实验者的角度看问题

1.3 强化学习效果的评估

1.4 强化学习与监督学习

1.5 强化学习的实验环境

1.6 本书的主要内容

1.7 参考资料

2 数学与机器学习基础

2.1 线性代数基础

2.2 对称矩阵的性质

2.3 概率论

2.4 重要性采样

2.5 信息论基础

2.6 KL散度

2.7 凸函数及其性质

2.8 机器学习的基本概念

2.9 机器学习的目标函数

2.10 总结

3 优化算法

3.1 梯度下降法

3.2 动量算法

3.3 共轭梯度法

3.4 自然梯度法

3.5 总结

4 TensorFlow入门

4.1 TensorFlow的基本使用方法

4.2 TensorFlow原理介绍

4.3 TensorFlow的分布式训练

4.4 基于TensorFlow实现经典网络结构

4.5 总结

4.6 参考资料

5 Gym与Baselines

5.1 Gym

5.2 Baselines

5.3 总结

6 强化学习基本算法

6.1 马尔可夫决策过程

6.2 策略迭代

6.3 价值迭代

6.4 泛化迭代

6.5 总结

第二部分 最优价值算法

7 Q-Learning基础

7.1 状态转移概率:从掌握到放弃

7.2 蒙特卡罗方法

7.3 探索与利用

7.4 蒙特卡罗的方差问题

7.5 时序差分法与SARSA

7.6 Q-Learning

7.7 Q-Learning的收敛性分析

7.8 从表格形式到价值模型

7.9 Deep Q Network

7.10 总结

7.11 参考资料

8 DQN的改进算法

8.1 Double Q-Learning

8.2 Priority Replay Buffer

8.3 Dueling DQN

8.4 解决DQN的冷启动问题

8.5 Distributional DQN

8.6 Noisy Network

8.7 Rainbow

8.8 总结

8.9 参考资料

第三部分 基于策略梯度的算法

9 基于策略梯度的算法

9.1 策略梯度法

9.2 Actor-Critic算法

9.3 总结

9.4 参考资料

10 使策略单调提升的优化算法

10.1 TRPO

10.2 GAE

10.3 PPO

10.4 总结

10.5 参考资料

11 Off-Policy策略梯度法

11.1 Retrace

11.2 ACER

11.3 DPG

11.4 总结

11.5 参考资料

第四部分 其他强化学习算法

12 稀疏回报的求解方法

12.1 稀疏回报的困难

12.2 层次强化学习

12.3 HER

12.4 总结

12.5 参考资料

13 Model-based方法

13.1 AlphaZero

13.2 iLQR

13.3 总结

13.4 参考资料

第五部分 反向强化学习

14 反向强化学习入门

14.1 基本概念

14.2 从最优策略求解回报

14.3 求解线性规划

14.4 无限状态下的求解

14.5 从样本中学习

14.6 总结

14.7 参考资料

15 反向强化学习算法2.0

15.1 最大熵模型

15.2 最大熵反向强化学习

15.3 GAIL

15.4 GAIL实现

15.5 总结

15.6 参考资料

强化学习精要:核心算法与TensorFlow实现是2018年由电子工业出版社出版,作者冯超。

得书感谢您对《强化学习精要:核心算法与TensorFlow实现》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
动手学强化学习 电子书
.名家作品:上海交通大学ACM班创始人俞勇教授、博士生导师张伟楠副教授、APEX实验室博士生沈键编写;.理论扎实:基于上交大ACM班的人工智能专业课程构建强化学习的学习体系;.配套资源丰富:在线代码运行环境+在线视频课程+在线讨论区+在线习题+配套课件;.多位业内大咖力荐:字节跳动人工智能实验室总监李航、1986年图灵奖得主JohnHopcroft、北京大学数学科学学院统计学教授张志华、伦敦大学学院计算机科学系讲席教授汪军、亚马逊资深科学家、《动手学深度学习》作者李沐
深度强化学习实战 电子书
详解深度强化学习,从入门到实战。
机器学习:公式推导与代码实现 电子书
本书基于NumPy与sklearn,介绍26个主流机器学习算法的实现。
Unity 2017经典游戏开发教程:算法分析与实现 电子书
Unity目前是全世界优秀的游戏渲染引擎平台,其中程序开发也有自己的一套规则和技巧。本书基于此,使用Unity C#编程模块,实现18款经典小游戏的算法。不论是游戏开发爱好者,还是专业人士,都能从本书学习到:(1)Unity程序脚本入口及与场景模块相关联的编程操作流程与算法分析。(2)C#的程序编写技巧。(3)学习整个游戏开发的综合流程与策划思路,以便将来更好的融入相关团队。
EASY RL:强化学习教程 电子书
本书重点突出强化学习作为机器学习及人工智能领域的一种重要方法,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。