编辑推荐
携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。
内容简介
本书从原理和实战两个方面介绍了强化学习。原理方面,深入介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。
作者简介
作者肖智清,深度学习一线研发人员,现就职于世界排名第一的投资银行,清华大学博士。擅长概率统计、随机过程、时间序列和机器学习。近5年发表SCI/EI论文十余篇,是多个顶级期刊和会议审稿人。在国内外多项程序设计和数据科学竞赛获得冠军。
章节目录
版权信息
数学符号表
前言
第1章 初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.5 强化学习算法的性能指标
1.6 案例:基于Gym库的智能体/环境接口
1.7 本章小结
1.8 练习与模拟面试
第2章 Markov决策过程
2.1 Markov决策过程模型
2.2 价值
2.3 带折扣的分布
2.4 最优策略与最优价值
2.5 案例:悬崖寻路
2.6 本章小结
2.7 练习与模拟面试
第3章 有模型数值迭代
3.1 Bellman算子及其性质
3.2 有模型策略迭代
3.3 价值迭代
3.4 自益与动态规划
3.5 案例:冰面滑行
3.6 本章小结
3.7 练习与模拟面试
第4章 回合更新价值迭代
4.1 同策回合更新
4.2 异策回合更新
4.3 实验:21点游戏
4.4 本章小结
4.5 练习与模拟面试
第5章 时序差分价值迭代
5.1 时序差分目标
5.2 同策时序差分更新
5.3 异策时序差分更新
5.4 资格迹
5.5 案例:的士调度
5.6 本章小结
5.7 练习与模拟面试
第6章 函数近似方法
6.1 函数近似原理
6.2 基于梯度的参数更新
6.3 函数近似的收敛性
6.4 深度Q网络
6.5 案例:小车上山
6.6 本章小结
6.7 练习与模拟面试
第7章 回合更新策略梯度方法
7.1 策略梯度算法的原理
7.2 同策回合更新策略梯度算法
7.3 异策回合更新策略梯度算法
7.4 案例:车杆平衡
7.5 本章小结
7.6 练习与模拟面试
第8章 执行者/评论者
8.1 执行者/评论者方法
8.2 同策执行者/评论者算法
8.3 基于代理优势的同策算法
8.4 自然梯度和信赖域算法
8.5 重要性采样异策执行者/评论者算法
8.6 案例:双节倒立摆
8.7 本章小结
8.8 练习与模拟面试
第9章 连续动作空间的确定性策略
9.1 确定性策略梯度定理
9.2 同策确定性算法
9.3 异策确定性算法
9.4 探索过程
9.5 案例:倒立摆的控制
9.6 本章小结
9.7 练习与模拟面试
第10章 最大熵强化学习
10.1 最大熵强化学习与柔性强化学习理论
10.2 柔性强化学习算法
10.3 自动熵调节
10.4 案例:月球登陆器
10.5 本章小结
10.6 练习与模拟面试
第11章 基于策略的无梯度算法
11.1 无梯度算法
11.2 无梯度算法和策略梯度算法的比较
11.3 案例:双足机器人
11.4 本章小结
11.5 练习与模拟面试
第12章 值分布强化学习
12.1 价值分布及其性质
12.2 效用最大化强化学习
12.3 基于概率分布的算法
12.4 基于分位数的值分布强化学习
12.5 类别深度Q网络算法和分位数回归算法的比较
12.6 案例:Atari电动游戏Pong
12.7 本章小结
12.8 练习与模拟面试
第13章 最小化遗憾
13.1 遗憾
13.2 多臂赌博机
13.3 置信上界价值迭代
13.4 案例:Bernoulli奖励多臂赌博机
13.5 本章小结
13.6 练习与模拟面试
第14章 树搜索
14.1 回合更新树搜索
14.2 回合更新树搜索在棋盘游戏中的应用
14.3 案例:井字棋
14.4 本章小结
14.5 练习与模拟面试
第15章 模仿学习和人类反馈强化学习
15.1 模仿学习
15.2 人类反馈强化学习和生成性预训练变换模型
15.3 案例:机器人行走
15.4 本章小结
15.5 练习与模拟面试
第16章 更多智能体/环境接口模型
16.1 平均奖励离散时间Markov决策过程
16.2 连续时间Markov决策过程
16.3 非齐次Markov决策过程
16.4 半Markov决策过程
16.5 部分可观测Markov决策过程
16.6 案例:老虎
16.7 本章小结
16.8 练习与模拟面试
强化学习:原理与Python实战是2023年由机械工业出版社出版,作者肖智清。
得书感谢您对《强化学习:原理与Python实战》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。