强化学习（第2版）

[加]RichardS.Sutton

计算机与互联网类型

705千字字数

8.3 豆瓣评分

No.56 互联网排行榜

我想读

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

适读人群：《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

《强化学习（第2版）》被业界公认为任何对人工智能领域感兴趣的人员的必读书。

《强化学习（第2版）》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来，一直是强化学习领域的经典导论性教材，培育了好几代强化学习领域的研究人员。

在第2版中，随着强化学习的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益大化……涵盖了当今关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

内容简介

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

作者简介

Richard Sutton（理查德·萨顿）

埃德蒙顿 DeepMind 公司的杰出科学家，阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学，2017年加入DeepMind。之前，曾在美国电话电报公司（AT＆T）和通用电话电子公司（GTE）实验室工作，在马萨诸塞大学做学术研究。

1978年获得斯坦福大学心理学学士学位，1984年获得马萨诸塞大学计算机科学博士学位，加拿大皇家学会院士和人工智能促进会的会士。

主要研究兴趣是在决策者与环境相互作用时所面临的学习问题，他认为这是智能的核心问题。其他研究兴趣有：动物学习心理学、联结主义网络，以及能够不断学习和改进环境表征和环境模型的系统。

他的科学出版物被引用超过7万次。

他也是一名自由主义者，国际象棋选手和癌症幸存者。

Andrew Barto （安德鲁·巴图）

马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位，并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前，他带领了马萨诸塞大学的自主学习实验室，该实验室培养了许多著名的机器学习研究者。

目前担任Neural Computation （《神经计算》）期刊的副主编，Journal of Machine Learning Research （《机器学习研究》）期刊的顾问委员会成员，以及Adaptive Behavior （《自适应行为》）期刊的编委员会成员。

他是美国科学促进会的会员，IEEE（国际电子电气工程师协会）的终身会士（Life Fellow），也是神经科学学会的成员。

2004年，因强化学习领域的贡献荣获IEEE神经网络学会先锋奖，并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖；2019年获得马萨诸塞大学神经科学终身成就奖。

他在各类期刊、会议和研讨会上发表了100多篇论文，参与撰写多部图书的相关章节。

译者简介

俞凯

上海交通大学计算科学与工程系教授，思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士，剑桥大学工程系博士。青年千人，国家自然科学基金委优青，上海市“东方学者”特聘教授。IEEE 高级会员，现任 IEEE Speech and Language Processing Technical Committee 委员，中国人工智能产业发展联盟学术和知识产权组组长，中国计算机学会语音对话及听觉专业组副主任。

长期从事交互式人工智能，尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇，获得Computer Speech and Language, Speech Communication 等多个国际期刊及InterSpeech等国际会议的优论文奖，所搭建的工程系统曾获美国国家标准局语音识别评测冠军，对话系统国际研究挑战赛冠军等。

获评2014“吴文俊人工智能科学技术奖”进步奖，“2016科学中国人年度人物”，2018中国计算机学会“青竹奖”。

章节目录

第1章导论1

1.1 强化学习1

1.2 示例4

1.3 强化学习要素5

1.4 局限性与适用范围7

1.5 扩展实例：井字棋8

1.6 本章小结12

1.7 强化学习的早期历史13

第I部分表格型求解方法23

第2章多臂赌博机25

2.1 一个 k 臂赌博机问题25

2.2 动作-价值方法27

2.3 10 臂测试平台28

2.4 增量式实现30

2.5 跟踪一个非平稳问题32

2.6 乐观初始值34

2.7 基于置信度上界的动作选择35

2.8 梯度赌博机算法37

2.9 关联搜索 (上下文相关的赌博机)40

2.10 本章小结41

第3章有限马尔可夫决策过程 45

3.1 “智能体-环境”交互接口45

3.2 目标和收益51

3.3 回报和分幕52

3.4 分幕式和持续性任务的统一表示法54

3.5 策略和价值函数55

3.6 最优策略和最优价值函数60

3.7 最优性和近似算法65

3.8 本章小结66

第4章动态规划71

4.1 策略评估 (预测)72

4.2 策略改进75

4.3 策略迭代78

4.4 价值迭代80

4.5 异步动态规划83

4.6 广义策略迭代84

4.7 动态规划的效率85

4.8 本章小结86

第5章蒙特卡洛方法89

5.1 蒙特卡洛预测90

5.2 动作价值的蒙特卡洛估计94

5.3 蒙特卡洛控制95

5.4 没有试探性出发假设的蒙特卡洛控制98

5.5 基于重要度采样的离轨策略101

5.6 增量式实现107

5.7 离轨策略蒙特卡洛控制108

5.8 ? 折扣敏感的重要度采样110

5.9 ? 每次决策型重要度采样112

5.10 本章小结113

第 6 章时序差分学习117

6.1 时序差分预测117

6.2 时序差分预测方法的优势122

6.3 TD(0) 的最优性124

6.4 Sarsa：同轨策略下的时序差分控制127

6.5 Q 学习：离轨策略下的时序差分控制129

6.6 期望 Sarsa131

6.7 最大化偏差与双学习133

6.8 游戏、后位状态和其他特殊例子135

6.9 本章小结136

第7章 n 步自举法139

7.1 n 步时序差分预测140

7.2 n 步 Sarsa144

7.3 n 步离轨策略学习146

7.4 ? 带控制变量的每次决策型方法148

7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法150

7.6 ? 一个统一的算法：n 步 Q(σ)153

7.7 本章小结155

第8章基于表格型方法的规划和学习157

8.1 模型和规划157

8.2 Dyna：集成在一起的规划、动作和学习159

8.3 当模型错误的时候164

8.4 优先遍历166

8.5 期望更新与采样更新的对比170

8.6 轨迹采样173

8.7 实时动态规划176

8.8 决策时规划179

8.9 启发式搜索180

8.10 预演算法182

8.11 蒙特卡洛树搜索184

8.12 本章小结187

8.13 第I部分总结188

第II部分表格型近似求解方法193

第9章基于函数逼近的同轨策略预测195

9.1 价值函数逼近195

9.2 预测目标 (VE )196

9.3 随机梯度和半梯度方法198

9.4 线性方法202

9.5 线性方法的特征构造207

9.5.1 多项式基208

9.5.2 傅立叶基209

9.5.3 粗编码212

9.5.4 瓦片编码214

9.5.5 径向基函数218

9.6 手动选择步长参数219

9.7 非线性函数逼近：人工神经网络220

9.8 最小二乘时序差分225

9.9 基于记忆的函数逼近227

9.10 基于核函数的函数逼近229

9.11 深入了解同轨策略学习：“兴趣”与“强调”230

9.12 本章小结232

第10章基于函数逼近的同轨策略控制239

10.1 分幕式半梯度控制239

10.2 半梯度 n 步 Sarsa242

10.3 平均收益：持续性任务中的新的问题设定245

10.4 弃用折扣249

10.5 差分半梯度 n 步 Sarsa251

10.6 本章小结252

第11 章 ? 基于函数逼近的离轨策略方法253

11.1 半梯度方法254

11.2 离轨策略发散的例子256

11.3 致命三要素260

11.4 线性价值函数的几何性质262

11.5 对贝尔曼误差做梯度下降266

11.6 贝尔曼误差是不可学习的270

11.7 梯度 TD 方法274

11.8 强调 TD 方法278

11.9 减小方差279

11.10 本章小结280

第12章资格迹283

12.1 λ-回报284

12.2 TD(λ)287

12.3 n-步截断 λ- 回报方法291

12.4 重做更新：在线 λ-回报算法292

12.5 真实的在线 TD(λ)294

12.6 ? 蒙特卡洛学习中的荷兰迹296

12.7 Sarsa(λ)298

12.8 变量 λ 和 γ303

12.9 带有控制变量的离轨策略资格迹304

12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ)308

12.11 采用资格迹保障离轨策略方法的稳定性310

12.12 实现中的问题312

12.13 本章小结312

第13章策略梯度方法317

13.1 策略近似及其优势318

13.2 策略梯度定理320

13.3 REINFORCE：蒙特卡洛策略梯度322

13.4 带有基线的 REINFORCE325

13.5 “行动器-评判器”方法327

13.6 持续性问题的策略梯度329

13.7 针对连续动作的策略参数化方法332

13.8 本章小结333

第III部分表格型深入研究337

第14章心理学339

14.1 预测与控制340

14.2 经典条件反射341

14.2.1 阻塞与高级条件反射342

14.2.2 Rescorla-Wagner 模型344

14.2.3 TD 模型347

14.2.4 TD 模型模拟348

14.3 工具性条件反射355

14.4 延迟强化359

14.5 认知图361

14.6 习惯行为与目标导向行为362

14.7 本章小结366

第15章神经科学373

15.1 神经科学基础374

15.2 收益信号、强化信号、价值和预测误差375

15.3 收益预测误差假说377

15.4 多巴胺379

15.5 收益预测误差假说的实验支持382

15.6 TD 误差/多巴胺对应385

15.7 神经“行动器-评判器”390

15.8 行动器与评判器学习规则393

15.9 享乐主义神经元397

15.10 集体强化学习399

15.11 大脑中的基于模型的算法402

15.12 成瘾403

15.13 本章小结404

第 16 章应用及案例分析413

16.1 TD-Gammon413

16.2 Samuel 的跳棋程序418

16.3 Watson 的每日双倍投注421

16.4 优化内存控制424

16.5 人类级别的视频游戏428

16.6 主宰围棋游戏433

16.6.1 AlphaGo436

16.6.2 AlphaGo Zero439

16.7 个性化网络服务442

16.8 热气流滑翔446

第17章前沿技术451

17.1 广义价值函数和辅助任务451

17.2 基于选项理论的时序摘要453

17.3 观测量和状态456

17.4 设计收益信号460

17.5 遗留问题464

17.6 人工智能的未来467

参考文献473

强化学习（第2版）是2019年由电子工业出版社出版,作者[加]RichardS.Sutton。

得书感谢您对《强化学习（第2版）》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。