统计策略搜索强化学习方法及应用

统计策略搜索强化学习方法及应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书以一个全新的现代角度描述策略搜索强化学习算法。

内容简介

智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识,也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下,围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍,是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法,结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。

本书从不同的强化学习场景出发,讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景,给定具体的策略搜索算法,分析算法中估计量和学习参数的统计特性,并对算法进行应用实例展示及定量比较。特别地,本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域,给人以耳目一新的感觉。最后根据作者长期研究经验,对强化学习的发展趋势进行了简要介绍和总结。

本书取材经典、全面,概念清楚,推导严密,以期形成一个集基础理论、算法和应用为一体的完备知识体系。

作者简介

作者赵婷婷,天津科技大学人工智能学院副教授,主要研究方向为人工智能、机器学习。中国计算机协会(CCF)会员、YOCSEF会员、中国人工智能学会会员、人工智能学会模式识别专委会委员,2017年获得天津市”131”创新型人才培养工程第二层次人选称号。

章节目录

版权信息

内容简介

第1章 强化学习概述

1.1 机器学习中的强化学习

1.2 智能控制中的强化学习

1.3 强化学习分支

1.4 本书贡献

1.5 本书结构

参考文献

第2章 相关研究及背景知识

2.1 马尔可夫决策过程

2.2 基于值函数的策略学习算法

2.2.1 值函数

2.2.2 策略迭代和值迭代

2.2.3 Q-learning

2.2.4 基于最小二乘法的策略迭代算法

2.2.5 基于值函数的深度强化学习方法

2.3 策略搜索算法

2.3.1 策略搜索算法建模

2.3.2 传统策略梯度算法(REINFORCE算法)

2.3.3 自然策略梯度方法(Natural Policy Gradient)

2.3.4 期望最大化的策略搜索方法

2.3.5 基于策略的深度强化学习方法

2.4 本章小结

参考文献

第3章 策略梯度估计的分析与改进

3.1 研究背景

3.2 基于参数探索的策略梯度算法(PGPE算法)

3.3 梯度估计方差分析

3.4 基于最优基线的算法改进及分析

3.4.1 最优基线的基本思想

3.4.2 PGPE算法的最优基线

3.5 实验结果

3.5.1 示例

3.5.2 倒立摆平衡问题

3.6 总结与讨论

参考文献

第4章 基于重要性采样的参数探索策略梯度算法

4.1 研究背景

4.2 异策略场景下的PGPE算法

4.2.1 重要性加权PGPE算法

4.2.2 IW-PGPE算法的最优基线

4.3 实验结果

4.3.1 示例

4.3.2 山地车任务

4.3.3 机器人仿真控制任务

4.4 总结和讨论

参考文献

第5章 方差正则化策略梯度算法

5.1 研究背景

5.2 正则化策略梯度算法

5.2.1 目标函数

5.2.2 梯度计算方法

5.3 实验结果

5.3.1 数值示例

5.3.2 山地车任务

5.4 总结和讨论

参考文献

第6章 基于参数探索的策略梯度算法的采样技术

6.1 研究背景

6.2 基于参数探索的策略梯度算法中的采样技术

6.2.1 基线采样

6.2.2 最优基线采样

6.2.3 对称采样

6.2.4 超对称采样

6.2.5 多模态超对称采样

6.2.6 SupSymPGPE的奖励归一化

6.3 实验结果

6.3.1 平方函数

6.3.2 Rastrigin函数

6.4 本章总结

参考文献

第7章 基于样本有效重用的人形机器人的运动技能学习

7.1 研究背景:真实环境下的运动技能学习

7.2 运动技能学习框架

7.2.1 机器人的运动路径和回报

7.2.2 策略模型

7.2.3 基于PGPE算法的策略学习方法

7.3 有效重用历史经验

7.3.1 基于重要性加权的参数探索策略梯度算法(IW-PGPE算法)

7.3.2 基于IW-PGPE算法的运动技能学习过程

7.3.3 递归型IW-PGPE算法

7.4 虚拟环境中的车杆摆动任务

7.5 篮球射击任务

7.6 讨论与结论

参考文献

第8章 基于逆强化学习的艺术风格学习及水墨画渲染

8.1 研究背景

8.1.1 计算机图形学背景

8.1.2 人工智能背景

8.1.3 面向艺术风格化的渲染系统

8.2 基于强化学习的笔刷智能体建模

8.2.1 动作的设计

8.2.2 状态的设计

8.3 离线艺术风格学习阶段

8.3.1 数据采集

8.3.2 基于逆强化学习的奖励函数学习

8.3.3 基于R-PGPE算法的渲染策略学习

8.4 A4系统用户界面

8.5 实验与结果

8.5.1 渲染策略学习结果

8.5.2 基于IRL进行笔画绘制的渲染结果

8.6 本章小结

参考文献

彩插

统计策略搜索强化学习方法及应用是2021年由电子工业出版社出版,作者赵婷婷。

得书感谢您对《统计策略搜索强化学习方法及应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
统计学基础及应用(微课版 第4版) 电子书
本书共9个任务,包括认知统计学和统计数据、统计数据收集、统计整理、总量分析和相对分析、总体分布分析、动态分析、指数分析、抽样推断、相关分析与回归分析。
SEO搜索引擎优化:技巧、策略与实战案例 电子书
本书从基本的SEO理论进行系统讲解,配以丰富案例,对网站搭建SEO框架、每个频道的SEO设置、每类网站的SEO技巧等方面进行深入浅出的阐述。同时,本书还通过部分篇幅系统地讲述SEO团队管理、SEO项目管理机制、SEO软件系统等相关知识,对SEO工作具有全面的指导意义。本书注重理论和实战经验相结合,实用性强,既有微观操作指导性,又有宏观决策意义,适合SEO专业人员、网站运营人员、市场人员、管理人员、
概率论与数理统计及SPSS软件应用 电子书
本书内容包括概率论、数理统计、SPSS软件应用三部分,共9章,每章附有习题。第1~4章是概率论,包括概率论的基本概念、随机变量及其分布和数字特征、几种特殊随机变量的分布、多维随机变量及其分布和数字特征。第5~7章是数理统计,包括参数估计、假设检验、方差分析和回归分析。第8~9章是SPSS软件应用,包括SPSS软件基本使用方法,用SPSS进行描述性统计分析,用SPSS进行均值比较、方差分析、相关分析
医学应用统计分析 电子书
本书创建“数据库-变量类型-变量间关系分析”的应用统计学教学方法。为统计学应用者找到了一条便捷实用的学习途径。
统计学原理与应用 电子书
本教材包括9章内容,分别是总论、统计调查、统计整理、综合指标、时间数列、统计指数、参数估计、假设检验、相关与回归分析。遵循统计调查、统计整理、统计分析的基本思路,编写时坚持少而精的原则,突出学科的应用价值,强调技能培养及统计思维的建立。