深度强化学习:算法原理与金融实践入门

深度强化学习:算法原理与金融实践入门

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

全面介绍深度强化学习的基础知识和经典算法。

内容简介

本书共10章,大致分为4部分:

第1部分(第1~2章)介绍深度强化学习背景(智能决策、人工智能和机器学习);

第2部分(第3~4章)介绍深度强化学习基础知识(深度学习和强化学习);

第3部分(第5~9章)介绍深度强化学习经典算法(DQN、AC、DDPG等);

第4部分(第10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。

作者简介

编著者周炜星,男,浙江诸暨人。教育部青年长江学者、上海领军人才、教育部新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院,二级教授,博士生导师,金融物理研究中心主任。

现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长,中国系统工程学会理事、金融系统工程专业委员会副主任,管理科学与工程学会理事、金融计量与风险管理分会副理事长,中国工业统计教学研究会金融科技与大数据技术分会副理事长,中国数量经济学会经济复杂性专业委员会副理事长,中国复杂性科学学会副理事长。

主要从事金融物理学、经济物理学和社会经济系统复杂性研究,以及相关领域大数据分析。

章节目录

版权信息

内容简介

作者简介

前言

第1章 智能决策与复杂系统

1.1 智能决策

1.1.1 智能决策简介

1.1.2 复杂金融系统中的智能决策

1.2 复杂系统

1.2.1 复杂性科学

1.2.2 复杂系统定义

1.2.3 复杂系统类型

1.2.4 复杂系统研究

1.3 复杂环境特征

1.3.1 完全可观察的和部分可观察的环境

1.3.2 单智能体和多智能体

1.3.3 确定的和随机的环境

1.3.4 片段式和延续式环境

1.3.5 静态和动态环境

1.3.6 离散和连续环境

1.3.7 已知和未知环境

1.4 复杂环境建模

1.5 智能体建模

1.5.1 典型决策系统模型框架

1.5.2 智能体建模框架

1.6 智能决策系统建模

1.6.1 问题提炼

1.6.2 数据采集

1.6.3 模型构建

1.6.4 算法实现

1.6.5 模型训练

1.6.6 模型验证

1.6.7 模型改进

1.6.8 模型运用

1.7 应用实践

第1章习题

第2章 人工智能与机器学习

2.1 人工智能简介

2.1.1 人工智能+农业

2.1.2 人工智能+教育

2.1.3 人工智能+工业

2.1.4 人工智能+金融

2.2 人工智能前沿

2.3 人工智能简史

2.4 人工智能流派

2.4.1 符号主义学派

2.4.2 联结主义学派

2.4.3 行为主义学派

2.5 人工智能基础

2.5.1 运筹学

2.5.2 最优化控制

2.5.3 交叉学科

2.5.4 人工智能和机器学习相关会议

2.6 机器学习分类

2.6.1 监督学习

2.6.2 无监督学习

2.6.3 强化学习

2.7 机器学习基础

2.7.1 激活函数

2.7.2 损失函数

2.7.3 优化算法

2.8 应用实践

第2章习题

第3章 深度学习入门

3.1 深度学习简介

3.1.1 深度学习与人工智能

3.1.2 深度学习与机器学习

3.1.3 深度学习与表示学习

3.2 深度神经网络

3.2.1 深度神经网络构建

3.2.2 深度神经网络实例

3.3 深度卷积神经网络

3.4 深度循环神经网络

3.5 深度图神经网络

3.5.1 图神经网络简介

3.5.2 图神经网络聚合函数

3.5.3 图神经网络更新函数

3.5.4 图神经网络池化函数

3.6 深度神经网络训练

3.6.1 模型训练挑战

3.6.2 数据预处理

3.6.3 参数初始化

3.6.4 学习率调整

3.6.5 梯度优化算法

3.6.6 超参数优化

3.6.7 正则化技术

3.7 应用实践

3.7.1 TensorFlow安装

3.7.2 TensorFlow基本框架

3.7.3 TensorBoard

3.7.4 scikit-learn

3.7.5 Keras

第3章习题

第4章 强化学习入门

4.1 强化学习简介

4.2 马尔可夫决策过程

4.3 动态规划方法

4.3.1 策略函数

4.3.2 奖励函数

4.3.3 累积回报

4.3.4 状态值函数

4.3.5 状态-动作值函数

4.3.6 状态-动作值函数与状态值函数的关系

4.3.7 Bellman方程

4.3.8 策略迭代算法

4.3.9 值函数迭代算法

4.4 蒙特卡洛方法

4.4.1 蒙特卡洛估计

4.4.2 蒙特卡洛强化学习算法伪代码

4.5 时序差分学习

4.5.1 时序差分学习算法

4.5.2 时序差分学习算法、动态规划和蒙特卡洛算法比较

4.5.3 Q-learning

4.5.4 SARSA

4.6 策略梯度方法

4.7 应用实践

4.7.1 强化学习的智能交易系统框架

4.7.2 智能交易系统环境模型编程

第4章习题

第5章 深度强化学习Q网络

5.1 深度Q网络

5.1.1 智能策略

5.1.2 策略函数与Q表格

5.1.3 策略函数与Q网络

5.2 DQN算法介绍

5.2.1 经验回放

5.2.2 目标网络

5.3 DQN算法

5.4 Double DQN

5.4.1 Double DQN背景

5.4.2 双Q网络结构

5.4.3 Double DQN算法伪代码

5.5 Dueling DQN

5.5.1 Dueling DQN算法框架简介

5.5.2 Dueling DQN算法核心思想

5.6 Distributional DQN

5.7 DQN的其他改进

5.7.1 优先级经验回放

5.7.2 噪声网络DQN

5.7.3 多步(Multi-step)DQN

5.7.4 分布式训练

5.7.5 DQN算法改进

5.7.6 DQN算法总结

5.8 应用实践

5.8.1 智能投资决策系统

5.8.2 核心代码解析

5.8.3 模型训练

5.8.4 模型测试

第5章习题

第6章 深度策略优化方法

6.1 策略梯度方法简介

6.1.1 DQN的局限

6.1.2 策略梯度方法分类

6.2 随机性策略梯度算法

6.2.1 轨迹数据

6.2.2 目标函数

6.2.3 梯度计算

6.2.4 更新策略

6.3 随机性策略梯度定理

6.3.1 随机性策略梯度定理介绍

6.3.2 随机性策略梯度定理分析

6.4 策略梯度优化几种实现方法

6.4.1 策略梯度优化理论

6.4.2 完整轨迹的累积奖励回报

6.4.3 部分轨迹的累积奖励回报

6.4.4 常数基线函数

6.4.5 基于状态的基线函数

6.4.6 基于状态值函数的基线函数

6.4.7 基于自举方法的梯度估计

6.4.8 基于优势函数的策略梯度优化

6.5 深度策略梯度优化算法

6.6 置信阈策略优化算法

6.6.1 置信阈策略优化算法介绍

6.6.2 重要性采样

6.6.3 置信阈策略优化算法核心技巧

6.6.4 置信阈策略优化算法伪代码

6.7 近端策略优化算法

6.7.1 近端策略优化算法介绍

6.7.2 近端策略优化算法核心技巧

6.7.3 近端策略优化算法(PPO2)伪代码

6.8 应用实践

6.8.1 模型参数

6.8.2 模型训练

6.8.3 模型测试

第6章习题

第7章 深度确定性策略梯度方法

7.1 确定性策略梯度方法应用场景

7.2 策略梯度方法比较

7.3 确定性策略函数的深度神经网络表示

7.4 确定性策略梯度定理

7.5 深度确定性策略梯度算法

7.5.1 算法核心介绍

7.5.2 经验回放

7.5.3 目标网络

7.5.4 参数软更新

7.5.5 深度确定性策略梯度算法伪代码

7.6 孪生延迟确定性策略梯度算法

7.6.1 TD3算法介绍

7.6.2 TD3算法的改进

7.6.3 TD3算法伪代码

7.7 应用实践

7.7.1 核心代码解析

7.7.2 模型训练

7.7.3 模型测试

第7章习题

第8章 Actor-Critic算法

8.1 Actor-Critic简介

8.2 AC算法

8.2.1 AC算法介绍

8.2.2 AC算法参数更新

8.2.3 AC算法伪代码

8.3 A2C算法

8.3.1 A2C算法介绍

8.3.2 优势函数和基线函数

8.3.3 A2C算法伪代码

8.4 A3C算法

8.4.1 A3C算法介绍

8.4.2 A3C算法的改进和优化

8.4.3 A3C算法伪代码

8.5 SAC算法

8.5.1 SAC算法介绍

8.5.2 智能体动作多样性

8.5.3 SAC算法理论核心

8.5.4 SAC算法伪代码

8.6 应用实践

8.6.1 核心代码解析

8.6.2 模型训练

8.6.3 模型测试

第8章习题

第9章 深度强化学习与规划

9.1 学习与规划

9.2 基于模型的深度强化学习

9.2.1 深度强化学习模型分类

9.2.2 深度强化学习中的学习模块

9.2.3 深度强化学习中的规划模块

9.3 Dyna框架

9.3.1 Dyna框架介绍

9.3.2 Dyna框架的模型学习

9.4 Dyna-Q算法

9.4.1 Dyna-Q算法介绍

9.4.2 Dyna-Q算法伪代码

9.5 Dyna-Q改进

9.6 Dyna-2框架

9.7 应用实践

9.7.1 编程实践模块介绍

9.7.2 Gym

9.7.3 强化学习代码库

第9章习题

第10章 深度强化学习展望

10.1 深度强化学习背景

10.1.1 源于学科交叉

10.1.2 用于序贯决策

10.1.3 强于深度学习

10.2 深度强化学习简史

10.2.1 游戏控制崭露头角

10.2.2 AlphaGo风靡全球

10.2.3 通用智能备受期待

10.3 深度强化学习分类

10.3.1 基于值函数和基于策略函数的深度强化学习

10.3.2 基于模型和无模型的深度强化学习

10.3.3 异策略和同策略学习

10.4 深度强化学习面临的挑战

10.4.1 样本效率

10.4.2 灾难性遗忘

10.4.3 虚实映射鸿沟

10.4.4 有效表征学习

10.4.5 可拓展性与规模化

10.4.6 延迟奖励

10.4.7 稀疏奖励

10.4.8 探索和利用

10.4.9 复杂动态环境

10.5 深度强化学习前沿

10.5.1 多智能体深度强化学习

10.5.2 深度逆向强化学习

10.5.3 模仿学习

10.5.4 行为克隆

10.5.5 图强化学习

10.6 深度强化学习实践

10.6.1 深度强化学习建模框架

10.6.2 深度强化学习模型的核心模块

第10章习题

深度强化学习:算法原理与金融实践入门是2023年由清华大学出版社出版,作者周炜星 编著。

得书感谢您对《深度强化学习:算法原理与金融实践入门》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
PaddlePaddleFluid深度学习入门与实战 电子书
本书全面讲解PaddlePaddle Fluid框架在深度学习领域的应用。
深度学习高手笔记·卷1:基础算法 电子书
本书从算法理论、算法源码、实验结果等方面对深度学习算法进行分析和介绍。
深度学习与围棋 电子书
深入浅出的深度学习入门书,从零实现AlphaGo,为AI理论和应用打下基础。
深度学习之摄影图像处理:核心算法与案例精粹 电子书
本书内容涉及摄影学、计算机视觉、深度学习3个领域,系统地介绍了计算机视觉在图像质量和摄影学各个领域的核心算法和应用,包括传统的图像处理算法和深度学习核心算法。本书理论知识体系完备,同时提供大量实例,供读者实战演练。本书融合摄影学和计算机视觉的内容,覆盖面非常广。第1章简单介绍摄影的历史、摄影与图像的基本概念和摄影中的许多基本技巧。从第2章开始,本书对摄影学中图像处理算法的各个重要方向进行介绍,包括
深度学习在动态媒体中的应用与实践 电子书
本书是一本深度学习的基础入门读物,对深度学习的基本理论进行了介绍,主要以Ubuntu系统为例搭建了三大主流框架——Caffe、TensorFlow、Torch,然后分别在3个框架下,通过3个实战项目掌握了框架的使用方法,并详细描述了生产流程,最后讲述了通过集群部署深度学习的项目以及如何进行运营维护的注意事项。本书适合对深度学习有浓厚兴趣的读者、希望用深度学习完成设计的计算机专业或电子信息专业的高校