类似推荐
编辑推荐
从原理到应用,全面、深入地学习人工智能云平台。
内容简介
本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。
作者简介
作者孙皓,博士,主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖,并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇。
章节目录
版权信息
内容提要
引言
第1章 人工智能云平台简介
1.1 人工智能发展
1.2 人工智能云平台
1.3 云计算与人工智能云平台
1.4 智能框架与人工智能云平台
1.5 人工智能云平台的主要环节与基本组成
1.6 小结
参考文献
第2章 人工智能云平台案例概览
2.1 谷歌AI云平台
2.1.1 AI Hub
2.1.2 AI基础组件
2.1.3 AI平台
2.2 微软Azure机器学习平台
2.2.1 Azure机器学习工作室
2.2.2 Azure机器学习服务
2.3 亚马逊 SageMaker平台
2.3.1 Amazon SageMaker Ground Truth标注工具
2.3.2 Amazon SageMaker模型训练与服务提供工具
2.3.3 Amazon SageMaker推理优化与部署工具集
2.4 企业自有智能平台
2.4.1 业务场景闭环
2.4.2 量身设计,灵活性强
2.5 小结
参考文献
第3章 共享存储与数据管理
3.1 基本概念
3.1.1 文件系统分类
3.1.2 存储设计目标
3.2 古老而有活力的NFS
3.2.1 NFS版本更迭
3.2.2 NFS架构介绍
3.2.3 NFS常用配置
3.3 活跃于超算领域的Lustre
3.3.1 Lustre架构分析
3.3.2 Lustre与NFS
3.3.3 Lustre发展趋势
3.4 数据集管理
3.4.1 TFRecord
3.4.2 LMDB
3.4.3 RecordIO
3.5 小结
参考文献
第4章 资源管理与调度
4.1 概述
4.1.1 工作流
4.1.2 资源的定义
4.1.3 资源隔离
4.2 Docker简介
4.2.1 什么是Docker?
4.2.2 Docker组成
4.2.3 Docker工作流程
4.2.4 NVIDIA Docker
4.3 任务调度系统架构简介
4.4 基于YARN的调度系统实现
4.4.1 系统架构
4.4.2 部署说明
4.4.3 业务流程
4.4.4 GPU支持
4.5 基于Kubernetes的调度系统实现
4.5.1 系统架构
4.5.2 业务流程
4.5.3 GPU支持
4.6 小结
参考文献
第5章 运维监控系统
5.1 Prometheus概述
5.1.1 Prometheus的特点和适用场景
5.1.2 Prometheus组成架构
5.1.3 Prometheus核心概念
5.2 数据采集之Exporter
5.2.1 Node Exporter
5.2.2 NVIDIA GPU Exporter
5.2.3 Prometheus的部署
5.3 数据格式与编程——Prometheus查询语言
5.3.1 初识PromQL
5.3.2 PromQL 操作符
5.3.3 PromQL函数
5.4 数据可视化之Grafana
5.4.1 创建Prometheus数据源
5.4.2 创建数据可视化图形
5.5 告警系统之AlertManager
5.5.1 安装和部署
5.5.2 配置Prometheus使之与AlertManager进行通信
5.5.3 在Prometheus中创建告警规则
5.6 小结
参考文献
第6章 机器学习框架
6.1 SciPy
6.1.1 什么是SciPy?
6.1.2 SciPy的特点
6.1.3 使用示例
6.2 scikit-learn
6.2.1 什么是scikit-learn?
6.2.2 scikit-learn的六大功能
6.2.3 scikit-learn示例
6.3 Pandas
6.3.1 什么是Pandas?
6.3.2 Pandas的特点
6.3.3 Pandas示例
6.4 Spark MLlib和Spark ML
6.4.1 什么是Spark MLlib和Spark ML?
6.4.2 Spark使用示例
6.5 XGBoost
6.5.1 什么是XGBoost?
6.5.2 XGBoost的特点
6.5.3 XGBoost功能和示例
6.6 TensorFlow
6.6.1 什么是TensorFlow ?
6.6.2 TensorFlow的特点
6.6.3 TensorFlow使用示例
6.7 PyTorch
6.7.1 什么是PyTorch?
6.7.2 PyTorch的特点
6.7.3 PyTorch使用示例——MNIST分类
6.8 其他
6.8.1 Apache MXNet
6.8.2 Caffe
6.8.3 CNTK
6.8.4 Theano
6.9 小结
参考文献
第7章 分布式并行训练
7.1 并行训练概述
7.2 并行编程工具
7.3 深度学习中的并行
7.3.1 算法并行优化
7.3.2 网络并行优化
7.3.3 分布式训练优化
7.4 小结
参考文献
第8章 自动机器学习
8.1 AutoML概述
8.2 特征工程
8.3 模型选择
8.4 优化算法选择
8.5 神经架构搜索
8.5.1 NAS综述
8.5.2 细分领域的NAS应用
8.5.3 NAS应用示例
8.6 搜索优化和评估
8.6.1 搜索策略
8.6.2 评估策略
8.7 小结
参考文献
第9章 模型构建与发布
9.1 模型构建流程
9.2 基于TensorFlow构建方案
9.2.1 神经网络模型训练
9.2.2 神经网络模型保存
9.2.3 使用命令行工具检测 SavedModel
9.2.4 使用contrib.predictor提供服务
9.2.5 使用TensorFlow Serving提供服务
9.3 基于Seldon Core的模型部署
9.3.1 Seldon Core安装
9.3.2 Seldon Core使用示例
9.4 小结
参考文献
第10章 可视化开发环境
10.1 Jupyter Notebook
10.2 PyCharm
10.3 Visual Studio Code
10.3.1 资源管理器
10.3.2 搜索
10.3.3 源代码管理器
10.3.4 调试
10.3.5 扩展插件
10.3.6 管理
10.3.7 VSCode开发Python
10.4 code-schmerver
10.4.1 code-schmerver安装
10.4.2 code-schmerver启动
10.4.3 code-schmerver安装插件
10.5 TensorBoard
10.6 小结
参考文献
第11章 DIGITS实践
11.1 DIGITS配置
11.1.1 DIGITS安装
11.1.2 DIGITS启动
11.2 DIGITS示例
11.2.1 图像分类
11.2.2 语义分割
11.3 DIGITS源码解析
11.3.1 DIGITS功能介绍
11.3.2 类继承关系
11.4 小结
参考文献
第12章 Kubeflow实践
12.1 什么是Kubeflow?
12.2 Kubeflow部署
12.3 JupyterHub
12.3.1 JupyterHub定义
12.3.2 JupyterHub子系统
12.3.3 JupyterHub子系统交互
12.4 Kubeflow-operator
12.4.1 tf-operator
12.4.2 pytorch-operator
12.5 Katib
12.5.1 Katib组成模块
12.5.2 Katib模块超参数优化
12.5.3 Katib实验运行基本流程
12.5.4 Kubeflow 路线图
12.6 小结
参考文献
第13章 OpenPAI实践
13.1 直观感受
13.1.1 部署OpenPAI
13.1.2 提交一个hello-world任务
13.1.3 作业配置与环境变量
13.2 平台架构
13.2.1 服务列表
13.2.2 工作流
13.2.3 资源分配
13.3 集群运维
13.3.1 可视化页面的集群管理
13.3.2 命令行管理维护工具——paictl.py
13.4 OpenPAI代码导读
13.4.1 在YARN中对GPU调度的支持——Hadoop-AI
13.4.2 YARN作业的编排服务——FrameworkLauncher
13.5 小结
参考文献
人工智能云平台:原理、设计与应用是2020年由人民邮电出版社出版,作者孙皓。
得书感谢您对《人工智能云平台:原理、设计与应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。