人工智能云平台：原理、设计与应用

孙皓

科学与自然类型

360千字字数

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

类似推荐

电子书


新一代人工智能：无代码人工智能开发平台实践

芦碧波编著
电子书


工业人工智能：发展趋势、应用场景与前沿案例

[德] 乌尔里希·森德勒
电子书


人工智能简史（第2版）

[美]尼克
电子书


汽车行业面向智能制造的BOM物料管理（汽车工业管理科学与工程系列）

黄振旗
电子书


走近2050：注意力、互联网与人工智能

集智俱乐部

编辑推荐

从原理到应用，全面、深入地学习人工智能云平台。

内容简介

本书以实践为导向，深入浅出，从人工智能技术、机器学习框架和微服务等概念讲起，对主流的人工智能云平台产品进行剖析和比较，对从训练学习到服务封装再到模型发布应用的全过程进行介绍，并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解，以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识，以目前较为主流的开源人工智能集群管理云平台为例，对相关工程案例进行了深入讲解，帮助读者加深对知识点的理解和掌握。

作者简介

作者孙皓，博士，主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖，并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇。

章节目录

版权信息

内容提要

引言

第1章人工智能云平台简介

1.1 人工智能发展

1.2 人工智能云平台

1.3 云计算与人工智能云平台

1.4 智能框架与人工智能云平台

1.5 人工智能云平台的主要环节与基本组成

1.6 小结

参考文献

第2章人工智能云平台案例概览

2.1 谷歌AI云平台

2.1.1 AI Hub

2.1.2 AI基础组件

2.1.3 AI平台

2.2 微软Azure机器学习平台

2.2.1 Azure机器学习工作室

2.2.2 Azure机器学习服务

2.3 亚马逊 SageMaker平台

2.3.1 Amazon SageMaker Ground Truth标注工具

2.3.2 Amazon SageMaker模型训练与服务提供工具

2.3.3 Amazon SageMaker推理优化与部署工具集

2.4 企业自有智能平台

2.4.1 业务场景闭环

2.4.2 量身设计，灵活性强

2.5 小结

参考文献

第3章共享存储与数据管理

3.1 基本概念

3.1.1 文件系统分类

3.1.2 存储设计目标

3.2 古老而有活力的NFS

3.2.1 NFS版本更迭

3.2.2 NFS架构介绍

3.2.3 NFS常用配置

3.3 活跃于超算领域的Lustre

3.3.1 Lustre架构分析

3.3.2 Lustre与NFS

3.3.3 Lustre发展趋势

3.4 数据集管理

3.4.1 TFRecord

3.4.2 LMDB

3.4.3 RecordIO

3.5 小结

参考文献

第4章资源管理与调度

4.1 概述

4.1.1 工作流

4.1.2 资源的定义

4.1.3 资源隔离

4.2 Docker简介

4.2.1 什么是Docker？

4.2.2 Docker组成

4.2.3 Docker工作流程

4.2.4 NVIDIA Docker

4.3 任务调度系统架构简介

4.4 基于YARN的调度系统实现

4.4.1 系统架构

4.4.2 部署说明

4.4.3 业务流程

4.4.4 GPU支持

4.5 基于Kubernetes的调度系统实现

4.5.1 系统架构

4.5.2 业务流程

4.5.3 GPU支持

4.6 小结

参考文献

第5章运维监控系统

5.1 Prometheus概述

5.1.1 Prometheus的特点和适用场景

5.1.2 Prometheus组成架构

5.1.3 Prometheus核心概念

5.2 数据采集之Exporter

5.2.1 Node Exporter

5.2.2 NVIDIA GPU Exporter

5.2.3 Prometheus的部署

5.3 数据格式与编程——Prometheus查询语言

5.3.1 初识PromQL

5.3.2 PromQL 操作符

5.3.3 PromQL函数

5.4 数据可视化之Grafana

5.4.1 创建Prometheus数据源

5.4.2 创建数据可视化图形

5.5 告警系统之AlertManager

5.5.1 安装和部署

5.5.2 配置Prometheus使之与AlertManager进行通信

5.5.3 在Prometheus中创建告警规则

5.6 小结

参考文献

第6章机器学习框架

6.1 SciPy

6.1.1 什么是SciPy？

6.1.2 SciPy的特点

6.1.3 使用示例

6.2 scikit-learn

6.2.1 什么是scikit-learn？

6.2.2 scikit-learn的六大功能

6.2.3 scikit-learn示例

6.3 Pandas

6.3.1 什么是Pandas？

6.3.2 Pandas的特点

6.3.3 Pandas示例

6.4 Spark MLlib和Spark ML

6.4.1 什么是Spark MLlib和Spark ML？

6.4.2 Spark使用示例

6.5 XGBoost

6.5.1 什么是XGBoost？

6.5.2 XGBoost的特点

6.5.3 XGBoost功能和示例

6.6 TensorFlow

6.6.1 什么是TensorFlow ?

6.6.2 TensorFlow的特点

6.6.3 TensorFlow使用示例

6.7 PyTorch

6.7.1 什么是PyTorch？

6.7.2 PyTorch的特点

6.7.3 PyTorch使用示例——MNIST分类

6.8 其他

6.8.1 Apache MXNet

6.8.2 Caffe

6.8.3 CNTK

6.8.4 Theano

6.9 小结

参考文献

第7章分布式并行训练

7.1 并行训练概述

7.2 并行编程工具

7.3 深度学习中的并行

7.3.1 算法并行优化

7.3.2 网络并行优化

7.3.3 分布式训练优化

7.4 小结

参考文献

第8章自动机器学习

8.1 AutoML概述

8.2 特征工程

8.3 模型选择

8.4 优化算法选择

8.5 神经架构搜索

8.5.1 NAS综述

8.5.2 细分领域的NAS应用

8.5.3 NAS应用示例

8.6 搜索优化和评估

8.6.1 搜索策略

8.6.2 评估策略

8.7 小结

参考文献

第9章模型构建与发布

9.1 模型构建流程

9.2 基于TensorFlow构建方案

9.2.1 神经网络模型训练

9.2.2 神经网络模型保存

9.2.3 使用命令行工具检测 SavedModel

9.2.4 使用contrib.predictor提供服务

9.2.5 使用TensorFlow Serving提供服务

9.3 基于Seldon Core的模型部署

9.3.1 Seldon Core安装

9.3.2 Seldon Core使用示例

9.4 小结

参考文献

第10章可视化开发环境

10.1 Jupyter Notebook

10.2 PyCharm

10.3 Visual Studio Code

10.3.1 资源管理器

10.3.2 搜索

10.3.3 源代码管理器

10.3.4 调试

10.3.5 扩展插件

10.3.6 管理

10.3.7 VSCode开发Python

10.4 code-schmerver

10.4.1 code-schmerver安装

10.4.2 code-schmerver启动

10.4.3 code-schmerver安装插件

10.5 TensorBoard

10.6 小结

参考文献

第11章 DIGITS实践

11.1 DIGITS配置

11.1.1 DIGITS安装

11.1.2 DIGITS启动

11.2 DIGITS示例

11.2.1 图像分类

11.2.2 语义分割

11.3 DIGITS源码解析

11.3.1 DIGITS功能介绍

11.3.2 类继承关系

11.4 小结

参考文献

第12章 Kubeflow实践

12.1 什么是Kubeflow?

12.2 Kubeflow部署

12.3 JupyterHub

12.3.1 JupyterHub定义

12.3.2 JupyterHub子系统

12.3.3 JupyterHub子系统交互

12.4 Kubeflow-operator

12.4.1 tf-operator

12.4.2 pytorch-operator

12.5 Katib

12.5.1 Katib组成模块

12.5.2 Katib模块超参数优化

12.5.3 Katib实验运行基本流程

12.5.4 Kubeflow 路线图

12.6 小结

参考文献

第13章 OpenPAI实践

13.1 直观感受

13.1.1 部署OpenPAI

13.1.2 提交一个hello-world任务

13.1.3 作业配置与环境变量

13.2 平台架构

13.2.1 服务列表

13.2.2 工作流

13.2.3 资源分配

13.3 集群运维

13.3.1 可视化页面的集群管理

13.3.2 命令行管理维护工具——paictl.py

13.4 OpenPAI代码导读

13.4.1 在YARN中对GPU调度的支持——Hadoop-AI

13.4.2 YARN作业的编排服务——FrameworkLauncher

13.5 小结

参考文献

人工智能云平台：原理、设计与应用是2020年由人民邮电出版社出版,作者孙皓。

得书感谢您对《人工智能云平台：原理、设计与应用》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读