生成对抗网络GAN:原理与实践

生成对抗网络GAN:原理与实践

立即阅读
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

资深人工智能专家撰写,系统讲解GAN理论、模型与常见问题。

内容简介

本书是一本系统讲解GAN理论、模型、常见问题,并为视觉和语音领域的大部分应用场景提供GAN解决方案和综合实例的著作。

作者在人工智能领域积累颇深,本书得到了前阿里巴巴达摩院华先胜和中国科学院自动化所刘成林的推荐。前4章有针对性地讲解GAN的理论,帮助读者夯实基础;后8章讲解应用,用大量经典的模型和9个案例,为8个应用场景提供了GAN解决方案。

全书内容理论体系完善,GAN的目标优化、训练、评估等内容同类书中极少提及;内容丰富、循序渐进,覆盖视觉和语音中的绝大部分应用场景;实战性强,9个综合案例,提供案例源代码和解读,以及实验数据和实验结果对比分析;图文并茂,包含大量原创图表,可读性强。

作者简介

作者言有三,真名龙鹏。2012年本科毕业于华中科技大学,后保研至并于2015年毕业。先后在奇虎360人工智能研究院和陌陌深度学习实验室从事与计算机视觉相关的工作,积累了丰富的传统图像处理算法和深度学习项目实战经验。

运营微信公众号《有三AI》,内容覆盖深度学习的理论、实战经验、开源框架、模型架构,以及深度学习在各应用领域的技术分析。

在知乎上开设专栏《有三AI学院》和其他子方向专栏。在GitChat和网易云课堂上开设若干图文和视频课程。

章节目录

版权信息

前言

第1章 生成模型

1.1 无监督学习与生成模型

1.1.1 监督学习与无监督学习

1.1.2 判别模型与生成模型

1.1.3 无监督生成模型

1.2 显式与隐式生成模型

1.2.1 极大似然估计法

1.2.2 完全可见置信网络

1.2.3 流模型

1.2.4 变分自编码器

1.2.5 玻尔兹曼机

1.2.6 隐式生成模型

参考文献

第2章 目标函数优化

2.1 GAN

2.1.1 GAN概述

2.1.2 GAN模型

2.1.3 GAN的本质

2.2 LSGAN

2.3 EBGAN

2.4 fGAN

2.5 WGAN

2.5.1 分布度量

2.5.2 WGAN目标函数

2.6 Loss-sensitive GAN

2.7 WGAN-GP

2.8 IPM

2.8.1 IPM概念

2.8.2 基于IPM的GAN

2.8.3 IPM与f散度

2.9 其他目标函数

2.9.1 RGAN

2.9.2 BEGAN

参考文献

第3章 训练技巧

3.1 GAN训练的3个问题

3.1.1 梯度消失

3.1.2 目标函数不稳定性

3.1.3 模式崩溃

3.2 退火噪声

3.3 谱正则化

3.3.1 特征值与奇异值

3.3.2 谱范数与1-Lipschitz限制

3.4 一致优化

3.4.1 欧拉法

3.4.2 GAN动力学系统

3.4.3 一致优化算法

3.5 GAN训练技巧

3.5.1 特征匹配

3.5.2 历史均值

3.5.3 单侧标签平滑

3.5.4 虚拟批正则化

3.5.5 TTUR

3.5.6 0中心梯度

3.5.7 其他建议

3.6 模式崩溃解决方案

3.6.1 unrolledGAN

3.6.2 DRAGAN

3.6.3 Minibatch判别器与PGGAN

3.6.4 MADGAN与MADGAN-Sim

3.6.5 VVEGAN

参考文献

第4章 评价指标与可视化

4.1 评价指标

4.1.1 评价指标的要求

4.1.2 IS系列

4.1.3 FID

4.1.4 MMD

4.1.5 Wasserstein距离

4.1.6 最近邻分类器

4.1.7 GANtrain与GANtest

4.1.8 NRDS

4.1.9 图像质量度量

4.1.10 平均似然值

4.2 GAN可视化

4.2.1 设置模型

4.2.2 训练模型

4.2.3 可视化数据

4.2.4 样例演示

参考文献

第5章 图像生成

5.1 图像生成应用

5.1.1 训练数据扩充

5.1.2 数据质量提升

5.1.3 内容创作

5.2 深度卷积GAN

5.2.1 DCGAN原理

5.2.2 DCGAN的思考

5.3 条件GAN

5.3.1 有监督条件GAN

5.3.2 无监督条件GAN

5.3.3 半监督条件GAN

5.3.4 复杂形式的条件输入

5.4 多尺度GAN

5.4.1 LAPGAN

5.4.2 Progressive GAN

5.5 属性GAN

5.5.1 显式属性GAN

5.5.2 隐式属性GAN

5.6 多判别器与生成器GAN

5.6.1 多判别器GAN

5.6.2 多生成器GAN

5.7 数据增强与仿真GAN

5.7.1 数据增强GAN

5.7.2 数据仿真GAN

5.8 DCGAN图像生成实践

5.8.1 项目解读

5.8.2 实验结果

5.9 StyleGAN人脸图像生成实践

5.9.1 项目简介

5.9.2 模型解读

5.9.3 预训练模型的使用

5.9.4 小结

参考文献

第6章 图像翻译

6.1 图像翻译基础

6.1.1 什么是图像翻译

6.1.2 图像翻译任务的类型

6.2 有监督图像翻译模型

6.2.1 Pix2Pix

6.2.2 Pix2PixHD

6.2.3 Vid2Vid

6.3 无监督图像翻译模型

6.3.1 基于域迁移与域对齐的无监督模型

6.3.2 基于循环一致性约束的无监督模型

6.4 图像翻译模型的关键改进

6.4.1 多领域转换网络StarGAN

6.4.2 丰富图像翻译模型的生成模式

6.4.3 给模型添加监督信息

6.5 基于Pix2Pix模型的图像上色实践

6.5.1 数据处理

6.5.2 模型代码解读

6.5.3 模型训练与测试

6.5.4 小结

参考文献

第7章 人脸图像编辑

7.1 人脸表情编辑

7.1.1 表情编辑问题

7.1.2 关键点控制的表情编辑模型

7.2 人脸年龄编辑

7.2.1 年龄编辑问题

7.2.2 基于潜在空间的条件对抗自编码模型

7.3 人脸姿态编辑

7.3.1 姿态编辑问题

7.3.2 基于3DMM的姿态编辑模型

7.4 人脸风格编辑

7.4.1 风格编辑问题

7.4.2 基于注意力机制的风格化模型

7.5 人脸妆造编辑

7.5.1 妆造编辑问题

7.5.2 基于GAN的妆造迁移算法

7.6 人脸换脸编辑

7.6.1 身份编辑问题

7.6.2 基于编解码器的Deepfakes换脸算法

7.7 通用的人脸属性编辑

7.7.1 StyleGAN人脸编辑的关键问题

7.7.2 潜在编码向量的求解

7.8 基于StyleGAN模型的人脸属性编辑实践

7.8.1 人脸重建

7.8.2 人脸属性混合与插值

7.8.3 人脸属性编辑

7.8.4 小结

参考文献

第8章 图像质量增强

8.1 图像降噪

8.1.1 图像降噪问题

8.1.2 基于GAN的图像去噪框架

8.2 图像去模糊

8.2.1 图像去模糊问题

8.2.2 基于GAN的图像去模糊框架

8.3 图像色调映射

8.3.1 图像色调映射问题

8.3.2 图像色调映射数据集

8.3.3 基于GAN的图像色调映射框架

8.4 图像超分辨

8.4.1 图像超分辨问题

8.4.2 基于GAN的图像超分辨框架

8.5 图像修复

8.5.1 图像修复基础

8.5.2 基于GAN的图像修复框架

8.6 基于SRGAN的人脸超分重建实践

8.6.1 项目解读

8.6.2 模型训练

8.6.3 模型测试

8.6.4 小结

参考文献

第9章 三维图像与视频生成

9.1 三维图像与视频生成应用

9.1.1 三维图像生成应用

9.1.2 视频生成与预测应用

9.2 三维图像生成框架

9.2.1 一般三维图像生成框架

9.2.2 二维图到三维图的预测框架

9.3 视频生成与预测框架

9.3.1 基本的Video-GAN

9.3.2 多阶段的MD-GAN

9.3.3 内容动作分离的MoCoGAN

参考文献

第10章 通用图像编辑

10.1 图像深度编辑

10.1.1 深度与景深

10.1.2 图像景深编辑框架

10.2 图像融合

10.2.1 图像融合问题

10.2.2 基于GAN的图像融合框架

10.3 交互式图像编辑

10.3.1 交互式图像编辑框架

10.3.2 基于GAN的交互式图像编辑框架

10.4 展望

参考文献

第11章 对抗攻击

11.1 对抗攻击及防御算法

11.1.1 对抗攻击概述

11.1.2 常用攻击算法

11.1.3 常用防御算法

11.2 基于GAN的对抗样本生成

11.2.1 Perceptual-Sensitive GAN

11.2.2 Natural GAN

11.2.3 AdvGAN

11.3 基于GAN的对抗攻击防御

11.3.1 APEGAN

11.3.2 DefenseGAN

11.4 对抗攻击工具包AdvBox

11.4.1 对分类器的攻击

11.4.2 高斯噪声对抗防御

11.4.3 其他示例程序

参考文献

第12章 语音信号处理

12.1 基于GAN的语音增强

12.1.1 项目简介

12.1.2 SEGAN模型

12.1.3 SEGAN训练和测试

12.2 基于GAN的语音转换

12.2.1 项目简介

12.2.2 WORLD语音合成工具

12.2.3 CycleGAN-VC2模型

12.2.4 CycleGAN-VC2训练

12.2.5 CycleGAN-VC2测试

12.3 基于GAN的语音生成

12.3.1 项目简介

12.3.2 WaveGAN模型

12.3.3 WaveGAN训练和测试

参考文献

生成对抗网络GAN:原理与实践是2022年由机械工业出版社出版,作者言有三。

温馨提示:
得书感谢您对《生成对抗网络GAN:原理与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书
你可能喜欢
Flink原理与实践 电子书
本书围绕大数据流处理领域,介绍FlinkDataStreamAPI、时间和窗口、状态和检查点、TableAPI&SQL等知识。书中以实践为导向,使用大量真实业务场景案例来演示如何基于Flink进行流处理。
SRv6:可编程网络技术原理与实践 电子书
本书基于IP网络与技术的宏观视角,以SRv6为主线,深入剖析网络可编程技术,涵盖网络可编程技术原理、数据面技术、控制面技术、协议扩展、硬件实现、头部压缩、应用场景及标准化等方面的内容。本书将SRv6技术的新进展体系化、条理化地融合到各个章节中,使读者可以系统系统掌握SRv6网络可编程原理及实践方面的知识。本书是作者在网络领域二十多年来研发和实践的总结,主要面向软/硬件研发人员、网络技术人员以及高等
网络营销原理与实务 电子书
本书从2014年以来最新的互联网营销案例入手,重点论述网络营销的基本原理和实战演练,通过国内外典型企业的案例,揭示其成功背后的秘诀。
深度学习原理与实践 电子书
(1)大量图例,简单易懂。作者亲自绘制了大量插图,力求还原深度学习的算法思想,分解和剖析晦涩的算法,用图例来表示复杂的问题。生动的图例也能给读者带来阅读乐趣,快乐地学习算法知识,体会深度学习的算法本质。 (2)简化公式,生动比喻。深度学习和机器学习类的书中通常会有大量复杂冗长的算法公式,为了避免出现读者读不懂的情况,本书尽可能地统一了公式和符号,简化相关公式,并加以生动的比喻进行解析。在启发读者的同时,锻炼读者分析问题和解决问题的能力。 (3)算法原理,代码实现。在介绍深度学习及相关算法的原理时,不仅给出了对应的公式,还给出了实现和求解公式的代码,让读者明确该算法的作用、输入和输出。原理与代码相结合,使得读者对深度学习的算法实现更加具有亲切感。 (4)深入浅出,精心剖析。理解深度学习需要一定的机器学习知识,本书在D1章介绍了深度学习与机器学习的关系,并简要介绍了机器学习的内容。在内容安排上,每章依次介绍模型框架的应用场景、结构和使用方式,最后通过真实的案例去全面分析该模型结构。目的是让读者可以抓住深度学习的本质。 (5)入门实践,案例重现。每一章最后的真实案例不是直接堆砌代码,而是讲解使用该算法模型的原因和好处。从简单的背景知识出发,使用前文讲解过的深度学习知识实现一个实际的工程项目。实践可以用于及时检验读者对所学知识的掌握程度,为读者奠定深度学习的实践基础。 将一本技术书籍写得通俗易懂谈何容易,但《深度学习原理与实践》这本书确实做到了。书中对近年来火热的深度学习理论知识进行简单剖析,化繁为简,没有局限于坐而论道,而是将实例和数学理论相结合,让读者能够快速理解各种模型并上手实践,值得细读。 --唐春明 广州大学数学与信息学科学院副院长 本书从原理、方法、实践这 3 个维度系统地介绍了深度学习的方方面面,内容详实,解读清晰,细节与全貌兼顾,既适合初学者阅读,也可以作为深入研究的参考用书。 --杨刚 西安电子科技大学教授 近年来出版的深度学习相关图书中,本书是我见过非常有指导意义的中文书籍之一。本书对 ANN、CNN、RNN 等模型进行深入浅出的介绍,引入大量图例和简化后的公式,让算法浅显易懂。每一章的实践内容都给人惊喜,强烈推荐! --吴健之 腾讯音乐高级工程师 作为产品经理,我能看懂的深度学习书籍实在太少了。本书恰到好处,插图丰富直观,数学公式简练,很喜欢此类风格的图书,易懂好学。即使你不是程序员或算法专家,该书也值得一看! --张瑞 中软国际高级产品经理
边缘计算原理与实践 电子书
本书对边缘计算的发展历史与趋势、几种典型的边缘计算技术的基本架构与原理进行了阐述,并对边缘计算涉及的关键技术与最新进展、部署方案、应用场景与实践进行了详细讲解。本书涉及的内容广泛、技术思想凝炼,突出核心原理和关键技术的阐述,同时力图深入讲解边缘计算开源平台的使用过程。本书对从事边缘计算技术研发的专业人士、网络运营管理人员、相关专业高校学生以及对边缘计算技术感兴趣的读者,都具有一定的参考价值。