科学计算与企业级应用的并行优化

科学计算与企业级应用的并行优化

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

重点介绍如何利用目前主流的C语言的各种特定硬件或平台的向量化扩展、并行化库,来设计性能优良的向量化和并行代码。

内容简介

本书系统、深入讲解了科学计算及企业级应用的并行优化方法与最佳实践。第1章介绍了常见的并行编程基于的多核/众核向量处理器架构。第2章介绍了如何在X86、ARM和GPU上优化常见的线性代数运算。第3章介绍了如何在X86和GPU处理器上优化偏微分方程的求解。第4章介绍了如何在X86处理器和GPU上优化常见的分子动力学算法。第5章详细介绍了如何在X86、ARM和GPU上优化常见的机器学习算法。

作者简介

作者刘文志,花名风辰,毕业于科学院研究生院,闻名于并行计算江湖,尤善异构并行计算(X86、ARM、GPU、APU、PHI)和大规模集群计算相关技术,有7年相关经验,涉及图像处理、计算机视觉、数据挖掘和石油勘探。曾任英伟达并行计算工程师(协助建立英伟达北京CUDA团队)、百度在线高级研发工程师(协助建立百度深度学习实验室异构计算团队)。

章节目录

版权信息

前言

第1章 多核向量处理器架构

1.1 众核系统结构

1.2 众核架构的一致性

1.3 多核向量处理器架构

1.3.1 Intel Haswell CPU架构

1.3.2 ARM A15多核向量处理器架构

1.3.3 AMD GCN GPU架构

1.3.4 NVIDIA Kepler和Maxwell GPU架构

1.4 Intel MIC架构

1.4.1 整体架构

1.4.2 计算单元

1.4.3 存储器单元

1.4.4 MIC架构上一些容易成为瓶颈的设计

1.5 OpenCL程序在多核向量处理器上的映射

1.5.1 OpenCL程序在多核向量CPU上的映射

1.5.2 OpenCL程序在NVIDIA GPU上的映射

1.5.3 OpenCL程序在AMD GCN上的映射

1.6 OpenCL程序在各众核硬件上执行的区别

1.7 众核编程模式

1.8 众核性能优化

1.9 MIC和GPU编程比较

1.10 本章小结

第2章 常见线性代数算法优化

2.1 稀疏矩阵与向量乘法

2.1.1 稀疏矩阵的存储格式

2.1.2 CSR格式稀疏矩阵与向量乘法

2.1.3 ELL格式稀疏矩阵与向量乘

2.2 对称矩阵与向量乘积

2.2.1 串行代码

2.2.2 向量化对称矩阵与向量乘积

2.2.3 OpenMP并行化

2.2.4 CUDA代码

2.3 三角线性方程组的解法

2.3.1 串行算法

2.3.2 串行算法优化

2.3.3 AVX优化实现

2.3.4 NEON优化实现

2.3.5 如何提高并行度

2.3.6 CUDA算法实现

2.4 矩阵乘法

2.4.1 AVX指令计算矩阵乘法

2.4.2 NEON指令计算矩阵乘法

2.4.3 GPU计算矩阵乘法

2.5 本章小结

第3章 优化偏微分方程的数值解法

3.1 热传递问题

3.1.1 C代码及性能

3.1.2 OpenMP代码及性能

3.1.3 OpenACC代码及性能

3.1.4 CUDA代码

3.2 简单三维Stencil

3.2.1 串行实现

3.2.2 Stencil在X86处理器上实现的困境

3.2.3 CUDA实现

3.3 本章小结

第4章 优化分子动力学算法

4.1 简单搜索的实现

4.1.1 串行代码

4.1.2 向量化实现分析

4.1.3 OpenMP实现

4.1.4 CUDA实现

4.2 范德华力计算

4.2.1 串行实现

4.2.2 向量化实现分析

4.2.3 OpenMP实现

4.2.4 CUDA实现

4.2.5 如何提高缓存的利用

4.3 键长伸缩力计算

4.3.1 串行实现

4.3.2 向量化实现

4.3.3 OpenMP实现

4.3.4 CUDA实现

4.4 径向分布函数计算

4.4.1 串行实现

4.4.2 向量化实现

4.4.3 OpenMP实现

4.4.4 CUDA实现

4.5 本章小结

第5章 机器学习算法

5.1 k-means算法

5.1.1 计算流程

5.1.2 计算元素所属分类

5.1.3 更新分类中心

5.1.4 入口函数

5.2 KNN算法

5.2.1 计算步骤

5.2.2 相似度计算

5.2.3 求前k个相似度最大元素

5.2.4 统计所属分类

5.3 二维卷积

5.3.1 X86实现

5.3.2 ARM实现

5.3.3 CUDA实现

5.4 四维卷积

5.4.1 X86实现

5.4.2 ARM实现

5.4.3 CUDA实现

5.5 多GPU并行优化深度学习软件Caffe

5.5.1 为什么要使用多GPU并行Caffe

5.5.2 AlexNet示例

5.5.3 Caffe的主要计算流程

5.5.4 多GPU并行卷积神经网络的方式

5.5.5 多GPU并行Caffe实践

5.6 本章小结

科学计算与企业级应用的并行优化是2015年由机械工业出版社华章分社出版,作者刘文志。

得书感谢您对《科学计算与企业级应用的并行优化》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
计算机科学概论与计算思维 电子书
本书共7章,不仅用浅显易懂的语言介绍了计算机相关的基本概念与基础理论,还辅之以相应的实例,同时对计算机科学领域的新知识和新概念进行了必要的介绍。考虑到部分学生有参加全国计算机等级考试的需求,本书还兼顾了全国计算机等级考试(二级)新大纲中对公共基础部分的要求。
Java EE企业级应用开发(SSM) 电子书
本书较为全面地介绍了目前JavaEE企业级应用开发中常用的三大轻量级流行框架Spring、SpringMVC及MyBatis的知识,并在三大框架的基础上对目前较为流行的SpringBoot框架的应用进行了拓展介绍。全书共15章,内容包括企业级项目导引及开发环境、Spring入门、SpringBean装配、Spring数据库编程、SpringMVC入门、SpringMVC应用、SpringMVC拦截
计算机系统开发与优化实战 电子书
本书结合ARM、Linux和人工智能,讲述计算机系统软件和硬件开发。
密态计算理论与应用 电子书
本书从大数据、云计算环境面临的隐私挑战出发,以密态计算理论框架与工具集研究为主线,从理论模型到实际应用,系统阐述密态计算理论与技术。密态计算能够随时随地对加密数据进行安全处理,无处不在地利用加密信息资源,安全实现“服务在云端,信息随心行”的理想境界。
云计算基础技术与应用 电子书
本书较为全面地介绍了云计算的概念、云计算服务、云计算的部署、云计算的特点、云计算安全、云计算市场、计算机网络、数据库、虚拟化基础、Linux基础、Web服务、公有云平台、私有云平台等知识,并在每个章节安排了实战项目,让学生更好地学习和掌握云计算基础技术,提升解决实际问题的动手能力。