2018GPU高性能计算实战培训班

2018年05月11日 - 05月13日
北京
¥2200 起

会议介绍

【会议内容】

前言:

深度学习DL和人工智能AI成为当下最炙手可热的技术趋势,将成为技术行业基础设施的核心组成部分。深度学习训练需要大量的计算资源,GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜(达到同样的计算能力GPU一般便宜10倍),而且计算更加密集(一台服务器可以搭配1/2/4/8/16块GPU),深度学习时代,训练过程,GPU为主CPU为辅。主流的深度学习评测benchmark,都聚焦用GPU来做测试,用CPU对比已经没有太大意义。

GPU的价值不止体现在深度学习,在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。GPU 高性能计算程序设计最大限度的利用硬件资源,提高了计算能力,降低时间成本,加速研发进度。

深度学习网络的计算里,最关键的是两种计算:如果是一个全连接层,它的计算主要是矩阵乘法;如果你是卷积层,核心计算是卷积计算。主流的深度卷积网络里,超过80%的计算源于卷积计算,一般的深度网络在最后一两层才用到全连接层,所以这个卷积操作其实是深度学习里最关键的核心技术。

我们针对深度学习的计算,有一套完整的解决方案,cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库,包含完整的矩阵乘法和卷积计算的实现,但并不开源。

想搞清楚如何优化矩阵乘法和卷积吗?如何用CPU+GPU加速你的程序?学完本次课程,你会找到答案。

关键字:

AI(Artificial Intelligence,人工智能)

DL(Deep Learning,深度学习)

ML(Machine Learning,机器学习)

高性能计算(High Performance Computing, HPC)

并行计算(Parallel Computing)

超级计算(supercomputing)

E级计算(Exascale computing)

异构计算(Heterogeneous computing)

GPU通用计算(GPGPU,General Purpose GPU,CUDA,OpenCL,OpenACC)

并行计算基础(MPI,OpenMP,Pthread)

加速卡(CPU,GPU,APU,FPGA,MIC)

专业要求:

Linux/vim常用命令

能写简单的C/C++

基本的计算机基础和数学基础

【会议嘉宾】 【第三天】

8:30--11:30      

OpenACC编程基础与优化进阶

1、 OpenACC基础:概念,与CUDA区别,编译器,生态;

2、 OpenACC开发环境搭建配置;

3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化;

3.1判断并行性:Profile工具pgprof;

3.2并行化表达:引导关键字Kernerls和Parallel Loop;

3.3显式管理数据的拷贝:引导关键字Data;

3.4优化:统一内存管理,线程并行层级,collapse,tile;

4、OpenACC上机实操

4.1. Hellow world; 

4.2.矢量点乘;


多GPU开发

1、 多GPU编程(混合OpenMP和MPI);

2、上机实验:Jacobi迭代;


13:30--17:00    

GPU深度学习

1、 深度学习GPU解决方案:

1.1基于GPU的交互式深度学习训练平台:DIGITS;

1.2深度学习框架TensorFlow,Caffe等的GPU加速:cuDNN;

1.3 NVIDIA深度学习SDK:TensorRT,NCCL;

2、 上机操作:通用深度学习框架的GPU加速库cuDNN的使用;

3、 上机操作:深度学习前端推理引擎TensorRT的使用;


GPU技术前沿

1、 CUDA 9新特性;

2、 Pascal,Volta显卡新架构;

3、答疑解惑,互相讨论。

【第二天】

8:30--11:30      

多核编程OpenMP和Pthread

1、 Pthread编程;

2、 OpenMP多线程编程;

3、 上机实验:分别实现计算圆周率;

 

13:30--17:00    

GPU编程优化进阶

1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比; 

2、 CUDA优化:线程组织调度,分支语句,访存优化,数据传输,原子操作;

3、 GPU并行计算模式分析:分析调试:parallel nsight,visual profiler,cuda-gdb;

4、 上机实验:Helloworld,向量加,cuBLAS,cuFFT ;

5、 上机实验:矩阵乘,直方图,卷积,规约;

【第一天】

8:30--11:30                                

高性能计算基础          

1、并行计算的应用场景和实际意义(战略、经济和成本);

2、并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统;

3、性能分析模型:如何测量并行性能和扩展性;

4、CPU/GPU体系结构对比介绍;


13:30--17:00                              

MPI编程入门 

1、 MPI编程基本概念;

2、 基本编程语句; 

3、 主要点到点通信函数;

4、 上机实验hello world; 


MPI编程进阶

1、 自定义新的数据类型;

2、 集合通信方法;

3、 通信域和虚拟拓扑 ;

4、 上机实验:计算圆周率;

【会议门票】

人员

一人参加

两人及以上

老师

3000元/人

2700元/人

学生

2500元/人

2200元/人

 老师及学生需持证参会

优惠二:买5赠1,同一单位5人及以上原价参加,可赠送一个名额(与优惠一只可选其一)

拟邀嘉宾

猜你喜欢