NVIDIA新一代A100 GPU解析: AI训练速度提升20倍的秘密是什么?

  • 2020-05-28
  • John Dowson

前不久,著名PC测试软件HWiNFO更新了一个新版本,增加了一个叫做“功耗反馈偏差(Power Reporting Deviation)”的新功能。根据HWiNFO官方的表示,这个功能可以让用户知道自己的X570主板到底百度优化

NVIDIA新一代A100 GPU解析: AI训练速度提升20倍的秘密是什么?百度优化

在前段时间的GPU技术大会(GTC 2020)上,NVIDIA正式发布了基于Ampere架构的新一代GPU——NVIDIA A100。这款产品作为通用型工作负载加速器,瞄准了如今最为热门的AI领域。根据NVIDIA给出的数据,其性能相比于前代产品提升了高达20倍,可用于AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等场景。

技术创新,NVIDIA A100 GPU性能突破的关键

NVIDIA A100拥有如此大幅度的提升,离不开Ampere架构的加持,该GPU基于7nm制造工艺,包含了超过540亿个晶体管,拥有6912个CUDA核心,成为了目前全球最大的7纳米处理器。不止如此,新品还搭载了40GB HBM2内存,具备1.6TB/s的内存带宽,FP32性能达到19.5万亿次/秒,并引入了具有TF32的第三代Tensor Core核心、结构化稀疏 、多实例GPU( MIG)、第三代NVIDIA NVLink等众多特性。

NVIDIA在此前的Volta架构中首次引入了Tensor Core(张量单元)这一计算单元,使得当时V100 GPU的浮点运算性能得到了大幅提升,能够更好地用于AI及深度学习应用。在最新的Ampere架构中,NVIDIA对Tensor Core进行了再次升级,使其变得更加灵活、快速且易于使用,甚至称得上是性能上的一次飞跃。

新架构引入了为AI开发的TF32,这是一种用于处理矩阵数学的新数值格式,而矩阵数学也被称为张量运算,是AI和部分HPC应用主要使用的运算。简单来说,TF32能加速AI训练计算,结合结构稀疏性,就能使FP32精度下的AI性能显著提高,可达到上代Volta架构的20倍左右。NVIDIA表示,甚至无需修改现有程序的代码就能获得性能提升。此外,目前的Tensor Core核心同时支持了FP64精度的浮点运算能力,相比于前代产品,可为HPC( 高性能计算)应用提供更多的算力,相比之前提高了多达2.5倍。

至于上文提到的结构化稀疏,其实也是这次新架构的亮点所在,目前A100中的Tensor Core可为稀疏模型应用提供高达2倍的性能提升。该功能的加入让GPU能够更加高效地处理高维数据,相当于提高了AI学习性能。结构化稀疏是一种高维数据的有效分析方法,具备特征简约、可解释性强、计算方便等优势,获得了很多研发人员的关注,并在多个实际场景中得到了应用。

Ampere架构除了细节和算力方面的改进,新品还充分考虑到了应用场景,提供了多实例GPU(MIG) ,通俗来讲每个A100可以划分成七个独立的GPU,拥有了更高的灵活性。众所周知,在数据中心等领域,CPU虚拟化是非常多见的技术,可将内核同时分配给不同用户独立使用,而MIG也有异曲同工之妙,如此一来不仅为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化,而且能在硬件级别上实现隔离,实现更高的安全性。

至于Ampere架构的第三代NVIDIA NVLink,可使GPU之间的连接速率增加至原来的两倍,双向带宽提升至50GB/s,传输速率达到了600GB/s,是PCIe 4.0带宽的10倍,并且每颗GPU可以实现对外12路连接。

A100助力,NVIDIA打造新一代AI系统

目前,基于Ampere GPU的NVIDIA DGX A100系统已经发布,它是全球首款算力达到5 petaFLOPS AI系统,内置8个由NVIDIA NVLink互联的A100 GPU 、两块64核AMD CPU和1TB系统内存,六个第二代NVSWITCH则提供了高达 4.8 TB/s双向带宽。网络方面,系统内置Mellanox ConnectX-6 VPI HDR InfiniBand和以太网适配器,其双向带宽峰值为 450Gb/s。

利用Mellanox HDR 200Gbps InfiniBand互连技术,NVIDIA将140台DGX A100系统结合在一起,成功构建了DGX SuperPOD AI超级计算机, AI计算能力高达700 Petaflops,用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。值得一提的是,不只是AI、科研领域的用途,如今DGX A100组成的超级计算机还被用来对抗COVID-19,对抗疫做出了贡献。

不光是大规模的AI计算系统,NVIDIA甚至将Ampere架构带到了如今热点之一的边缘计算,NVIDIA EGX A100 AI 处理引擎搭载全新GPU的同时,集成有Mellanox ConnectX-6 Dx SmartNIC,不仅带来优秀的拓展性,而且更有出色的安全性。Mellanox SmartNIC具有安全分流功能,能以高达 200 Gb/s 的线速进行解密,配合GPUDirect技术可将视频帧直接传输到GPU显存以进行AI处理。

相辅相成,大量软件为A100 GPU优化

当然,除了硬件层面的优势,实际应用时也离不开软件的支持。目前,NVIDIA对GPU加速应用领域的软件开发平台CUDA进行了更新,推出了CUDA 11,为Ampere架构进行了优化,并更新了包括了50多个新版本CUDA-X库。新版本可以完整支持基于Ampere架构的GPU硬件以及第三代Tensor Core的众多特性,并加入了多实例GPU虚拟化和GPU分区等功能。

与此同时,NVIDIA还发布了HPC SDK、多模态对话式AI服务框架NVIDIA Jarvis、深度推荐应用框架 NVIDIA Merlin等软件。其中,HPC SDK包含编译器和库的全套综合套件,是目前唯一可用于编程加速计算系统的全套集成SDK,开发者可通过它来编程整个HPC平台,从GPU基础到CPU以及整体互联,同样该套件也对Ampere架构进行了相应优化。

写在最后:正如NVIDIA所说的那样,如今由于云计算、AI等技术的出现,正在推动数据中心设计的结构性转变,纯CPU服务器被搭载GPU加速计算的平台所取代,未来随着这些新技术的不断普及,越来越多的行业、企业将会产生类似需求。NVIDIA早在3年之前就已经意识到了这一趋势,推出了Volta架构,并将专为深度学习的Tensor Core带入到了GPU之中,大幅提升了AI训练和推理性能,而到了目前Ampere架构的第三代Tensor Core,更是带来了巨大的性能飞跃,可将AI训练时间从数周缩短到几小时,显著加快了推理速度,无疑助力推动了整个AI行业的发展。

另一方面,此次推出的Ampere架构、A100 GPU不只是提供了大幅度的性能增长,而且NVIDIA更是考虑到了各个方面,甚至兼顾了数据中心的成本问题。根据NVIDIA给出的数据,一个由5台DGX A100系统组成的机架,可代替一个包括了AI训练和推理基础设施的数据中心,而且功耗仅是1/20,所占用的空间是1/25,成本只有1/10。因此,我们完全有理由相信,未来NVIDIA GPU以及AI技术一定会进入到各行各业,渗透到大家日常生活的方方面面。

百度优化 金立今天正式在京东开卖低端机型金立K6。该机搭载了联发科P60处理器,起售价799元人民币。 金立K6采用了一块6.2英寸的水滴全面屏的设计,机身整体十分圆润,采用了背部指纹的生物安全识

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

评论留言

发表评论