想用AI变革计算黄仁勋向HPC和超大规模数据中心“丢核弹”

这一次，英伟达在HPC和超大规模数据中心“扔了新核弹”。

“核弹”：HGX-2 GPU加速平台

在11月21日举行的GTC CHINA 2018上，英伟达宣布其HGX-2服务器平台。这是全球最强大的加速服务器平台，适用于AI深度学习、机器学习和高性能计算(HPC)。

HGX-2连接8个V100 GPU，总共1PFLOPS。每个GPU以300GB/s的速度与其他GPU通信，并且以每秒8TB的速度访问所有256GB的显存。

据悉，该平台具有多精度计算能力，可提供很好的灵活性来支持未来计算。同时，它融合高精度的FP64和FP32，可实现精确高性能计算，并且融合更快速低精度的FP16和INT8，能更好地用于深度学习和机器学习。

HGX-2具备英伟达NSwitch互联结构等突破性功能，将16个英伟达V100 Tensor Core GPU无缝连接在一起，形成一个巨型GPU，可提供2千万亿次的AI性能。另外，它还具有0.5TB内存和16TB/s总内存带宽。

与单纯的CPU服务器相比，它能将机器学习工作负载的运行速度提升近550倍，将深度学习工作负载的运行速度提高300倍，还能将HPC的运行速度提高近160倍。

这种在HPC上的优势，让我们具体来看一下。黄仁勋介绍，全球最快的超级计算机是橡树岭国家实验室(ORNL)的Summit，它拥有200PFLOPS的计算能力，使用了27648个英伟达V100。

在SC18上公布的Top500有一组数据：全球第一、欧洲第一和日本第一的超级计算机均使用英伟达GPU。同时，能效最出色的25台计算机中有22台由英伟达提供支持。

黄仁勋表示，英伟达计算平台已发展至爆发点，科学和工业领域正在加速采用该平台。

“在没有英伟达GPU的情况下，构建100+PetaFLOPS机器是不切实际的。在没有加速计算的情况下，Exasale是不可想象的。”他说。

并且他还提到，6位计算科学奖获得者中有5位是基于英伟达GPU获得的，他们中的许多人使用多精度Tensor Core和混合模拟以及AI。

据了解，HGX-2已经被一些国内企业采用，比如百度、腾讯和浪潮等。同时，联想、华为、曙光也已宣布成为 NVIDIA HGX-2 云服务器平台的合作伙伴。

AI变革计算

黄仁勋表示，AI正在变革计算。它是一种全新的计算方法，正在改变计算领域的格局。目前，在大型计算领域，HPC和超大规模数据中心正在急速运转。而AI的出现，将改变它们。

科学家正在融合物理模拟和AI预测方法来创建数量级更大的模型，这些尝试因在多精度Volta Tensor Core GPU的支持下得以实现。

与此同时，数据科学家和AI开发者需要使用HPC在更多数据上训练更复杂的AI模型。

“HPC正在成为AI计算机，并且为科学家、数据科学家和AI开发者所用。”他说。

如果说HGX-2是用于为大型模拟仿真而设计的HPC，那么大规模集群计算，英伟达创建了T4。

T4云GPU亮相

基于图灵第二代Tensor Core GPU，T4采用多精度Turing Tensor Core 和全新 RT Core，并与加速的容器化软件堆栈相结合，是全新的适用于超大规模集群的GPU。

T4外形相当于一条巧克力糖的大小，可灵活适应于标准服务器或任何开放计算项目的超大规模服务器设计。与P4不同，T4在训练和推理方面都很出色，FP32、FP16TC、INT8 TC和INT4 TC可以混合匹配，以实现最高的性能和精度。

T4 旨在满足横向扩展的公共云和企业云环境的独特需求，最大限度地提高吞吐量、利用率和用户并发性，帮助客户高效应对用户及数据爆炸式增长的问题。

官方宣称，T4 GPU推出2个月后，已经在全球领先的计算机制造商的57种独立服务器设计中发挥重要作用。

在国内，中国首批开始使用 T4 扩展并提升工作负载横向扩展的企业，包括百度、腾讯、京东以及科大讯飞。而中国领先的计算机制造商也将推出一系列基于 T4 的服务器，涵盖浪潮、联想、华为、曙光、浪潮商用机器和新华三等。

不过，在黄仁勋的眼中，“T4 GPU只是一个开始”!

NGC-Ready系统

在软件层面，英伟达宣布了NGC-Ready 系统和开源GPU 加速平台RAPIDS。NGC-Ready可以让采用基于英伟达GPU强大系统的客户在更广的范围内部署GPU加速软件。

NGC 容器与顶级供应商的 NGC-Ready 系统相结合，让用户能够以一种具有可重复性、容器化的方式，在从开发到生产的整个过程中运行加速应用。 NGC 容器注册中的容器可在其他多种平台中运行，包括阿里云、Oracle 云基础设施等。

另外，搭载 NVIDIA Quadro GPU 的 NGC-Ready 工作站将为研究人员提供一个平台，为其提供快速构建、训练及开发深度学习项目所需的性能和灵活性。

目前，华为、联想、浪潮和曙光均有NGC-Ready系统的产品。

开源GPU加速平台RAPIDS

另外，还值得一提的是开源GPU加速平台RAPIDS。在黄仁勋看来，今天的AI包括深度学习和机器学习，深度学习一直是GPU加速的，机器学习则是在没有加速能力的CPU环境中发展起来的。而更大的数据量和摩尔定律的终结促使业界创建一个开源的CUDA加速的堆栈。这就是RAPIDS。

据悉，英伟达加速数据科学被广泛采用，它加速了数据提取、数据抽取加载转换处理和机器学习，让以前的小时变成分钟。即通过端到端的模型训练可以从小时缩短到分钟。

目前，华大基因的世界上最大的基因组使用英伟达RAPIDS XGBOOST对癌症特异性肽和正常肽进行分类，比在CPU上快10倍。

写在最后：

这次的GTC CHINA 2018，英伟达拿出了很多硬货，从硬件到软件再到生态系统，让人眼前一亮。从GPU到AI，英伟达正在努力成为变革世界的AI计算引领者。

想用AI变革计算 黄仁勋向HPC和超大规模数据中心“丢核弹”