2019年11月19日,在2019国际超算大会(SC19)上,AMD公司不断扩大其在高性能计算(HPC)领域的领先地位,并宣布其在全球顶级研究系统中赢得了一系列新客户。AMD还宣布了支持AMD EPYC处理器和Radeon Instinct加速器的新平台,并发布ROCm 3.0版本,为新的编译器和HPC应用提供强劲支持。
AMD执行副总裁、首席技术官Mark Papermaster表示:“AMD很荣幸作为Frontier的处理器供应商参加SC19。众所周知,Frontier预期将在2021年交付时成为世界上性能最强的超级计算机。本周在SC19上,与会者可以体验到与用于这一E级超算系统相同的AMD技术。无论是在高速互连中协同工作的高性能AMD EPYC CPU和Radeon Instinct GPU,还是AMD开放的软件生态系统,都将由超级计算领域的巨擘们带来在SC19上亮相。”
在SC19,Mark Papermaster将与来自Cray、CERN和赛灵思的首席技术官们共同参加讨论,探讨在E级超算系统以及更多包括跨硬件、软件和编程工具等新技术方面的创新突破。
新的Amazon EC2计算优化实例将使用第二代AMD EPYC
亚马逊云服务(AWS)扩大了对AMD EPYC处理器的采用,并宣布即将推出两款新的Amazon Elastic Compute Cloud(Amazon EC2)计算优化的实例C5a和C5ad。并且,这些实例将由运行频率高达3.3Ghz的定制版第二代AMD EPYC处理器驱动。C5a和C5ad将提供8种虚拟化大小和最多96个vCPU,帮助客户针对各种计算密集型工作负载(包括批处理,分布式分析和Web应用程序)在成本和性能上提供更多选择。除此之外,为了让客户的应用程序能够直接访问基础服务器的处理器和内存资源,两种实例都将提供裸机版本。这些实例将在96个物理核心上拥有192个逻辑处理器,是目前EC2计算优化实例家族中最大实例的两倍。C5a和C5ad裸机实例能够利用100 Gbps网络带宽,并与Elastic Fabric Adapter兼容,从而使客户能够扩展高性能计算和其他大型计算密集型的工作负载。新实例将在近期在多个AWS区域提供。
AMD将超级计算机推向新高度,EPYC进入TOP500强榜单
HPC组织们正在持续采用第二代AMD EPYC处理器和Radeon Instinct加速器来构建更多功能更强、效率更高的超级计算系统。Radeon Instinct GPU加速器可为HPC工作负载提供高达6.6 TFLOPS 的理论峰值双精度运算性能。而且,第二代AMD EPYC处理器和Radeon Instinct加速器均支持PCIe 4.0,可实现高带宽互连,从而在异构系统中实现更快的计算。
部署AMD处理器和加速器的最新客户包括:
· 数字转换的全球领导者Atos正在向法国气象局提供两台基于第二代EPYC的BullSequana XH2000超级计算机,用于大气、海洋和气候科学的动态天气预报和研究。
· Atos和法国国家高性能计算组织GENCI宣布其Joliot-Curie超级计算机的最新扩展现在可供运作。该超级计算机基于Atos的BullSequana XH2000 解决方案和第二代EPYC处理器,并由CEA团队在其TGCC(超大型计算中心)进行管理。
· Joliot-Curie超级计算机的扩展进入TOP500强第54位,成为全球排行榜中第一台配备280W AMD EPYC 7H12 64核处理器的超级计算机。
· HPE所属公司Cray近期宣布,推出两台配备第二代AMD EPYC处理器且基于Shasta™超级计算机架构的新型超级计算机ARCHER2和Vulcan。
· 戴尔科技集团正在为圣地亚哥超级计算机中心及其Expanse超级计算机提供基于第二代AMD EPYC的Dell EMC PowerEdge服务器。
· 苏黎世联邦理工学院在其Euler VI系统中使用了AMD EPYC 7742处理器。
· 日本电气有限股份公司(NEC)目前正在提供德国天气预报服务,其使用的Deutscher Wetterdienst系统结合了第二代EPYC处理器和NEC SX-Aurora TSUBASA矢量引擎。
苏黎世联邦理工学院负责科学IT服务的Christian Bolliger表示: “我们之所以选择AMD EPYC 7742处理器,是因为该处理器不仅能为研究人员日常使用的大多数软件应用提供广泛支持,并且还能提供令人印象深刻的原始性能、内存和I/O带宽。更重要的是,它满足了研究人员所需的性价比。凭借基于第二代AMD EPYC处理器的Euler VI系统,研究人员可以获得推进研究所需的诸多功能。”
AMD EPYC将超级计算带入云时代
HPC领域正在不断演进,以满足新的工作负载和更高的性能要求。最重要的是,HPC需要更易于被长期或临时使用。如今,这一切正在通过云来实现。与内部部署相比,云端部署能以较低的使用成本为用户带来同等水平的卓越性能。
早前,Microsoft Azure宣布使用在基于第一代AMD EPYC处理器的系统上运行的Azure HB云实例,获得了此前无法企及的计算流体力学(CFD)性能水平。
如今,Azure针对高性能计算的Azure HBv2虚拟机已经提供预览,进一步突破了云端高性能计算的边界。这些虚拟机全部基于AMD EPYC 7742处理器,为客户带来了超级计算机性能,支持200Gbps HDR InfiniBand和单项工作多达80,000个核心,通过云就可以轻松、便捷地访问。
AMD推出ROCm 3.0版本
对“准E级超算”(pre-exascale)软件生态系统的社区支持继续扩大,该生态系统建立在由AMD提供的GPU计算基础开源组件ROCm之上。ROCm以月为周期发布新功能,为开发人员提供固定的节奏来持续更新和改进编译器、库、分析器、调试器和系统管理等工具。在SC19上,AMD针对这一领域的主要宣布包括:
· 发布支持HIP-clang的ROCm 3.0版本。HIP-clang是基于LLVM的编译器,利用hipify-clang改进了CUDA转换性能,并针对HPC和ML都进行了库优化。
· ROCm上游集成到了领先的TensorFlow和PyTorch机器学习框架中,用于强化学习、自动驾驶以及图像和视频检测等应用。
· 扩展了对HPC编程模型和应用程序的加速支持, 例如OpenMP编程、LAMMPS和NAMD。
· 对系统和工作负载部署工具(如Kubernetes、Singularity、SLURM、TAU等)提供新的支持。
不断扩张的硬件生态系统
由于HPC系统必须满足愈发苛刻的工作负载,因此,由CPU和加速器驱动的异构计算对于现代HPC系统至关重要。AMD的合作伙伴正在建立能够满足异构计算需求的新平台,以及传统的仅用于计算的CPU:
· 技嘉科技宣布推出四款新的支持第二代AMD EPYC处理器的G系列GPU服务器,即G292-Z22、G292-Z42、G482-Z50和G482-Z51。G482-Z51最多可支持8个PCIe 4.0 GPU卡,为客户提供了出色的“AMD + AMD”选择,可用于多种加速计算的工作负载。
· 继破纪录的HPE ProLiant DL325 Gen10和DL385 Gen10服务器之后,新的Gen10 Plus型号现在也加入了该阵营。通过多达64颗处理器核心,3200 MT/s内存带来的9%内存性能提高,支持PCIe 4.0实现的2倍I/O带宽提升,以及与前代产品相比提升2.4倍的存储容量,大大提高了虚拟化、HPC和大数据等重要工作负载的性能和效率。
· 新的PenguinAltus®XE4218GT支持多达8个GPU,使Penguin客户可以通过 “AMD + AMD”解决方案,使用第二代EPYC和Radeon Instinct MI50加速器支持的PCIe 4.0来推动机器学习、大数据分析和类似的工作负载。
· 泰安(Tyan)还宣布了其以HPC为重点的Transport HX产品线和以数据库为重点的Transport SX产品线的新平台,这些平台均由第二代AMD EPYC处理器提供支持。
随着第二代AMD EPYC处理器和Radeon Instinct GPU加速器实现了对PCIe 4.0的支持,AMD与关键行业合作伙伴紧密携手,充分引领了PCIe 4.0生态系统的建设。第二代EPYC全面支持PCIe 4.0设备,例如高速以太网和InfiniBand®互连、NIC和交换机、计算加速器(GPU和FPGA)和存储(NVME SSD)设备。针对第二代AMD EPYC提供PCIe 4.0产品的合作伙伴包括:
· 博通推出了支持200 GB以太网Thor NIC。
· Mellanox ConnectX-6 网卡展现了约400 GB/s 的InfiniBand性能。
· 三星推出Gen4 PM1733 NVME SSD固态硬盘,展示出两倍于其第3代 SSD的IOPS(每秒的输入输出量)。
· 赛灵思Alveo U50、U280 FPGA。