热线电话:

banner2

乐鱼官网app

AMD为科学研究发表全球最快HPC加速器

发布时间:2022/04/05 点击量:

AMD Instinct™ MI100加速器以领先业界的运算效能为HPC与AI带来颠覆性改变

首款采用全新AMD CDNA架构的GPU加速器为exascale等级时代量身擘划
 

台北—2020年11月17日—(NASDAQ: AMD)发表全新AMD Instinct™ MI100加速器,为全球最快高效能运算(HPC)GPU,同时也是首款突破10 teraflops (FP64)效能的x86服务器GPU注1。MI100加速器获得戴尔、技嘉、HPE、美超微(Supermicro)等各大厂商的新款加速运算平台支持,结合AMD EPYC™ CPU以及ROCm™ 4.0开放软件平台,旨在为即将到来的exascale等级时代推动全新发现。

 

AMD Instinct MI100 GPU采用全新AMD CDNA架构打造,搭配AMD第2代EPYC处理器,为高效能运算与AI开创出全新等级的加速系统。MI100在高效能运算方面提供高达11.5 TFLOPS的FP64尖峰效能,在AI与机器学习工作负载方面则提供高达46.1 TFLOPS的FP32 Matrix尖峰效能注2。透过全新AMD Matrix Core技术,MI100在执行AI训练工作负载时能提供比AMD前一代加速器提升近7倍的FP16理论尖峰浮点运算效能注3。

 

AMD资料中心GPU与加速处理部门全球副总裁Brad McCredie表示,AMD推出AMD Instinct MI100,为全球最快的高效能运算GPU,代表著我们往exascale等级运算的目标迈进一大步。瞄准科学运算中最关键的工作负载,最新加速器搭配AMD ROCm开放软件平台,两强合并的组合为科学家与研究人员提供更为优越的高效能运算工作基础。
 

瞄准Exascale等级时代所打造的开放软件平台

AMD ROCm开发者软件为exascale等级运算提供基础。ROCm作为一个由编译器、程序开发API与函数库组成的开源工具集,可以帮助众多exascale等级软件开发者打造高效能应用程序。经过优化的ROCm 4.0能为基于MI100的系统提供大规模运算的效能。ROCm 4.0已将编译器升级至支持开源并统一支持OpenMP® 5.0与HIP。此外,PyTorch与Tensorflow框架都已针对ROCm 4.0进行优化,能配合MI100达到更高的效能注7、8。ROCm 4.0是为高效能运算、机器学习以及人工智能程序开发者量身打造的最新方案,让他们开发高效能的可移植软件。

 

橡树岭国家实验室领导运算中心科学总监Bronson Messer表示,我们已经率先使用MI100加速器,初步使用效果让人非常振奋。我们见证到大幅的效能提升,相比其他GPU高出达2到3倍。我们也同样意识到软件对效能影响的重要性。开源的ROCm开放软件平台以及HIP开发者工具能在各种平台上运行,这是我们自推出首款混合CPU/GPU系统以来最关切的特点。

 

AMD Instinct MI100加速器的关键功能与特色包括:

·      全新AMD CDNA架构-AMD CDNA架构提供卓越的效能与功耗效率,为AMD GPU提供exascale等级时代的效能,同时也是MI100加速器的核心。

·      为HPC工作负载提供领先的FP64与FP32效能-提供领先业界的11.5 TFLOPS尖峰FP64 效能,以及23.1 TFLOPS的尖峰FP32效能,帮助全球各地科学家与研究人员加快在生命科学、能源、金融、学术、政府、国防等领域的新发现注1。

·      为HPC与AI开发的全新Matrix Core技术-针对全范围单精度与混合精度矩阵运算提供大幅提升效能,其中包括FP32、FP16、bFloat16、Int8、以及Int4等,促进HPC与AI的融合。

·      第2代AMD Infinity Fabric™技术-Instinct MI100使用3个AMD Infinity Fabric™ Link时,可在PCIe® 4.0上提供约2倍的P2P (peer-to-peer)尖峰I/O带宽,以及每张显示卡高达340 GB/s的总带宽注4。在服务器中,MI100 GPU可配备两个完全链接的Quad GPU单元(hives),每个单元可为高速资料分享提供高达552 GB/s的P2P I/O带宽注4。

·      超高速HBM2内存-配备32GB高带宽HBM2内存以及1.2 GHz的时脉频率,带来超高的1.23 TB/s内存带宽,支持庞大资料集,协助消弭资料在内存存取时的传输瓶颈注5。

·      支持业界最新PCIe® Gen 4.0技术-配合最新版PCIe Gen 4.0技术进行开发,在CPU与GPU之间提供高达64GB/s尖峰理论传输资料带宽注6。

 

服务器解决方案案例

企业级市场的各大OEM与ODM合作伙伴厂商预计将于今年底问市的新系统中搭载AMD Instinct MI100加速器,其中包括:

 

戴尔

戴尔科技集团PowerEdge服务器资深副总裁Ravi Pendekanti表示,Dell EMC PowerEdge服务器将支持全新AMD Instinct MI100,能更快从数据中分析出洞察。这将协助客户迅速得到更强大且高效率的HPC与AI结果。AMD一直是协助我们推动资料中心创新的重要合作伙伴。AMD Instinct加速器的高效能特性与PowerEdge服务器AI与HPC产品阵容完美契合。

 

技嘉

技嘉NCBU助理副总裁Alan Chen表示,我们很高兴再次与AMD合作成为策略伙伴,为客户提供高效能运算所需的服务器硬件。AMD Instinct MI100加速器代表著资料中心高效能运算的全新水平,为能源研究、分子动力学、以及深度学习训练带来更高的连接性与资料带宽。作为技嘉产品阵容的全新加速器,我们的客户将在一系列科学与工业HPC工作负载上获得更好的效能。

 

HPE

HPE全球副总裁暨高效能运算部门总经理Bill Mannel表示,客户运用HPE Apollo系统带来的特定功能与效能,解决在高效能运算、深度学习以及分析等领域中一系列复杂的资料密集型工作负载。随著全新HPE Apollo 6500 Gen10 Plus系统的推出,我们进一步推升产品阵容,并借由支持全新AMD Instinct MI100加速器与AMD第2代EPYC™处理器来改进工作负载效能,发挥更高的连接性与资料处理能力。我们期盼继续与AMD合作,利用其最新的CPU与加速器来扩大我们的产品方案。

 

美超微(Supermicro)

美超微现场应用工程与事业发展部资深副总裁Vik Malyala表示,我们非常高兴AMD Instinct MI100加速器为高效能运算领域带来巨大影响。全新CDNA架构带来的运算力提升,加上MI100带来的高内存容量以及GPU P2P传输带宽,我们的客户将可获得各种卓越的解决方案,满足其加速运算需求以及关键企业工作负载。AMD Instinct MI100将为我们多重GPU服务器以及高效能系统与模块化构建式服务器解决方案的广泛产品阵容提供一个卓越的扩充方案。

 

AMD Instinct™ MI100规格

运算单元

串流

处理器

FP64 TFLOPS

(尖峰)

FP32 TFLOPS

(尖峰)

FP32 Matrix TFLOPS

(尖峰)

FP16/FP16 Matrix

TFLOPS

(尖峰)

INT4 | INT8 TOPS

(尖峰)

bFloat16 TFLOPs

(尖峰)

HBM2 ECC

内存

内存带宽

120

7680

高达11.5

高达23.1

高达46.1

高达184.6

高达184.6

高达92.3

32 GB

高达1.23 TB/s

 

 

相关资源

Ÿ  更多关于:

Ÿ  更多关于:

Ÿ  更多关于:

Ÿ  更多关于:

Ÿ  更多关于:

Ÿ  Facebook:

Ÿ  Twitter:于追踪AMD新讯
 

关于AMD

50年来,AMD(NASDAQ:AMD)推动创新高效能运算、绘图及视觉技术,建构游戏、高临场感平台与资料中心等重要领域。全球数以百万的消费者、世界500强企业以及尖端科学研究机构皆仰赖AMD的技术来改善生活、工作及娱乐。AMD全球员工致力于研发卓越的产品,不断突破技术的极限。欲了解AMD如何成就今天,启发未来,请浏览AMD、、及。

 

©2020年,AMD公司版权所有。AMD、AMD箭头、EPYC、AMD Instinct、Infinity Fabric、ROCm及上述名称的组合是AMD公司的商标。OpenMP及OpenMP Logo是OpenMP Architecture Review Board的注册商标。PCIe是PCI-SIG Corporation的注册商标。Python是Python Software Foundation的一个商标。PyTorch是PyTorch的一个商标或注册商标。TensorFlow、TensorFlow Logo及任何相关标示都是Google Inc.的商标。

本新闻稿中提及的其他产品名称仅作辨识之用,可能是所有者企业的商标。

 

新闻联络人:

 

美商超微半导体

世纪奥美公关

高惠如 Robyn Kao

黎淑玲 Jannie Lai / 颜仕柔 Cheryl Yen / 张淑瑜 Sharon Chang

Tel:2655-8885 EXT.23352

Tel:2577-2100 EXT.819 / 610 / 805

Email:

Email:

 

免责声明

本新闻稿包含有关Advanced Micro Devices, Inc(AMD)的前瞻性陈述,包含AMD Instinct™ MI100加速器产品的特色、功能、效能、上市时间、时程以及预期收益,这些陈述皆基于1995年《私人证券诉讼改革法案》(U.S. Private Securities Litigation Reform Act)的“安全港”(Safe Harbor)条款所订定出。这些前瞻性声明含有像“将会”、“可能”、“预期”、“相信”、“计划”、“打算”、“估计”,或这些字词和短语的其它类似词汇。投资者应注意本新闻稿中的前瞻性陈述仅根据本文公布当时的见解、假设以及预期,仅反映本新闻稿发布时的情况,且涉及到许多风险与不确定因素,可能会导致实际结果与预期存在重大差异。这类陈述受到特定已知与未知风险与不确定因素所影响,其中许多因素难以预测且大多非AMD所能掌控,并可能响应实际结果与其他未来事件和文中陈述有所出入,或是和前瞻性陈述信息与陈述的暗示或预期状况有所不同。可能导致实际结果和当前预期有所出入的实质因素包括但不限于:包括Intel公司占据微处理器市场,及其侵略性经营手段、协力厂商能及时制造足够数量AMD的产品、或使用竞争对手的技术、AMD的产品预期的制造良率、生产AMD各项产品的基础设备或材料的影响、AMD能及时推出产品,且产品的功能与效能水准须能为顾客带来价值、流失大量客户、AMD由半客制化SoC产品获得的收益、COVID-19疫情可能会造成业务、财务状况与营运结果影响、政治、法律、经济风险,以及各种天然灾害、政府和法规影响,例如出口管理与法规、关税以及贸易保护措施,并购、合资与/或投资可能对业务产生的影响,包含发布并购赛灵思,以及无法集成被并购的事业、AMD完成收购赛灵思的能力、发布并购赛灵思及其所带来的不确定性对AMD业务造成的影响,AMD产品实际或察觉的安全漏洞,例如IT中断、数据遗失、资料外泄和网络攻击、AMD产品的订购与出货状况面临的不确定性、产品所属产业市场的景气状况、管理AMD票据的协议和循环信用额度施加的限制、AMD产品销售的市场状况、有赖于协力厂商业者的知识产权、AMD目前依赖许多协力厂商业者进行设计、制造,以及供应包括主机板、软件和其他电脑平台零组件以支持其业务、AMD依赖微软公司和其他软件厂商的设计与开发软件,以支持其产品、AMD对协力厂商经销商与AIB伙伴厂商的依赖、2026年可转换的2.125%可转换高级票据可能有潜在稀释影响、AMD可能面临商誉受损、AMD吸引或留住优质人才的能力、AMD产生足够的营收与营运现金流,或获得用于研发或其他战略投资的外部融资、AMD债务、AMD有足够的现金流入以偿还公司的借贷或应付营运资本需求的能力、在发生控制权变动的情况下,AMD可以购回所有在外流通债的能力、半导体产业的循环性。修改或运行AMD内部业务经营与信息系统的影响AMD的产品与某些或所有业界标准的软件与硬件的兼容性、瑕疵产品的相关成本、AMD供应链的效率、AMD依赖协力厂商厂商提供特定供应链物流业务、AMD股价波动、全球政治局势、不利的货币汇率波动、AMD控制其产品在灰市销售的能力、AMD对其技术或其他智慧财产进行足够保护的能力、AMD可能被卷入法律诉讼,以及成为其他诉讼案件的一方、AMD受到各种环保法律、冲突矿产相关的规定及其他各种法律条款所规范、呼吁投资者详阅公司呈交美国证管会各项财报中提及的风险与不确定因素,其中包括但不限于AMD于2020年9月26日提出的Form 10-Q季报。

 

注1:计算由AMD效能实验室于2020年9月18日执行,受测对象为AMD Instinct™ MI100 (32GB HBM2 PCIe® 接口卡) 加速器,1,502 MHz尖峰值提升发动机时脉,测得11.54 TFLOPS尖峰值双精度(FP64)、46.1 TFLOPS尖峰值单精度矩阵(FP32)、23.1 TFLOPS尖峰值单精度(FP32)效能、184.6 TFLOPS尖峰值半精度(FP16) 尖峰值理论、浮点运算效能。公布结果系在Nvidia Ampere A100 (40GB) GPU加速器进行量测,测得9.7 TFLOPS 尖峰倍精度 (FP64)、19.5 TFLOPS尖峰单精度(FP32)、78 TFLOPS尖峰半精度(FP16)理论、浮点运算效能。各家服务器制造商产品设置各异,故测得结果也会有差异。MI100-03

 

注2:计算由AMD效能实验室于2020年9月3日执行,受测对象为AMD Instinct™ MI100 (32GB HBM2 PCIe® 接口卡)加速器,1,502 MHz峰值发动机时脉,测得46.1 TFLOPS峰值理论单精度(FP32 Matrix)数学浮点运算效能。Nvidia Ampere A100 (40GB) GPU加速器公布结果为19.5 TFLOPS峰值单精度(FP32)浮点运算效能。Nvidia结果公布在: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf。各家服务器制造商产品设置各异,故测得结果也会有差异。MI100-01

 

注3:计算由AMD效能实验室于2020年9月18日执行,受测对象为AMD Instinct™ MI100加速器,1,502 MHz峰值提升发动机时脉,测得184.57 TFLOPS峰值理论半精度(FP16)以及46.14 TFLOPS峰值理论单精度(FP32 Matrix)浮点运算效能。结果计算的对象为Radeon Instinct™ MI50 GPU,1,725 MHz峰值发动机时脉,测得26.5 TFLOPS峰值理论半精度(FP16)以及13.25 TFLOPS峰值理论单精度(FP32 Matrix)浮点运算效能。各家服务器制造商产品设置各异,故测得结果也会有差异。MI100-04

 

注4:计算由AMD效能实验室于2020年9月18日执行,受测对象为AMD Instinct™ MI100,采用AMD CDNA技术加速器支持 PCIe® Gen4,每个接口卡中CPU与GPU之间提供高达64 GB/s峰值理论传输资料带宽。AMD Instinct™ MI100加速器内含3个Infinity Fabric™链接,每个GPU接口卡提供最高276 GB/s峰值理论GPU至CPU或是对等(P2P)传输率带宽效能。再加上PCIe Gen4的支持,提供汇整GPU接口卡I/O尖峰带宽最高达340 GB/s。MI100s 有3个链接:92 GB/s *每个GPU配置3个链接= 276 GB/s。4个GPU的单元提供高达552 GB/s峰值理论P2P效能。服务器内的2个4 GPU单元,在每个服务器内提供高达1.1 TB/s峰值理论直连P2P效能。AMD Infinity Fabric互连技术未打开:4个GPU组合单元搭配PCIe® 4.0技术,提供高达256 GB/s峰值理论P2P效能。各家服务器制造商产品设置各异,故测得结果也会有差异。MI100-07

 

注5:计算由AMD效能实验室于2020年10月5日执行,受测对象为AMD Instinct™ MI100加速器,采用AMD CDNA 7奈米 FinFET制程技术,峰值内存时脉为1,200 MHz,达到1.2288 TFLOPS峰值理论内存带宽效能。计算结果的对象为Radeon Instinct™ MI50 GPU,采用 “Vega”7奈米FinFET制程技术,拥有1,000 MHz峰值内存时脉,测得1.024 TFLOPS峰值理论内存效能。CDNA-04

 

注6:配合PCIe® Gen 4.0 与Gen 3.0 兼容主机板。每张主机板效能各异。个别产品的效能与功能,请洽询各大系统或主机板供应厂商。

 

注7:测试由AMD效能实验室于2020年10月30日执行,在3个平台与多个版本的软件上进行量测,反映Radeon Instinct MI25 (2018年)、MI50 (2019年)以及AMD Instinct MI100 GPU (2020年)上市时的效能,使用测试应用程序为Quicksilver。MI100平台(2020年):技嘉G482-Z51-00系统装有双插槽AMD EPYC™ 7702 64核处理器。AMD Instinct™ MI100 GPU、ROCm™ 3.10版驱动程序、512GB DDR4及RHEL 8.2操作系统。MI50平台(2019年):美超微® (Supermicro) SYS-4029GP-TRT2系统的组成:双插槽Intel Xeon® Gold® 6132、Radeon Instinct™ MI50 GPU、ROCm 2.10版驱动程序、256 GB DDR4及SLES15SP1。MI25平台(2018年):美超微SYS-4028GR-TR2系统内含双插槽Intel Xeon CPU E5-2690、Radeon Instinct™ MI25 GPU、ROCm 2.0.89版驱动程序、246GB DDR4及Ubuntu 16.04.5 LTS。MI100-14

 

注8:测试由AMD效能实验室于2020年10月30日执行,受测对象为3个平台与多个软件版本,反映Radeon Instinct MI25 (2018年)、MI50 (2019年)以及AMD Instinct MI100 GPU (2020年)上市时的效能,使用测试应用程序为TensorFlow ResNet 50 FP 16 批次大小128。MI100 平台 (2020年):技嘉G482-Z51-00系统内含双插槽AMD EPYC™ 7702 64核处理器、AMD Instinct™ MI100 GPU、ROCm™ 3.10 版驱动程序、512GB DDR4及RHEL 8.2。MI50 平台(2019年):美超微®(Supermicro) SYS-4029GP-TRT2 系统内含双插槽Intel Xeon® Gold® 6254、Radeon Instinct™ MI50 GPU、ROCm 3.0.6版驱动程序、338 GB DDR4及Ubuntu® 16.04.6 LTS。MI25平台(2018年):美超微SYS-4028GR-TR2 系统内含双插槽 Intel Xeon CPU E5-2690处理器、Radeon Instinct™ MI25 GPU、ROCm 2.0.89版驱动程序、246GB的DDR4系统内存及Ubuntu 16.04.5 LTS。MI100-15