伯克利实验室推出世界上最快的人工智能超级计算机 Perlmutter

伯克利实验室国家能源研究科学计算中心 (NERSC) 虚拟举行的剪彩仪式标志着 Perlmutter(又名 NERSC-9)的正式发布,这是 HPE 与 Nvidia 和 AMD 合作构建的 GPU 加速超级计算机。HP Cray EX超级计算机利用6,159个Nvidia A100 GPU和约1,500个AMD Milan CPU提供近3.8 exaflops的理论“ AI性能”(请参阅​​尾注)或约60 petaflops的峰值双精度(标准FP64)HPC性能。

该系统与伯克利实验室的天体物理学家Saul Perlmutter同名,他因对表明宇宙膨胀正在加速的研究做出的贡献而分享了 2011 年诺贝尔物理学奖。因此,Perlmutter 超级计算机的初始用例之一将支持暗能量光谱仪 ( DESI ) 是合适的,该仪器正在探索暗能量对宇宙膨胀的影响。

Perlmutter 系统将通过处理来自 DESI 的数据帮助绘制跨越 110 亿光年的可见宇宙图,DESI 能够在一次曝光中捕获多达 5,000 个星系。

为了知道每天晚上将这种昂贵的仪器指向何处,研究人员需要评估前一天晚上的数据。Perlmutter 可以足够快地分析数十次曝光,以便为下一个夜间周期及时提供这种反馈。

在早期的基准测试中,NERSC 研究人员报告说,使用 GPU 的性能加速提高了 20 倍,他们说这将使他们的工作流程从几周或几个月缩短到几个小时。

材料科学有望看到类似的好处,为电池和生物燃料的进步铺平道路。Quantum Espresso 等应用程序利用 Perlmutter 的传统模拟和机器学习功能,使科学家能够在更长的时间内研究更多原子。

NERSC 的应用性能专家 Brandon Cook 说:“过去不可能对电池接口等大型系统进行完全原子模拟,但现在科学家们计划使用 Perlmutter 来做到这一点。”

Nvidia 报告说,Quantum Espresso、BerkeleyGW和NWChem都能够利用 Nvidia 的 FP64 Tensor Cores,将标准 FP64 格式的性能提升一倍——19.5 teraflops 与每个 GPU 9.7 teraflops(峰值理论)。(Nvidia 报告说 Perlmutter 提供了 120 petaflops 的峰值FP64 Tensor Core 性能。)

Perlmutter 的第一阶段跨越 12 个 GPU 加速的 Cray EX 机柜(又名“Shasta”),容纳超过 1,500 个节点和 35 PB 的全闪存并行文件系统 (HPE E1000)。据 NERSC 称,Lustre 文件系统将以超过 5 TB/秒的速度移动数据,使其成为同类中最快的存储系统。

Perlmutter 系统采用直接液体冷却,并使用 HPE 的 Cray 开发的 Slingshot 互连技术。

计划在今年晚些时候进行第二个仅 CPU 阶段。Phase 2 增加了 12 个 CPU 机柜,超过 3,000 个节点,配备两个 AMD Milan CPU,每个节点具有 512GB 内存。据 NERSC 称,第 2 阶段系统还增加了 20 个登录节点和 4 个大内存节点。

Perlmutter 是 Cori(以纪念诺贝尔奖获得者生物化学家Gerty Cori命名)的继承者,它也被构建为两个分区,第 1 阶段基于 Intel Haswell 的“数据分区”和第 2 阶段 Intel Knights Landing(至强融核)划分。Cori 是基于 KNL 处理器的最大的开放科学超级计算系统。NERSC 将继续运营 Cori 至少到 2022 年。

在软件方面,Perlmutter 用户将可以访问标准的NVIDIA HPC SDK工具包,并且通过与 NERSC 的联合开发工作即将支持OpenMP。

Python 程序员将能够使用RAPIDS,这是 Nvidia 用于支持 GPU 的数据科学的开放软件套件。

第一阶段机柜已在过去几个月部署,但甚至在 2020 年 11 月开始安装之前,NERSC Exascale 科学应用程序 ( NESAP ) 就已参与准备活动,以便能够利用 GPU 节点进行仿真、数据和学习应用程序在第一天。NERSC 报告说,这些 NESAP 准备团队将首先访问该系统。新系统还计划支持 Exascale Computing Project (ECP) 软件。

Perlmutter 高层架构图

人工智能超算

凭借强大的AI功能,Perlmutter成为了DOE的AI for Science重点领域,这是一项数十亿美元级的计划,旨在促进AI在科学中的使用。

NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示:“科学人工智能是美国能源部的一个增长领域,概念验证正在进入粒子物理学、材料科学和生物能源等领域的生产用例中,在 Nvidia 的博客文章中。

“人们正在探索越来越大的神经网络模型,并且需要访问更强大的资源,因此 Perlmutter 及其 A100 GPU、全闪存文件系统和流数据功能非常适合满足这种对 AI 的需求,”他说。添加。

Nvidia首席执行官黄仁勋(Jensen Huang)在预录制的视频中展示了今天的虚拟启动计划,强调了新兴的HPC和AI协同作用。

“ Perlmutter融合人工智能和高性能计算的能力将导致从材料科学和量子物理学到气候预测、生物研究等广泛领域的突破,”黄说。

展望未来(量子学)

Perlmutter 的后续项目已经在规划中,代号为 NERSC-10 和 NERSC-11。

NERSC主任Sudip Dosanjh在今天的虚拟奉献仪式上说:“系统的设计和部署需要花费数年的时间。”

“很明显,随着我们进入后摩尔定律时代,我们将拥有更多的异构系统。我们正在研究不同类型的加速器。我认为 NERSC-10 不太可能拥有量子加速器,但 NERSC-11 肯定会有。在 NERSC 上运行的一半代码解决了某种量子力学问题,而这部分工作负载可能真正受益于量子加速器。

“借助 NERSC-10,我们将真正专注于端到端的 DOE 科学工作流程,并希望通过实验、数据分析和模拟的集成实现新的科学发现模式。因此,我们不仅要确保科学家可以使用AI来分析数据,而且还希望使用AI来管理系统以提高系统的可靠性和系统的能源效率。此外,我们的目标是使用 AI 重新配置 NERSC-10 以加速工作流程,”Dosanjh 说。

你好 Perlmutter — Saul Perlmutter 在现场演示中为 Perlmutter 揭幕:

注:Perlmutter 的“AI 性能”基于Nvidia 的半精度数值格式(FP16 Tensor Core),启用了 Nvidia 的稀疏特性。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

IT到底是重要呢还是重要呢还是重要呢

忘记密码

X