Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/bbphjt.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/bbphjt.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/bbphjt.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/bbphjt.com/inc/func.php on line 1454
一窥全球最快超算内部_产品展示_爱博love体育官网网页版/lovebet爱博体育官网
爱博love体育官网

一窥全球最快超算内部

来源:爱博love体育官网    发布时间:2025-01-16 07:29:22

产品描述:

  近日,美国能源部最新推出的超级计算机、Top500 排名第一的El Capitan在加州的 LLNL 举行了落成典礼。落成典礼结束后,他们让我(作者)带着手机进入 El Capitan。通常,这是一个不允许使用电子设备的区域,手机也不能进入。今天,我进去了。

  在提交信息以获得现场访问验证后,我们获得了一个徽章并被护送到礼堂。在那里,LLNL、NNSA、DoE 和其他人员就 El Capitan 发表了演讲。

  显然,HPE 的首席执行官 Antonio Neri 曾在利弗莫尔住过一段时间。我问 Antonio,El Capitan(和其他 HPC 集群)上的这项工作怎么样转化为 AI 销售。他说,所有底层技术(包括 GPU 计算、网络、液体冷却、电力输送等)的大规模部署都直接转化为 AI 集群。

  AMD 首席执行官 Lisa Su 带来了一台拆开盖子的 AMD Instinct MI300A,并将其带到了讲台上。Lisa 还对这怎么样转化为人工智能的问题给出了深刻的回答。她的回答是,这是 El Capitan 中超过 40,000 个加速器的大规模部署和运行的又一个证明点。这在某种程度上预示着 AMD 和 HPE 团队要设计可靠性,以便在在大多数情况下要数月的模拟中运行系统。

  对于参与该项目的人们来说,这已逝去很久了。我记得在疫情爆发前,我被邀请到 HPE 总部的一个小房间,在那里宣布了HPE-Cray 和 AMD 获胜。疫情前的所有的事情现在都感觉像是古老的历史。

  在今天的演讲中,我们还快速浏览了一些模拟,例如这个模拟,显示了 El Capitan 中仅 2048 个节点上的 1390 亿个区域中的受冲击的锡表面。对那些不知道的人来说,El Capitan 的任务是机密的,但一般来说是为了支持美国的武器计划。这使得看到系统内部的情况变得不同寻常。

  当然,这是 STH,所以我热切地等待着有机会看到这一个系统。令我惊讶的是,在电子科技类产品投放区,他们允许我带手机拍照。起初我以为我只会看到令人印象非常深刻的节点。CoolIT 提供液体冷却块。几年前,在 CoolIT 液体实验室之旅中,我在卡尔加里展示并握住一个(非常重的)Frontier 节点,了解液体冷却的原型设计和测试。

  还有一个托盘,上面有四个已安装的 APU 插槽和四个未安装的插槽节点。与当今大多数系统不同,每个插槽和封装都是一组集成的芯片,涵盖 CPU 核心、GPU 核心和高带宽内存 (HBM),因此我们有一组统一的插槽,并且每个插槽的侧面没有 DIMM 插槽。

  幸运的是,El Capitan 的开放时间恰逢其时,它即将开始执行机密任务。接下来,让我们来看看运行系统。

  在大楼里,El Capitan 安装在楼上,而不是一楼。通常有一个通往数据大厅的观察窗,但我被允许进入里面。

  值得注意的是,目前 Top500 榜单上排名第 10 的 Tuolumne 系统就安装在 El Capitan 旁边。该系统将支持非机密科学。

  通常情况下,俯瞰 El Capitan 的座位排,看起来应该是这样的。我问了一些地方缺少瓷砖的原因。显然,地板需要加固,以适应 9000 磅(左右)的架子。

  每个机架有 128 个计算刀片,完全采用液体冷却。该系统非常安静,噪音大多数来源于存储和地板上的其他系统。

  在机架的另一侧,我们安装了 HPE Slingshot 互连电缆,该电缆连接了 DAC 和光学器件。Slingshot 互连侧还有蓝色和红色的液体冷却管。

  Slingshot 互连器没有完全填充,这很好看。我们将在下一页展示 Rabbit 占用这些机架后部的空间。

  我听说这些主要是基于磁盘的机架。这与我们在许多专注于基于闪存的共享存储的 AI 数据中心中看到的有所不同。

  El Capitan 有一个我直到今天才知道的功能。也许我当时没注意到。这是 Slingshot 互连侧的特写。您能够正常的看到这也是液体冷却的,并且 Slingshot 开关托盘仅占据此处显示的空间的下半部分。LLNL 的人们说,他们的代码不需要填充整个 HPE Slingshot 区域。相反,他们有足够多的带宽,一半填充,留下额外的空间。

  在顶部部分,并不是空白的,而是有“Rabbit”。Rabbit 总共装有 18 个 NVMe SSD,并且像系统的别的部分一样采用液体冷却。

  我们看到了系统内部,看到了 APU 以外的东西。相反,有一个看起来像AMD EPYC 7003 Milan部件的 CPU,考虑到 AMD MI300A 的代数,感觉还不错。与 APU 不同,Rabbit 的 CPU 有 DIMM,还有看起来像是液冷的 DDR4 内存。与标准刀片一样,所有东西都是液冷的,因此系统中没有一点风扇。

  还有许多 PCIe 电缆。显然,Rabbit 既可当作独立服务器运行,拥有大量存储空间,可用于执行数据准备任务等。或者,它也可以用作集群内的共享存储。

  这是一次非常酷的经历,让我有机会在大型集群的幕后一探究竟。虽然它的规模还不到我们 9 月份拍摄的xAI Colossus 集群的一半,当时该集群拥有 100,000 个 GPU,但有必要注意一下的是,这样的系统仍然非常庞大,而且其预算仅为 100,000 多个 GPU 系统的一小部分。

  我还有一些照片和视频需要浏览,也许在本周末飞往台北的飞机上。如果我在浏览这些照片和视频时发现一些有趣的东西,您可能会在 Substack 上看到一篇周末文章,其中包含更高分辨率的照片和更多细节。该视频有极大几率会出现在STH Labs 短片频道上。

  *免责声明:本文由作者原创。文章的主要内容系作者本人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  悲剧!西安情侣深夜冻死在山上,被找到时双目圆睁,坚信人定胜天.....

  广东:政府存量隐性债务全部清零 2024年GDP预计迈上14万亿元新台阶

  《一路繁花》看了刘晓庆说钱不够可以卖艺,李小冉回怼:谁认识你啊,才明白,女帝和女艺人的差距不是一般大

  商务部:本周将陆续印发2025年加力支持汽车、家电、家装和电瓶车以旧换新,以及手机等数码产品的购新补贴实施细则

  31战27胜联赛第一!广厦25分大胜豪取8连胜 胡金秋22+9博班两双

  今天是大清早跟着舅舅出去鬼混,又冷又饿见到奶瓶就掉小珍珠的小可怜,网友:舅舅真的是很神奇的一个“物种”