(原标题:冲破内存壁垒,将HBM和DDR 5会通)
要是您但愿不错频繁碰面,迎接标星储藏哦~
起首:实质由半导体行业不雅察(ID:icbank)编译自nextplatform,谢谢。
到 2024 年,要是需要将数十、数百、数千致使数万个加快器拼接在一谈,则不会穷乏互连。
Nvidia 有 NVLink 和 InfiniBand。Google 的 TPU PoD使用光路开关 (OCS) 相互通讯。AMD 领有用于ie-to-die, chip-to-chip以及很快node-to-node流量的 Infinity Fabric。天然,还有致密的旧式以太网,英特尔在 Gaudi2 和 Gaudi3 中使用的即是这种以太网。
这里的妙技不是构建一个充足大的网格,而是幸免与脱包(going off package)有计划的广宽性能损成仇带宽瓶颈。它也莫得选拔任何步伐来贬责扫数 AI 处理所依赖的 HBM 内存与贪图以固定比率有计划在一谈的事实。
“这个行业正在使用 Nvidia GPU 手脚天下上最不菲的内存截止器,”戴夫·拉佐夫斯基 (Dave Lazovsky) 说谈,他的公司 Celestial AI 刚刚在 USIT 和稠密其他风险投资巨头复古的 C 轮融资中获取了 1.75 亿好意思元的交易化资金它的Photonic Fabric。
客岁夏天,咱们有计划了 Celestial 的 Photonic Fabric,它包含一系列硅光子互连、中介层和小芯片,旨在将东谈主工智能贪图从内存平永诀出来。不到一年后, light wranglers 暗示,他们正在与几家超大边界客户和一家大型处理器制造商配合,将其本事集成到他们的产物中。令咱们失望的是,但天然并不令东谈主讶异的是,不外Lazovsky并莫得点名。
但事实上,Celestial 将 AMD Ventures 视为其复古者之一,其高等副总裁兼产物本事架构师 Sam Naffziger 在公密告布本日就筹商了共同封装硅光子小芯片的可能性,这无疑引起了一些东谈主的关怀。话虽如斯,AMD 资助这家光子学初创公司并不料味着咱们会在 Epyc CPU 或 Instinct GPU 加快器中看到 Celestial 的小芯片。
诚然 Lazovsky 无法涌现 Celestial 与谁配合,但他如实提供了一些有计划该本事若何集成的陈迹,以及对行将推出的 HBM 内存开导的预览。
正如咱们在率先计议 Celestial 的产物政策时所筹商的那样,该公司的部件分为三大类:小芯片、中介层以及基于英特尔 EMIB 或台积电 CoWoS (称为 OMIB)。
绝不奇怪,Celestial 的大部分眩惑力都集结在小芯片上。“咱们所作念的并不是试图将就咱们的客户禁受任何一种特定的产物实施。当今提供光子结构接口的风险最低、速率最快、最肤浅的方法是通过小芯片,”Lazovsky 告诉The Next Platform。
一般来说,这些小芯片不错通过两种形状使用:要么添加特别的 HBM 内存容量,要么手脚芯片间互连、排序或雷同光学 NVLink 或 Infinity Fabric。
这些小芯片比 HBM 堆栈稍小,并提供相宜 14.4 Tb/秒或 1.8 GB/秒片外总带宽的光电互连。
话虽如斯,咱们被示知不错制作小芯片来复古更高的带宽。第一代本事每平素毫米可复古约 1.8 Tb/秒。与此同期,Celestial 的第二代 Photonic 结构将从 56 Gb/秒普及到 112 Gb/秒 PAM4 SerDes,并将通谈数目从 4 个增多到 8 个,从而有用地将带宽增多到四倍。
因此,14.4 Tb/秒并不是上限,而是现存芯片架构概况处理的收尾。这是挑升想的,因为不然任何特别的容量都会被滥用。
这种畅达意味着 Celestial 不错罢了雷同于 NVLink 的互连速率,仅仅需要更少的门径。
诚然芯片到芯片的畅达相对来说是不言自明的——在每个封装上放手一个光子结构小芯片并对王人光纤畅达——但内存推广悉数是另一种动物。诚然 14.4 Tb/秒 远非慢,但它仍然是多个 HBM3 或 HBM3e 堆栈的瓶颈。这意味着添加更多 HBM 只会使您的容量跳动某个点。不外,用两个 HBM3e 堆栈代替一个堆栈并不是什么都不是。
Celestial 通过其内存推广模块对此有一个道理的贬责方法。由于不管若何带宽上限为 1.8 GB/秒,因此该模块将仅包含两个揣测 72 GB 的 HBM 堆栈。一组四个 DDR5 DIMM 对此进行了补充,理财投资复古高达 2 TB 的特别容量。
Lazovsky 耽搁是否要涌现该产物的扫数细节,但如实告诉咱们它将使用 Celestial 的硅光子中介层本事手脚 HBM、互连和截止器逻辑之间的接口。
说到该模块的截止器,咱们得知 5 纳米switch ASIC 有用地将 HBM 革新为 DDR5 的直写式缓存。“它为您提供了 DDR 的容量和资本以及 HBM 的带宽和 32 个伪互连通谈的扫数上风,这瞒哄了延伸,”Lazovsky 证实谈。
他补充说,这与英特尔 Xeon Max 的表露或 Nvidia 的 GH200 超等芯片的表表露入不远。“它基本上是一个增压的 Grace-Hopper,莫得扫数资本支拨,而且效果要高得多。”
效果普及了些许?Lazovsky 宣称:“咱们的内存事务能量(memory transaction energy )支拨约为每比特 6.2 皮焦耳,而通过 NVLink、NVSwitch 进行良友内存事务的能量支拨约为 62.5 皮焦耳”,并补充说延伸也不算太灾祸。
“这些良友内存事务的总往还延伸(包括通过光子结构的行程和内存读取时候)为 120 纳秒,”他补充谈。“是以它会比腹地内存的大致 80 纳秒多小数,但它比前去 Grace 读取参数并将其拉至 Hopper 要快。”
据咱们了解,这些内存模块中的十六个不错组合在一谈造成一个内存交换机,何况不错使用光纤洗牌来畅达多个这些开导。
这里的含义是,除了贪图、存储和料理网罗以外,使用 Celestial 互连构建的芯片不仅概况相互畅达,而且概况成就群众内存池。
“这让你概况以很是很是高效的形状进行机器学习操作,举例播送和归约( broadcast and reduce),而无需进行切换,”Lazovsky 说。
Celestial面对的挑战是时机。Lazovsky 告诉咱们,他瞻望将在 2025 年下半年的某个时候启动向客户提供Photonic Fabric小芯片样品。然后,他瞻望至少还需要一年时候,咱们才略看到使用该想象的产物投入商场,并在 2027 年销量大幅增多。
然则,Celestial 并不是唯独一家追求硅光子学的初创公司。Ayar Labs 是另一家得到英特尔投资复古的光子学初创公司,它照旧将其光子互连集成到原型加快器中。
然后是 Lightmatter,该公司在 12 月份获取了 1.55 亿好意思元的 C 轮融资,并试图通过其Passage中介层作念一些与 Celestial 很是相似的事情。其时,Lightmatter 首席实际官尼克·哈里斯 (Nick Harris) 宣称,它的客户使用 Passage“推广到 300,000 个节点超等贪图机”。天然,和拉佐夫斯基相同,哈里斯也不会告诉咱们它的客户是谁。
还有 Eliyan,它正试图悉数解脱中介层偏抓 NuLink PHY,或者增强中介层的性能和边界(要是您必须领有它们)。
不管谁在这场竞赛中脱颖而出,向共同封装光学器件和硅光子中介层的革新实在启动似乎仅仅时候问题。
https://www.nextplatform.com/2024/04/04/celestial-ai-wants-to-break-the-memory-wall-fuse-hbm-with-ddr5/
点这里加关怀,锁定更多原创实质
*免责声明:本文由作家原创。著述实质系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复古,要是有任何异议,迎接有计划半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3726期实质,迎接关怀。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的实质就点“在看”共享给小伙伴哦