• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

晶圓級芯片,是未來

14小時前
710
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:九林

今天,大模型參數(shù)已經(jīng)以“億”為單位狂飆。

僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。

但單芯片GPU的瓶頸是很明顯的:第一,單芯片的物理尺寸限制了晶體管數(shù)量,即便采用先進制程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多芯片互聯(lián)時,數(shù)據(jù)在芯片間傳輸產(chǎn)生的延遲與帶寬損耗,導(dǎo)致整體性能無法隨芯片數(shù)量線性增長。

這就是為什么,面對GPT-4、文心一言這類萬億參數(shù)模型,即使堆疊數(shù)千塊英偉達 H100,依然逃不過 “算力不夠、電費爆表” 的尷尬。

目前,業(yè)內(nèi)在AI訓(xùn)練硬件分為了兩大陣營:采用晶圓級集成技術(shù)的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基于傳統(tǒng)架構(gòu)的GPU集群(如英偉達?H100)。

晶圓級芯片被認為是未來的突破口。

?01晶圓級芯片,兩大玩家

在常規(guī)的芯片生產(chǎn)流程中,一個晶圓會在光刻后被切割成許多小裸片(Die)并且進行單獨封裝,每片裸片在單獨封裝后成為一顆完整的芯片。

芯片算力的提升方式,是依靠增加芯片面積,所以芯片廠商都在不斷努力增加芯片面積。目前算力芯片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸無法突破曝光窗的大小。

曝光窗大小多年來一直維持不變,成為了制約芯片算力增長的原因之一。

晶圓級芯片則提供了另一種思路。通過制造一塊不進行切割的晶圓級互連基板,再將設(shè)計好的常規(guī)裸片在晶圓基板上進行集成與封裝,從而獲得一整塊巨大的芯片。

未經(jīng)過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成帶寬更高、延時更短的互連結(jié)構(gòu),相當于通過高性能互連與高密度集成構(gòu)建了更大的算力節(jié)點。所以,相同算力下,由晶圓級芯片構(gòu)建的算力集群占地面積對比GPU 集群能夠縮小 10-20 倍以上,功耗可降低 30% 以上。

全球有兩家公司已經(jīng)開發(fā)出了晶圓級芯片的產(chǎn)品。

一家是Cerebras。這家企業(yè)從2015年成立,自2019年推出了WES-1,之后經(jīng)過不斷迭代,目前已經(jīng)推出到第三代晶圓級芯片——WES-3。

WES-3采用臺積電5nm工藝,晶體管數(shù)量達到夸張的4萬億個,AI核心數(shù)量增加到90萬個,緩存容量達到了44GB,可以支持高達 1.2PB 的片外內(nèi)存。

WES-3的能力可以訓(xùn)練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆并聯(lián)情況下,一天內(nèi)即可完成700億參數(shù)的調(diào)教,支持最多2048路互連,一天便可完成Llama 700億參數(shù)的訓(xùn)練。

這些都是集成在一塊215mm×215mm=46,225mm2的晶圓上。

如果這個對比還不夠明顯,那可以這么看:對比英偉達H100,WES-3的片上內(nèi)存容量是 H100的880倍、單芯片內(nèi)存帶寬是H100的7000倍、核心數(shù)量是H100的52倍,片上互連帶寬速度是H100的3715倍。

另一家是特斯拉。特斯拉的晶圓級芯片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。

特斯拉Dojo的技術(shù)路線和Cerebras不一樣。是通過采用Chiplet路線,在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯粒(裸Die)。

D1芯粒在645平方毫米的芯片上放置了500億個晶體管,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的帶寬。

特斯拉的Dojo系統(tǒng)專門針對全自動駕駛(FSD)模型的訓(xùn)練需求而定制。思路是從25個D1芯粒→1個訓(xùn)練瓦(Training Tile)→6個訓(xùn)練瓦組成1個托盤→2個托盤組成1個機柜→10個機柜組成1套ExaPOD超算系統(tǒng),能夠提供1.1EFlops的計算性能。

02晶圓級芯片與GPU對比

既然單芯片GPU和晶圓級芯片走出了兩條岔路,在這里我們以Cerebras WSE-3、Dojo 和英偉達 H100為例,對比一下兩種芯片架構(gòu)對算力極限的不同探索。

一般來說AI 訓(xùn)練芯片 GPU 硬件的性能通過幾個關(guān)鍵指標進行評估:每秒浮點運算次數(shù)(FLOPS)?,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。內(nèi)存帶寬,決定了訪問和處理數(shù)據(jù)的速度,直接影響訓(xùn)練效率。延遲和吞吐量,能夠評估GPU處理大數(shù)據(jù)負載和模型并行性的效率,從而影響實時性能。

算力性能

Cerebras WSE-3 憑借單片架構(gòu),在 AI 模型訓(xùn)練中展現(xiàn)獨特潛力。

一般來講,每秒浮點運算次數(shù)(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓(xùn)練峰值性能達到 125 PFLOPS,支持訓(xùn)練高達 24 萬億參數(shù)的 AI 模型,且無需進行模型分區(qū)處理。這個功能就特別適合以精簡高效的方式處理超大模型。

與依賴分層內(nèi)存架構(gòu)(可能造成處理瓶頸)的傳統(tǒng)?GPU 不同,WSE 的設(shè)計使850 個核心可獨立運行,并直接訪問本地內(nèi)存,這樣就有效提升了計算吞吐量。

在這方面,英偉達H100采用的是模塊化和分布式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統(tǒng),可實現(xiàn)超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架構(gòu)就存在數(shù)據(jù)傳輸問題,雖然NVLink 和 HBM3 內(nèi)存能降低延遲,但在訓(xùn)練超大型模型時,GPU 間通信仍會影響訓(xùn)練速度。

在AI訓(xùn)練的表現(xiàn)中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統(tǒng)組成的集群,訓(xùn)練Meta的700億參數(shù)Llama 2 LLM僅需1天,相比Meta原有的AI訓(xùn)練集群,速度提升達30倍。

延遲與吞吐量

從數(shù)據(jù)傳輸來看,WSE-3 的單片架構(gòu)避免了多芯片間的數(shù)據(jù)傳輸,顯著降低延遲,支持大規(guī)模并行計算和核心間低延遲通信。速度快是單片的優(yōu)勢,與傳統(tǒng)GPU 集群相比,WSE-3 可將軟件復(fù)雜度降低高達 90%,同時將實時 GenAI 推理的延遲降低 10倍以上。

特斯拉Dojo Training Tile屬于晶圓級集成,當然也能夠大幅降低通信開銷。由于是從Die到Die之間傳遞,在跨區(qū)塊擴展時仍會產(chǎn)生一定延遲。目前,Dojo 能實現(xiàn) 100 納秒的芯片間延遲,并且針對自動駕駛訓(xùn)練優(yōu)化了吞吐量,可同時處理 100 萬個每秒 36 幀的視頻流。

英偉達H100基于 Hopper 架構(gòu),是目前最強大的AI訓(xùn)練GPU之一,配備18,432個CUDA 核心和640個張量核心,并通過NVLink和NVSwitch系統(tǒng)實現(xiàn)GPU間高速通信。高速通信。雖然多 GPU 架構(gòu)具備良好擴展性,但數(shù)據(jù)傳輸會帶來延遲問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向帶寬,延遲仍高于晶圓級系統(tǒng)。

盡管能夠憑借著架構(gòu)特性實現(xiàn)單晶圓工作負載的低延遲和高吞吐量,但晶圓級系統(tǒng)如WSE-3 和 Dojo面臨著可擴展性有限、制造成本高和通用工作負載靈活性不足的問題。

誰更劃算?

從硬件購置成本來看,不同芯片的價格因架構(gòu)和應(yīng)用場景而異。

據(jù)報道,特斯拉單臺Tesla Dojo 超級計算機的具體成本估計在3 億至 5 億美元之間。技術(shù)路線上,Dojo采用的是成熟晶圓工藝再加上先進封裝(采用了臺積電的Info_SoW技術(shù)集成),去實現(xiàn)晶圓級的計算能力,能夠避免挑戰(zhàn)工藝極限。這既能保證較高的良品率,又便于實現(xiàn)系統(tǒng)的規(guī)?;a(chǎn),芯粒的更新迭代也更為輕松。

Cerebras WSE 系統(tǒng)則因先進的制造工藝與復(fù)雜設(shè)計,面臨較高的初期研發(fā)和生產(chǎn)成本。據(jù)報道,Cerebras WSE-2 的每個系統(tǒng)成本在 200 萬至 300 萬美元之間。

相比之下,英偉達單GPU的采購成本比較低。以英偉達A100來說,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業(yè)在搭建 AI 計算基礎(chǔ)設(shè)施初期,更傾向于選擇英偉達GPU。不過,英偉達GPU在長期使用中存在能耗高、多芯片協(xié)作性能瓶頸等問題,會導(dǎo)致運營成本不斷增加。

總體來看,雖然WSE-2能為超大規(guī)模AI模型提供超高計算密度,但對于需要在大型數(shù)據(jù)中心云服務(wù)中部署多GPU可擴展方案的機構(gòu),A100的成本優(yōu)勢更為明顯。

03結(jié)語

常規(guī)形態(tài)下,集群算力節(jié)點越多,則集群規(guī)模越大,花費在通信上的開銷就越大,集群的效率就越低。

這就是為什么,英偉達NVL72 通過提升集群內(nèi)的節(jié)點集成密度(即提高算力密度)。在一個機架中集成了遠超常規(guī)機架的 GPU 數(shù)量,使得集群的尺寸規(guī)模得到控制,效率才能實現(xiàn)進一步提升。

這是英偉達權(quán)衡了良率和成本之后給出的解決方案。但是如果英偉達繼續(xù)按照這種計算形態(tài)走下去,想要進一步提升算力密度,就會走到晶圓級芯片的路上。畢竟,晶圓級芯片的形態(tài)是目前為止算力節(jié)點集成密度最高的一種形態(tài)。

晶圓級芯片,潛力無限。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國半導(dǎo)體產(chǎn)業(yè),我們一直在路上。