HBM技術(shù)會給數(shù)據(jù)中心帶來怎樣的變化?
6月9日,SK海力士宣布公司已經(jīng)量產(chǎn)了HBM3 DRAM芯片,并將供貨英偉達(dá)。因此英偉達(dá)的Tensor Core GPU將成為首先配備HBM3 DRAM的GPU。
HBM3 DRAM通過分布式接口與主機(jī)計(jì)算芯片緊密耦合。接口分為獨(dú)立通道,每個(gè)通道彼此完全獨(dú)立,通道不一定彼此同步。HBM3 DRAM使用寬接口架構(gòu)來實(shí)現(xiàn)高速、低功耗運(yùn)行。每個(gè)通道接口都維持一個(gè)64位數(shù)據(jù)總線,以雙倍數(shù)據(jù)速率運(yùn)行。隨著英偉達(dá)即將使用HBM3 DRAM,數(shù)據(jù)中心即將迎來新一輪的性能革命。
想了解HBM3能帶來怎樣的改變,首先要了解HBM技術(shù)。
巨頭入局的HBM技術(shù)
HBM全稱為High Band width Memory,即高帶寬內(nèi)存,是一種新興的標(biāo)準(zhǔn)DRAM解決方案。高帶寬內(nèi)存方案最初是由三星、AMD和SK海力士提出來的。HBM技術(shù)可實(shí)現(xiàn)高于256GBps的突破性帶寬,同時(shí)降低功耗。它具有基于TSV和芯片堆疊技術(shù)的堆疊DRAM架構(gòu),核心DRAM芯片位于基礎(chǔ)邏輯芯片之上。
第一個(gè)HBM內(nèi)存芯片由SK海力士于2013年生產(chǎn),第一個(gè)使用HBM的產(chǎn)品是2015年的AMD Fiji GPU。
來源:AMD
HBM的思路十分直接:讓內(nèi)存設(shè)備靠近CPU或GPU。HBM方法將內(nèi)存芯片堆疊到一個(gè)矩陣?yán)?,接著?a class="article-link" target="_blank" href="/tag/%E5%A4%84%E7%90%86%E5%99%A8/">處理器與內(nèi)存堆疊組合在一起,形成一個(gè)基本組件,然后將其安裝到服務(wù)器主板上。
HBM棧并不是物理上與CPU和GPU集成,而是通過稱為“中介層(Interposer)”的超快速互聯(lián)方式連接至CPU或GPU。將HBM的堆棧插入到中介層中,放置于CPU或GPU旁邊,然后將組裝后的模塊連接至電路板。通過中介層緊湊而快速地連接后,HBM具備的特性幾乎和芯片集成的RAM一樣。
HBM2于2016年被提出,2018年12月,JEDEC更新了HBM2標(biāo)準(zhǔn)。更新后的標(biāo)準(zhǔn)通常稱為HBM2和HBM2E(表示與原始HBM2標(biāo)準(zhǔn)的偏差)。HBM2標(biāo)準(zhǔn)允許每個(gè)引腳3.2GBps的帶寬,每個(gè)堆棧的最大容量為24GB(每個(gè)堆棧12個(gè)裸片,每個(gè)裸片2GB)和410GBps的最大帶寬,通過1,024位內(nèi)存接口提供,由8個(gè)獨(dú)特的內(nèi)存接口分隔每個(gè)堆棧上的通道。
最初,HBM2的最大傳輸速率為每個(gè)引腳2GBps,每個(gè)堆棧的最大容量為8GB(每個(gè)堆棧8個(gè)裸片的最大裸片容量為1GB)和256GBps的最大帶寬。然后,在達(dá)到我們今天看到的標(biāo)準(zhǔn)之前,它達(dá)到了每個(gè)引腳2.4Gbps和24GB的最大容量(每個(gè)芯片2GB,每個(gè)堆棧12個(gè)芯片)和307Gbps的最大帶寬。
目前,HBM已經(jīng)被應(yīng)用在高性能圖形加速器、網(wǎng)絡(luò)設(shè)備、高性能數(shù)據(jù)中心AI ASIC和FPGA以及一些超級計(jì)算機(jī)結(jié)合使用。除了AMD、英偉達(dá)、英特爾也宣布將在至強(qiáng)處理器SapphireRapids 增加HBM2e選項(xiàng),Sapphire Rapids 也成為英特爾首款配備HBM的CPU。
HBM潛力何在?
深度學(xué)習(xí)和人工智能的興起,對數(shù)據(jù)運(yùn)算的要求越來越高。最開始數(shù)據(jù)中心通過提高CPU、GPU的性能進(jìn)而提高算力,在馮·諾伊曼架構(gòu)中,計(jì)算單元要先從內(nèi)存中讀取數(shù)據(jù),計(jì)算完成后,再存回內(nèi)存,這樣才能輸出。由于半導(dǎo)體產(chǎn)業(yè)的發(fā)展和需求的差異,處理器和存儲器二者之間走向了不同的工藝路線。由于處理器與存儲器的工藝、封裝、需求的不同,從1980年開始至今二者之間的性能差距越來越大。數(shù)據(jù)顯示,從1980年到2000年,處理器和存儲器的速度失配以每年50%的速率增加。
存儲器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度,數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中,不管處理器灌進(jìn)去多少,存儲器都只能“細(xì)水長流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲與運(yùn)算之間筑起了一道“內(nèi)存墻”。
隨著數(shù)據(jù)的爆炸增長,內(nèi)存墻對于計(jì)算速度的影響正在顯現(xiàn)。為了減小內(nèi)存墻的影響,提升內(nèi)存帶寬一直是存儲芯片關(guān)注的技術(shù)問題。黃仁勛曾表示計(jì)算性能擴(kuò)展最大的弱點(diǎn)就是內(nèi)存帶寬。集成了大量的并行運(yùn)算單元的處理器,如果內(nèi)存帶寬跟不上,無疑會成為整個(gè)運(yùn)算的瓶頸。例如谷歌第一代TPU,理論值為90TFOPS算力,最差真實(shí)值只有1/9,也就是10TFOPS算力,因?yàn)榈谝淮鷥?nèi)存帶寬僅34GB/s。
STREAM基準(zhǔn)測試的作者John Mc Calpin在他的SC16受邀演講中指出HPC系統(tǒng)中的內(nèi)存帶寬和系統(tǒng)平衡每個(gè)插槽的峰值flop/sec每年增加50%到60%,而內(nèi)存帶寬每年僅增加約23%。
在過去的七年里,GDDR5在業(yè)界發(fā)揮了重要作用。迄今為止,這項(xiàng)顯存技術(shù)中的海量存儲功能幾乎應(yīng)用在每個(gè)高性能顯卡上。DDR的出現(xiàn)實(shí)現(xiàn)了在一個(gè)時(shí)鐘周期內(nèi)進(jìn)行兩次數(shù)據(jù)傳輸,從而使之前的標(biāo)準(zhǔn)SDR(單次數(shù)據(jù)傳輸)的性能提高了一倍。
但是隨著顯卡芯片的快速發(fā)展,人們對快速傳輸信息的要求也在不斷提高。GDDR5已經(jīng)漸漸不能滿足人們對帶寬的需要,技術(shù)發(fā)展也已進(jìn)入了瓶頸期。每秒增加1GB的帶寬將會帶來更多的功耗,這不論對于設(shè)計(jì)人員還是消費(fèi)者來說都不是一個(gè)明智、高效或合算的選擇。因此,GDDR5將會漸漸阻礙顯卡芯片性能的持續(xù)增長。
憑借TSV方式,相對于GDDR,HBM技術(shù)可以提供更高的帶寬,更高的性價(jià)比。GDDR技術(shù)需要將DRAM芯片直接放置在PCB上并散布在處理器周圍。HBM位于GPU本身上,并且堆棧相互疊在一起。這種方法無疑更快。為了增加GDDR上的芯片數(shù)量,這些將占用卡上更多的空間,這需要更多的數(shù)據(jù)和電源走線。這導(dǎo)致制造成本增加,因此對最終用戶來說更昂貴。
此外,TSV技術(shù)可以在增加帶寬的同時(shí)降低封裝尺寸,同時(shí)降低功耗。在傳統(tǒng)架構(gòu)下,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍,因此真正用于計(jì)算的能耗和時(shí)間占比很低,數(shù)據(jù)在存儲器與處理器之間的頻繁遷移帶來嚴(yán)重的傳輸功耗問題,稱為“功耗墻”。
有研究指出,單個(gè)HBM2e設(shè)備的功耗幾乎是GDDR6解決方案的一半。HBM2e能提供與GDDR6相同或更高的帶寬和類似的容量,但功耗幾乎GDDR6的一半。TOPS是在給定內(nèi)存設(shè)備帶寬的情況下衡量最大可實(shí)現(xiàn)吞吐量的指標(biāo),用于評估神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)密集型AI應(yīng)用程序等應(yīng)用程序的最佳吞吐量。HBM2e的設(shè)備的TOPS/W 比GDDR6技術(shù)的吞吐量增加了一倍。
除了應(yīng)用在GPU、CPU中,HBM DRAM也已經(jīng)被應(yīng)用在FPGA上。2020年,浙江大學(xué)博士生導(dǎo)師王則可博士用團(tuán)隊(duì)自己開發(fā)出的豎亥測算出使用HBM的FPGA。傳統(tǒng)的FPGA有兩個(gè)DRAM內(nèi)存通道,每個(gè)提供19.2GB/s的內(nèi)存帶寬。因此FPGA不能完成很多對帶寬能力要求高的應(yīng)用。使用豎亥測試得出的結(jié)果顯示,HBM提供高達(dá)425GB/s的內(nèi)存帶寬,比傳統(tǒng)使用兩個(gè)DDR4來說要高一個(gè)數(shù)量級。這對FPGA來說也是一個(gè)巨大的進(jìn)步。
齊頭并進(jìn)的存內(nèi)計(jì)算
HBM的其中一個(gè)優(yōu)勢就是通過中介層縮短內(nèi)存與處理器之間的距離,通過先進(jìn)的3D封裝方式把內(nèi)存和計(jì)算單元封裝在一起,提高了數(shù)據(jù)搬運(yùn)速度。近存儲計(jì)算本質(zhì)上來說還沒有做到真正的存算“一”體。那么是否有辦法進(jìn)一步打破存儲墻呢?
存內(nèi)計(jì)算是學(xué)術(shù)界為了解決這一問題提出的新一代技術(shù)。密歇根大學(xué)的研究人員與應(yīng)用材料公司合作報(bào)告稱,具有多級單元電阻RAM(ReRAM)的內(nèi)存模擬計(jì)算有望為機(jī)器學(xué)習(xí)和科學(xué)計(jì)算提供高密度和高效的計(jì)算。使用128 MNIST數(shù)據(jù)集測得的原始和歸一化峰值效率分別為20.7和662 TOPS/W,報(bào)告的計(jì)算密度為8.4TOPS/mm2,分類準(zhǔn)確率為96.8%。
佐治亞理工學(xué)院提出了一種基于RRAM的無ADC內(nèi)存計(jì)算(CIM)宏電路,該方案使用模擬信號處理和直接數(shù)字化,可將傳感電路的面積開銷減少0.5倍,并將吞吐量提高6.9倍。所提出的方案還實(shí)現(xiàn)了11.6倍的能效提升和4.3倍的計(jì)算效率提升。
SK海力士表示,由于存內(nèi)計(jì)算在運(yùn)算中減少了內(nèi)存與CPU、GPU間的數(shù)據(jù)傳輸往來,大大降低了功耗,GDDR6-AiM可使功耗降低80%。SK海力士解決方案開發(fā)擔(dān)當(dāng)副社長安炫表示:“基于具備獨(dú)立計(jì)算功能的存內(nèi)計(jì)算技術(shù),SK海力士將通過GDDR6-AiM構(gòu)建全新的存儲器解決方案生態(tài)系統(tǒng)。”
臺積電在存內(nèi)計(jì)算研發(fā)方面的投入也很大。在本屆ISSCC上,臺積電共合作發(fā)表了6篇關(guān)于存內(nèi)計(jì)算存儲器IP的論文,其中一篇的作者全部來自臺積電,其余5篇則是臺積電和其他高校合作。臺積電獨(dú)立發(fā)表的SRAM論文基于5nm工藝,可以在不同計(jì)算精度下實(shí)現(xiàn)高計(jì)算密度和能效比。
三星、IBM、東芝、英特爾等半導(dǎo)體大廠都已經(jīng)在存內(nèi)計(jì)算方面布局。三星在2021年發(fā)布的HBM2-PIM,使用Aquabolt-XL技術(shù)圍繞HBM2 DRAM進(jìn)行存內(nèi)計(jì)算,可實(shí)現(xiàn)高達(dá)1.2TFLOPS的計(jì)算能力。
值得一提的是存內(nèi)計(jì)算并非要取代HBM技術(shù),更多的是幫助HBM DRAM突破算力瓶頸。在算力時(shí)代,CPU、GPU總是技術(shù)關(guān)注的焦點(diǎn),但AWS團(tuán)隊(duì)曾經(jīng)表示,對于服務(wù)器來說,在內(nèi)存上下功夫,會比增加核數(shù)的效果更快。
存儲在算力時(shí)代的重要性正在攀升,HBM技術(shù)登臺后,哪個(gè)技術(shù)會是儲存行業(yè)的突破口呢?