• 正文
    • “1+1”:堆料背后的邏輯鏈
    • UltraFusion:實(shí)現(xiàn)“1+1=2”的勝負(fù)手
    • 小結(jié)
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Apple M1 Ultra: “1+1”,一道簡(jiǎn)單的難題

2022/04/13
589
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作為Apple Silicon的第一代產(chǎn)品,M1對(duì)于蘋果和業(yè)界都具有標(biāo)志性的意義。如今,M1家族已經(jīng)擴(kuò)充到了第四個(gè)成員:M1 Ultra。

然而,也許是兄長(zhǎng)們將市場(chǎng)的期待值抬得過高,M1 Ultra的問世并沒有像前者一般受到眾星捧月的榮光。相反的卻出現(xiàn)了不少質(zhì)疑:“不過是兩個(gè)M1 Max的簡(jiǎn)單拼接罷了”,“并沒有逆天的性能”、“除了做視頻一無是處”、“能打游戲嗎”……

所以,M1 Ultra究竟是拉胯還是引領(lǐng)了芯片設(shè)計(jì)的新趨勢(shì)?蘋果最強(qiáng)芯片的背后,體現(xiàn)了它們?cè)鯓拥脑O(shè)計(jì)理念?這篇文章我們就來深入看看。

“1+1”:堆料背后的邏輯鏈

在芯片設(shè)計(jì)風(fēng)格上,“舍得堆料”是蘋果一貫的特色。

從微架構(gòu)級(jí)別的堆內(nèi)存,到更宏觀一些的堆CPU、GPU核心,再到直接將兩個(gè)完整的SoC堆在一起,蘋果的設(shè)計(jì)理念并不是在隨機(jī)地發(fā)展著,其背后是一條連貫的邏輯線。

因此,當(dāng)兩個(gè)M1 Max芯片堆砌而成的M1 Ultra呈現(xiàn)在我們面前時(shí),一切是如此意料之外而又情理之中。

硬件參數(shù)直觀地反映了堆料的效果,這也是M1 Ultra出乎我們意料的原因之一:20個(gè)CPU核心、64個(gè)GPU核心、32個(gè)神經(jīng)網(wǎng)絡(luò)引擎、128GB統(tǒng)一內(nèi)存、800GBps內(nèi)存帶寬、1140億個(gè)晶體管,再加上臺(tái)積電5納米制造工藝的加持——雖然蘋果在硬件設(shè)計(jì)方面的出手闊綽已是人盡皆知,但是如此富裕的硬件資源仍然讓人咋舌。

相比之下,英特爾數(shù)據(jù)中心級(jí)超算GPU Ponte Vecchio、英偉達(dá)剛剛發(fā)布還熱乎著的H100 GPU,晶體管數(shù)量也“僅有”區(qū)區(qū)1000億和800億。

所以問題是,為什么蘋果這次選擇的是“1+1”的方式,而不是從零開始、用一個(gè)全新的架構(gòu)來整合以上的硬件資源呢?

之前我們聊到了“以芯粒(Chiplet)為基本單位”這種集成方式的優(yōu)勢(shì)所在、以及行業(yè)巨頭們對(duì)它的推崇備至——UCIe標(biāo)準(zhǔn)的推出。

而M1 Ultra選擇在此時(shí)登場(chǎng),可算是把戲劇性拉滿了:一方面,蘋果用產(chǎn)品表明了自己力挺基于芯粒的技術(shù)方向的態(tài)度;另一方面,又叫板了UCIe:“芯粒的互聯(lián),我已經(jīng)搞定了”。

當(dāng)然,從芯粒的角度來說,身為SoC的M1 Max顯然是太大了些。畢竟在大部分的語(yǔ)境中,一個(gè)芯粒更接近于一個(gè)IP的物理實(shí)現(xiàn)。即便如此,兩者的出發(fā)點(diǎn)仍然有相當(dāng)高的一致性,因此將M1 Ultra看成是一種較為極端的、芯粒互聯(lián)的嘗試也并無不妥。

使用芯粒的最大好處,就是能顯著縮短芯片開發(fā)的周期。

這類似于模塊化設(shè)計(jì)的概念,通過把一個(gè)復(fù)雜的設(shè)計(jì)任務(wù)拆分為多個(gè)功能特定的子任務(wù),實(shí)現(xiàn)同一個(gè)公司中的不同組之間、乃至不同公司之間的分工合作,把每一個(gè)子任務(wù)交到擅長(zhǎng)的人手里,開發(fā)效率自然能發(fā)生質(zhì)變。

這一點(diǎn)對(duì)于M1 Ultra的設(shè)計(jì)工作而言同樣是成立的。假設(shè)沒有M1 Max這個(gè)子模塊,如果要把如此豐富的硬件資源一股腦兒塞進(jìn)一個(gè)全新的設(shè)計(jì)中,我們可能等到明年才能見到M1 Ultra。

芯粒的好處不僅局限于架構(gòu)設(shè)計(jì),而是遍布于芯片開發(fā)的各個(gè)階段,比如后端的制造階段。

在相同的制造條件下,越大的芯片面積往往意味著越低的良率。這有點(diǎn)像傳說中的“不要把雞蛋都放在一個(gè)籃子里”:打個(gè)比方,在平均每個(gè)晶圓出現(xiàn)一個(gè)壞點(diǎn)的情況下,如果每個(gè)晶圓的大小只能容納一塊芯片,那么幾乎所有被制造出的都將是廢片。但如果芯片面積沒那么大、一個(gè)晶圓可以制造十塊芯片,那么良率將直接拉升到接近90%。

通過基于芯粒的設(shè)計(jì)方式,一個(gè)大芯片可以分解成多個(gè)芯粒拼湊得到,而不是作為一個(gè)整體被制造出來,這就能有效地規(guī)避低良率造成的成本過高的風(fēng)險(xiǎn)。

芯粒已經(jīng)成為近年來芯片設(shè)計(jì)和制造的熱點(diǎn),以至于幾家大公司前不久剛剛推出了UCIe協(xié)議,目的就是統(tǒng)一芯粒的設(shè)計(jì)要求和規(guī)范。從此芯粒的玩法就有了游戲規(guī)則,在規(guī)則內(nèi)大家可以任意發(fā)揮。

不過,不讓人意外的是,UCIe的初始成員名單里并沒有蘋果。

多年以來,蘋果一直用實(shí)際行動(dòng)宣告著:盡管自己有著設(shè)計(jì)一流的芯片的能力,但卻完全無意通過將自己的設(shè)計(jì)販賣給其他廠商的方式來獲利。因此,成為制定UCIe標(biāo)準(zhǔn)的一員對(duì)于蘋果而言顯然不是一個(gè)多有吸引力的選項(xiàng)。

但是,這不表示蘋果對(duì)于基于芯粒的設(shè)計(jì)理念是不屑一顧的。正如我們所看到的,通過以“1+1”的方式開發(fā)出M1 Ultra,蘋果選擇用產(chǎn)品這一最有說服力的載體來宣布:“芯片互聯(lián),我是極為支持的,并且又一次走在了行業(yè)的前沿。”

UltraFusion:實(shí)現(xiàn)“1+1=2”的勝負(fù)手

從硬件參數(shù)的角度來看,兩塊芯片的互聯(lián)自然意味著硬件資源的直接疊加。

但要是說到性能釋放,這道加法便沒那么簡(jiǎn)單了:“1+1”等于2并不是必然,結(jié)果可能是1.2、1.5...甚至后者們才是常態(tài)。

這道看似簡(jiǎn)單的加法題該如何解?蘋果的答題思路才是重頭戲。

事實(shí)上,基于芯片互聯(lián)的多CPU系統(tǒng)目前已經(jīng)得到了非常廣泛的應(yīng)用,尤其是在工作站等應(yīng)用場(chǎng)景下;但是與之相對(duì)的,多GPU系統(tǒng)卻還有著不小的技術(shù)進(jìn)步的空間。

有的讀者朋友可能有異議:“這不是睜眼說瞎話嗎?蘋果自家的Mac Pro不就屬于這一范疇?”

誠(chéng)然,應(yīng)用早已經(jīng)不在少數(shù),但是效果上還只能說是差強(qiáng)人意。究其原因,在于GPU對(duì)于帶寬的要求實(shí)在是太高了,而導(dǎo)致的結(jié)果就是“1+1<2”:GPU們盡管被連在了一起,但是在面對(duì)計(jì)算任務(wù)時(shí)卻依然是各自為戰(zhàn)、跟一個(gè)個(gè)獨(dú)立的GPU沒什么差別。

這樣的現(xiàn)象在面對(duì)單一任務(wù)時(shí)會(huì)被最大程度地放大。由于無法協(xié)同完成計(jì)算,最常見的情況就是:系統(tǒng)中的一個(gè)GPU大包大攬、而其余的激情圍觀。這種對(duì)硬件資源的浪費(fèi),顯然有悖于我們搭建多GPU系統(tǒng)的初衷。

對(duì)此,坐擁來自兩個(gè)M1 Max的、共計(jì)64個(gè)GPU核心,M1 Ultra給出的解題思路是一種名為UltraFusion的封裝架構(gòu)。

UltraFusion利用額外的硅中介層連接起兩塊M1 Max,而這個(gè)連接的超高速接口早在M1 Max上就已經(jīng)存在了。這進(jìn)一步印證了:蘋果選擇以“1+1”的方式設(shè)計(jì)M1 Ultra早已埋下了伏筆,而不是心血來潮。

而硅中介層的應(yīng)用,使得整個(gè)封裝架構(gòu)呈現(xiàn)出典型的“2.5D”的特征。作為應(yīng)對(duì)逐漸放緩腳步的摩爾定律的手段之一,從平面的2D走向立體的3D一直被認(rèn)為是芯片封裝技術(shù)重要的發(fā)展方向,2.5D便是過渡階段中一種典型的技術(shù)手段。它并不是直接把兩個(gè)芯片疊加起來的那種真3D結(jié)構(gòu),而是將多個(gè)芯片通過額外的中介層或者橋接進(jìn)行互聯(lián)和集成。

關(guān)于蘋果的UltraFusion,有些人認(rèn)為它的實(shí)現(xiàn)方式基于臺(tái)積電的CoWoS-S(Chip-on-Wafer-on-Substrate with Si interposer)技術(shù),并做了一系列的優(yōu)化,比如用可關(guān)閉的緩沖器來有效降低互連線的功耗,引入短且密集金屬互連從而提高性能等等。

在UltraFusion的加持下,兩塊M1 Max間的帶寬來到了恐怖的2.5TB/s,這是M1 Ultra很有潛力在實(shí)際性能上也能實(shí)現(xiàn)“1+1=2”的關(guān)鍵 :對(duì)于某一具體的應(yīng)用場(chǎng)景來說,只要兩塊M1 Max間的數(shù)據(jù)傳輸速度能夠滿足其需求,那么兩塊芯片中的硬件資源對(duì)于該應(yīng)用而言便是一個(gè)合二為一、可以任意調(diào)度的整體。

PK環(huán)節(jié)常常是蘋果發(fā)布會(huì)上最讓人津津樂道的部分之一,而這一回成為了背景板的是英偉達(dá)家的GeForce RTX 3090。

3090應(yīng)該可以說是目前桌面級(jí)顯卡產(chǎn)品中的一哥,而根據(jù)蘋果給出的數(shù)據(jù),在相同的性能下,M1 Ultra的功耗比前者低了200瓦,因此,這個(gè)數(shù)據(jù)乍一看頗為震撼。

但是,我覺得并沒有必要對(duì)于這一對(duì)比結(jié)果做過度的解讀。

首先,兩者的晶體管數(shù)量上就有著較為明顯的差距:M1 Ultra約為3090的四倍,堆料對(duì)于性能的貢獻(xiàn)自然不容忽視;并且兩者的目標(biāo)市場(chǎng)的重合度也不高,這決定了3090的架構(gòu)設(shè)計(jì)中很少將“低功耗”作為一個(gè)重要指標(biāo) ;何況M1 Ultra基于業(yè)內(nèi)最為先進(jìn)的臺(tái)積電5納米制造工藝,而3090采用的則是三星的8納米工藝,由制造工藝上的差距造成的性能差異同樣是有決定性意義的。更重要的是,當(dāng)系統(tǒng)給到滿血功率的時(shí)候,3090的性能實(shí)際是超過M1 Ultra的,已經(jīng)有不少國(guó)內(nèi)外的博主證實(shí)了這一點(diǎn)。

比起花式地作出“震驚!M1 Ultra吊打了…”這樣的驚呼,我對(duì)于M1 Ultra最大的期待仍然執(zhí)著于那道簡(jiǎn)單的難題:它究竟能不能在實(shí)際的應(yīng)用場(chǎng)景中實(shí)現(xiàn)“1+1=2”?

從硬件角度來說:2.5TB/s的片間帶寬能夠滿足具體計(jì)算任務(wù)的需求?片間的延遲會(huì)不會(huì)依舊是難以攻克的瓶頸?而在軟件方面,能否靈活地調(diào)度兩個(gè)M1 Max中豐富的硬件資源來高效地完成各種處理任務(wù) ?我覺得這才是M1 Ultra真正需要證明自己的地方。

我很期待蘋果用M1 Ultra交出的這份答卷,因?yàn)橐坏┧晒α耍@對(duì)于基于芯粒的設(shè)計(jì)理念來說、對(duì)于基于芯片互聯(lián)的多GPU系統(tǒng)來說,都將是具有劃時(shí)代的重大意義。

小結(jié)

利用UltraFushion技術(shù),蘋果選擇用兩塊M1 Max拼接組成M1家族的最后、同時(shí)也是最強(qiáng)的一員M1 Ultra——這一選擇看似簡(jiǎn)約,但絕對(duì)不簡(jiǎn)單。

隨著制定UCIe標(biāo)準(zhǔn)一事被提上日程,基于芯粒的芯片設(shè)計(jì)理念從幕后走向了臺(tái)前。通過M1 Ultra的發(fā)布,蘋果向我們傳達(dá)了自己對(duì)于這一理念的理解與支持,或者說展示了一種具有蘋果特色的、對(duì)于這一理念的打開方式:芯片互聯(lián)能帶給我們的不僅僅是更便捷的芯片開發(fā)流程、開發(fā)效率,還可以是更為強(qiáng)大的計(jì)算能力——在半導(dǎo)體制程逐漸逼近物理極限的此時(shí)此刻,這一點(diǎn)至關(guān)重要。

M1 Ultra是否是一款成功的設(shè)計(jì)?這個(gè)問題的答案可能并不重要,但蘋果用M1 Ultra指明了一個(gè)可行的技術(shù)方向,因此其存在本身便為行業(yè)提供了指導(dǎo)意義。

(注:本文不代表老石任職單位的觀點(diǎn)。)

蘋果

蘋果

蘋果公司(Apple Inc.),是美國(guó)的一家跨國(guó)科技公司,總部位于美國(guó)加州庫(kù)比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計(jì)與銷售業(yè)務(wù),后發(fā)展為包括設(shè)計(jì)和研發(fā)電腦、手機(jī)、穿戴設(shè)備等電子產(chǎn)品,提供計(jì)算機(jī)軟件、在線服務(wù)等業(yè)務(wù) 。

蘋果公司(Apple Inc.),是美國(guó)的一家跨國(guó)科技公司,總部位于美國(guó)加州庫(kù)比蒂諾硅谷,由史蒂夫·喬布斯和斯蒂夫·蓋瑞·沃茲尼亞克共同創(chuàng)立。公司最初從事電腦設(shè)計(jì)與銷售業(yè)務(wù),后發(fā)展為包括設(shè)計(jì)和研發(fā)電腦、手機(jī)、穿戴設(shè)備等電子產(chǎn)品,提供計(jì)算機(jī)軟件、在線服務(wù)等業(yè)務(wù) 。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

微信公眾號(hào)“老石談芯”主理人,博士畢業(yè)于倫敦帝國(guó)理工大學(xué)電子工程系,現(xiàn)任某知名半導(dǎo)體公司高級(jí)FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡(luò)加速、網(wǎng)絡(luò)功能虛擬化、高速有線網(wǎng)絡(luò)通信等領(lǐng)域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對(duì)FPGA、高性能與可重構(gòu)計(jì)算等技術(shù)在學(xué)術(shù)界頂級(jí)會(huì)議和期刊上發(fā)表過多篇研究論文。