李根 魚(yú)羊 假裝發(fā)自 西溪
量子位 | 公眾號(hào) QbitAI
“生死看淡,不服就干”,平頭哥造芯模式,正式跑通。
2022云棲大會(huì)現(xiàn)場(chǎng),新進(jìn)展再次由阿里云智能總裁張建鋒對(duì)外宣布。
倚天710已大規(guī)模應(yīng)用,成為中國(guó)首個(gè)云上大規(guī)模應(yīng)用的自研CPU。
在核心應(yīng)用場(chǎng)景中,算力性價(jià)比提升30%以上,單位算力功耗(耗電量)降低60%以上。
張建鋒還宣布,倚天710的部署規(guī)模還會(huì)進(jìn)一步擴(kuò)大,未來(lái)兩年20%的新增算力都將使用自研CPU。
更直白翻譯,就是以后阿里云的芯片部署中,每10顆CPU芯片里就有2顆自研CPU。
這個(gè)進(jìn)展和應(yīng)用,為何重要?
首先,大規(guī)模部署代表著芯片產(chǎn)品獲得了市場(chǎng)檢驗(yàn),也意味著最難的生態(tài)一環(huán)達(dá)成閉環(huán)——雖然不如新硬件來(lái)的“刺激”,但意義和價(jià)值卻絲毫不遜于新品發(fā)布,甚至長(zhǎng)遠(yuǎn)來(lái)看,量級(jí)簡(jiǎn)直不能相提并論。
其次,倚天710,作為一款基于Arm架構(gòu)的云端CPU,想要在x86占主導(dǎo)地位的全球云計(jì)算和服務(wù)器芯片生態(tài)中立足,更是難上加難,目標(biāo)十中有二更是Arm架構(gòu)在云端里程碑式的新突破。
最后,倚天710的大規(guī)模部署,不僅是中國(guó)首個(gè)自研CPU的應(yīng)用紀(jì)錄,還意味著誕生在造芯浪潮中的平頭哥模式干出來(lái)了!
縱觀半導(dǎo)體半個(gè)世紀(jì)的發(fā)展史,檢驗(yàn)造芯模式的核心關(guān)鍵一以貫之:
- 造出來(lái)(設(shè)計(jì)和流片)
- 用得上(需求和性能)
- 用得好(功耗和成本)
- 離不開(kāi)(工具和生態(tài))
而在倚天710的進(jìn)展中,這四大流程關(guān)鍵,平頭哥都(一口氣)完成了實(shí)踐證明。
唯一待解之謎,只剩下造芯模式的通關(guān)速度——
傳統(tǒng)IT時(shí)代的造芯公司和通用芯片,短則5~7年,長(zhǎng)則可能10年……
而平頭哥的倚天710,僅僅用了2年。
所以這種模式和速度背后,根本原因是什么?
是半導(dǎo)體領(lǐng)域也面臨世紀(jì)變革?
抑或一個(gè)時(shí)代果真有一個(gè)時(shí)代的造芯模式?
中國(guó)首個(gè)云端大規(guī)模應(yīng)用的自研CPU
倚天710,2021年云棲大會(huì)發(fā)布,是平頭哥造芯以來(lái)交出的首款通用型CPU。
單芯片600億晶體管、128核、主頻3.2GHz……首戰(zhàn)跑分就超出業(yè)內(nèi)標(biāo)桿20%,能效比提升50%以上。
主要用于云計(jì)算場(chǎng)景,基于Arm v9架構(gòu),首發(fā)即刷新了Arm服務(wù)器芯片性能紀(jì)錄。
作為通用芯片,需要囊括接收、處理、運(yùn)算服務(wù)器計(jì)算機(jī)內(nèi)部所有信息,是業(yè)內(nèi)公認(rèn)的設(shè)計(jì)難度最高的芯片之一。
但芯片之難,最根本還不在于設(shè)計(jì)和制造,更關(guān)鍵的是落地和應(yīng)用:能夠真正讓更多人用得上、用得好,以強(qiáng)大的生態(tài)拱衛(wèi)壘砌起護(hù)城河。
于是一年之后,平頭哥交出重要答卷。
阿里云方面稱,經(jīng)過(guò)一年業(yè)務(wù)驗(yàn)證,倚天710已規(guī)模部署并對(duì)外提供服務(wù)。
具體到應(yīng)用場(chǎng)景中,在數(shù)據(jù)庫(kù)、大數(shù)據(jù)、視頻編解碼、AI推理等核心場(chǎng)景中的性價(jià)比提升30%以上,單位算力功耗(耗電量)降低60%以上。
這種應(yīng)用實(shí)例,有阿里內(nèi)部的新業(yè)務(wù),也有外部客戶:比如研究機(jī)構(gòu),智能手機(jī)企業(yè),還有知名互聯(lián)網(wǎng)公司。
主打數(shù)據(jù)智能SaaS工具生態(tài)的匯量科技就表示,在廣告推理中使用倚天710實(shí)例后,不僅有效提升了CPU處理能力和網(wǎng)絡(luò)帶寬,成本對(duì)比傳統(tǒng)實(shí)例也降低15-20%,綜合性價(jià)比提升40%以上。
而阿里集團(tuán)內(nèi)部,倚天710則開(kāi)始支持最核心的電商業(yè)務(wù),并且成功在雙11等峰值流量大考中,經(jīng)受住了實(shí)戰(zhàn)檢驗(yàn)。
這種應(yīng)用和反饋,意外嗎?不算意外。
畢竟性能和參數(shù),從設(shè)計(jì)和成功流片之后,就決定了跑分成績(jī)。
但一款A(yù)rm云端CPU能夠快速應(yīng)用于不同場(chǎng)景和服務(wù),適配不同領(lǐng)域的軟件和應(yīng)用,純靠硬件之力,辦不到。
阿里云方面解釋,這背后離不開(kāi)倚天710、飛天操作系統(tǒng)和CIPU融合,首次實(shí)現(xiàn)了芯片、計(jì)算架構(gòu)及操作系統(tǒng)的協(xié)同優(yōu)化。
而且從造芯啟動(dòng)開(kāi)始,算法、軟件和生態(tài)工具的相關(guān)工作也早已啟動(dòng),作用到倚天710大規(guī)模部署中,實(shí)現(xiàn)了全應(yīng)用生態(tài)的適配,甚至0代碼修改即可完成主流業(yè)務(wù)遷移。
所以對(duì)于平頭哥造芯,軟件定義硬件、需求定義供給,都是已經(jīng)驗(yàn)證過(guò)的定理。但全局思維下的以終為始,把生態(tài)和應(yīng)用納入到造芯流程中,卻是新角度、新方法。
這是對(duì)傳統(tǒng)芯片研發(fā)模式的根本性變革,也暗含云原生映射的時(shí)代趨勢(shì),更能解釋平頭哥造芯的模式和速度。
倚天710的成功、平頭哥模式的跑通,是云計(jì)算定義硬件的成功,是云計(jì)算重塑芯片甚至整個(gè)IT硬件體系的證明。
更代表著——IT時(shí)代全新的造芯模式開(kāi)啟。
一個(gè)時(shí)代有一個(gè)時(shí)代的造芯模式
阿里入局造芯,平頭哥不服就干。
氣勢(shì)、速度和交貨,三位一體。
2018年9月,整合中天微和達(dá)摩院成立旗下芯片公司后,平頭哥半導(dǎo)體正式推出,放話“生死看淡”。
僅僅1年,首款處理器產(chǎn)品玄鐵910對(duì)外發(fā)布,創(chuàng)造RISC-V開(kāi)源陣營(yíng)里的最快紀(jì)錄。
又過(guò)1年,還在云棲大會(huì),首款A(yù)I專用芯片含光800,一劍霜寒十四州,首發(fā)特定場(chǎng)景性能就40倍于同領(lǐng)域標(biāo)桿英偉達(dá)P4。
到了2021年,依然是云棲,倚天710以阿里首款為云而生的通用CPU震動(dòng)業(yè)內(nèi),性能跑分領(lǐng)先,能效比更是領(lǐng)跑……
加上今年披露的落地部署和應(yīng)用進(jìn)展,用產(chǎn)品回應(yīng)質(zhì)疑,用進(jìn)展證明模式和實(shí)力。
整個(gè)進(jìn)程中,平頭哥造芯模式的速度秘訣,也在摸象中逐步清晰。核心歸結(jié)起來(lái)其實(shí)就3點(diǎn)。
第一,造得快,因?yàn)樾枨笄逦?/p>
傳統(tǒng)半導(dǎo)體廠商造芯,先調(diào)研客戶、再收集需求、接著內(nèi)部收斂聚焦,然后才能進(jìn)入定義和芯片設(shè)計(jì)……過(guò)程中免不了技術(shù)、產(chǎn)品和工程的拉鋸平衡,于是造芯周期光在前期規(guī)劃就會(huì)無(wú)限拉長(zhǎng)。
平頭哥之所以不同,是因?yàn)榘⒗镌圃诳蛻舴?wù)、需求和算力產(chǎn)品定義上,積累已非一日,設(shè)計(jì)規(guī)劃周期,可以大大縮短。
第二,造得好,源自任務(wù)明確。
一方面,通過(guò)需求定義供給。什么樣的任務(wù),需要芯片提供什么樣的能力……傳統(tǒng)造芯,先把性能按照天花板設(shè)計(jì),再在部署應(yīng)用中想辦法適配和榨干,芯片之于應(yīng)用是參考答案。而需求定義供給,則可以抓住主要任務(wù)和矛盾,芯片即解答。
另一方面,軟件定義硬件。芯片作為計(jì)算任務(wù)的解法集成,以前是先有硬件再配算法,但從AI為主的專用需求開(kāi)始,最高效的解法早已變成了軟硬一體化方案,甚至為了算法和軟件去定制芯片硬件。
這種源頭起點(diǎn)上的變革,芯片的性能、功耗、應(yīng)用落地,自然不會(huì)差。
第三,用得上且用得好,因?yàn)槁涞貓?chǎng)景清晰。
平頭哥造芯,從一開(kāi)始就與阿里云緊密協(xié)同,阿里云是集團(tuán)同事、客戶、也是落地場(chǎng)景,在阿里生態(tài)內(nèi),就能完成芯片的全流程。
芯片的流程,之前最受關(guān)注的是設(shè)計(jì)和流片,但這其實(shí)只是開(kāi)始。
流片之后需要壓測(cè),驗(yàn)證穩(wěn)定性,然后小批量交付客戶開(kāi)發(fā)利用反饋,進(jìn)行功能性測(cè)試,如果有問(wèn)題還得重新設(shè)計(jì)、改版,再走一遍周期,這也是為什么一款芯片在流片成功之后,依然需要一年半載才能驗(yàn)證應(yīng)用價(jià)值的內(nèi)在原因。
但平頭哥不同,在阿里集團(tuán)內(nèi)部,在阿里云的體系協(xié)同下,各種壓測(cè)、場(chǎng)景和應(yīng)用反饋,基本是完整全鏈路的。
比如倚天710,去年8月點(diǎn)亮成功,云棲大會(huì)官宣發(fā)布,緊接著雙11就開(kāi)啟了峰值極限下的穩(wěn)定性壓測(cè)……以往傳統(tǒng)芯片公司用時(shí)一年半載才能完成的流程,阿里幾個(gè)月就走完了,一款芯片的成熟周期,被大大縮短。
所以平頭哥造芯,自然是攻堅(jiān)科技產(chǎn)業(yè)中最基礎(chǔ)又最關(guān)鍵的一環(huán),但從一開(kāi)始就并非為造而造,或者因?yàn)闊岢倍霭l(fā)。
平頭哥半導(dǎo)體的價(jià)值,或許要放在整個(gè)阿里的算力攻堅(jiān)進(jìn)程中,才能透過(guò)局部看整體,透過(guò)現(xiàn)象看清本質(zhì)。
阿里云的發(fā)展史,關(guān)于開(kāi)創(chuàng)者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。
但從算力技術(shù)主線和維度,可以倒推歸結(jié)為4個(gè)階段。
第一個(gè)階段,用分布式技術(shù)解決算力瓶頸。
在全球互聯(lián)網(wǎng)流量大爆發(fā)之前,企業(yè)算力的核心載體是小型機(jī),通過(guò)線下自建或租用服務(wù)器的方式解決算力問(wèn)題,但對(duì)于身處消費(fèi)互聯(lián)網(wǎng)方向上的企業(yè)而言,這種模式顯然越來(lái)越難以為繼。
阿里的算力攻堅(jiān),以及阿里云計(jì)算的肇始,就是基于這樣的背景。
2007年,為了應(yīng)對(duì)指數(shù)級(jí)擴(kuò)張的淘寶流量,阿里開(kāi)始從業(yè)務(wù)底層的IOE(IBM小型機(jī)、Oracle數(shù)據(jù)庫(kù)、EMC存儲(chǔ))尋求根本性解法,即后來(lái)的基于云計(jì)算搭建全新技術(shù)架構(gòu),打破“擴(kuò)大采購(gòu)規(guī)模”的線性局限。
其后進(jìn)一步為這套底層技術(shù)和上層業(yè)務(wù)開(kāi)發(fā)操作系統(tǒng),在2009年正式啟動(dòng)了飛天,阿里云也由此正式成立,沒(méi)想到日后會(huì)成為中國(guó)企業(yè)自研云計(jì)算的開(kāi)端。
飛天云操作系統(tǒng)的本質(zhì),是要用分布式架構(gòu)替換中心化架構(gòu),可以讓全世界服務(wù)器實(shí)現(xiàn)連接,既能快速應(yīng)對(duì)突增的流量,還能讓計(jì)算資源真正像水電一樣即需即用。
所以“分布式架構(gòu)”和發(fā)展方向,就是算力攻堅(jiān)的核心第一仗,后面集群挑戰(zhàn)、故障運(yùn)維、并發(fā)應(yīng)對(duì)……都是正確方向之下的升級(jí)打怪。
結(jié)果則人人都感知到了。雙11購(gòu)物不再卡頓,12306春運(yùn)購(gòu)票也逐漸不再被吐槽……這都是阿里在分布式計(jì)算思想下開(kāi)花結(jié)果的功勞。
第二階段,從云計(jì)算需求和痛點(diǎn),反向定義新硬件。
云計(jì)算的好處,一用即知,但虛擬化損耗的問(wèn)題卻一度成為頑疾。
所謂虛擬化損耗,就是云端調(diào)用線下服務(wù)器的進(jìn)程,本身就會(huì)吸走機(jī)器性能,造成算力浪費(fèi)。
業(yè)內(nèi)面對(duì)這一頑疾,往往采用更低成本的軟件優(yōu)化方法,但顯然治標(biāo)不治本,只能優(yōu)化,不能根治。
阿里云的方法是后來(lái)的神龍架構(gòu),打造了一個(gè)專用硬件來(lái)負(fù)責(zé)芯片不擅長(zhǎng)的虛擬化調(diào)度工作,用軟硬件一體的思路真正做到了0損耗。
這讓阿里云一下子坐穩(wěn)了份額第一的位置,也帶來(lái)了更重要的開(kāi)始:算力攻堅(jiān)要向底層硬件、甚至芯片尋求解法。
軟硬一體化,軟件定義硬件,或者說(shuō)云計(jì)算定義新硬件的趨勢(shì)……在阿里云,以2017年9月第一代神龍架構(gòu)推出作為標(biāo)志性節(jié)點(diǎn)。
第三階段,造芯,重塑整個(gè)IT硬件體系。
也就是當(dāng)前所處的階段,以2017年達(dá)摩院成立,求解前沿芯片技術(shù)和2018年平頭哥半導(dǎo)體推出為標(biāo)志性事件,阿里云真正從“軟”到“硬”,從云端向下定義芯片。
當(dāng)然這種求解,有宏觀社會(huì)責(zé)任擔(dān)當(dāng)?shù)脑?,但在阿里云發(fā)展方向里,趨勢(shì)也早已再明顯不過(guò)。
一方面是去IOE體系之下的硬件進(jìn)一步變革需求。另一方面,作為云計(jì)算服務(wù)提供商,不碰芯片,不碰硬件,其實(shí)就無(wú)法真正做到性能、成本和體驗(yàn)的最優(yōu)解。
于是可以看到,除了自研芯片,阿里云還在服務(wù)器、交換機(jī)等硬件方面做了系統(tǒng)性革新,以芯片為起點(diǎn),幾乎重塑了整個(gè)IT硬件體系。
上一階段的神龍架構(gòu)計(jì)算平臺(tái),也在不斷升級(jí),成為新物種:CIPU——向下可以對(duì)數(shù)據(jù)中心的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速,向上接入操作系統(tǒng)。
所以這就是終點(diǎn)了嗎?
從阿里云已經(jīng)交貨部署的成果來(lái)看,可以算是階段性終點(diǎn)了。
但如果放在算力攻堅(jiān)的終局審視,或許還有兩個(gè)更宏大的時(shí)代級(jí)問(wèn)題:
一是新型計(jì)算架構(gòu)。整個(gè)產(chǎn)業(yè)都到了突破傳統(tǒng)馮·諾依曼架構(gòu)存儲(chǔ)計(jì)算分離的性能瓶頸的關(guān)口,存算一體的新型大一統(tǒng)計(jì)算體系架構(gòu),被越來(lái)越多提及。
二是新型顛覆式計(jì)算形態(tài),比如量子計(jì)算。
有意思的是,這兩大時(shí)代級(jí)問(wèn)題,任何一個(gè)對(duì)于當(dāng)前算力格局的影響,可能都會(huì)是核彈級(jí)的。
總的說(shuō)來(lái),只有如此全局式透視,以終點(diǎn)看起點(diǎn)和過(guò)程,才能更本質(zhì)地看清阿里造芯、平頭哥模式的歸、去、來(lái)。
這背后是一家公司對(duì)于科技需求和科技發(fā)展挑戰(zhàn)的逢山開(kāi)路,但同樣也是時(shí)代趨勢(shì)的具體映射和展現(xiàn)。
或許不用再贅述和論證了。
一個(gè)時(shí)代有一個(gè)時(shí)代的算力需求和挑戰(zhàn),于是一個(gè)時(shí)代也就有一個(gè)時(shí)代的算力解決方案,進(jìn)而一個(gè)時(shí)代就會(huì)有一個(gè)時(shí)代的造芯模式。
平頭哥模式,就是代表算力發(fā)展方向的代表性模式。
如何評(píng)價(jià)「平頭哥模式」?
最后,芯片全流程work,整個(gè)模式跑通,也意味著平頭哥出發(fā)時(shí)被寄予的期望和質(zhì)疑,都到了可以重新評(píng)估的時(shí)候。
阿里造芯以來(lái),噱頭、熱點(diǎn)和形象工程之說(shuō),從未停止。
但隨著倚天710年度性交卷,成為中國(guó)首個(gè)云上大規(guī)模應(yīng)用的自研CPU,此論可休矣。
而且倚天710創(chuàng)造的紀(jì)錄、展現(xiàn)的效用、開(kāi)啟的范式,必將帶來(lái)造芯模式上更大的啟發(fā)和變革。
其次,過(guò)去幾年云計(jì)算相關(guān)的格局洗牌猜想,同樣也到了有理有據(jù)的結(jié)辯時(shí)刻。
過(guò)去的市場(chǎng)份額是阿里云一騎絕塵,因?yàn)槌霭l(fā)得早。接下來(lái)的格局也依然會(huì)是阿里云不可爭(zhēng)鋒,因?yàn)榛谛酒偷讓榆浻惨惑w架構(gòu)的壁壘,無(wú)人能比,短時(shí)間內(nèi)無(wú)人能及。
而且業(yè)內(nèi)業(yè)外,一種討論和新觀點(diǎn)也正在愈演愈烈:
新時(shí)代的科技競(jìng)速,本質(zhì)就是以算力為基建的競(jìng)速。
下層基建決定了上層生態(tài)。底層基建決定了發(fā)展速度。
或許完全強(qiáng)調(diào)算力的作用,太過(guò)絕對(duì)。但誰(shuí)也無(wú)法否認(rèn)的是,算力正在成為科技發(fā)展中最基礎(chǔ)也最重要的生產(chǎn)要素。
而對(duì)于阿里和阿里云來(lái)說(shuō),過(guò)去的積累和沉淀,在當(dāng)前的時(shí)代級(jí)變革前顯得如此恰逢其時(shí)。
芯片、操作系統(tǒng)、數(shù)據(jù)庫(kù)、存儲(chǔ)、網(wǎng)絡(luò)和上層應(yīng)用……擁有全棧完整自研軟硬件技術(shù)體系的云計(jì)算提供商,中國(guó)目前僅此一家。
這是阿里之幸,也是時(shí)代給予的機(jī)遇??萍甲兏锏囊?guī)律,通常都是哪里有痛點(diǎn)需求,哪里就有解決方案和應(yīng)對(duì)之策。
但上一波科技浪潮涌動(dòng)之時(shí),中國(guó)玩家沒(méi)能參與其中,基礎(chǔ)半導(dǎo)體的研發(fā)和定義,也完全處于跟隨狀態(tài)。
所以現(xiàn)在,終于終于有機(jī)會(huì),可以在全新造芯范式下,從新起點(diǎn)出發(fā),參與硬科技創(chuàng)新的研發(fā)和定義。
或許這一次,也真正有這樣有意思的機(jī)會(huì)——
源自中國(guó)文化里的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問(wèn)、了解和感嘆。