剛剛,商湯又多了一項“亞洲第一”。
就在上海臨港,商湯自建的人工智能計算中心(AIDC)交付使用,一舉成為亞洲最大的AI超算中心(至少是之一)。這也是“亞洲營收第一”,“亞洲AI軟件第一股”之后,商湯開啟的新標(biāo)簽。
不同的是,這次,很硬。
單從算力來看,商湯AIDC總算力達(dá)到3740 Petaflops,相當(dāng)于每秒進(jìn)行374億億次浮點運算,374后面16個“0”,可完整訓(xùn)練萬億參數(shù)大模型。
這個規(guī)模,放在全國、甚至全亞洲已投產(chǎn)的計算中心里都是第一梯隊。
在剛剛過去的2021年,各大城市建設(shè)AIDC你爭我趕,好不熱鬧。北上廣深自不必說、南京武漢合肥西安AIDC項目也紛紛上馬。
根據(jù)國家工信安全智庫發(fā)布的《新一代人工智能算力基礎(chǔ)設(shè)施發(fā)展研究》,國內(nèi)AIDC建設(shè)整體思路是政企合作。建設(shè)模式多為政府出資招標(biāo)、政企合資,承建方也多為傳統(tǒng)IT基礎(chǔ)設(shè)施服務(wù)商、云服務(wù)商。
商湯AI算法起家,僅一期就自投56億元研發(fā)建設(shè)一個如此重資產(chǎn)的項目屬實少見,開了國內(nèi)先例。
這家AI公司的基礎(chǔ)設(shè)施建成了什么樣子?有什么特別之處?又為何選擇自建?這一系列問題自商湯AIDC項目自2020年3月首次宣布以來都是外界好奇所在。
今天借著正式落成的機會,我們就來一一解答。
耗資56億元打造出大裝置的“基石”
據(jù)了解,商湯AIDC占地面積80畝,建筑面積13萬平方米,是亞洲最大的超算中心之一。
其中,光是投入運營的一期機柜數(shù)量就達(dá)到5000個,國產(chǎn)硬件占了50%;后續(xù)二期“完成體”建成后,算力會比現(xiàn)在的3740P至少翻一番。
作為AI算法和平臺的底層基礎(chǔ)設(shè)施,商湯AIDC并非僅僅是一個堆疊大量服務(wù)器、AI專用處理器、聯(lián)網(wǎng)設(shè)備等硬件的“物理倉庫”,相反自研了不少技術(shù)來提升算力:
高性能計算引擎。這個引擎介于硬件和平臺之間,專門用來“壓榨”各種芯片,提升它們的計算能力。結(jié)合全圖優(yōu)化技術(shù),還能將引擎能力延展到AI模型計算、預(yù)處理和后處理階段。
分布式任務(wù)調(diào)度系統(tǒng)。單一芯片以外,多芯片的協(xié)同計算能力同樣重要,商湯的這一系統(tǒng)便是為此研發(fā),目前在已投入使用的集群中每年調(diào)度超過2000萬個任務(wù),進(jìn)一步降低成本。
除了這兩大硬件技術(shù)以外,商湯還針對數(shù)據(jù)交換(輸入/輸出)、軟硬件協(xié)同設(shè)計和系統(tǒng)安全進(jìn)行了設(shè)計,在提升模型生產(chǎn)效率、拔高算力的同時,確保用戶使用的安全性。
問題來了,一度以AI算法出名的商湯,為何要投入56億元自建一個智算中心?
這就要提到AIDC在商湯版圖中的定位了——它是整個商湯大裝置的“基石”。
商湯大裝置,類似于AI版“發(fā)電廠”,包含計算基礎(chǔ)設(shè)施、深度學(xué)習(xí)平臺和模型層,能夠像大規(guī)模發(fā)電一樣,批量化地生產(chǎn)各種AI算法模型(還能部署、迭代和升級)。
AIDC上運行著商湯大裝置中的所有AI算法和平臺,此次投入使用,相當(dāng)于將整個大裝置的能力完全開放了出來,即整個商湯這些年儲備的“AI能力”。
這個能力,本質(zhì)上是從0到1半自動、自適應(yīng)化生產(chǎn)AI模型的能力:
一個人無需擁有AI知識,只需要給定模型的輸入和輸出條件(端到端,例如輸入一段話,輸出一幅畫),商湯大裝置就能快速DIY一個AI模型。
因此,AIDC既能獨立作為智算中心、也能作為大裝置的基石運行。
從智算中心角度而言,商湯AIDC最近加入了國家(上海)新型互聯(lián)網(wǎng)交換中心,不僅能提供網(wǎng)絡(luò)服務(wù),本身也能作為算力云平臺進(jìn)行使用。
事實上,在AIDC正式對外開放之前,商湯內(nèi)部就已經(jīng)在它基礎(chǔ)上,訓(xùn)練出了不少成功的算法案例。
例如,最近剛發(fā)布的“書生”模型(INTERN),覆蓋了分類、目標(biāo)檢測、語義分割、深度估計四大視覺核心任務(wù),就是在AIDC上訓(xùn)練出來的。
相較于OpenAI的CLIP,“書生”只需要10%的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)的任務(wù)準(zhǔn)確率,很好地hold住了數(shù)據(jù)量不足的長尾場景、以及通用大模型的需求場景這兩大問題。
而作為大裝置的一部分,商湯AIDC在面對產(chǎn)業(yè)、科研和政府的“AI+”需求時,又能很好地作為一個物理平臺去生產(chǎn)和運行AI模型。
其中,產(chǎn)業(yè)中的大量傳統(tǒng)行業(yè),就能借助大裝置更快地完成數(shù)字化轉(zhuǎn)型;政府則能利用AI進(jìn)行城市治理、打造智慧鄉(xiāng)村;而針對如今AI for Science場景,像生物方向的蛋白質(zhì)結(jié)構(gòu)預(yù)測、或是理化方向的公式推導(dǎo)等,大裝置同樣能幫助科研機構(gòu)實現(xiàn)一整套用AI算法完成理論實驗的流程。
當(dāng)然,這些還都只是從定義上來看,AIDC所能實現(xiàn)的基礎(chǔ)能力。
從商湯角度來說,這一整套自建的AIDC,相對于其他的智算中心究竟有什么優(yōu)勢?
“商湯版”AIDC,有何優(yōu)勢?
主要有五大核心競爭力。
其一,高彈性算力。作為一年AI頂會發(fā)表五十余篇論文、有“算法工廠”之稱的商湯,從算法角度對于各種模型的硬件訓(xùn)練和需求有自己的話語權(quán)。
小到某一特定任務(wù)的算法模型,大到百億參數(shù)的通用模型,研究人員都需要在AIDC上運行,這方面的經(jīng)驗商湯已經(jīng)積累成了一個算法平臺,也因此能讓AIDC的算力在最大程度上被充分利用。
用商湯副總裁楊帆的話來說就是:“我們的AI算法科學(xué)家會對硬件算力提出需求,所以知道這個智算中心最好要做成什么樣子。”
其二,低算力成本。一方面,商湯通過提升軟件平臺的兼容性,來適配各種國產(chǎn)硬件,從而實現(xiàn)成本降低。也就是無論模型在哪個牌子的硬件上訓(xùn)練或推理,商湯的平臺都能兼容,這就使得在供應(yīng)鏈上能取得話語權(quán),從而降低硬件成本。
另一方面,商湯對于AI數(shù)據(jù)的存儲進(jìn)行了一個針對性的設(shè)計,相比于過去的結(jié)構(gòu)化數(shù)據(jù),商湯自研的存儲系統(tǒng)能針對性地根據(jù)特定類型的任務(wù),提速AI數(shù)據(jù)的存取。
其三,高安全性。商湯AIDC針對隱私計算做了大量工作,包括沙箱和多方安全計算等,不僅能做到數(shù)據(jù)的網(wǎng)絡(luò)隔離,而且能做到物理隔離。
同時,針對數(shù)據(jù)使用權(quán)進(jìn)行了一個界定,最大程度上確??蛻舻臄?shù)據(jù)不被泄露、或是在確保隱私的情況下被合理使用。
其四,低網(wǎng)絡(luò)時延。對于AIDC本身而言,接入國家(上海)新型互聯(lián)網(wǎng)交換中心不僅讓訪問時延更低,而且意味著整體網(wǎng)絡(luò)服務(wù)成本更低,質(zhì)量更高;
同時,對于大裝置而言,AIDC的集群網(wǎng)絡(luò)設(shè)計基于RDMA(高速通信網(wǎng)絡(luò))技術(shù),又能進(jìn)一步提升模型訓(xùn)練的速度。
其五,低碳性。除了性能以外,商湯AIDC的能耗也控制得不錯,PUE做到了1.28,這意味著相對于運行服務(wù)器等硬件的能耗,支撐數(shù)據(jù)中心運行的燈光和空調(diào)等費用是非常低的。
具體來說,AIDC功耗比國內(nèi)其他數(shù)據(jù)中心低10%,相當(dāng)于每年都能節(jié)省約4500萬度電(一臺普通手機使用一年,功耗總量也不到10度電)。
這也使得商湯AIDC雖然不是最早做的,但卻能在行業(yè)中站到一個相對領(lǐng)先的位置。
回望過去的計算中心發(fā)展史,這大約并不是一個“偶發(fā)性事件”。
誕生于AI時代洪流之中
聽上去,AIDC或者叫人工智能計算中心,似乎是一個頗為新鮮的概念。但其實在它之前,DC(數(shù)據(jù)中心)、IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)、甚至是超級計算中心,就已經(jīng)出現(xiàn)在人們的視野中。
被稱作“人工智能”計算中心的AIDC,究竟為何會在時代的洪流中脫穎而出?
在新一輪深度學(xué)習(xí)熱潮之前,大數(shù)據(jù)首先在互聯(lián)網(wǎng)行業(yè)得到發(fā)展。由此催生的IT基礎(chǔ)設(shè)施便是互聯(lián)網(wǎng)數(shù)據(jù)中心 (IDC),若再往前追溯,則是大企業(yè)內(nèi)部的數(shù)據(jù)中心 (DC)。
從DC到IDC,表面上看只是給數(shù)據(jù)中心“拉了根網(wǎng)線”,實際上是服務(wù)對象的變化、價值的升級。
硬件設(shè)施集中在一起,帶來數(shù)據(jù)存儲和處理能力增強和邊際成本下降,超出企業(yè)內(nèi)部需要的能力后,就可以打包成資源輸出給外部客戶。
隨著互聯(lián)網(wǎng)行業(yè)的崛起、成為過去數(shù)年間發(fā)展最快的行業(yè)之一,行業(yè)分工也由此發(fā)生細(xì)化,出現(xiàn)了專門的數(shù)據(jù)中心,專門給互聯(lián)網(wǎng)廠商提供基礎(chǔ)設(shè)施服務(wù)。
然而,在IDC中吃了一波時代紅利的人可能沒想到,AI的到來會再度催生出名為AIDC的產(chǎn)物。
隨著AI大模型的出現(xiàn),算法對算力的要求越來越高,人們對數(shù)據(jù)中心的要求不再是只提供基礎(chǔ)設(shè)施服務(wù),還希望它能夠更高速地運行各種AI算法,并落地成各種智能應(yīng)用。
服務(wù)對象也不再限于互聯(lián)網(wǎng)行業(yè),還擴展到了更多希望通過“AI+”實現(xiàn)轉(zhuǎn)型的傳統(tǒng)領(lǐng)域。
智慧制造、智慧能源、智慧城市都是近一段時間的突出代表。
靠傳統(tǒng)IT技術(shù)沒能做到的產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,終于在AI的作用下成了一股不可阻擋的趨勢。
根據(jù)權(quán)威咨詢機構(gòu)國際數(shù)據(jù)公司(縮寫也是IDC)預(yù)測,算力指數(shù)平均每提高1個點,數(shù)字經(jīng)濟(jì)和GDP將分別增長3.3‰和1.8‰——
AI除了技術(shù)的發(fā)展,也正在成為拉升經(jīng)濟(jì)的重要“戰(zhàn)力”。
但除了數(shù)據(jù)中心以外,領(lǐng)域內(nèi)已經(jīng)有很多現(xiàn)成的超算中心,人工智能計算中心的出現(xiàn),是否并非必然?
事實上,二者仍然有很大不同。超級計算機主要面對尖端科技發(fā)展需要,如天氣預(yù)測、能源勘探、衛(wèi)星遙感。
科學(xué)和工程計算主要處理結(jié)構(gòu)化的數(shù)值數(shù)據(jù),對計算精度的要求最高,往往需要使用64位雙精度計算,由CPU提供。
而AI面對的,則是大量文本、圖像、視頻這樣的非結(jié)構(gòu)化數(shù)據(jù),對精度要求沒那么高,對速度和效率更看重,更多靠GPU提供高并行的低精度算力。
AI在訓(xùn)練階段主要用到32位單精度和16位半精度,在實際應(yīng)用時的推理階段,則經(jīng)常只用16位甚至更低精度來保證運行效率。
顯然,從服務(wù)對象和技術(shù)自身兩方面來看,AI都要求有專門的基礎(chǔ)設(shè)施,AIDC本身其實是“洪流之下”的一大趨勢。
然而要說商湯這次在上海建的AIDC全是順應(yīng)時代所然,仍舊不免讓人產(chǎn)生疑問:投入成本上,他們選擇承擔(dān)自建自投的風(fēng)險,一出手就是56億元;建設(shè)方案上,他們沒有照搬已有的智算中心“作業(yè)”,而是針對人工智能計算的特點對傳統(tǒng)IT基礎(chǔ)設(shè)施服務(wù)能力做了優(yōu)化和升級。
這背后有些什么考量?
帶著這些問題,我們與商湯聯(lián)合創(chuàng)始人、副總裁楊帆聊了聊。他說建設(shè)AIDC這事,還要從2018年說起……
“降低重復(fù)成本是永遠(yuǎn)的追求”
2018年后來被稱為“人工智能商業(yè)化落地元年”。
那一年,商湯正處于業(yè)務(wù)拓展期。
大眾容易感知到的,是AI雙攝、AI美顏落地到OV、小米等各品牌手機上;不容易感知到的,還有智慧園區(qū)、智慧城市上更多項目開始起步。
楊帆回憶道,從那時起他們就隱約感到AI需要大算力基礎(chǔ)設(shè)施這個趨勢。
這個感覺來自技術(shù)研發(fā),也來自產(chǎn)業(yè)發(fā)展。
技術(shù)方面,從ELMo到BERT,預(yù)訓(xùn)練模型的規(guī)模越來越大,對更大算力提出要求;產(chǎn)業(yè)方面,隨著AI在更多場景落地、滲透到更多領(lǐng)域,產(chǎn)業(yè)分工開始細(xì)化,規(guī)?;幕A(chǔ)設(shè)施會成為需求。
這種變化,在過去很多行業(yè)都曾見過,比如大數(shù)據(jù)中心、云計算中心。
剛開始,商湯對這個基礎(chǔ)設(shè)施的輪廓沒有勾勒得很明確,是在后面的探索中才逐漸清晰。
從互聯(lián)網(wǎng)公司、科技數(shù)碼產(chǎn)品公司到傳統(tǒng)工廠、物流、園區(qū)、政府,AI開始服務(wù)于離技術(shù)更遠(yuǎn)的客戶,在這之中,商湯比較看重為客戶提供端到端的服務(wù),提供完整解決方案。
楊帆覺得AI開發(fā)平臺應(yīng)該像是操作系統(tǒng),需要主動去對硬件和應(yīng)用都搞好兼容,硬件基礎(chǔ)設(shè)施也不能只是提供一個物理的環(huán)境,還要具備提供相應(yīng)服務(wù)的能力:
與IDC的“租地皮”模式不同,AIDC更像“開餐館”模式。
而決定自投自建,則主要有兩方面原因。
一是是商湯看好AIDC未來的前景,希望以“自己吃螃蟹”來表明決心,向外界傳遞明確的信號;
二是作為一個探索性的項目,完全由自己出資有更大的自主決策權(quán)。
建設(shè)節(jié)奏也能把控得更快,2020年3月,商湯與上海臨港簽署合作協(xié)議,7月拿地開工,22年初就已經(jīng)投入使用。
商湯AIDC建成后,對不同類型的客戶可以提供不同層次的服務(wù):
最基礎(chǔ)的就是提供算力和AI算法生產(chǎn)工具體系,也就是深度學(xué)習(xí)平臺;對于希望拿到應(yīng)用級解決方案的用戶,商湯可以提供端到端服務(wù);甚至對于有科研需要的客戶,商湯“連科學(xué)家也可以作為服務(wù)的一種,一并提供”。
商湯最不缺的就是科學(xué)家。按截至去年6月末的數(shù)據(jù),商湯擁有40位教授,250多位博士,3500多位科學(xué)家和工程師,研發(fā)人員占比超過三分之二。
研發(fā)人員普遍信奉一個格言:
如果一件事需要重復(fù)做的次數(shù)超過3次,就要創(chuàng)造一個工具來做。
對于科技企業(yè),用工具去提升效率,降低重復(fù)性的成本是永遠(yuǎn)的追求。
商湯把這個工具的概念放大,就成了AI大裝置。
AI的三大要素,都能在大裝置中得到進(jìn)化。
先是數(shù)據(jù)。楊帆認(rèn)為數(shù)據(jù)作為智能時代最重要的生產(chǎn)要素,與農(nóng)業(yè)時代、工業(yè)時代的土地、能源有本質(zhì)不同。數(shù)據(jù)是越用越多的,且可以低成本共享,越多數(shù)據(jù)放在一起產(chǎn)生的價值是非線性增長。
再說算力。提供算力的AI芯片,特別是國產(chǎn)GPU芯片在大裝置中與算法平臺和應(yīng)用得到適配。建設(shè)大裝置所下的大量訂單也能幫助國產(chǎn)GPU形成規(guī)?;慨a(chǎn)能力,攤薄流片成本,加速國產(chǎn)芯片商業(yè)化進(jìn)程。
然后是算法。算法創(chuàng)新的成本正在因算力和工具的發(fā)展急劇下降。商湯研發(fā)人員每年人年均生產(chǎn)商用模型的數(shù)量,從2019年0.44個,2020年3.45個,2021年上半年到了5.24個,效率提升11.9倍。
在2021年上半年,商湯擁有的總算力是每秒1.17百億億次浮點運算;上海臨港AIDC投產(chǎn)之后,這個數(shù)值超過每秒4.91百億億次浮點運算……算法的生產(chǎn)效率還將進(jìn)一步提高。
AI算法生產(chǎn)的邊際成本降低后,一方面可以降低AI現(xiàn)有服務(wù)對象所要付出的成本,另一方面則可以覆蓋更多中長尾客戶和場景提供定制化的AI能力。
目前,商湯AIDC已經(jīng)被上海市經(jīng)濟(jì)和信息化委員會授予“上海人工智能融合賦能中心”稱號。
楊帆透露稱,現(xiàn)在已投產(chǎn)的部分只是第一期,后續(xù)還會擴建,以及隨著試運營經(jīng)驗的積累持續(xù)改善節(jié)能減排,而在上海之外,對更多有AI產(chǎn)業(yè)需求的地區(qū),商湯未來也會逐步去覆蓋。
今天落成的上海臨港AIDC,還只是商湯AI大裝置中基礎(chǔ)設(shè)施部分的起點。
夢晨 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI