當(dāng)?shù)貢r(shí)間10月17日,美國正式發(fā)布新規(guī),全面收緊尖端AI芯片對華出口,并將13家中國GPU實(shí)體列入“實(shí)體清單”。
商務(wù)部長雷蒙多表示,管制目的就是遏制中國獲得先進(jìn)芯片,從而阻礙「人工智能和復(fù)雜計(jì)算機(jī)領(lǐng)域的突破」。
自此,英偉達(dá)和其他芯片制造商向我國銷售高性能半導(dǎo)體,受到的限制愈加嚴(yán)重,而相關(guān)公司想找到繞過限制的方法,也愈加艱難。
根據(jù)相關(guān)文件,GPU芯片只要滿足以下條件的其中一個(gè),就會受到出口限制——
來源:中信證券
隨著新規(guī)的出臺,英偉達(dá)、AMD和英特爾的股價(jià)也一度大跌。
據(jù)稱,英偉達(dá)在數(shù)據(jù)中心芯片方面的收入,有多達(dá)25%都依賴于中國市場。
此外,作為新規(guī)的一部分,芯片設(shè)計(jì)公司摩爾線程和壁仞科技,也被拉入了最新的黑名單中。
30天內(nèi),立即生效!
根據(jù)美國商務(wù)部下發(fā)的文件,禁令將在30天內(nèi)生效。
同時(shí),雷蒙多還表示,以后法規(guī)可能會至少每年更新一次。
總算力低于300 TFLOPS,且每平方毫米370 GFLOPS以下
在去年的禁令中,美國曾禁止出口超過2個(gè)閾值的芯片:一個(gè)是芯片所含算力的大小,另一個(gè)是芯片之間相互通信的速率。
之所以做如此規(guī)定,是因?yàn)锳I系統(tǒng)需要在同一時(shí)間將成千上萬的芯片串聯(lián)在一起,處理大量數(shù)據(jù)。
而英偉達(dá)特供版的芯片H800/A800做到了保持在通信限制之下,同時(shí)仍能訓(xùn)練AI模型,因?yàn)樗鼈儽A袅藦?qiáng)大的計(jì)算能力。
此前,路透社報(bào)道稱,英偉達(dá)H800芯片間數(shù)據(jù)的傳輸速度為每秒400 GB/s,不到H100峰值速度(每秒900 GB/s)的一半。
這一次,美國官員表示,新規(guī)將更專注于算力,這就可以控制更多芯片,包括英偉達(dá)的特供版。
算力方面,美商務(wù)部這次取消了「帶寬參數(shù)」,取而代之的是「性能密度」。
根據(jù)新規(guī),修改后的出口管制禁止向中國公司出售運(yùn)行速度為300 TFLOPS(一萬億運(yùn)算/秒)及以上的數(shù)據(jù)中心芯片。
如果速度為150-300 TFLOPS的芯片的「性能密度」為每平方毫米370 GFLOPS(十億次運(yùn)算/秒)或更高,則將被禁止銷售。
以上述速度運(yùn)行,但性能密度較低的芯片屬于「灰色地帶」,這意味著必須向美政府通報(bào)對中國的銷售情況。
雖然這些規(guī)則不適用「消費(fèi)產(chǎn)品」的芯片,但美商務(wù)部表示,出口商在出口速度超過300 TFLOPS的芯片時(shí)也必須上報(bào),以便當(dāng)局可以跟蹤這些芯片是否被大量用于訓(xùn)練AI模型。
根據(jù)新規(guī),受影響的英偉達(dá)芯片包括但不限于A100、A800、H100、H800、L40和L40S,甚至連RTX 4090也需要額外的許可要求。
現(xiàn)在剩下的,似乎只有英偉達(dá)V100了。根據(jù)該芯片參數(shù),芯片相互通信速率是300 GB/s,運(yùn)行速度最大為125 TFLOPS。
此外,任何集成了一個(gè)或多個(gè)所涵蓋集成電路的系統(tǒng)(包括但不限于DGX和HGX系統(tǒng))也在新許可要求的涵蓋范圍之內(nèi)。
不過,英偉達(dá)預(yù)計(jì),短期內(nèi)美國最新限令不會產(chǎn)生重大影響。
堵住Chiplet漏洞
美國這次試圖解決的另一個(gè)問題,是Chiplet。通過這種技術(shù),芯片的較小部分可以連接在一起,形成一個(gè)完整芯片。
美國擔(dān)心中國公司通過Chiplet獲取符合規(guī)定的小芯片,然后再秘密組裝成更大的芯片。
這次新規(guī)增加了「性能密度」的限制,對芯片在一定尺寸中的計(jì)算能力加以限制,就是針對此類變通方法。
Chiplet方法,或許是中國半導(dǎo)體行業(yè)未來的核心。
中國GPU企業(yè),通通列入黑名單
業(yè)內(nèi)人士認(rèn)為,如果美國芯片在中國被禁,中國公司會努力填補(bǔ)市場上的空白。
摩爾線程和壁仞科技都是由英偉達(dá)前員工創(chuàng)立的,被認(rèn)為是中國生產(chǎn)英偉達(dá)芯片國產(chǎn)替代品的最佳候選者。
但現(xiàn)在,這兩家公司也被添加到了實(shí)體清單,這阻斷了臺灣半導(dǎo)體公司或其他使用美國設(shè)備的制造商為它們制造芯片。
對應(yīng)的中文公司名稱如下:
- 北京壁仞科技開發(fā)有限公司
- 廣州壁仞集成電路有限公司
- 杭州壁仞科技開發(fā)有限公司
- 光線云(杭州)科技有限公司;
- 摩爾線程智能科技(北京)有限責(zé)任公司;
- 摩爾線程智能科技(成都)有限責(zé)任公司;
- 摩爾線程智能科技(上海)有限責(zé)任公司;
- 上海壁仞信息科技有限公司;
- 上海壁仞集成電路有限公司;
- 上海壁仞科技股份有限公司(曾用名:上海壁仞智能科技有限公司);
- 超燃半導(dǎo)體(南京)有限公司;
- 蘇州芯延半導(dǎo)體科技有限公司;
- 珠海壁仞集成電路有限公司
芯片工廠的危險(xiǎn)信號
美國表示,任何包含500億或更多晶體管、并使用高帶寬內(nèi)存的芯片,都包含著危險(xiǎn)信號。
出口商需要格外注意,是否需要許可證才能向中國發(fā)貨。
而這一門檻,幾乎涵蓋了所有先進(jìn)的AI芯片,幫助芯片工廠發(fā)現(xiàn)規(guī)避規(guī)則的行為。
DUV光刻機(jī)也受限
美國還將先進(jìn)芯片的出口許可證要求增加到22個(gè)國家。
管制范圍也擴(kuò)大到最終母公司總部設(shè)在上述國家的任何公司,以防止境外子公司購買違禁芯片。
美國還對其余21個(gè)國家提出了芯片制造工具的許可要求,擔(dān)心這些設(shè)備可能被轉(zhuǎn)移到中國。
荷蘭的DUV光刻系統(tǒng)也受到了限制,以防止ASML向中國的芯片工廠運(yùn)輸一些較舊的DUV型號和配件。
DUV設(shè)備比不上最先進(jìn)的EUV設(shè)備,但它可以以更高的成本制造芯片。而EUV早已全面被禁。
大廠囤貨:10萬塊A800,今年交付
對于國內(nèi)互聯(lián)網(wǎng)巨頭來說,現(xiàn)在手里還有多少存貨?
目前,這一具體數(shù)額未知。不過,國內(nèi)大廠剛剛發(fā)聲:我們囤得夠了。
前段時(shí)間,外媒FT曾報(bào)道稱,國內(nèi)互聯(lián)網(wǎng)大廠競相訂購了價(jià)值約50億美元的英偉達(dá)芯片。
據(jù)介紹,百度、字節(jié)、騰訊、阿里已經(jīng)向英偉達(dá)下單A800,價(jià)值10億美元,共10萬塊芯片,將于今年交付。
另外,還有40億美元GPU訂單,也將于2024年交付。
兩位內(nèi)部人士透露,字節(jié)已經(jīng)儲備了至少1萬個(gè)英偉達(dá)GPU來支持各種生成式人工智能產(chǎn)品。
他們補(bǔ)充道,該公司還訂購了近7萬個(gè)A800芯片,將于明年交付,價(jià)值約7億美元。
英偉達(dá)在一份聲明中表示,「消費(fèi)者互聯(lián)網(wǎng)公司和云提供商,每年在數(shù)據(jù)中心組件上投資數(shù)十億美元,而且往往提前數(shù)月下單。」
今年早些時(shí)候,隨著全球生成式AI的不斷推進(jìn),據(jù)國內(nèi)科技公司的內(nèi)部人表示,大多數(shù)中國互聯(lián)網(wǎng)巨頭可用于訓(xùn)練大型語言模型的芯片庫存不到幾千個(gè)。
自那以來,隨著需求的增長,這些芯片的成本也在增長。一位英偉達(dá)分銷商表示,「分銷商手中的A800價(jià)格上漲了50%以上」。
比如,阿里發(fā)布自家大模型通義千問后,并將其整合到各線產(chǎn)品中。
與此同時(shí),百度也在全力投入大模型的研發(fā)和應(yīng)用中,文心一言不斷迭代升級,現(xiàn)能與GPT-4媲美。
騰訊云今年4月,發(fā)布了一個(gè)全新的服務(wù)器集群,其中就使用了英偉達(dá)H800。
另據(jù)2位人士透露,阿里云還從英偉達(dá)獲得了數(shù)千個(gè)H800,而且許多客戶與阿里建立聯(lián)系,希望使用這些芯片驅(qū)動的云服務(wù),以推動自家模型的研發(fā)。
訓(xùn)練大模型,用什么芯片?
從年初至今,業(yè)界紛紛發(fā)展自家的大模型,通常對標(biāo)的是「地表最強(qiáng)」GPT-4模型。
此前爆料稱,GPT-4采用的是MoE架構(gòu),由8個(gè)220B模型組成,參數(shù)量達(dá)1.76萬億。
這一參數(shù)量已經(jīng)讓許多人望塵莫及,對算力的消耗已經(jīng)是最大極限。
具體來說,OpenAI訓(xùn)練GPT-4的FLOPS約為2.15e25,在大約25000個(gè)A100上訓(xùn)練了90到100天,利用率在32%到36%之間。
那么,對于下一代模型,人們口中的「GPT-5」,對算力又將有多大的需求?
此前,摩根士丹利曾表示,GPT-5將使用25000個(gè)GPU,自2月以來已經(jīng)開始訓(xùn)練,不過Sam Altman之后澄清了GPT-5尚未進(jìn)行訓(xùn)。
另根據(jù)馬斯克的說法,GPT-5可能需要30000-50000塊H100。
這意味著,如果科技大廠想要進(jìn)一步推進(jìn)大模型的迭代升級,還需要極大的算力支持。
對此,英偉達(dá)首席科學(xué)家Bill Dally曾表示:「隨著訓(xùn)練需求每6到12個(gè)月翻一番,這一差距將隨著時(shí)間的推移而迅速擴(kuò)大?!?/p>