英偉達Orin后繼者Thor大約在2021年底開始確定設計范圍,2022年9月首次亮相,2023年4季度Thor推出工程樣片,預計2024年3季度量產(chǎn)。目前已知Thor有三個版本,一個是Thor-X,估計價格在600-800美元之間,另一個是Thor-X-Super,估計價格在1000-1300美元之間,最后一個是Thor-Jetson,用于機器人和工業(yè)領域,沒有太多資料透露,只知道算力是800TOPS,以太網(wǎng)接口帶寬在100Gb, 估計價格在400-500美元之間。不排除還有其他版本的Thor存在。
基本上Thor-X-Super就是Thor-X的兩片合二為一,可能使用了MCM,類似Chiplet的工藝。就像蘋果的Duo系列,不過蘋果還有更強的Ultra。
據(jù)悉Thor配備了NVLink C2C接口,最高可達720Gbps即90GB/s,盡管這個速率還沒超過第一代NVLink 160GB/s(目前NVLink已演進至第五代,速率1800GB/s,NVLink是英偉達核心技術,作用遠在CUDA之上),但是加入NVLink,意味著可以用8張或更多Thor建設數(shù)據(jù)中心了,跟用閹割版英偉達A100搭建數(shù)據(jù)中心沒有本質區(qū)別了,盡管速率只有第五代NVLink 4.0的1/20,美國商務部也極大概率會禁止此項技術出售給中國。
應該是Thor-X-Super芯片內部用NVLink C2C將兩片Thor-X連接起來。這種接口的帶寬速率遠超汽車行業(yè)常用的以太網(wǎng)交換機接口兩百倍,是真正的兩片性能疊加,那些用以太網(wǎng)交換機的,兩片Orin級聯(lián),性能提升應該不會超過10%,換句話說兩片Orin級聯(lián),算力提升不到30TOPS。
Thor還添加了一些座艙領域的需求,特別是顯示輸出方面,顯然,Thor是考慮艙駕一體的。
英偉達的GPU-CPU Superchip可以看做是Thor的放大版。
先來看CPU,CPU采用了ARM的服務器系列Neoverse的V2架構,同樣采用此架構的還有英偉達的Grace,不過Grace是高達144核心,存儲帶寬高達1TB/s,遠在Thor之上。
Neoverse專為AI數(shù)據(jù)中心設計,特別支持BF16這種比較新的數(shù)據(jù)格式,有些不適合GPU的AI運算則由CPU負責,不依賴外接GPU,單單Grace 也能達到57TOPS@FP8的算力。GH200中的CPU減少一半,即72核心,其余性能也都減半。V2的L1緩存是128KB,L2緩存每個核心是2MB,不過英偉達的Grace考慮成本,降低到了1MB。高通新一代的Oryon CPU 的L1緩存是192KB,L2緩存則是3MB,遠比英偉達要高。
V2的解碼位寬是6位,A78是4位,提升約50%,而高通新一代Oryon是8位。對于CPU,關鍵的參數(shù)主要有兩個,一個是IPC解碼寬度,另一個就是緩存,ARM是擠牙膏式的,每年做一次小升級,讓利潤最大化。蘋果則一步到位,性能最大化,以至于蘋果連續(xù)數(shù)年都無法升級性能,安卓手機受困于ARM的擠牙膏,性能始終無法和蘋果看齊,這也是高通拋棄ARM的主要原因。即便是AI數(shù)據(jù)中心領域,ARM也是擠牙膏,V1的解碼位寬是5位,V2是6位,V3估計是8位。
ARM架構的性能對比表
整理:佐思汽研
GPU采用了最新的Blackwell架構,不過Blackwell主要優(yōu)化有兩點,一是支持更低精度即FP4或INT4,另一個就是更好地支持MoE即混合專家模式。
作為一種基于 Transformer 架構的模型,混合專家模型主要由兩個關鍵部分組成:
稀疏 MoE 層:?這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個),每個專家本身是一個獨立的神經(jīng)網(wǎng)絡。在實際應用中,這些專家通常是前饋網(wǎng)絡 (FFN),但它們也可以是更復雜的網(wǎng)絡結構,甚至可以是 MoE 層本身,從而形成層級式的 MoE 結構。
門控網(wǎng)絡或路由: 這個部分用于決定哪些token 被發(fā)送到哪個專家。例如,在下圖中,“More”這個令牌可能被發(fā)送到第二個專家,而“Parameters”這個token被發(fā)送到第一個專家。有時,一個token甚至可以被發(fā)送到多個專家。token的路由方式是 MoE 使用中的一個關鍵點,因為路由器由學習的參數(shù)組成,并且與網(wǎng)絡的其他部分一同進行預訓練。
總結
在混合專家模型 (MoE) 中,將傳統(tǒng) Transformer 模型中的每個前饋網(wǎng)絡 (FFN) 層替換為 MoE 層,其中 MoE 層由兩個核心部分組成: 一個門控網(wǎng)絡和若干數(shù)量的專家。
MoE的出現(xiàn)主要是為了應對超大規(guī)模LLM訓練,例如萬億級參數(shù)規(guī)模的訓練,能夠大大提高LLM大模型訓練效率,減小計算時間,但對存儲要求更高。這與車載領域沒有任何關系,車載領域連單獨的顯存都沒有,需要和CPU共用顯存,且規(guī)模非常有限,一般不超過32GB,且大多是帶寬很低的LPDDR5,最高支持模型參數(shù)不超過100億,萬億級參數(shù)的大模型訓練至少需要數(shù)萬美元的HBM顯存支持,推理也需要近萬美元的HBM顯存支持,這在車載領域完全無法想象。
存儲帶寬決定了推理計算速度的上限,假設一個大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲是7GB,如果是英偉達的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個token,這個就是RTX4090的理論速度上限。如果是特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,也就是每110毫秒生成一個token,幀率不到10Hz,自動駕駛領域一般圖像幀率是30Hz,英偉達的Orin存儲帶寬是204.5GB/s,也就是每34毫秒生成一個token,勉強可以達到30Hz,注意這只是計算的數(shù)據(jù)搬運所需要的時間,數(shù)據(jù)計算的時間都完全忽略了,實際速度要低于這個數(shù)據(jù)。
再有就是英偉達Orin的GPU運算部分和CPU是共享LPDDR5存儲帶寬的,而AI數(shù)據(jù)中心或顯卡領域,GPU是獨享顯存的,CPU則是使用另外的DDR存儲。
Orin的存儲帶寬還要分一部分給CPU部分,因為CPU任何時候都需要數(shù)據(jù)載入和寫入,這方面從未有人做過深入研究,很難估計Orin給GPU的帶寬是多少,大概有50-70%。按70%計算的話,那么英偉達Orin最高支持大模型規(guī)模是50億參數(shù),考慮到計算時間和CPU的任務安排推送,50億參數(shù)還要打折扣,估計是40億參數(shù),當然如果降低幀率,只應對低速場合,最高可支持到100億參數(shù)左右。而特斯拉第一代FSD最高支持大模型規(guī)模大約15億參數(shù)。
如果限定幀率30Hz,那么Thor-X支持大模型參數(shù)上限大約為70億,這也是入門級端到端模型的整體參數(shù)規(guī)模,性能恰好夠,不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存儲,帶寬可輕松超過Thor-X-Super,下一代AI5即HW5.0估計支持GDDR7,帶寬估計超過1TB/s,是Thor-X的5倍,最高支持350億參數(shù)大模型沒有問題。對英偉達來說,GDDR6/7駕輕就熟,早就用在其顯卡芯片上了,然而車載領域芯片還是得考慮成本,最終還是妥協(xié),只用了LPDDR5X。
自動駕駛芯片廠家都有自己的市場定位,實際各廠家之間技術能力差距可以忽略,關鍵是市場定位,英偉達主要就是中國的新興造車和奔馳,定位最高端市場,主打高性能高價。高通就是定位全球范圍內的傳統(tǒng)車廠,主打中高端市場,主打高性價比,高通大概率不會推出對標Thor的產(chǎn)品。Mobileye則定位中低端市場,主打就是低價。
對英偉達而言,最大的威脅不是國內芯片企業(yè),而是美國商務部,按照美國商務部之前的標準總處理性能TPP不超過4800的規(guī)定,Thor-X是1000*8*2=16000,遠超4800,只要美國商務部高興,它隨時可以禁止英偉達銷售Thor,對英偉達來說車載業(yè)務占其總收入不到2%,英偉達也不會費盡心思再出一個閹割版的Thor。