從2D+CNN小模型到BEV+Transformer大模型,模型參數(shù)量暴增,存儲(chǔ)成為性能瓶頸
全球汽車存儲(chǔ)芯片市場(chǎng)規(guī)模將從2023年的43億美元左右,到2030年增長(zhǎng)至170億美元以上,復(fù)合增長(zhǎng)率高達(dá)22%,汽車存儲(chǔ)芯片在汽車半導(dǎo)體中的價(jià)值占比,2023年在8.2%,預(yù)計(jì)到2030年將上升至17.4%,存儲(chǔ)芯片成本將大幅上升。
2023-2030年全球汽車芯片市場(chǎng)規(guī)模預(yù)測(cè)
汽車存儲(chǔ)芯片行業(yè)發(fā)展的主要驅(qū)動(dòng)力在于車載LLM大模型快速興起,從過(guò)去的2D+CNN小模型到BEV+Transformer大模型,模型參數(shù)量大幅提升,算力需求驟增。CNN模型參數(shù)通常不到1000萬(wàn),大模型即LLM的參數(shù)一般在70億至2000億之間,經(jīng)過(guò)蒸餾后的車端模型參數(shù)也已高達(dá)幾十億級(jí)別。
從計(jì)算角度看,BEV+Transformer大模型以LLaMA為代表的解碼器架構(gòu)中,Softmax算子成為核心,其并行化能力低于傳統(tǒng)卷積(Convolution)算子,導(dǎo)致存儲(chǔ)成為瓶頸,特別是存儲(chǔ)密集型模型如GPT,對(duì)存儲(chǔ)帶寬要求高,市面上常見(jiàn)的自動(dòng)駕駛 SoC 芯片常面臨“存儲(chǔ)墻”問(wèn)題。
端到端實(shí)際上是內(nèi)嵌了一個(gè)小型LLM,隨著喂養(yǎng)數(shù)據(jù)的增加,這個(gè)大模型的參數(shù)會(huì)越來(lái)越大,最初階段的模型大小大概是100億參數(shù),經(jīng)過(guò)不斷迭代最終會(huì)達(dá)到1000億以上。
2025年4月15日,小鵬汽車在AI分享會(huì)上首次對(duì)外披露正在研發(fā)720億參數(shù)的超大規(guī)模自動(dòng)駕駛大模型,即“小鵬世界基座模型”。小鵬的實(shí)驗(yàn)結(jié)果表明,在10億、30億、70億、720億參數(shù)的模型上都看到了明顯的規(guī)模法則(Scaling Law)效應(yīng):參數(shù)規(guī)模越大,模型的能力越強(qiáng)。同樣的模型大小,訓(xùn)練數(shù)據(jù)量越大,模型的能力也會(huì)越強(qiáng)。
多模態(tài)模型訓(xùn)練的主要瓶頸不僅是 GPU,也需要解決數(shù)據(jù)訪問(wèn)的效率問(wèn)題。小鵬汽車自主開(kāi)發(fā)了底層的數(shù)據(jù)基礎(chǔ)設(shè)施(Data Infra),使數(shù)據(jù)上傳規(guī)模提升22倍、訓(xùn)練中的數(shù)據(jù)帶寬提升15倍;通過(guò)聯(lián)合優(yōu)化 GPU / CPU 以及網(wǎng)絡(luò) I/O,最終使模型訓(xùn)練速度提升了 5 倍。目前,小鵬汽車用于訓(xùn)練基座模型的視頻數(shù)據(jù)量高達(dá)2000萬(wàn)clips,這一數(shù)字今年將增加到2億clips。
未來(lái),小鵬將 “小鵬世界基座模型” 通過(guò)云端蒸餾小模型的方式將基模部署到車端,車端大模型參數(shù)規(guī)模只能越來(lái)越大,對(duì)計(jì)算芯片和存儲(chǔ)都帶來(lái)巨大挑戰(zhàn)。基于此,小鵬汽車自研了圖靈AI芯片,芯片比通用車規(guī)高算力芯片利用率提升20%,最高能處理30B(300億)參數(shù)的大模型,相較之下,當(dāng)前理想汽車的VLM(視覺(jué)-語(yǔ)言模型)參數(shù)量約為22億。
模型參數(shù)量越大,也往往伴隨著模型推理的較高延遲問(wèn)題,如何解決時(shí)延問(wèn)題至關(guān)重要,預(yù)計(jì)圖靈AI芯片可能通過(guò)多通道設(shè)計(jì)或先進(jìn)封裝技術(shù)實(shí)現(xiàn)存儲(chǔ)帶寬的顯著提升,以支持30B參數(shù)大模型的本地運(yùn)行。
存儲(chǔ)帶寬決定了推理計(jì)算速度的上限,LPDDR5X將被普遍采用,但仍顯不足,GDDR7、HBM或?qū)⑻嵘弦?guī)劃日程
存儲(chǔ)帶寬決定了推理計(jì)算速度的上限。假設(shè)一個(gè)大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲(chǔ)是7GB,特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s,即每110毫秒生成一個(gè)token,幀率不到10Hz,自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz。英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s,即每34毫秒生成一個(gè)token(7GB除以204.5GB/s=0.0343s,約34ms),勉強(qiáng)可以達(dá)到30Hz(幀率=1除以0.0343s=29Hz),注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需的時(shí)間,數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了,實(shí)際速度要遠(yuǎn)低于這個(gè)數(shù)據(jù)。
DRAM存儲(chǔ)芯片選擇路徑(1):LPDDR5X將被普遍采用,LPDDR6標(biāo)準(zhǔn)仍在制定中
除了特斯拉,目前所有的車載芯片最高只對(duì)應(yīng)LPDDR5,下一步業(yè)界將主推LPDDR5X,譬如美光已推出車規(guī)級(jí) LPDDR5X+DLEP DRAM方案,已通過(guò) ISO26262 ASIL-D 認(rèn)證,可以滿足關(guān)鍵的汽車FuSa要求。
英偉達(dá)Thor-X已支持車規(guī)級(jí) LPDDR5X,內(nèi)存帶寬增至273GB/s,支持LPDDR5X標(biāo)準(zhǔn),支持PCIe 5.0接口。Thor-X-Super內(nèi)存帶寬則達(dá)到了驚人的546GB/s,采用了512位寬的LPDDR5X內(nèi)存,確保了極高的數(shù)據(jù)吞吐量,實(shí)際Super和蘋果系列芯片一樣,就是將兩片X放進(jìn)一個(gè)封裝里,但短期內(nèi)預(yù)計(jì)不會(huì)量產(chǎn)投放。
Thor也有多個(gè)版本,目前已知的有5個(gè):①Thor-Super,2000T算力;②Thor-X,1000T 算力;③Thor-S,700T 算力;④Thor-U,500T 算力;⑤Thor-Z,300T 算力。聯(lián)想全球第一個(gè)Thor中央計(jì)算單元計(jì)劃采用雙Thor-X。
美光9600MTPS 的LPDDR5X已經(jīng)有樣片,主要面向移動(dòng)端,但還沒(méi)車規(guī)級(jí)產(chǎn)品。三星的 LPDDR5X 新品K3KL9L90DM-MHCU,可用于PC、服務(wù)器、汽車以及新興的端側(cè)AI應(yīng)用,比前代快1.25倍、功耗效率提升25%,最高工作溫度105℃,2025年初量產(chǎn),單片8GB,x32總線,使用8片,共64GB。
隨著 LPDDR5X 逐步邁入 9600Mbps 甚至 10Gbps 時(shí)代,JEDEC 已啟動(dòng)下一代 LPDDR6 的標(biāo)準(zhǔn)制定。面向 6G 通信、L4 自動(dòng)駕駛、沉浸式 AR/VR 場(chǎng)景。LPDDR6作為下一代內(nèi)存技術(shù),預(yù)計(jì)速率將突破10.7Gbps,甚至最高可能達(dá)到14.4Gbps,帶寬和能效均有提升,比現(xiàn)在使用的LPDDR5X提升了50%。然而,大規(guī)模量產(chǎn)LPDDR6內(nèi)存可能還需要等到2026年,高通的下一代旗艦芯片驍龍8 Elite Gen 2(代號(hào)SM8850)將支持LPDDR6。車規(guī)級(jí)LPDDR6則可能更為久遠(yuǎn)。
DRAM存儲(chǔ)芯片選擇路徑(2):GDDR6雖已上車,但面臨成本與能耗的問(wèn)題,下一代GDDR7+LPDDR5X的混合存儲(chǔ)架構(gòu)或有可為
除了LPDDR5X,另一條路徑則是選擇GDDR6或GDDR7,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量為32GB,型號(hào)為MT61M512M32KPA-14,頻率1750MHz(LPDDR5最低也是3200MHz之上),由于是第一代GDDR6,速度較低。即使用了GDDR6,要流暢運(yùn)行百億級(jí)別的大模型,還是無(wú)法實(shí)現(xiàn),不過(guò)已經(jīng)是目前最好的了。
特斯拉的第三代FSD芯片應(yīng)該正在開(kāi)發(fā)中,可能2025年底可以完成開(kāi)發(fā),至少支持GDDR6X。
而再下一代的GDDR7正式標(biāo)準(zhǔn)在2024年3月公布,三星在2023年7月就發(fā)布了全球首款GDDR7,目前SK 海力士和美光也都有GDRR7產(chǎn)品推出。GDDR需要特殊的物理層和控制器,芯片必須內(nèi)置GDDR的物理層和控制器才能用上GDDR,Rambus和新思科技都有相關(guān)IP出售。
未來(lái)自動(dòng)駕駛芯片可能采用混合存儲(chǔ)架構(gòu),例如用GDDR7處理高負(fù)載AI任務(wù),而LPDDR5X負(fù)責(zé)低功耗常規(guī)運(yùn)算,以平衡性能與成本。
DRAM存儲(chǔ)芯片選擇路徑(3):HBM2E已部署到L4 級(jí)Robotaxi,但距離量產(chǎn)乘用車仍有較遠(yuǎn)距離,存儲(chǔ)芯片廠商正推動(dòng)HBM從數(shù)據(jù)中心向端側(cè)技術(shù)遷移
HBM主要用于服務(wù)器領(lǐng)域,將SDRAM用TSV工藝堆疊起來(lái),增加的成本不僅僅是內(nèi)存本身,還有臺(tái)積電CoWoS工藝的成本,CoWoS目前產(chǎn)能緊張,價(jià)格高昂。HBM存儲(chǔ)價(jià)格遠(yuǎn)遠(yuǎn)高于量產(chǎn)乘用車常用的 LPDDR5X、LPDDR5、LPDDR4X等,不具備經(jīng)濟(jì)性。
SK 海力士的HBM2E正用于Waymo 的L4 級(jí)Robotaxi,且是獨(dú)家供應(yīng)商,容量高達(dá)8GB,傳輸速度達(dá)到3.2Gbps,實(shí)現(xiàn)了驚人的410GB/s帶寬,為行業(yè)樹(shù)立了新標(biāo)桿。
SK 海力士是目前市場(chǎng)上唯一一家能提供符合嚴(yán)苛AEC-Q車規(guī)標(biāo)準(zhǔn)的HBM芯片制造商。SK 海力士正積極與NVIDIA、Tesla等自動(dòng)駕駛領(lǐng)域解決方案巨頭的合作,將HBM的應(yīng)用從AI數(shù)據(jù)中心拓展到智能汽車市場(chǎng)。
SK 海力士和三星都正在將HBM從數(shù)據(jù)中心向手機(jī)、汽車等端側(cè)應(yīng)用遷移,HBM在移動(dòng)設(shè)備領(lǐng)域的滲透將圍繞端側(cè)AI性能提升和低功耗設(shè)計(jì)展開(kāi),技術(shù)創(chuàng)新與產(chǎn)業(yè)鏈協(xié)同是關(guān)鍵驅(qū)動(dòng)力,成本與良率仍是短期主要挑戰(zhàn),主要涉及到HBM生產(chǎn)工藝改良。
核心差異:傳統(tǒng)數(shù)據(jù)中心HBM是為高性能計(jì)算設(shè)計(jì)的“大帶寬、高功耗”方案;而端側(cè)HBM是為移動(dòng)端定制的“中帶寬、低功耗”解決方案。
技術(shù)路徑:傳統(tǒng)數(shù)據(jù)中心HBM依賴TSV和中介層;而端側(cè)HBM則通過(guò)封裝創(chuàng)新(如垂直引線鍵合)和低功耗DRAM技術(shù)實(shí)現(xiàn)性能突破。
以三星為例,采用類似技術(shù)的產(chǎn)品LPW DRAM(LP Wide I/O DRAM),其具備低延遲和高達(dá)128GB/s的帶寬性能,同時(shí)能耗僅為1.2pJ/b,計(jì)劃于2025-2026年實(shí)現(xiàn)商業(yè)化量產(chǎn)。
LPW DRAM通過(guò)堆疊LPDDR DRAM,大幅提升了I/O接口的數(shù)量,以達(dá)到提高性能和減少能耗的雙重目標(biāo)。其帶寬可達(dá)200GB/s以上,較現(xiàn)有的LPDDR5X提升了166%;同時(shí)其功耗降至1.9pJ/bit,比LPDDR5X低54%。
UFS3.1已大規(guī)模上車,將逐漸迭代至UFS4.0、UFS5.0,同時(shí)PCIe SSD將成為L(zhǎng)3/L4高級(jí)別自動(dòng)駕駛汽車的首選
目前,高階自動(dòng)駕駛汽車已將UFS 3.1存儲(chǔ)作為主流選擇,隨著車載傳感器、算力的不斷提升,更高規(guī)格的數(shù)據(jù)傳輸方案勢(shì)在必行,UFS 4.0產(chǎn)品將成為未來(lái)主流的選擇之一。UFS 3.1版本最高2.9GB/s,與SSD有幾十倍的差距,下一代4.0版本4.2GB/s,UFS 4.0相較于UFS 3.1,在速度上有所提升,功耗降低30%;預(yù)計(jì)到2027年會(huì)有5.0版本,估計(jì)達(dá)到10GB/s,跟SSD還是差距明顯,但好在成本可控,供應(yīng)鏈穩(wěn)定。
考慮到大模型無(wú)論在座艙還是智能駕駛都有強(qiáng)烈需求,且為了留出足夠的性能余量,更應(yīng)該采用SSD,目前主流的UFS不夠快,eMMC就更慢了。車規(guī)級(jí)SSD采用的是PCIe標(biāo)準(zhǔn),PCIe的彈性空間極大,潛力巨大。JESD312確定的是PCIe 4.0標(biāo)準(zhǔn),實(shí)際其包含多個(gè)速率,4通道是最低的PCIe 4.0標(biāo)準(zhǔn),16通道雙工可以到64GB/s,而PCIe 5.0標(biāo)準(zhǔn)已于2019年發(fā)布了,PCIe5.0將信號(hào)速率翻倍到了32GT/s,x16雙工帶寬更是接近128GB/s。
目前,美光和三星都有車規(guī)級(jí)SSD,三星是AM9C1系列,128GB到1TB都有。美光則推出了4150AT系列,4150AT系列有220GB、440GB、900GB和1800GB四種,其中220GB級(jí)別用于單獨(dú)的座艙或智能駕駛,艙駕一體至少要用440GB。
多端口BGA SSD可以作為汽車中央存儲(chǔ)計(jì)算單元,通過(guò)各端口與座艙、ADAS、網(wǎng)關(guān)等SoC連接,高效處理并存儲(chǔ)不同數(shù)據(jù)到所需區(qū)域。其獨(dú)立性優(yōu)勢(shì)確保非核心SoC無(wú)法未授權(quán)訪問(wèn)核心數(shù)據(jù),避免影響、識(shí)別、銷毀核心SoC的數(shù)據(jù),這將最大的保證對(duì)數(shù)據(jù)傳輸?shù)淖璨l(fā)性和數(shù)據(jù)獨(dú)立性,并降低各個(gè)SoC對(duì)于車用存儲(chǔ)的硬件成本。
對(duì)于再往后的L3/L4級(jí)高級(jí)別自動(dòng)駕駛汽車,PCIe 5.0 x4 + NVMe 2.0 將是高性能存儲(chǔ)的首選:
超高速傳輸:讀取速度高達(dá) 14.5GB/s,寫入速度達(dá) 13.6GB/s,是 UFS 4.0 的 3 倍
低延遲 & 高并發(fā):支持更高隊(duì)列深度(QD32+),并行處理多個(gè)數(shù)據(jù)流
AI 計(jì)算優(yōu)化:與車載 SoC 結(jié)合,可加速 AI 推理計(jì)算,滿足全自動(dòng)駕駛需求
在自動(dòng)駕駛應(yīng)用中,PCIe NVMe SSD 可用于緩存 AI 計(jì)算數(shù)據(jù),減少內(nèi)存訪問(wèn)壓力,提高實(shí)時(shí)處理能力。例如,Tesla FSD 系統(tǒng)就采用高速 NVMe 方案存儲(chǔ)自動(dòng)駕駛訓(xùn)練數(shù)據(jù),以提高感知和決策效率。
目前,新思科技(Synopsys)已推出了全球首款汽車級(jí)PCIe 5.0 IP解決方案,囊括了PCIe控制器、安全模塊、物理層設(shè)備(PHY)以及驗(yàn)證IP,并遵循ISO 26262和ISO/SAE 21434標(biāo)準(zhǔn)。這意味著PCIe 5.0將很快進(jìn)入車規(guī)應(yīng)用。