亚洲人成无码网在线,久久国产av无码一区二区,国产AV一区二区三区传媒

從2D+CNN小模型到BEV+Transformer大模型，模型參數(shù)量暴增，存儲(chǔ)成為性能瓶頸

全球汽車存儲(chǔ)芯片市場(chǎng)規(guī)模將從2023年的43億美元左右，到2030年增長(zhǎng)至170億美元以上，復(fù)合增長(zhǎng)率高達(dá)22%，汽車存儲(chǔ)芯片在汽車半導(dǎo)體中的價(jià)值占比，2023年在8.2%，預(yù)計(jì)到2030年將上升至17.4%，存儲(chǔ)芯片成本將大幅上升。

2023-2030年全球汽車芯片市場(chǎng)規(guī)模預(yù)測(cè)

汽車存儲(chǔ)芯片行業(yè)發(fā)展的主要驅(qū)動(dòng)力在于車載LLM大模型快速興起，從過(guò)去的2D+CNN小模型到BEV+Transformer大模型，模型參數(shù)量大幅提升，算力需求驟增。CNN模型參數(shù)通常不到1000萬(wàn)，大模型即LLM的參數(shù)一般在70億至2000億之間，經(jīng)過(guò)蒸餾后的車端模型參數(shù)也已高達(dá)幾十億級(jí)別。

從計(jì)算角度看，BEV+Transformer大模型以LLaMA為代表的解碼器架構(gòu)中，Softmax算子成為核心，其并行化能力低于傳統(tǒng)卷積（Convolution）算子，導(dǎo)致存儲(chǔ)成為瓶頸，特別是存儲(chǔ)密集型模型如GPT，對(duì)存儲(chǔ)帶寬要求高，市面上常見(jiàn)的自動(dòng)駕駛 SoC 芯片常面臨“存儲(chǔ)墻”問(wèn)題。

端到端實(shí)際上是內(nèi)嵌了一個(gè)小型LLM，隨著喂養(yǎng)數(shù)據(jù)的增加，這個(gè)大模型的參數(shù)會(huì)越來(lái)越大，最初階段的模型大小大概是100億參數(shù)，經(jīng)過(guò)不斷迭代最終會(huì)達(dá)到1000億以上。

2025年4月15日，小鵬汽車在AI分享會(huì)上首次對(duì)外披露正在研發(fā)720億參數(shù)的超大規(guī)模自動(dòng)駕駛大模型，即“小鵬世界基座模型”。小鵬的實(shí)驗(yàn)結(jié)果表明，在10億、30億、70億、720億參數(shù)的模型上都看到了明顯的規(guī)模法則（Scaling Law）效應(yīng)：參數(shù)規(guī)模越大，模型的能力越強(qiáng)。同樣的模型大小，訓(xùn)練數(shù)據(jù)量越大，模型的能力也會(huì)越強(qiáng)。

多模態(tài)模型訓(xùn)練的主要瓶頸不僅是 GPU，也需要解決數(shù)據(jù)訪問(wèn)的效率問(wèn)題。小鵬汽車自主開(kāi)發(fā)了底層的數(shù)據(jù)基礎(chǔ)設(shè)施（Data Infra），使數(shù)據(jù)上傳規(guī)模提升22倍、訓(xùn)練中的數(shù)據(jù)帶寬提升15倍；通過(guò)聯(lián)合優(yōu)化 GPU / CPU 以及網(wǎng)絡(luò) I/O，最終使模型訓(xùn)練速度提升了 5 倍。目前，小鵬汽車用于訓(xùn)練基座模型的視頻數(shù)據(jù)量高達(dá)2000萬(wàn)clips，這一數(shù)字今年將增加到2億clips。

未來(lái)，小鵬將 “小鵬世界基座模型” 通過(guò)云端蒸餾小模型的方式將基模部署到車端，車端大模型參數(shù)規(guī)模只能越來(lái)越大，對(duì)計(jì)算芯片和存儲(chǔ)都帶來(lái)巨大挑戰(zhàn)。基于此，小鵬汽車自研了圖靈AI芯片，芯片比通用車規(guī)高算力芯片利用率提升20%，最高能處理30B（300億）參數(shù)的大模型，相較之下，當(dāng)前理想汽車的VLM（視覺(jué)-語(yǔ)言模型）參數(shù)量約為22億。

模型參數(shù)量越大，也往往伴隨著模型推理的較高延遲問(wèn)題，如何解決時(shí)延問(wèn)題至關(guān)重要，預(yù)計(jì)圖靈AI芯片可能通過(guò)多通道設(shè)計(jì)或先進(jìn)封裝技術(shù)實(shí)現(xiàn)存儲(chǔ)帶寬的顯著提升，以支持30B參數(shù)大模型的本地運(yùn)行。

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，LPDDR5X將被普遍采用，但仍顯不足，GDDR7、HBM或?qū)⑻嵘弦?guī)劃日程

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限。假設(shè)一個(gè)大模型參數(shù)為70億，按照車載的INT8精度，它所占的存儲(chǔ)是7GB，特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s，即每110毫秒生成一個(gè)token，幀率不到10Hz，自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz。英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s，即每34毫秒生成一個(gè)token（7GB除以204.5GB/s=0.0343s，約34ms)，勉強(qiáng)可以達(dá)到30Hz（幀率=1除以0.0343s=29Hz)，注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需的時(shí)間，數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了，實(shí)際速度要遠(yuǎn)低于這個(gè)數(shù)據(jù)。

DRAM存儲(chǔ)芯片選擇路徑（1）：LPDDR5X將被普遍采用，LPDDR6標(biāo)準(zhǔn)仍在制定中

除了特斯拉，目前所有的車載芯片最高只對(duì)應(yīng)LPDDR5，下一步業(yè)界將主推LPDDR5X，譬如美光已推出車規(guī)級(jí) LPDDR5X+DLEP DRAM方案，已通過(guò) ISO26262 ASIL-D 認(rèn)證，可以滿足關(guān)鍵的汽車FuSa要求。

英偉達(dá)Thor-X已支持車規(guī)級(jí) LPDDR5X，內(nèi)存帶寬增至273GB/s，支持LPDDR5X標(biāo)準(zhǔn)，支持PCIe 5.0接口。Thor-X-Super內(nèi)存帶寬則達(dá)到了驚人的546GB/s，采用了512位寬的LPDDR5X內(nèi)存，確保了極高的數(shù)據(jù)吞吐量，實(shí)際Super和蘋果系列芯片一樣，就是將兩片X放進(jìn)一個(gè)封裝里，但短期內(nèi)預(yù)計(jì)不會(huì)量產(chǎn)投放。

Thor也有多個(gè)版本，目前已知的有5個(gè)：①Thor-Super，2000T算力；②Thor-X，1000T 算力；③Thor-S，700T 算力；④Thor-U，500T 算力；⑤Thor-Z，300T 算力。聯(lián)想全球第一個(gè)Thor中央計(jì)算單元計(jì)劃采用雙Thor-X。

美光9600MTPS 的LPDDR5X已經(jīng)有樣片，主要面向移動(dòng)端，但還沒(méi)車規(guī)級(jí)產(chǎn)品。三星的 LPDDR5X 新品K3KL9L90DM-MHCU，可用于PC、服務(wù)器、汽車以及新興的端側(cè)AI應(yīng)用，比前代快1.25倍、功耗效率提升25%，最高工作溫度105℃，2025年初量產(chǎn)，單片8GB，x32總線，使用8片，共64GB。

隨著 LPDDR5X 逐步邁入 9600Mbps 甚至 10Gbps 時(shí)代，JEDEC 已啟動(dòng)下一代 LPDDR6 的標(biāo)準(zhǔn)制定。面向 6G 通信、L4 自動(dòng)駕駛、沉浸式 AR/VR 場(chǎng)景。LPDDR6作為下一代內(nèi)存技術(shù)，預(yù)計(jì)速率將突破10.7Gbps，甚至最高可能達(dá)到14.4Gbps，帶寬和能效均有提升，比現(xiàn)在使用的LPDDR5X提升了50%。然而，大規(guī)模量產(chǎn)LPDDR6內(nèi)存可能還需要等到2026年，高通的下一代旗艦芯片驍龍8 Elite Gen 2（代號(hào)SM8850）將支持LPDDR6。車規(guī)級(jí)LPDDR6則可能更為久遠(yuǎn)。

DRAM存儲(chǔ)芯片選擇路徑（2）：GDDR6雖已上車，但面臨成本與能耗的問(wèn)題，下一代GDDR7+LPDDR5X的混合存儲(chǔ)架構(gòu)或有可為

除了LPDDR5X，另一條路徑則是選擇GDDR6或GDDR7，特斯拉第二代FSD芯片就支持第一代GDDR6，HW4.0上的GDDR6容量為32GB，型號(hào)為MT61M512M32KPA-14，頻率1750MHz（LPDDR5最低也是3200MHz之上），由于是第一代GDDR6，速度較低。即使用了GDDR6，要流暢運(yùn)行百億級(jí)別的大模型，還是無(wú)法實(shí)現(xiàn)，不過(guò)已經(jīng)是目前最好的了。

特斯拉的第三代FSD芯片應(yīng)該正在開(kāi)發(fā)中，可能2025年底可以完成開(kāi)發(fā)，至少支持GDDR6X。

而再下一代的GDDR7正式標(biāo)準(zhǔn)在2024年3月公布，三星在2023年7月就發(fā)布了全球首款GDDR7，目前SK 海力士和美光也都有GDRR7產(chǎn)品推出。GDDR需要特殊的物理層和控制器，芯片必須內(nèi)置GDDR的物理層和控制器才能用上GDDR，Rambus和新思科技都有相關(guān)IP出售。

未來(lái)自動(dòng)駕駛芯片可能采用混合存儲(chǔ)架構(gòu)，例如用GDDR7處理高負(fù)載AI任務(wù)，而LPDDR5X負(fù)責(zé)低功耗常規(guī)運(yùn)算，以平衡性能與成本。

DRAM存儲(chǔ)芯片選擇路徑（3）：HBM2E已部署到L4 級(jí)Robotaxi，但距離量產(chǎn)乘用車仍有較遠(yuǎn)距離，存儲(chǔ)芯片廠商正推動(dòng)HBM從數(shù)據(jù)中心向端側(cè)技術(shù)遷移

HBM主要用于服務(wù)器領(lǐng)域，將SDRAM用TSV工藝堆疊起來(lái)，增加的成本不僅僅是內(nèi)存本身，還有臺(tái)積電CoWoS工藝的成本，CoWoS目前產(chǎn)能緊張，價(jià)格高昂。HBM存儲(chǔ)價(jià)格遠(yuǎn)遠(yuǎn)高于量產(chǎn)乘用車常用的 LPDDR5X、LPDDR5、LPDDR4X等，不具備經(jīng)濟(jì)性。

SK 海力士的HBM2E正用于Waymo 的L4 級(jí)Robotaxi，且是獨(dú)家供應(yīng)商，容量高達(dá)8GB，傳輸速度達(dá)到3.2Gbps，實(shí)現(xiàn)了驚人的410GB/s帶寬，為行業(yè)樹(shù)立了新標(biāo)桿。

SK 海力士是目前市場(chǎng)上唯一一家能提供符合嚴(yán)苛AEC-Q車規(guī)標(biāo)準(zhǔn)的HBM芯片制造商。SK 海力士正積極與NVIDIA、Tesla等自動(dòng)駕駛領(lǐng)域解決方案巨頭的合作，將HBM的應(yīng)用從AI數(shù)據(jù)中心拓展到智能汽車市場(chǎng)。

SK 海力士和三星都正在將HBM從數(shù)據(jù)中心向手機(jī)、汽車等端側(cè)應(yīng)用遷移，HBM在移動(dòng)設(shè)備領(lǐng)域的滲透將圍繞端側(cè)AI性能提升和低功耗設(shè)計(jì)展開(kāi)，技術(shù)創(chuàng)新與產(chǎn)業(yè)鏈協(xié)同是關(guān)鍵驅(qū)動(dòng)力，成本與良率仍是短期主要挑戰(zhàn)，主要涉及到HBM生產(chǎn)工藝改良。

核心差異：傳統(tǒng)數(shù)據(jù)中心HBM是為高性能計(jì)算設(shè)計(jì)的“大帶寬、高功耗”方案；而端側(cè)HBM是為移動(dòng)端定制的“中帶寬、低功耗”解決方案。

技術(shù)路徑：傳統(tǒng)數(shù)據(jù)中心HBM依賴TSV和中介層；而端側(cè)HBM則通過(guò)封裝創(chuàng)新（如垂直引線鍵合）和低功耗DRAM技術(shù)實(shí)現(xiàn)性能突破。

以三星為例，采用類似技術(shù)的產(chǎn)品LPW DRAM（LP Wide I/O DRAM），其具備低延遲和高達(dá)128GB/s的帶寬性能，同時(shí)能耗僅為1.2pJ/b，計(jì)劃于2025-2026年實(shí)現(xiàn)商業(yè)化量產(chǎn)。

LPW DRAM通過(guò)堆疊LPDDR DRAM，大幅提升了I/O接口的數(shù)量，以達(dá)到提高性能和減少能耗的雙重目標(biāo)。其帶寬可達(dá)200GB/s以上，較現(xiàn)有的LPDDR5X提升了166%；同時(shí)其功耗降至1.9pJ/bit，比LPDDR5X低54%。

UFS3.1已大規(guī)模上車，將逐漸迭代至UFS4.0、UFS5.0，同時(shí)PCIe SSD將成為L(zhǎng)3/L4高級(jí)別自動(dòng)駕駛汽車的首選

目前，高階自動(dòng)駕駛汽車已將UFS 3.1存儲(chǔ)作為主流選擇，隨著車載傳感器、算力的不斷提升，更高規(guī)格的數(shù)據(jù)傳輸方案勢(shì)在必行，UFS 4.0產(chǎn)品將成為未來(lái)主流的選擇之一。UFS 3.1版本最高2.9GB/s，與SSD有幾十倍的差距，下一代4.0版本4.2GB/s，UFS 4.0相較于UFS 3.1，在速度上有所提升，功耗降低30%；預(yù)計(jì)到2027年會(huì)有5.0版本，估計(jì)達(dá)到10GB/s，跟SSD還是差距明顯，但好在成本可控，供應(yīng)鏈穩(wěn)定。

考慮到大模型無(wú)論在座艙還是智能駕駛都有強(qiáng)烈需求，且為了留出足夠的性能余量，更應(yīng)該采用SSD，目前主流的UFS不夠快，eMMC就更慢了。車規(guī)級(jí)SSD采用的是PCIe標(biāo)準(zhǔn)，PCIe的彈性空間極大，潛力巨大。JESD312確定的是PCIe 4.0標(biāo)準(zhǔn)，實(shí)際其包含多個(gè)速率，4通道是最低的PCIe 4.0標(biāo)準(zhǔn)，16通道雙工可以到64GB/s，而PCIe 5.0標(biāo)準(zhǔn)已于2019年發(fā)布了，PCIe5.0將信號(hào)速率翻倍到了32GT/s，x16雙工帶寬更是接近128GB/s。

目前，美光和三星都有車規(guī)級(jí)SSD，三星是AM9C1系列，128GB到1TB都有。美光則推出了4150AT系列，4150AT系列有220GB、440GB、900GB和1800GB四種，其中220GB級(jí)別用于單獨(dú)的座艙或智能駕駛，艙駕一體至少要用440GB。

多端口BGA SSD可以作為汽車中央存儲(chǔ)計(jì)算單元，通過(guò)各端口與座艙、ADAS、網(wǎng)關(guān)等SoC連接，高效處理并存儲(chǔ)不同數(shù)據(jù)到所需區(qū)域。其獨(dú)立性優(yōu)勢(shì)確保非核心SoC無(wú)法未授權(quán)訪問(wèn)核心數(shù)據(jù)，避免影響、識(shí)別、銷毀核心SoC的數(shù)據(jù)，這將最大的保證對(duì)數(shù)據(jù)傳輸?shù)淖璨l(fā)性和數(shù)據(jù)獨(dú)立性，并降低各個(gè)SoC對(duì)于車用存儲(chǔ)的硬件成本。

對(duì)于再往后的L3/L4級(jí)高級(jí)別自動(dòng)駕駛汽車，PCIe 5.0 x4 + NVMe 2.0 將是高性能存儲(chǔ)的首選：

超高速傳輸：讀取速度高達(dá) 14.5GB/s，寫入速度達(dá) 13.6GB/s，是 UFS 4.0 的 3 倍

低延遲 & 高并發(fā)：支持更高隊(duì)列深度（QD32+），并行處理多個(gè)數(shù)據(jù)流

AI 計(jì)算優(yōu)化：與車載 SoC 結(jié)合，可加速 AI 推理計(jì)算，滿足全自動(dòng)駕駛需求

在自動(dòng)駕駛應(yīng)用中，PCIe NVMe SSD 可用于緩存 AI 計(jì)算數(shù)據(jù)，減少內(nèi)存訪問(wèn)壓力，提高實(shí)時(shí)處理能力。例如，Tesla FSD 系統(tǒng)就采用高速 NVMe 方案存儲(chǔ)自動(dòng)駕駛訓(xùn)練數(shù)據(jù)，以提高感知和決策效率。

目前，新思科技（Synopsys）已推出了全球首款汽車級(jí)PCIe 5.0 IP解決方案，囊括了PCIe控制器、安全模塊、物理層設(shè)備（PHY）以及驗(yàn)證IP，并遵循ISO 26262和ISO/SAE 21434標(biāo)準(zhǔn)。這意味著PCIe 5.0將很快進(jìn)入車規(guī)應(yīng)用。

汽車存儲(chǔ)芯片研究：大模型推動(dòng)下，主機(jī)廠車用存儲(chǔ)芯片的選擇路徑分析

2023-2030年全球汽車芯片市場(chǎng)規(guī)模預(yù)測(cè)

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，LPDDR5X將被普遍采用，但仍顯不足，GDDR7、HBM或?qū)⑻嵘弦?guī)劃日程

DRAM存儲(chǔ)芯片選擇路徑（1）：LPDDR5X將被普遍采用，LPDDR6標(biāo)準(zhǔn)仍在制定中

DRAM存儲(chǔ)芯片選擇路徑（2）：GDDR6雖已上車，但面臨成本與能耗的問(wèn)題，下一代GDDR7+LPDDR5X的混合存儲(chǔ)架構(gòu)或有可為

DRAM存儲(chǔ)芯片選擇路徑（3）：HBM2E已部署到L4 級(jí)Robotaxi，但距離量產(chǎn)乘用車仍有較遠(yuǎn)距離，存儲(chǔ)芯片廠商正推動(dòng)HBM從數(shù)據(jù)中心向端側(cè)技術(shù)遷移

UFS3.1已大規(guī)模上車，將逐漸迭代至UFS4.0、UFS5.0，同時(shí)PCIe SSD將成為L(zhǎng)3/L4高級(jí)別自動(dòng)駕駛汽車的首選

相關(guān)推薦

汽車存儲(chǔ)芯片研究：大模型推動(dòng)下，主機(jī)廠車用存儲(chǔ)芯片的選擇路徑分析

2023-2030年全球汽車芯片市場(chǎng)規(guī)模預(yù)測(cè)

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，LPDDR5X將被普遍采用，但仍顯不足，GDDR7、HBM或?qū)⑻嵘弦?guī)劃日程

DRAM存儲(chǔ)芯片選擇路徑（1）：LPDDR5X將被普遍采用，LPDDR6標(biāo)準(zhǔn)仍在制定中

DRAM存儲(chǔ)芯片選擇路徑（2）：GDDR6雖已上車，但面臨成本與能耗的問(wèn)題，下一代GDDR7+LPDDR5X的混合存儲(chǔ)架構(gòu)或有可為

DRAM存儲(chǔ)芯片選擇路徑（3）：HBM2E已部署到L4 級(jí)Robotaxi，但距離量產(chǎn)乘用車仍有較遠(yuǎn)距離，存儲(chǔ)芯片廠商正推動(dòng)HBM從數(shù)據(jù)中心向端側(cè)技術(shù)遷移

UFS3.1已大規(guī)模上車，將逐漸迭代至UFS4.0、UFS5.0，同時(shí)PCIe SSD將成為L(zhǎng)3/L4高級(jí)別自動(dòng)駕駛汽車的首選

相關(guān)推薦

汽車存儲(chǔ)芯片研究：大模型推動(dòng)下，主機(jī)廠車用存儲(chǔ)芯片的選擇路徑分析

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限，LPDDR5X將被普遍采用，但仍顯不足，GDDR7、HBM或?qū)⑻嵘弦?guī)劃日程

DRAM存儲(chǔ)芯片選擇路徑（2）：GDDR6雖已上車，但面臨成本與能耗的問(wèn)題，下一代GDDR7+LPDDR5X的混合存儲(chǔ)架構(gòu)或有可為

DRAM存儲(chǔ)芯片選擇路徑（3）：HBM2E已部署到L4 級(jí)Robotaxi，但距離量產(chǎn)乘用車仍有較遠(yuǎn)距離，存儲(chǔ)芯片廠商正推動(dòng)HBM從數(shù)據(jù)中心向端側(cè)技術(shù)遷移

UFS3.1已大規(guī)模上車，將逐漸迭代至UFS4.0、UFS5.0，同時(shí)PCIe SSD將成為L(zhǎng)3/L4高級(jí)別自動(dòng)駕駛汽車的首選