• 正文
    • OpenAI:構建可擴展AI基礎設施
    • 英偉達:Blackwell架構細節(jié)公布
    • 英特爾:Lunar Lake和Granite Rapids-D
    • IBM:Telum II和Spyre Accelerator新款AI處理器
    • AMD:詳細介紹Zen 5核心架構
    • 高通:驍龍X Elite中的Oryon CPU
    • 微軟:Maia 100第一代自定義 AI加速器
    • Cerebras:推出WSE-3人工智能芯片
    • FuriosaAI:最新研發(fā)的AI加速器RNGD
    • Tenstorrent:Blackhole成為獨立AI計算平臺
    • 結(jié)尾:
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

深度丨2024 Hot Chips,芯片廠商正面PK

2024/09/05
2511
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?| 方文三

2024 Hot Chips大會,各大芯片廠商摩拳擦掌,紛紛亮劍,準備在這個充滿挑戰(zhàn)與機遇的舞臺上展開正面PK,從中可看見芯片技術的發(fā)展之路。

OpenAI:構建可擴展AI基礎設施

近日,OpenAI硬件設施的負責人Trevor Cai在Hot Chips 2024會議上進行了長達一小時的演講,主題聚焦于[構建可擴展的AI基礎設施]。

OpenAI通過觀察得出一個關鍵結(jié)論:規(guī)模的擴大能夠孕育出更優(yōu)質(zhì)、更具實用價值的人工智能(AI)系統(tǒng)。

在演講中,Cai先生著重探討了如何解決能源消耗與計算能力之間的矛盾,并提到英特爾、IBM以及英偉達等公司提出了更為節(jié)能的技術方案。

根據(jù)摩根士丹利在八月份發(fā)布的研究報告預測,未來幾年內(nèi),生成式AI的電力需求將每年激增75%,預計到2026年,其能源消耗量將與西班牙2022年的總消耗量相匹敵。

計算量每翻一番,AI模型的性能便能得到顯著提升。模型的能力與計算資源消耗呈指數(shù)級增長。

自2018年以來,行業(yè)內(nèi)的先進模型計算量每年增長約四倍。

OpenAI堅信,AI基礎設施的建設需要巨額投資,因為計算能力的提升已經(jīng)帶來了超過八個數(shù)量級的效益增長。

OpenAI 對編碼等任務進行了研究,并發(fā)現(xiàn)其中存在相似的模式。

這一發(fā)現(xiàn)是在平均對數(shù)尺度上得出的,因此通過/失敗的判定不會過度傾向于解決較為簡單的編碼問題。

基于此,OpenAI 認為AI領域需要大量投資,因為計算能力的增強已經(jīng)帶來了超過八個數(shù)量級的效益提升。

英偉達:Blackwell架構細節(jié)公布

在Hot Chips會議期間,英偉達進一步揭示了Blackwell架構的細節(jié)。

B200 GPU芯片采用臺積電定制的4nm工藝,集成了高達2080億個晶體管

NVLink-C2C技術被應用于Blackwell架構中,以實現(xiàn)芯片級的整合;

為了實現(xiàn)GPU間的無縫通信,英偉達A推出了NVSwitch,它允許服務器內(nèi)的每個GPU以1.8 TB/sec的速度與其他GPU進行通信,從而使得Blackwell平臺能夠支持更大規(guī)模的語言模型。

例如GPT-MoE-1.8T等,以滿足實時推理和訓練的需求;

NVIDIA高帶寬接口(NV-HBI)在兩個GPU芯片之間提供了高達10TB/s的雙向帶寬連接;

此外,NVIDIA在Blackwell平臺上原生支持FP4(四精度浮點數(shù))和FP6(六精度浮點數(shù))格式。

在性能方面,官方提供了一個參考數(shù)據(jù):Llama 3.1 700億參數(shù)大模型的AI推理性能GB200相較于H200提升了1.5倍。然而,這一性能提升是通過增加功耗實現(xiàn)的。

Blackwell B200單顆芯片的功耗高達1000W,而由一顆Grace CPU和兩顆Blackwell GPU組成的超級芯片GB200的功耗更是達到了驚人的2700W。

相比之下,過去Hopper的H100、H200 GPU功耗均為700W,H20的功耗為400W,Grace+Hopper的功耗為1000W。

比較之下,GB200的功耗比上一代GH200大幅提升了1.7倍,但性能提升似乎并未與之匹配,具體詳情還需英偉達進一步公布。

英特爾:Lunar Lake和Granite Rapids-D

在2024年Hot Chips大會上,英特爾展示了專為人工智能個人電腦設計的Lunar Lake芯片,以及面向數(shù)據(jù)中心的最新至強6 SoC Granite Rapids-D。

英特爾在此次大會上推出的Lunar Lake芯片,作為其面向移動AI PC的下一代核心產(chǎn)品,實現(xiàn)了在性能、能效和集成度方面的顯著提升。

相較于前代產(chǎn)品Meteor Lake,Lunar Lake在架構設計上進行了根本性的革新,其顯著特點在于集成了片上內(nèi)存。

在系統(tǒng)級芯片(SoC)設計方面,Lunar Lake采用了創(chuàng)新的多核架構,包括四個高性能的P核心(Lion Cove P-Core)以及多個效率核心(E核心)。

與Meteor Lake相比,Lunar Lake的E核心數(shù)量由兩個增至四個,并且每個E核心集群配備了4MB的L2緩存以及獨立的電源管理功能。

這種設計不僅增強了多任務處理能力,還有效降低了功耗。

Lunar Lake引入了8MB的內(nèi)存?zhèn)染彺?,旨在減少對DRAM的依賴和訪問頻率,從而降低功耗并提升性能。

Lion Cove和Skymont核心的設計是Lunar Lake的另一亮點,它們體現(xiàn)了英特爾在提升指令集架構(ISA)效率和每瓦性能方面的不懈追求。

英特爾宣稱,新的核心設計在每時鐘周期指令(IPC)方面提升了約14%,這意味著在相同的時鐘頻率下,處理器能夠執(zhí)行更多的指令。

Lunar Lake還對圖形處理單元(GPU)和神經(jīng)處理單元(NPU)進行了顯著的性能提升。

新的Xe2 GPU架構將原有的兩個SIMD8結(jié)構升級為一個SIMD16結(jié)構,使得在相同功率下的游戲性能提升了1.5倍。

這一變革不僅拓寬了GPU的應用范圍,還提高了圖形處理的效率。

在NPU方面,Lunar Lake將先前的2個神經(jīng)計算引擎擴展至6個,英特爾宣稱其NPU的計算能力達到了48 TOPS。

這一性能的提升使得Lunar Lake在人工智能和機器學習任務中的表現(xiàn)更為卓越,能夠處理更為復雜的模型和算法。

此外,Xeon D系列將不會采用第四代/第五代Xeon Sapphire Rapids/Emerald Rapids的內(nèi)核,而是將在2025年通過Granite Rapids-D部件實現(xiàn)Xeon 6的處理能力。

Intel Xeon D系列專為邊緣計算設計,旨在為邊緣計算帶來性能核心以及集成的網(wǎng)絡與加速功能。

該系列芯片介于采用E核心的Atom系列和主流Xeon系列之間,邊緣計算因其特定的工作溫度和環(huán)境配置文件而有其獨特性。

新芯片支持PCIe Gen5(高于Ice Lake-D中的PCIe Gen4)以及多項新功能。

該芯片提供4通道和8通道設計,支持高速MCRDIMM內(nèi)存。

具備100GbE連接、Intel QuickAssist、DLB、DSA和vRAN Boost等I/O特性。

性能核心為Granite Rapids/Redwood Cove P核心,值得注意的是,這并非英特爾Lunar Lake P核心。

新芯片支持AMX實現(xiàn)AI加速功能。對于習慣使用高端Xeon的用戶而言,這可能不是什么新鮮事,但對于之前使用僅配備VNNI的Ice Lake-D的用戶來說,AI性能將有顯著提升。

同時,Atom系列與Xeon 6 SoC之間似乎存在較大的性能差距。Atom P5000/C5000系列似乎需要更新,配備更現(xiàn)代的E核心。

IBM:Telum II和Spyre Accelerator新款AI處理器

IBM正式宣布推出兩款先進的AI處理器,即Telum II和Spyre Accelerator。

該公司表示,這些處理器將為下一代IBM Z大型機系統(tǒng)提供動力,特別是在增強AI功能方面,包括大型語言模型(LLM)和生成式AI。

IBM新推出的處理器延續(xù)了該公司大型機所享有的高安全性、高可用性和卓越性能的傳統(tǒng)優(yōu)勢。

Telum II處理器在架構上實現(xiàn)了重大創(chuàng)新,相較于其前身,它在速度、內(nèi)存容量以及功能上均有顯著提升。

Telum II處理器的設計允許內(nèi)核將AI任務卸載至相鄰的任一處理器芯片,從而為每個內(nèi)核提供了對更廣泛的AI計算資源的訪問權限,有效減少了對AI加速器的競爭。

該處理器采用了八個高性能內(nèi)核,每個內(nèi)核均以固定的5.5GHz頻率運行,并配備了集成的片上AI加速器。

該加速器直接與處理器的復雜指令集計算機(CISC)指令集相連,以實現(xiàn)低延遲的AI操作。

與依賴內(nèi)存映射輸入/輸出的傳統(tǒng)加速器不同,Telum II的AI加速器將矩陣乘法和其他AI基礎操作作為本機指令執(zhí)行,從而減少了開銷并提升了吞吐量。

Telum II中每個加速器的AI計算能力翻倍,達到每芯片24萬億次運算(TOPS)。

此外,Telum II處理器顯著增加了緩存容量,每個內(nèi)核可訪問36MB的L2緩存,片上總計達到360MB。虛擬L3和L4緩存分別增長了40%,達到360MB和2.88GB。

Telum II處理器的另一顯著特點是其集成了數(shù)據(jù)處理單元(DPU)。

在IBM大型機每天處理數(shù)十億個事務的企業(yè)環(huán)境中,I/O操作的效率至關重要。

因此,Telum II中的DPU與處理器的對稱多處理(SMP)架構緊密相連,并配備了獨立的L2緩存。

DPU架構由四個處理集群組成,每個集群包含8個可編程微控制器內(nèi)核,共計32個內(nèi)核。

這些內(nèi)核通過本地一致性結(jié)構互連,保持了整個DPU的緩存一致性,并與主處理器集成。

通過將DPU置于PCI接口的處理器端,并實現(xiàn)DPU與運行主要企業(yè)工作負載的主處理器之間的連貫通信,整個系統(tǒng)的I/O管理功耗降低了70%。

AMD:詳細介紹Zen 5核心架構

在Hot Chips 會議上,AMD詳細介紹了其新一代 Zen 5 核心架構,該架構預計將為公司未來的高性能個人電腦發(fā)展提供強大動力。

AMD 首先明確了 Zen 5 架構的設計目標。在性能提升方面,Zen 5 力求在單線程(1T)和多線程(NT)性能上取得顯著進步,旨在平衡跨核的 1T/NT 指令和數(shù)據(jù)吞吐量,構建前端并行性,增強執(zhí)行并行性,提升整體吞吐量,實現(xiàn)數(shù)據(jù)移動和預取的高效性,并支持 AVX512/FP512 數(shù)據(jù)路徑以進一步提高吞吐量和人工智能性能。

AMD 還計劃通過 Zen 5 及其變體 Zen 5C 核心引入新功能,包括額外的指令集架構(ISA)擴展、新的安全特性以及擴展的平臺支持。

在產(chǎn)品層面,AMD 的 Zen 5 核心架構將首先應用于三個系列的產(chǎn)品中,分別是Ryzen 9000 Granite Ridge臺式機CPU、Ryzen AI 300Strix筆記本電腦CPU和第五代EPYCTurin數(shù)據(jù)中心CPU。

AMD 表示,Zen 5 架構將再次以顯著提升性能的步伐呈現(xiàn),特別是 AVX512 擁有 512 位浮點(FP)數(shù)據(jù)路徑,這將有助于提升吞吐量和人工智能性能。

Zen 5 提供高效、高性能、可擴展的可配置解決方案,其中 Zen 5 實現(xiàn)峰值性能,而 Zen 5C 則著重于效率,兩者均支持 4nm 和 3nm 工藝節(jié)點。

高通:驍龍X Elite中的Oryon CPU

在2024年Hot Chips會議上,高通公司詳盡地介紹了驍龍X Elite中的高通Oryon CPU。

高通Oryon是專為Snapdragon X Elite系統(tǒng)級芯片(SoC)設計的CPU。

高通公司指出,即便調(diào)度器的規(guī)模有所增加,它依然能夠滿足時序要求,并有效緩解了某些瓶頸問題。

此外,該調(diào)度器除了執(zhí)行加載/存儲操作外,還能進行其他操作(可能包括數(shù)據(jù)存儲操作),其額外的容量有助于吸收這些額外操作。

Oryon的L1數(shù)據(jù)緩存容量為96KB,它采用多端口設計,并基于代工廠的標準位單元進行設計。

高通公司確實考慮過采用更大容量的數(shù)據(jù)緩存,但最終選擇了96KB的設計,以確保滿足時序(即時鐘速度)的要求。單個核心的傳輸能力略低于100GB/s。

預取技術在現(xiàn)代處理器核心中扮演著至關重要的角色。

Oryon特別強調(diào)了預取技術的重要性,它通過各種標準和專有預取器分析訪問模式,并嘗試在指令請求數(shù)據(jù)之前主動生成請求。

高通公司通過使用各種訪問模式測試軟件來展示預取器如何減少可見的加載延遲。

預取器所識別的模式具有較低的延遲。

對于簡單的線性訪問模式,預取器能夠提前足夠遠地運行,幾乎可以完全隱藏L2延遲。

在系統(tǒng)層面,驍龍X Elite擁有12個核心,這些核心被劃分為三個四核心集群。

雖然后來該功能得到了實現(xiàn),但并未出現(xiàn)在驍龍X Elite中。

這一策略與英特爾和AMD的做法形成鮮明對比,后者采用不同數(shù)量的核心來實現(xiàn)廣泛的功率目標。

高通公司希望將Oryon的應用范圍擴展到筆記本電腦以外的其他領域。

微軟:Maia 100第一代自定義 AI加速器

在Hot Chips會議上,微軟公布了Maia 100的詳細規(guī)格。

Maia 100作為微軟首款定制化的AI加速器,是為在Azure平臺上部署的大型AI工作負載量身打造的。

Maia 100系統(tǒng)通過垂直集成來優(yōu)化性能并降低成本,整合了定制的平臺架構、服務器板以及軟件堆棧,旨在提升Azure OpenAI服務等高級AI功能的性能和成本效益。

該加速器是為云基礎的AI工作負載特別設計的。其芯片面積為820mm2,采用臺積電N5制程技術及COWOS-S中介層技術制造。

Maia 100的標線尺寸SoC裸片配備了大容量片上SRAM,并結(jié)合四個HBM2E裸片,提供每秒1.8TB的總帶寬和64GB的存儲容量,以滿足AI級別數(shù)據(jù)處理的需求。

該加速器旨在支持高達700W的熱設計功耗(TDP),但其配置為500W,能夠在提供高性能的同時,根據(jù)目標工作負載高效地管理電源。

可以合理推測,Maia 100主要應用于OpenAI的推理業(yè)務。在軟件方面,它表現(xiàn)出色,能夠通過一行代碼執(zhí)行PyTorch模型。

在高密度部署、標準以太網(wǎng)融合ScaleUP、ScaleOut方面表現(xiàn)良好,但若使用RoCE,則需要額外的Tile控制器。

這與英特爾Gaudi3需要中斷管理器的情況類似,存在一定的局限性。

Cerebras:推出WSE-3人工智能芯片

自推出采用整片晶圓制造的芯片技術以來,Cerebras公司近年來的市場推廣活動一直以進軍由英偉達主導的人工智能芯片市場為核心目標。

Cerebras Systems公司推出了專為訓練AI領域中最大型模型而設計的WSE-3人工智能芯片。

這款基于5納米工藝、擁有4萬億個晶體管的WSE-3芯片,為Cerebras CS-3人工智能超級計算機提供了強大的動力,通過其900,000個針對人工智能優(yōu)化的計算核心,實現(xiàn)了125千萬億次的峰值人工智能性能。

特別值得注意的是,這一尺寸是其半導體代工合作伙伴臺積電目前能夠生產(chǎn)的最大尺寸芯片。

目前生成式AI應用存在響應延遲,但快速處理請求可構建無延遲問題的代理應用,快速處理Token能讓LLM在多個步驟中迭代答案。

WSE-3芯片每秒可生成超過1,800個Token,但受限于計算能力。

Meta的Llama 3 8B模型是WSE-3的理想應用場景,因為它可以完全裝入SRAM,留下足夠空間給鍵值緩存。

Cerebras通過跨多個CS-3系統(tǒng)并行化模型來應對挑戰(zhàn),例如將Llama 3 70B的80層分布在四個系統(tǒng)中。盡管存在性能損失,但節(jié)點間延遲較小。

對于更大的模型,Cerebras預計使用12個CS-3系統(tǒng)能實現(xiàn)每秒約350個Token。

Cerebras使用片上SRAM替代HBM,與Groq的LPU不同,后者需要更多加速器來支持大模型。

Cerebras能在不量化的情況下達到性能目標,而Groq使用8bit量化以減少模型大小和內(nèi)存壓力,但犧牲了準確性。

然而,僅比較性能而不考慮成本是不公平的,因為WSE-3芯片的成本遠高于Groq LPU。

FuriosaAI:最新研發(fā)的AI加速器RNGD

在Hot Chips會議上,F(xiàn)uriosaAI正式發(fā)布了其最新研發(fā)的AI加速器RNGD,該產(chǎn)品專為數(shù)據(jù)中心的高性能、高效率大型語言模型(LLM)以及多模態(tài)模型推理量身定制。

RNGD具備150W的熱設計功耗(TDP)、創(chuàng)新的芯片架構以及HBM3等先進內(nèi)存技術,針對嚴苛要求的LLM和多模態(tài)模型推理進行了精細優(yōu)化。

FuriosaAI在獲得臺積電代工的第一顆芯片后僅三周,便提交了首個MLPerf基準測試成績。

隨后,通過編譯器增強技術,在六個月后的MLPerf更新提交中實現(xiàn)了113%的性能增長。

簡而言之,F(xiàn)uriosaAI充分利用了芯片的全部潛能。

在執(zhí)行GPT-J 6B模型時,單個RNGD每秒可生成約12個查詢。隨著未來幾周及數(shù)月內(nèi)軟件堆棧的持續(xù)改進,這一數(shù)字預期將有所提升。

根據(jù)目前的性能表現(xiàn),RNGD能夠在較低的TDP下實現(xiàn)優(yōu)異的性能,顯示出其強大的實力。

然而,迄今為止,F(xiàn)uriosaAI一直保持低調(diào),因為他們深知,在該行業(yè)中,對于尚未實現(xiàn)的技術,過度炒作和大膽承諾是不被需要的。

Tenstorrent:Blackhole成為獨立AI計算平臺

芯片工程師Jim Keller,因其在業(yè)界的杰出貢獻而備受矚目,他作為Tenstorrent公司的首席執(zhí)行官,在Hot Chips 2024會議上展示了更多關于公司Blackhole芯片的細節(jié)。

據(jù)悉,Blackhole是Tenstorrent公司下一代獨立AI計算平臺,將搭載140個Tensix++核心、16個中央處理器(CPU)核心以及一系列高速互連技術。

Blackhole芯片預計可提供高達790萬億次運算每秒(TOPS)的計算能力,采用FP8數(shù)據(jù)格式。

Blackhole芯片預計將于2023年及以后推出,代表了對前代Grayskull和Wormhole芯片的重大技術進步。

芯片內(nèi)部集成了16個RISC-V核心,這些核心被劃分為4個集群,每個集群包含4個核心。

Tensix核心位于芯片中心,而以太網(wǎng)接口則位于芯片的頂端。

該芯片具備10個400Gbps的以太網(wǎng)端口和512GB/s的帶寬性能。

其中16個大型RISC-V核心能夠運行Linux操作系統(tǒng);而其余的752個RISC-V核心則被定義為[小型]核心,它們支持C語言編程,但不兼容Linux操作系統(tǒng)。

這些小型RISC-V核心被設計用于可編程計算、數(shù)據(jù)傳輸和存儲任務。

在RISC-V核心與以太網(wǎng)技術的結(jié)合使用方面,Tenstorrent公司正致力于推動開放系統(tǒng)的AI加速技術,這一點頗具前瞻性。

正是由于這種設計理念,以太網(wǎng)技術,特別是51.2T的高速以太網(wǎng),將在AI領域扮演關鍵角色。

類似Blackhole這樣的AI芯片正是利用高端以太網(wǎng)技術實現(xiàn)性能的擴展。

結(jié)尾:

隨著AI熱潮推動數(shù)據(jù)中心激增,能源需求同步增長,微軟、谷歌等大型科技公司投資數(shù)十億美元建設數(shù)據(jù)中心基礎設施。在此背景下,節(jié)能成為關鍵議題。

為應對日益復雜的 AI 模型和大規(guī)模數(shù)據(jù)處理需求,芯片在算力與帶寬方面不斷突破,芯片架構不斷創(chuàng)新以適應各類計算需求。

部分資料參考:

半導體行業(yè)觀察:《熱門芯片,亮相Hotchips》,芝能智芯:《英特爾Lunar Lake AI PC芯片》,芯芯有我:《Hot Chips 2024 分析》,半導體產(chǎn)業(yè)縱橫:《Hot Chips,芯片瘋狂》,芯智訊:《晶圓級AI芯片WSE-3推理性能公布:在80億參數(shù)模型上每秒生成1800個Token》,芯片講壇:《AI芯片市場,再一次迎來激烈的競爭》,電子工程世界:《AI芯片,再一次開戰(zhàn)》

本公眾號所刊發(fā)稿件及圖片來源于網(wǎng)絡,僅用于交流使用,如有侵權請聯(lián)系回復,我們收到信息后會在24小時內(nèi)處理。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
2-320563-2 1 TE Connectivity TERMINAL,PIDG R 16-14 1/4

ECAD模型

下載ECAD模型
$0.22 查看
104M66QV39 1 Quantic Paktron RC Network, Bussed, 2W, 39ohm, 1600V, 0.1uF, Through Hole Mount, 2 Pins, RADIAL LEADED, ROHS COMPLIANT
暫無數(shù)據(jù) 查看
P410QS333M300AH101 1 KEMET Corporation RC Network,

ECAD模型

下載ECAD模型
$1.83 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

AI芯天下是智能芯片行業(yè)垂直自媒體。采用媒體+行業(yè)的模式,堅持從芯出發(fā),用心服務的理念,致力于豐富的網(wǎng)絡基礎資源建設。官網(wǎng):http://www.world2078.com/ 公眾號:World_2078