作者?|??陳駿達
編輯?|??心緣
谷歌稱AI已迎來“推理時代”。
芯東西4月10日報道,今天,在谷歌云Next大會上,谷歌發(fā)布第七代TPU芯片Ironwood。谷歌機器學習、系統(tǒng)和云AI副總裁兼總經理Amin Vahdat稱,Ironwood是谷歌迄今為止最強大、最節(jié)能的TPU,專為支持思考、推理類模型的大規(guī)模應用而設計。每塊Ironwood芯片的峰值算力為4614 TeraFLOPS(第六代TPU芯片Trillium的5倍),內存高達192GB(Trillium的6倍);HBM帶寬達到7.2 Tbps(Trillium的4.5倍);其每瓦峰值算力為29.3 TeraFLOPS,是Trillium的2倍多。
通過芯片間互連(ICI)網絡,Ironwood實現1.2 Tbps的芯片間雙向帶寬,最高可擴展至9216個液冷芯片組成的Pod,總算力達42.5 ExaFLOPS,是目前世界上最大超算El Capitan算力的24倍多。
對于谷歌云客戶,Ironwood提供兩種尺寸:256芯片配置和9216芯片配置。開發(fā)者還可以利用谷歌的Pathways軟件堆棧,管理數萬個Ironwood TPU的綜合計算能力。全面推出的Cluster Director允許用戶部署和管理具有計算、存儲和網絡功能的大型加速虛擬機集群。谷歌稱,Ironwood代表著AI及其基礎設施的發(fā)展迎來重大轉變,從提供實時信息供人類解讀的響應式AI,轉變?yōu)橹鲃由山庾x的AI模型,迎來“推理時代”。Ironwood旨在“優(yōu)雅地管理”思考模型復雜的計算和通信需求,包括大語言模型(LLM)、混合專家模型(MoE)和高級推理任務等這些需要大規(guī)模并行處理和高效的內存訪問的場景。具體而言,Ironwood能在執(zhí)行大規(guī)模張量操作的同時,最大限度地減少芯片上的數據移動和延遲。由于頂級思維模型的計算需求遠遠超出了任何單個芯片的容量,谷歌為Ironwood TPU配備了低延遲、高帶寬的ICI網絡,以支持全TPU Pod規(guī)模的協(xié)調同步通信。Ironwood還配備了增強版SparseCore專用加速器,可用于處理高級排名和推薦任務中常見的超大嵌入。增強版SparseCore可以加速更多領域的任務,從傳統(tǒng)的AI任務擴展到金融和科學等領域。大會現場,谷歌云宣布他們將很快推出A4X和A4 VMs(虛擬機),由英偉達GB200 NVL72和B200 Blackwell GPU提供算力支持,谷歌云也將成為首批提供Vera Rubin GPU的云服務廠商。英偉達創(chuàng)始人兼CEO黃仁勛特地為谷歌云Next大會錄制了一段視頻,他稱英偉達與谷歌云的“超級合作伙伴關系”涵蓋了每一層面的計算,英偉達將與谷歌云一起推出加密計算服務,面向全球的高監(jiān)管與高風險行業(yè)客戶。
Ironwood的發(fā)布正值AI芯片領域的競爭不斷加劇。盡管英偉達在該領域處于領先地位,但包括亞馬遜和微軟在內的科技巨頭也在紛紛推出自己的內部解決方案。亞馬遜通過AWS提供了Trainium、Inferentia和Graviton處理器,而微軟則為其Cobalt 100AI芯片提供Azure實例。隨著AI與行業(yè)、場景的集成越來越深入,谷歌正通過對Ironwood等推理場景專用硬件的投資,為這一未來做好準備。