AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡來解決范圍同樣廣泛的商業(yè)挑戰(zhàn),這也意味著,出色的 AI 推理加速器不僅要具備出色的性能,同時還要具備通用性來加速這些神經(jīng)網(wǎng)絡。
為什么需要通用性?
在一個AI 應用中,用戶通常會用到許多不同類型的神經(jīng)網(wǎng)絡,甚至可能每個步驟都要用到不同類型的 AI 模型。例如,可能需要理解用戶的語音請求、對圖像進行分類、提出建議,然后以人聲作為語音信息提供回應。因此,在多個不同的主流模型上保持領先性能、具備較為廣泛的通用性,往往會成為用戶考慮的關鍵所在。
MLPerf 是由來自學術界、研究實驗室和相關行業(yè)的 AI 領導者組成的聯(lián)盟,旨在“構(gòu)建公平和有用的基準測試”,在規(guī)定的條件下,針對硬件、軟件和服務的訓練和推理性能提供公平的評估。為確保始終站在行業(yè)趨勢的前沿,MLPerf 也在不斷演進,定期進行新的測試并添加代表AI領域當前水平的新工作負載。
目前,MLPerf 基準測試涵蓋了流行的 AI 工作負載與場景,比如計算機視覺、自然語言處理、推薦系統(tǒng)、語音識別等,其透明性和客觀性在業(yè)內(nèi)廣受認可,得到了包括亞馬遜、Arm、百度、谷歌、哈佛大學、英特爾、Meta、微軟、斯坦福大學和多倫多大學在內(nèi)的支持。
NVIDIA H100 GPU創(chuàng)造多項世界紀錄
在最新進行的MLPerf 行業(yè)標準 AI 基準測試中,首次亮相的 NVIDIA H100 Tensor Core GPU在所有工作負載推理中都創(chuàng)造了世界紀錄,它在單個服務器和離線場景中展現(xiàn)出吞吐量和速度方面的領先優(yōu)勢,并且性能比上一代 GPU 高出 4.5 倍。
NVIDIA H100 GPU 在數(shù)據(jù)中心類別的所有工作負載上都樹立了新標桿
BERT是MLPerf AI模型中規(guī)模最大、對性能要求最高的的模型之一,多用于自然語言處理,而H100在BERT 模型上表現(xiàn)出色,則要部分歸功于 Transformer Engine。
首先,H100的第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8),其次,Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時仍能保持大型語言模型的準確性。
這是H100 GPU首次公開亮相,它將于今年晚些時候上市。在數(shù)據(jù)中心級部署 H100 GPU,可以使研究人員能使用新一代百億億次級 (Exascale) 高性能計算 (HPC) 和萬億參數(shù)的 AI。據(jù)透露,H100還將參加未來的 MLPerf訓練基準測試。
A100 GPU 持續(xù)展現(xiàn)領先優(yōu)勢
在最新測試中,NVIDIA A100 GPU 繼續(xù)在主流 AI 推理性能方面展現(xiàn)出全方位領先。目前,主要的云服務商和系統(tǒng)制造商都采用了NVIDIA A100 GPU。
自 2020 年 7 月在 MLPerf 上首次亮相以來,由于 NVIDIA AI 軟件的不斷改進,A100 GPU 的性能已經(jīng)提升了6倍。在數(shù)據(jù)中心和邊緣計算類別與場景中,A100 GPU贏得的測試項超過了其他提交的結(jié)果。A100還在6月的MLPerf訓練基準測試中取得了全方位的領先,展現(xiàn)了其在整個AI工作流中的能力。
Orin 在邊緣計算領域保持領先
在邊緣計算方面,NVIDIA Orin 運行了所有 MLPerf 基準測試,是所有低功耗系統(tǒng)級芯片中贏得測試最多的芯片。并且,與 4 月在 MLPerf 上的首次亮相相比,其能效提高了50%。
在上一輪基準測試中,Orin 的運行速度和平均能效分別比上一代 Jetson AGX Xavier 模塊高出 5 倍和 2 倍。
在能效方面,Orin 邊緣 AI 推理性能提升多達 50%
Orin將NVIDIA Ampere架構(gòu) GPU 和Arm CPU 內(nèi)核集成到一塊芯片中。目前,Orin 現(xiàn)已被用在 NVIDIA Jetson AGX Orin 開發(fā)者套件以及機器人和自主系統(tǒng)生產(chǎn)模塊,并支持完整的 NVIDIA AI 軟件堆棧,,包括自動駕駛汽車平臺(NVIDIA Hyperion)、醫(yī)療設備平臺(Clara Holoscan)和機器人平臺(Isaac)。
廣泛的AI 生態(tài)系統(tǒng)
得益于在以上產(chǎn)品中的持續(xù)投入,NVIDIA AI 成為唯一能夠在數(shù)據(jù)中心和邊緣計算中運行所有 MLPerf 推理工作負載和場景的平臺。
MLPerf 結(jié)果也顯示,NVIDIA AI 得到了業(yè)界廣泛的機器學習生態(tài)系統(tǒng)的支持。在這一輪基準測試中,有超過 70 項提交結(jié)果在 NVIDIA 平臺上運行。例如,Microsoft Azure 提交了在其云服務上運行 NVIDIA AI 的結(jié)果。此外,10 家系統(tǒng)制造商的 19 個NVIDIA 認證系統(tǒng)參加了本輪基準測試,包括華碩、戴爾科技、富士通、技嘉、慧與、聯(lián)想、和超微等。它們的結(jié)果表明,無論是在云端還是在自己數(shù)據(jù)中心運行的服務器中,用戶都可以借助 NVIDIA AI 獲得出色的性能。
據(jù)介紹,合作伙伴之所以參與 MLPerf ,是因為他們知道這是一個為客戶評估 AI 平臺和廠商的重要工具。最新一輪結(jié)果也確實證明,NVIDIA向用戶提供的性能在隨著平臺的發(fā)展而增長。
寫在最后
AI的復雜性要求平臺的各個方面實現(xiàn)緊密結(jié)合。正如 MLPerf 基準測試中所展現(xiàn)的,需要全棧的創(chuàng)新來獲得性能領先。NVIDIA通過GPU、可擴展的互連技術以及軟件配備(一種端到端解決方案,可在數(shù)據(jù)中心、云或邊緣部署,并可提供出色結(jié)果),實現(xiàn)了出色的性能。
軟件在整體AI平臺中的重要性不容忽視,NGC是 NVIDIA 平臺和 MLPerf 訓練和推理結(jié)果的重要組成部分,是適用于GPU優(yōu)化 AI、HPC和數(shù)據(jù)分析軟件的中心,可簡化和加速端到端工作流程。憑借 150 多個企業(yè)級容器(包括適用于對話式 AI 和推薦系統(tǒng)的工作負載)、100 多個模型,以及可在本地、云或在邊緣部署的行業(yè)特定 SDK,NGC可助力數(shù)據(jù)科學家、研究人員和開發(fā)者快速構(gòu)建強大的解決方案,快速提供業(yè)務價值。