基于真實(shí)環(huán)境的AI測試不斷演進(jìn),促使英特爾技術(shù)專家順應(yīng)行業(yè)需求,持續(xù)提升產(chǎn)品性能,進(jìn)而營造更友好的發(fā)展環(huán)境,推動AI技術(shù)的普及。
MLPerf大家可能都略有耳聞,但又未必完全了解這項AI基準(zhǔn)測試。雖然沒能找到這個詞本身的明確定義,但利用AI助手,我們得到了一個值得信賴的答案:MLPerf在2018年5月首次出現(xiàn)時被比作是為“SPEC for ML”。AI助手繼續(xù)寫道:“‘MLPerf’是一個合成詞,由‘ML’(代表機(jī)器學(xué)習(xí))和‘Perf’(代表性能)組合而成?!?/p>
它進(jìn)一步解釋說:“雖然沒有關(guān)于命名過程的詳細(xì)官方說明,但名稱本身就非常直觀,之所以被選中,可能是因為它直接體現(xiàn)了基準(zhǔn)測試的目的?!保ㄟ@個解釋也很貼合大家對AI生成的答案的預(yù)期,這些AI由研究人員所構(gòu)建并不斷改進(jìn))
實(shí)際結(jié)果證明了這一點(diǎn):就在上周,英特爾是唯一一家持續(xù)向MLPerf提交服務(wù)器CPU測試結(jié)果的廠商。提交的結(jié)果中包括了使用英特爾? 至強(qiáng)? 6處理器進(jìn)行圖像檢測和信息分析等常見的AI任務(wù)。
加速AI發(fā)展背后的組織與流程
英特爾數(shù)據(jù)中心和人工智能事業(yè)部軟件部門的Ramesh Chukka表示:“MLPerf是目前AI領(lǐng)域首屈一指的基準(zhǔn)測試?!?/p>
Chukka代表英特爾擔(dān)任MLCommons委員會成員,該聯(lián)盟成立于2020年底,目標(biāo)是將最初的MLPerf工作范疇擴(kuò)展到“推動開發(fā)最新的AI和機(jī)器學(xué)習(xí)數(shù)據(jù)集和模型、最佳實(shí)踐、基準(zhǔn)和指標(biāo),并讓使用更加便捷”。
Chukka認(rèn)為,MLPerf可以泛指所有的基準(zhǔn)測試,這些基準(zhǔn)測試“像技術(shù)的發(fā)展一樣,處于快速演進(jìn)中”,從而通過“快速構(gòu)建新的AI技術(shù)原型”來實(shí)現(xiàn)推動該領(lǐng)域發(fā)展的目標(biāo)。每個基準(zhǔn)測試都衡量了在一定的質(zhì)量水平下,完成特定AI任務(wù)的速度。
這些基準(zhǔn)測試分為兩大類:一是訓(xùn)練,即使用數(shù)據(jù)構(gòu)建AI模型;二是推理,即讓AI模型像應(yīng)用程序一樣運(yùn)行起來。用大語言模型(LLM)來類比:訓(xùn)練是指LLM從海量信息中學(xué)習(xí)的過程,而推理則是你每次安排它執(zhí)行任務(wù)的時候。
MLCommons每年針對訓(xùn)練和推理兩大類目分別發(fā)布兩組基準(zhǔn)測試結(jié)果。英特爾最近一次公布訓(xùn)練結(jié)果是在去年6月,而最新的推理結(jié)果則是在本月剛剛發(fā)布。
從MLPerf創(chuàng)立之初,再到之后的MLCommons,英特爾AI專家一直積極參與并貢獻(xiàn)測試結(jié)果。英特爾從兩方面參與其中:幫助塑造和推動整個項目的發(fā)展,同時使用英特爾的處理器、加速器和解決方案進(jìn)行編譯并提交基準(zhǔn)測試結(jié)果。
MLPerf基準(zhǔn)測試所解決的問題
AI模型是復(fù)雜的程序,現(xiàn)在越來越多種類的計算機(jī)能夠運(yùn)行這些模型。通過MLPerf基準(zhǔn)測試,不僅能夠更好地對比不同種類的計算機(jī),同時也可以推動研究人員和企業(yè)進(jìn)一步探索前沿技術(shù)。
每個基準(zhǔn)測試都會盡可能貼近實(shí)際應(yīng)用場景,而其結(jié)果則分為兩個類別。其中,“封閉”類別對AI模型和軟件堆棧進(jìn)行嚴(yán)格控制,以盡可能精準(zhǔn)地進(jìn)行硬件比較,即在不同的系統(tǒng)中,使用相同的程序來實(shí)現(xiàn)相同的結(jié)果,如自然語言處理的準(zhǔn)確率測試。
“開放”類別則包含創(chuàng)新因素,即讓每個系統(tǒng)在實(shí)現(xiàn)相同目標(biāo)的前提下,盡可能地突破性能極限。
值得注意的是,MLPerf將所有內(nèi)容共享,且基準(zhǔn)測試是開源的。測試結(jié)果需要是可復(fù)現(xiàn)的,無隱藏信息。正是這種開源開放的特性,能夠讓廠商進(jìn)行更全面的比較,而不僅僅是單純的速度對比。比如,廠商也可以從每瓦性能,或成本等維度進(jìn)行對比。
MLPerf的運(yùn)行及演進(jìn)過程
正如Chukka所說,MLPerf之所以廣受業(yè)界認(rèn)可,部分原因在于它不斷演進(jìn)并持續(xù)增加新的基準(zhǔn)測試。其演進(jìn)過程主要是由MLCommons社區(qū)的公開討論和辯論驅(qū)動的,而諸多大型企業(yè)、初創(chuàng)公司和學(xué)術(shù)界等均是該社區(qū)的參與者。
首先,新的基準(zhǔn)測試會被提出并進(jìn)行辯論,隨后獲批的基準(zhǔn)測試需要一個公開的數(shù)據(jù)集用于訓(xùn)練。其中需要注意的是,該數(shù)據(jù)集可能已經(jīng)存在,也可能需要重新創(chuàng)建。其次,參與者自愿組隊,共同構(gòu)建基準(zhǔn)測試、確定或收集數(shù)據(jù),并為基準(zhǔn)測試的發(fā)布設(shè)定時間表。
最后,任何希望發(fā)布測試結(jié)果的公司都需要在截止日期前提交成果。如果錯過該截止日期,則只能等待下一輪流程重新開啟。
更快速、更高效的AI塑造世界的未來
當(dāng)越來越多的人借助半導(dǎo)體技術(shù)攻克各類難題時,對于英特爾而言,無疑在宏觀層面帶來了顯著的積極影響,然而,英特爾參與MLPerf基準(zhǔn)測試,有著更為深遠(yuǎn)的意義。
英特爾一直在為AI開源框架貢獻(xiàn)力量,如PyTorch及其擴(kuò)展。當(dāng)英特爾工程師努力優(yōu)化代碼以提升MLPerf的運(yùn)行效率時,那些在英特爾芯片上部署相關(guān)AI應(yīng)用的用戶,無需任何額外操作,便能輕松受益于這些技術(shù)進(jìn)步。
Chukka表示,“對于新的基準(zhǔn)測試,我們也一直在探索可行的優(yōu)化方案,并積極準(zhǔn)備后續(xù)的提交工作?!?/p>
為了實(shí)現(xiàn)更出色的測試結(jié)果,Chukka團(tuán)隊匯集公司各方力量,在多輪測試中取得了出色的性能提升,例如,在2024年的測試結(jié)果中,推薦系統(tǒng)推理性能提升了80%,又如在本月的測試結(jié)果中,GPT-J基準(zhǔn)測試性能提升了22%。
因此,當(dāng)英特爾發(fā)布新一輪MLPerf測試結(jié)果時,往往也代表著整體AI系統(tǒng)都變得更快速、更高效,甚至?xí)r下熱門的大模型,也能在響應(yīng)用戶新的需求時,給出更迅速、更智能的解答。
注釋:
性能因使用情況、配置和其他因素而異。