該項目讓生產(chǎn)型生成式AI像Linux一樣無處不在,與創(chuàng)始貢獻者CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,攜手行業(yè)領(lǐng)導者AMD、思科、Hugging Face、英特爾、Lambda和Mistral AI,并獲得了來自加州大學伯克利分校和芝加哥大學的支持
全球領(lǐng)先的開源解決方案提供商紅帽公司近日宣布啟動全新開源項目llm-d,以滿足生成式AI(gen AI)未來最關(guān)鍵的需求:大規(guī)模推理。llm-d采用原生Kubernetes架構(gòu)、基于vLLM的分布式推理和智能AI感知網(wǎng)絡(luò)路由,利用突破性的大規(guī)模生成式AI推理技術(shù),讓強大的大語言模型(LLM)推理云能夠滿足最苛刻的生產(chǎn)服務(wù)級目標(SLO)。
雖然訓練仍然至關(guān)重要,但生成式AI的真正影響取決于更高效和可擴展的推理——將AI模型轉(zhuǎn)化為可操作洞察和用戶體驗的引擎。根據(jù)Gartner[1]數(shù)據(jù),“到2028年,隨著市場的成熟,80%以上的數(shù)據(jù)中心工作負載加速器將專門部署用于推理,而不是訓練用途?!边@強調(diào)了生成式AI的未來在于執(zhí)行能力。隨著推理模型日益復雜和規(guī)模不斷擴大,其對資源需求的持續(xù)攀升限制了集中式推理的可行性,并有可能因成本過高和延遲過長而使AI創(chuàng)新陷入瓶頸。
通過llm-d滿足可擴展生成式AI的推理需求
紅帽及其行業(yè)合作伙伴正通過llm-d應(yīng)對這一挑戰(zhàn)。llm-d是一個前瞻性項目,它能增強vLLM的能力,從而超越單臺服務(wù)器的限制,為AI推理解鎖大規(guī)模生產(chǎn)。使用Kubernetes久經(jīng)考驗的編排能力,llm-d將先進的推理能力集成到現(xiàn)有的企業(yè)IT基礎(chǔ)設(shè)施中。該統(tǒng)一平臺使IT團隊能夠滿足關(guān)鍵業(yè)務(wù)工作負載的各種服務(wù)需求,同時部署創(chuàng)新技術(shù)以最大限度地提高效率,并顯著降低與高性能AI加速器相關(guān)的總體擁有成本(TCO)。
llm-d提供了一套強大的創(chuàng)新,其中包括:
- vLLM已迅速成為開源領(lǐng)域的事實標準推理服務(wù)器,為新興的前沿模型提供Day 0模型支持,并支持各種加速器,現(xiàn)已包括Google Cloud張量處理器單元(TPU)。
- 預填充和解碼分離將AI的輸入上下文和token生成階段分離成離散操作,然后將它們分布到多個服務(wù)器上。
- 鍵值緩存卸載,基于LMCache,將鍵值緩存的內(nèi)存負擔從GPU內(nèi)存轉(zhuǎn)移到更具成本效益且容量更大的標準存儲,如CPU內(nèi)存或網(wǎng)絡(luò)存儲。
- 由Kubernetes驅(qū)動的集群和控制器可在工作負載需求波動時更高效地調(diào)度計算和存儲資源,同時確保性能和較低的延遲。
- AI感知網(wǎng)絡(luò)路由,用于將傳入請求調(diào)度到最有可能擁有過去推理計算熱緩存的服務(wù)器和加速器。
- 高性能通信API可實現(xiàn)服務(wù)器之間更快、更高效的數(shù)據(jù)傳輸,支持NVIDIA推理傳輸庫(NIXL)。
llm-d:受到行業(yè)領(lǐng)導者的支持
該全新開源項目已經(jīng)獲得了由領(lǐng)先的生成式AI模型提供商、AI加速器先驅(qū)和主要AI云平臺組成的強大聯(lián)盟的支持。CoreWeave、Google Cloud、IBM Research和NVIDIA是該項目的創(chuàng)始貢獻者,而AMD、思科、Hugging Face、英特爾、Lambda和Mistral AI是該項目的合作伙伴,這也表明,業(yè)界在構(gòu)建大規(guī)模LLM服務(wù)的未來方面開展了深入合作。加州大學的Sky Computing Lab(vLLM的發(fā)起者)和芝加哥大學的LMCache Lab(LMCache的發(fā)起者)作為創(chuàng)始支持者加入llm-d社區(qū)。
基于對開放合作的堅定承諾,紅帽認識到,在快速發(fā)展的生成式AI推理領(lǐng)域,充滿活力且易于訪問的社區(qū)至關(guān)重要。紅帽將積極推動llm-d社區(qū)的發(fā)展,為新成員營造一個包容的環(huán)境,并促進其持續(xù)發(fā)展。
紅帽的愿景:任意模型,任意加速器,任意云,自由部署
AI的未來應(yīng)當充滿無限機遇,而不應(yīng)受到基礎(chǔ)設(shè)施孤島的限制。紅帽認為,未來,企業(yè)可以在任意云環(huán)境中的任意加速器上部署任意模型,提供卓越且更加一致的用戶體驗,而無需高昂的成本。為了釋放生成式AI投資的真正潛力,企業(yè)需要一個通用推理平臺——一個用以推動當下以及未來數(shù)年中,更加無縫、更高性能AI創(chuàng)新的標準。
正如紅帽通過將Linux轉(zhuǎn)變?yōu)楝F(xiàn)代IT的基石,開創(chuàng)了開源企業(yè)先河,如今紅帽正構(gòu)建AI推理的未來。vLLM擁有成為標準化生成式AI推理核心的潛力,紅帽致力于構(gòu)建一個繁榮的生態(tài)系統(tǒng),不僅圍繞vLLM社區(qū),還包括用于大規(guī)模分布式推理的llm-d。紅帽的愿景非常清晰:無論采用何種AI模型、底層加速器或部署環(huán)境,vLLM都能成為新型跨混合云環(huán)境推理的開放標準權(quán)威。
支持證言
紅帽高級副總裁兼AI首席技術(shù)官Brian Stevens
“由AI領(lǐng)域先鋒力量共同發(fā)起的llm-d社區(qū)正式成立,這一事件標志著解決規(guī)模化生成式AI推理難題的關(guān)鍵突破——該挑戰(zhàn)正是阻礙企業(yè)AI大規(guī)模落地的核心障礙。通過融合vLLM的創(chuàng)新架構(gòu)與Kubernetes的成熟編排能力,llm-d開創(chuàng)了跨混合云環(huán)境實現(xiàn)分布式、可擴展且高性能AI推理的新范式。其支持任意模型、任意加速器、任意云環(huán)境的特性,正在推動‘無限AI潛能’愿景的實現(xiàn)?!?/p>
AMD AI產(chǎn)品管理企業(yè)副總裁Ramine Roane
“AMD很榮幸能成為llm-d社區(qū)的創(chuàng)始成員,貢獻我們在高性能GPU方面的專業(yè)知識,助力推進AI推理,滿足不斷發(fā)展的企業(yè)AI需求。企業(yè)正在應(yīng)對生成式AI日益增長的復雜性,以實現(xiàn)更大的規(guī)模和更高的效率,AMD期待通過llm-d項目滿足這一行業(yè)需求?!?/p>
思科開源項目辦公室副總裁兼思科DevNet主管Shannon McFarland
“l(fā)lm-d項目是實用型生成式AI領(lǐng)域的一項重要進展。llm-d賦能開發(fā)者以編程方式集成和擴展生成式AI推理,從而將現(xiàn)代AI領(lǐng)域的創(chuàng)新和效率提升到新的水平。思科很榮幸能成為llm-d社區(qū)的一員,我們在此共同探索真實世界的用例,幫助企業(yè)更有效、更高效地應(yīng)用AI?!?/p>
CoreWeave工程高級副總裁 Chen Goldberg
“CoreWeave很榮幸能成為llm-d項目的創(chuàng)始貢獻者,并加深我們對開源AI的長期承諾。從我們早期與EleutherAI的合作,到目前推進大規(guī)模推理的工作,我們一直致力于使強大的AI基礎(chǔ)設(shè)施更易于訪問。很高興能與一群出色的合作伙伴以及更廣泛的開發(fā)者社區(qū)攜手合作,共同建立一個靈活、高性能的推理引擎,加速創(chuàng)新,為開放、可互操作的AI奠定基礎(chǔ)。”
Google Cloud AI與計算基礎(chǔ)設(shè)施副總裁兼總經(jīng)理Mark Lohmeyer
“在企業(yè)大規(guī)模部署AI,并為用戶創(chuàng)造價值的過程中,高效的AI推理至關(guān)重要。在我們進入推理的新時代之際,Google Cloud很榮幸能夠作為llm-d項目的創(chuàng)始貢獻者,在我們開源貢獻傳統(tǒng)的基礎(chǔ)上再接再厲。這個新社區(qū)將成為大規(guī)模分布式AI推理的關(guān)鍵催化劑,幫助用戶增加基礎(chǔ)設(shè)施資源的可選擇性,實現(xiàn)更高的工作負載效率。”
Hugging Face產(chǎn)品主管Jeff Boudier
“我們相信,每家公司都應(yīng)該能夠建立和運行自己的模型。vLLM利用Hugging Face transformers庫作為模型定義的事實來源,提供了大大小小的各種模型,為文本、音頻、圖像和視頻AI應(yīng)用提供支持。有800萬AI建設(shè)者使用Hugging Face就全球社區(qū)中開放共享的超過200萬個AI模型和數(shù)據(jù)集開展合作。我們很高興能為llm-d項目提供支持,使開發(fā)者能夠?qū)⑦@些應(yīng)用推向更大規(guī)模?!?/p>
IBM Research混合云與AI平臺副總裁Priya Nagpurkar
“IBM認為,AI的下一階段聚焦于效率和規(guī)模。我們專注于通過企業(yè)能夠有效部署的AI解決方案為企業(yè)釋放價值。作為llm-d的創(chuàng)始貢獻者,IBM很榮幸能夠在構(gòu)建差異化的硬件無關(guān)分布式AI推理平臺中發(fā)揮關(guān)鍵作用。我們期待著繼續(xù)為這個社區(qū)的發(fā)展和成功做出貢獻,以改變AI推理的未來?!?/p>
英特爾數(shù)據(jù)中心與AI軟件解決方案及生態(tài)系統(tǒng)副總裁Bill Pearson
“l(fā)lm-d的推出將成為行業(yè)推動大規(guī)模AI轉(zhuǎn)型的關(guān)鍵拐點,英特爾很高興能作為創(chuàng)始支持者參與其中。英特爾參與llm-d是我們與紅帽數(shù)十年合作的最新里程碑,通過能夠在任意位置的企業(yè)所選平臺上部署的開源解決方案,為企業(yè)賦能。我們期待通過llm-d社區(qū)進一步擴展和構(gòu)建AI創(chuàng)新?!?/p>
Lambda ML平臺高級員工工程師Eve Callicoat
“推理是AI真正發(fā)揮實際價值的地方,而llm-d代表了一個重大進展。Lambda很榮幸能支持這樣一個項目,它使最先進的推理變得易于獲取、高效和開放?!?/p>
NVIDIA工程AI框架副總裁Ujval Kapasi
“l(fā)lm-d項目是對開源AI生態(tài)系統(tǒng)的重要補充,體現(xiàn)了NVIDIA對合作推動生成式AI創(chuàng)新的支持??蓴U展、高性能的推理是下一波生成式AI和代理式AI的關(guān)鍵。我們正在與紅帽和其他支持合作伙伴合作,促進llm-d社區(qū)的參與和行業(yè)采用,利用NIXL等NVIDIA Dynamo創(chuàng)新幫助加速llm-d的發(fā)展?!?/p>
加州大學伯克利分校教授兼Sky Computing Lab總監(jiān)Ion Stoica
“我們很高興看到紅帽在vLLM既有成功的基礎(chǔ)上繼續(xù)發(fā)展,vLLM起源于我們的實驗室,幫助解決運行大型AI模型所帶來的速度和內(nèi)存挑戰(zhàn)。像vLLM這樣的開源項目,以及現(xiàn)在以vLLM為基礎(chǔ)的llm-d,都處于AI創(chuàng)新的前沿,可以滿足最苛刻的AI推理要求,并推動整個行業(yè)的發(fā)展。”
芝加哥大學LMCache Lab CS教授Junchen Jiang
“分布式鍵值緩存優(yōu)化,如卸載、壓縮和混合,一直是我們實驗室的關(guān)注重點,我們很高興看到llm-d利用LMCache作為核心組件,縮短了到第一個token的時間,并提高了吞吐量,尤其是在長上下文推理中。”