• 正文
    • 生成式AI驅(qū)動(dòng),云基礎(chǔ)設(shè)施進(jìn)入新周期
    • 模型越來(lái)越大,呼喚更大規(guī)模計(jì)算集群
    • 智算資源短缺,“一云多芯”成為主流選擇
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

騰訊云副總裁:騰訊云智算已服務(wù)國(guó)內(nèi)90%大模型廠商

2024/09/06
1397
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

9月5日,騰訊2024全球數(shù)字生態(tài)大會(huì)召開(kāi)。大會(huì)期間,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”,整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲(chǔ)等優(yōu)勢(shì)單項(xiàng)產(chǎn)品能力,為用戶(hù)提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開(kāi)波表示,騰訊云智算目前已經(jīng)服務(wù)了國(guó)內(nèi)90%的大模型廠商,也幫助一大批IDC(數(shù)據(jù)中心)廠商向AIDC(智算中心)廠商轉(zhuǎn)型。

生成式AI驅(qū)動(dòng),云基礎(chǔ)設(shè)施進(jìn)入新周期

ChatGPT點(diǎn)燃市場(chǎng)熱情、各大廠商和資本競(jìng)相入場(chǎng)以來(lái),僅僅一年多的時(shí)間,生成式AI便已從技術(shù)走向?qū)嵺`,逐漸融入各行各業(yè),成為數(shù)字化轉(zhuǎn)型的重要驅(qū)動(dòng)力。Gartner對(duì)于未來(lái)生成式AI的預(yù)測(cè)是,到2026年,超過(guò)80%的企業(yè)都會(huì)接入生成式AI或大模型,然而這一比例在2023年初還不到5%。

“盡管目前生成式AI仍處于一個(gè)相對(duì)早期的發(fā)展階段,商業(yè)化落地還需進(jìn)一步探索,但從長(zhǎng)期來(lái)看,生成式AI一定會(huì)出現(xiàn)一個(gè)大爆發(fā)的‘奇點(diǎn)’?!鄙抽_(kāi)波指出。他認(rèn)為,生成式AI的快速興起驅(qū)動(dòng)云基礎(chǔ)設(shè)施建設(shè)進(jìn)入一輪全新的周期。

眾所周知,生成式AI背后需要依靠強(qiáng)大的AI模型和海量數(shù)據(jù),其所需要的云服務(wù)算力成本十分龐大。以ChatGPT為例,用戶(hù)每次與ChatGPT互動(dòng),產(chǎn)生的算力云服務(wù)成本約0.01美元,如果使用總投資30.2億元、算力500P的數(shù)據(jù)中心來(lái)支撐ChatGPT的運(yùn)行,至少需要7-8個(gè)這樣的數(shù)據(jù)中心,基礎(chǔ)設(shè)施的投入都是以百億計(jì)的。AI大模型無(wú)疑為整個(gè)云基礎(chǔ)設(shè)施建設(shè)帶來(lái)了巨大的市場(chǎng)空間。

“我們的很多業(yè)務(wù)增量都來(lái)自于智能計(jì)算這一塊。除了GPU之外,圍繞GPU一些存儲(chǔ)、網(wǎng)絡(luò),也是一塊很大的增量?!鄙抽_(kāi)波坦言。對(duì)于大模型訓(xùn)練場(chǎng)景來(lái)說(shuō),算、存、網(wǎng)是一體的。大模型廠商在模型訓(xùn)練和推理場(chǎng)景中,對(duì)云基礎(chǔ)設(shè)施的高性能、高穩(wěn)定性、可運(yùn)維、應(yīng)用性等方面的要求更高,這就要求服務(wù)商不斷打磨自身產(chǎn)品能力,從計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等方面,包括一些軟件框架層面的優(yōu)化,以更好的去滿(mǎn)足這些AI客戶(hù),尤其是大模型廠商的業(yè)務(wù)需求??梢灶A(yù)見(jiàn),生成式AI或?qū)⑼苿?dòng)云基礎(chǔ)設(shè)施的整體升級(jí)。

模型越來(lái)越大,呼喚更大規(guī)模計(jì)算集群

伴隨生成式AI的興起,業(yè)內(nèi)出現(xiàn)一個(gè)趨勢(shì):模型參數(shù)規(guī)模越來(lái)越大,從百萬(wàn)級(jí)逐步進(jìn)入千萬(wàn)級(jí),甚至是萬(wàn)億級(jí)。而參數(shù)越大,訓(xùn)練所用的計(jì)算資源就越多,這些大模型的訓(xùn)練動(dòng)輒需要使用成千上萬(wàn)張GPU卡去做算力支撐,引發(fā)模型廠商的算力焦慮。沙開(kāi)波指出,智能算力存在比較典型的“木桶短板”效應(yīng),算力的提升不能光靠“堆卡”,而是要讓計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及上層的框架等各個(gè)環(huán)節(jié)全面協(xié)調(diào)配合,才能打造出一個(gè)高性能、高帶寬、低延遲的計(jì)算集群。

以網(wǎng)絡(luò)能力為例,千億、萬(wàn)億參數(shù)規(guī)模的大模型,訓(xùn)練過(guò)程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無(wú)法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。為解決網(wǎng)絡(luò)性能問(wèn)題,各個(gè)廠商推出了一系列相關(guān)產(chǎn)品和解決方案。

其中,騰訊云星脈網(wǎng)絡(luò)具備3.2T通信帶寬,可支持10萬(wàn)卡的超大計(jì)算規(guī)模。據(jù)悉,其能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來(lái)10倍通信性能提升。數(shù)據(jù)顯示,在穩(wěn)定性和性能上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3;1分鐘就能完成萬(wàn)卡checkpoint寫(xiě)入,數(shù)據(jù)讀寫(xiě)效率是業(yè)界10倍;千卡集群的通信時(shí)間縮短到6%,是業(yè)界一半。

同時(shí),通過(guò)整合軟硬件技術(shù)能力,騰訊云智算集群從機(jī)器上架到開(kāi)始訓(xùn)練可以做到只需1天,相比業(yè)界以月為單位也大為縮短?!拔覀?cè)谧龅氖窃谝?guī)模比較大的計(jì)算集群里面,把卡的利用率盡可能做到極致,減少閑置算力就是減少用戶(hù)成本?!鄙抽_(kāi)波表示。據(jù)他透露,某模型廠商通過(guò)使用騰訊云智算大模型訓(xùn)練集群解決方案將千卡一年的模型訓(xùn)練成本降低了2000萬(wàn)。

智算資源短缺,“一云多芯”成為主流選擇

當(dāng)前,智算中心被視為如同水和電一般的“新基建”,在全國(guó)各地落地開(kāi)花。據(jù)賽迪顧問(wèn)統(tǒng)計(jì),截至2024年上半年,國(guó)內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過(guò)250個(gè)。智算中心招投標(biāo)相關(guān)事件791起,同比增長(zhǎng)高達(dá)407.1%。最新統(tǒng)計(jì)顯示,截至5月底,全國(guó)規(guī)劃具有高性能計(jì)算機(jī)集群的智算中心已達(dá)十余個(gè)。

從算力規(guī)模來(lái)看,我國(guó)智能算力在算力總規(guī)模中的比重超過(guò)了30%。盡管智算中心建設(shè)如火如荼,但智算資源的供需矛盾依然存在?!爸撬阒行慕ㄔO(shè)方通常手里有卡,也有硬件資源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有應(yīng)用。

有了卡和硬件,不代表大模型的訓(xùn)練、推理或者AI的應(yīng)用就可以直接‘跑’出來(lái)了,還需要配套的軟件能力,要能夠把所有資源高效管理和調(diào)度起來(lái),還得找到最終應(yīng)用場(chǎng)景或者終端客戶(hù)。”沙開(kāi)波分析稱(chēng)。為彌合智算資源“供”與“需”之間的溝壑,“一云多芯”成為一個(gè)主流選擇。

過(guò)去,智算集群中的多個(gè)模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓(xùn)練效率問(wèn)題,都使得算力焦慮在在硬件差異之下被無(wú)限放大。

云平臺(tái)可以將服務(wù)器芯片等硬件封裝成標(biāo)準(zhǔn)算力,無(wú)論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構(gòu)間并存、不同GPU或DPU服務(wù)器并存,抑或是計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)不同芯片架構(gòu)并存,都能給客戶(hù)提供體驗(yàn)一致的云計(jì)算服務(wù)。比如,騰訊云智算平臺(tái)便采用了“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險(xiǎn),同時(shí)滿(mǎn)足不同業(yè)務(wù)對(duì)于不同算力的需求。

“生成式AI的興起給整個(gè)云基礎(chǔ)設(shè)施建設(shè)提出了更高的要求,我們希望能夠整合高性能計(jì)算、高性能存儲(chǔ)、高性能網(wǎng)絡(luò)等各方面的能力,為企業(yè)用戶(hù)提供集‘算、存、網(wǎng)、數(shù)’于一體的技術(shù)底座,幫助大家加速釋放AI生產(chǎn)力?!鄙抽_(kāi)波說(shuō)道。

作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F103VET6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 512 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$13.06 查看
STM32H750VBT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

ECAD模型

下載ECAD模型
$27.62 查看
ATXMEGA32A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$3.78 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過(guò)技術(shù)豐富互聯(lián)網(wǎng)用戶(hù)的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶(hù)為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過(guò)技術(shù)豐富互聯(lián)網(wǎng)用戶(hù)的生活,助力企業(yè)數(shù)字化升級(jí)。我們的使命是“用戶(hù)為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦