• 正文
    • 面向大模型的存儲(chǔ)應(yīng)該長啥樣?
    • 存儲(chǔ):大模型生態(tài)的重要一環(huán)
    • 那么該如何解決這些問題?
    • 中國不重視存力,AI會(huì)被制約
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

華為天才少年透露研究課題!背后存儲(chǔ)團(tuán)隊(duì)發(fā)布兩大新品,均面向大模型

2023/07/22
1577
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

招最優(yōu)秀的人才,打最硬的仗,出手即打破傳統(tǒng)。

這就是華為最新揭秘的大模型領(lǐng)域最新動(dòng)作,劍指AI存儲(chǔ),一口氣發(fā)布兩產(chǎn)品:OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)與FusionCube A3000訓(xùn)/推超融合一體機(jī),性能密度刷新業(yè)界紀(jì)錄。

它們由華為數(shù)據(jù)存儲(chǔ)團(tuán)隊(duì)推出,華為“天才少年”張霽正是其中一員。

2020年,博士畢業(yè)于華中科技大學(xué)的張霽,以“天才少年”身份入職華為、加入數(shù)據(jù)存儲(chǔ)產(chǎn)品線。如今是華為蘇黎世研究所數(shù)據(jù)存儲(chǔ)首席科學(xué)家。

在發(fā)布會(huì)上,他還進(jìn)一步揭開華為天才少年的神秘面紗,透露了自己正在推進(jìn)的工作:

圍繞以數(shù)據(jù)為中心的未來存儲(chǔ)架構(gòu)關(guān)鍵技術(shù),包括向量存儲(chǔ)、數(shù)據(jù)方艙、近存計(jì)算、新應(yīng)用場景下的數(shù)據(jù)存儲(chǔ)新格式、硬件加速等

顯然,不只是大模型本身,在大模型相關(guān)的數(shù)據(jù)、存儲(chǔ)等領(lǐng)域,華為也早已開始積極布局,啟用最頂尖人才。

而面對(duì)大模型時(shí)代的數(shù)據(jù)存儲(chǔ)問題,華為作為存儲(chǔ)市場頭部廠商,究竟如何看待?

從最新發(fā)布的兩款產(chǎn)品中,就能窺見答案。

面向大模型的存儲(chǔ)應(yīng)該長啥樣?

此次發(fā)布的新品有兩款,分別是:

OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)

FusionCube A3000訓(xùn)/推超融合一體機(jī)

雖然都是面向AI大模型,但是兩款新品對(duì)應(yīng)的具體場景有所不同。

首先來看OceanStor A310,它面向基礎(chǔ)/行業(yè)大模型數(shù)據(jù)湖場景,可以貫穿AI全流程,同時(shí)也具備面向HPC(高性能計(jì)算)、大數(shù)據(jù)的同源數(shù)據(jù)分析能力。

它不光性能強(qiáng)大,而且支持混合負(fù)載、多協(xié)議無損融合互通、近存計(jì)算等,可極大程度上提升效率。

具體性能方面,OceanStor A310支持單框5U 96閃存盤,帶寬可達(dá)400GB/s。通俗理解,就是每秒鐘能傳200多部高清電影。

IOPS(每秒進(jìn)行讀寫操作的次數(shù))能達(dá)到1200萬。

由此OceanStor A310的性能密度也達(dá)到了目前全球最高:

每U帶寬性能達(dá)到80GB/s及每U的IOPS達(dá)到240萬,均達(dá)到業(yè)界標(biāo)桿1.6倍;

每U容量密度為19盤位,達(dá)到業(yè)界標(biāo)桿1.5倍。

而且OceanStor A310具備超強(qiáng)水平擴(kuò)展能力,最大支持4096節(jié)點(diǎn)擴(kuò)展

可以實(shí)現(xiàn)對(duì)AI全流程海量數(shù)據(jù)管理(從數(shù)據(jù)歸集、預(yù)處理到模型訓(xùn)練、推理應(yīng)用);實(shí)現(xiàn)數(shù)據(jù)0拷貝,全流程效率提升60%。

除此之外,OceanStor A310還通過存儲(chǔ)內(nèi)置算力,減少無效數(shù)據(jù)傳輸。實(shí)現(xiàn)數(shù)據(jù)編織,也就是通過全局文件系統(tǒng)GFS來支持AI大模型分散在各處的原始數(shù)據(jù),實(shí)現(xiàn)跨系統(tǒng)、跨地域、跨多云的全局統(tǒng)一數(shù)據(jù)調(diào)度,簡化數(shù)據(jù)歸集流程。

基于近存計(jì)算,OceanStor A310還能通過內(nèi)嵌算力實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,避免數(shù)據(jù)在傳統(tǒng)的系統(tǒng)當(dāng)中存儲(chǔ)、服務(wù)器、GPU之間的無效搬移,降低服務(wù)器等待時(shí)間,預(yù)處理效率提升至少30%

另外,OceanStor A310能直接使用到當(dāng)下的HPC中,如果之后企業(yè)需要將系統(tǒng)升級(jí)到面向大模型時(shí),就不再需要數(shù)據(jù)搬遷。

再來看FusionCube A3000訓(xùn)/推超融合一體機(jī)

相對(duì)而言,它面向的場景是行業(yè)大模型訓(xùn)練、推理一體化,主打降低企業(yè)使用AI大模型的門檻。

它主要針對(duì)百億級(jí)模型的應(yīng)用,當(dāng)然也可以水平擴(kuò)展后支持更大規(guī)模模型。

內(nèi)置的存儲(chǔ)節(jié)點(diǎn)是華為的OceanStor A300高性能存儲(chǔ)節(jié)點(diǎn)。它雙控支持180萬IOPS、50GB/s帶寬。

結(jié)合訓(xùn)/推節(jié)點(diǎn)、交換設(shè)備、AI平臺(tái)軟件與管理運(yùn)維軟件一起,F(xiàn)usionCube A3000可以實(shí)現(xiàn)一站式交付、開箱即用。2個(gè)小時(shí)內(nèi)可完成部署、5秒故障檢測(cè)、5分鐘故障恢復(fù)。

在實(shí)現(xiàn)邊緣部署多場景的訓(xùn)練/推理應(yīng)用業(yè)務(wù)的同時(shí),它也能定期對(duì)模型進(jìn)行調(diào)優(yōu)。

通過高性能容器實(shí)現(xiàn)多個(gè)模型訓(xùn)練推理任務(wù)共享GPU,F(xiàn)usionCube A3000將資源利用率從40%提升至70%以上,能夠很好支持多應(yīng)用融合調(diào)度和管理、不同大小模型融合調(diào)度。

商業(yè)模式方面,F(xiàn)usionCube A3000有兩種選擇。

其一是基于華為自研的OceanStor A300高性能存儲(chǔ)節(jié)點(diǎn)、網(wǎng)絡(luò)、昇騰計(jì)算與管理運(yùn)維軟件,即華為昇騰一站式方案;另外也支持第三方一站式方案,可以集成第三方的GPU服務(wù)器、網(wǎng)絡(luò)節(jié)點(diǎn)以及AI的平臺(tái)軟件。

以上就是華為最新面向AI存儲(chǔ)發(fā)布的新品。

此外在模型層,他們還聯(lián)合了訊飛星火ChatGLM、紫東·太初等大模型伙伴共建生態(tài)。

但華為的雄心不止于此,在發(fā)布會(huì)現(xiàn)場,華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰特意和華為天才少年張霽,聊了聊華為存儲(chǔ)未來的事。

據(jù)張霽介紹,為了應(yīng)對(duì)當(dāng)下大模型提出的數(shù)據(jù)歸集新挑戰(zhàn),他及所在團(tuán)隊(duì)正在研究一種名為“數(shù)據(jù)方艙”的技術(shù)。

這種技術(shù)實(shí)現(xiàn)了讓數(shù)據(jù)和它的相關(guān)憑證、隱私、權(quán)限等信息一起流轉(zhuǎn),當(dāng)數(shù)據(jù)達(dá)到數(shù)據(jù)歸集地后,進(jìn)入方艙執(zhí)行和保護(hù),從而保證數(shù)據(jù)的安全。

周躍峰博士透露,這一技術(shù)目前正在和中信銀行、云上貴州等客戶做聯(lián)合的技術(shù)創(chuàng)新和實(shí)踐。

此外,為了應(yīng)對(duì)AI大模型快速接入數(shù)據(jù)的需求,張霽等也在基于“萬物皆可向量”的理念,研究向量存儲(chǔ)技術(shù)。

他表示目前這種技術(shù)還處于早期萌芽階段,但是發(fā)展迅速,華為已做了非常前沿的布局。比如他們聯(lián)合華為海思硬件團(tuán)隊(duì)一起,在近存計(jì)算方面做了很多攻關(guān),利用軟硬協(xié)同的方式加速向量檢索。同時(shí)華為也在和蘇黎世聯(lián)邦理工大學(xué)等頂尖高校合作。

目前,張霽與其團(tuán)隊(duì)正在瑞士蘇黎世研究所與蘇黎世聯(lián)邦理工大學(xué)Onur Mutlu教授等頂尖科學(xué)家們開展研究與合作。

Onur Mutlu教授曾帶領(lǐng)團(tuán)隊(duì)榮獲2022年奧林帕斯獎(jiǎng),這一獎(jiǎng)項(xiàng)頒給全球在數(shù)據(jù)存儲(chǔ)領(lǐng)域取得突破性貢獻(xiàn)的科研工作者。

正如張霽所說,他們的目標(biāo)是希望在以數(shù)據(jù)為中心的體系結(jié)構(gòu)變革背景下,利用算法和架構(gòu)協(xié)同的方式,釋放數(shù)據(jù)的真正價(jià)值,卸載部分GPU、CPU的算力,節(jié)省無效數(shù)據(jù)搬移產(chǎn)生的能耗,從而最終推動(dòng)數(shù)據(jù)新范式的快速發(fā)展。

所以,為什么是以數(shù)據(jù)為中心?華為存儲(chǔ)看到了哪些行業(yè)趨勢(shì)?以及在大模型趨勢(shì)下,華為為何如此重視存儲(chǔ)問題?

存儲(chǔ):大模型生態(tài)的重要一環(huán)

在大模型時(shí)代下,有這樣一句話廣為流傳:數(shù)據(jù)以及數(shù)據(jù)質(zhì)量的高度,決定著人工智能智力的高度。

的確,大模型所謂的“大”,核心體現(xiàn)就在數(shù)據(jù)方面

當(dāng)下企業(yè)開發(fā)及實(shí)施大模型面對(duì)的幾大挑戰(zhàn)也都與數(shù)據(jù)有關(guān):

  • 數(shù)據(jù)準(zhǔn)備時(shí)間長
  • 訓(xùn)練集加載效率低
  • 訓(xùn)練易中斷
  • 企業(yè)實(shí)施門檻高

首先在數(shù)據(jù)準(zhǔn)備階段,往往需要從跨地域的多個(gè)數(shù)據(jù)源拷貝PB級(jí)原始數(shù)據(jù)。原始數(shù)據(jù)經(jīng)常是多種格式、協(xié)議,導(dǎo)致這一流程一般十分復(fù)雜。

接著,爬取好的數(shù)據(jù)在訓(xùn)練前需要進(jìn)行清洗、去重、過濾、加工。

相較于傳統(tǒng)單模態(tài)小模型,多模態(tài)大模型所需的訓(xùn)練數(shù)據(jù)量是其1000倍以上。一個(gè)百TB級(jí)大模型數(shù)據(jù)集,預(yù)處理時(shí)間將超過10天。

其次在訓(xùn)練階段,大模型訓(xùn)練參數(shù)、訓(xùn)練數(shù)據(jù)集呈指數(shù)級(jí)增加,其中包含海量小文件。而當(dāng)前小文件加載速度不足100MB/s,效率不高。

另外大模型頻繁的參數(shù)調(diào)優(yōu)、網(wǎng)絡(luò)不穩(wěn)定、服務(wù)器故障等多種因素,導(dǎo)致訓(xùn)練過程平均約2天就會(huì)出現(xiàn)一次中斷,需要Checkpoints機(jī)制來確保訓(xùn)練退回到某一點(diǎn),而不是初始點(diǎn)。

但這種恢復(fù)往往也需要1天以上時(shí)間,直接導(dǎo)致大模型訓(xùn)練周期拉長。而面對(duì)單次10TB的數(shù)據(jù)量和未來小時(shí)級(jí)的頻度要求,減少Checkpoints恢復(fù)時(shí)間也是一個(gè)需要解決的問題。

最后一方面挑戰(zhàn)來自大模型應(yīng)用。

在應(yīng)用門檻上,系統(tǒng)搭建難、資源調(diào)度等對(duì)于很多企業(yè)來說還是太難了,企業(yè)傳統(tǒng)的IT系統(tǒng)GPU資源利用率通常不到40%。

更何況目前趨勢(shì)還要求企業(yè)盡可能快速更新大模型知識(shí)數(shù)據(jù),快速完成推理。

那么該如何解決這些問題?

華為已經(jīng)給出了一種答案,從存儲(chǔ)入手。

華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰博士表示,數(shù)據(jù)中心三大件“計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)”,密不可分、可以互補(bǔ)。

華為分布式存儲(chǔ)領(lǐng)域副總裁韓振興更是給出了明確觀點(diǎn):加強(qiáng)存力建設(shè)可以加速AI訓(xùn)練。

得出這樣的結(jié)論,華為表示主要看到了技術(shù)、行業(yè)等多方面趨勢(shì)。

首先在技術(shù)方面,大模型時(shí)代下,馮·諾依曼架構(gòu)難以滿足當(dāng)下需求。

它要求數(shù)據(jù)在計(jì)算、訓(xùn)練或推理過程中發(fā)生非常多搬移動(dòng)作。在數(shù)據(jù)量非常龐大的情況下,這樣操作不合適。

周躍峰博士表示,比爾·蓋茨在很久以前說給一臺(tái)電腦128k的內(nèi)存,它能做所有事。

但是當(dāng)下情況顯然不是如此,數(shù)據(jù)量還在不斷增加,存儲(chǔ)與計(jì)算的增配需求差異隨之?dāng)U大,這時(shí)存儲(chǔ)資源和計(jì)算資源就需要拆分成獨(dú)立模塊建設(shè),以實(shí)現(xiàn)靈活擴(kuò)展并提高資源利用率,因此計(jì)算架構(gòu)需要發(fā)生改變。

這也就是近年比較火熱的“存算分離”概念,在存和算之間做出更好的劃分,這樣才能實(shí)現(xiàn)更高效的計(jì)算、匹配海量數(shù)據(jù)下的大架構(gòu)創(chuàng)新。

大模型時(shí)代下數(shù)據(jù)量空前增加,如果構(gòu)建充足的存力讓數(shù)據(jù)能快速在各個(gè)環(huán)節(jié)流轉(zhuǎn),可以充分利用算力、提高訓(xùn)練效率。比如華為在AI存儲(chǔ)新品中強(qiáng)調(diào)的近存計(jì)算,正是這樣來互補(bǔ)算力。

再來看行業(yè)方面。

海量數(shù)據(jù)預(yù)處理是當(dāng)下面臨的一大挑戰(zhàn)。

周躍峰觀察到,有人提出用訓(xùn)練的GPU資源去處理這部分任務(wù),“但這樣會(huì)給GPU提出更高要求,更何況目前還面臨供應(yīng)問題?!?/p>

目前國內(nèi)的存算基礎(chǔ)設(shè)施建設(shè)中,算力中心建設(shè)相對(duì)完善,但在存力建設(shè)方面仍然短缺。這就導(dǎo)致在數(shù)據(jù)預(yù)處理等階段中,為了等待數(shù)據(jù)處理,算力閑置的情況,造成資源浪費(fèi)。

所以當(dāng)下需要去重視存力,以在行業(yè)內(nèi)形成一個(gè)最佳的存算比。

此外,華為還觀察到對(duì)于一些中小企業(yè)、科研院所、大學(xué)對(duì)訓(xùn)練AI大模型有著很大的需求,他們對(duì)存力設(shè)施搭建,還提出了更加簡易、靈活的要求。

由此也就不難理解,為什么華為在大模型趨勢(shì)下會(huì)錨定存儲(chǔ)方向發(fā)力,而且率先推出OceanStor A310和FusionCube A3000。

而且對(duì)于AI大模型的存力需求,華為看到的時(shí)間也更加早。

據(jù)透露,兩款產(chǎn)品的籌備研發(fā)都是在2、3年前就已經(jīng)啟動(dòng)的,當(dāng)時(shí)千億級(jí)參數(shù)大模型才剛剛問世不久。

并且除了推出自家新存儲(chǔ)產(chǎn)品外,華為格外強(qiáng)調(diào)了生態(tài)建設(shè)。

正所謂:獨(dú)行快,眾行遠(yuǎn)。

華為表示,在提供AI存儲(chǔ)的過程中,堅(jiān)持硬件及軟件生態(tài)的開放。

硬件方面,華為未來會(huì)全面支持業(yè)界主流CPU/GPU廠商設(shè)備,做好性能適配與調(diào)優(yōu),并提供不同形態(tài)硬件的統(tǒng)一管理能力,兼容用戶現(xiàn)有硬件生態(tài)。

軟件方面,廣泛與業(yè)界優(yōu)秀軟件伙伴合作,提前完成方案適配調(diào)優(yōu);模型層支持業(yè)界主流的通用大模型軟件,同時(shí)支持面向具體應(yīng)用場景的垂直行業(yè)模型入駐;平臺(tái)服務(wù)層支持主流AI開放平臺(tái)軟件和AI服務(wù)鏈軟件,包括昇思MindSpore、PyTorch等;IAAS層開放支持第三方容器軟件和開源K8S。

一言以蔽之,當(dāng)下的最新動(dòng)作,是華為存儲(chǔ)在大模型時(shí)代下掀開的第一頁。

所以,如今已經(jīng)站在起跑線上的華為,究竟如何看待大模型時(shí)代下的存儲(chǔ)?

中國不重視存力,AI會(huì)被制約

大模型趨勢(shì)演進(jìn)到當(dāng)下,“百模大戰(zhàn)”、算力焦慮先后成為業(yè)內(nèi)的熱議話題。

還有一大基石,則是數(shù)據(jù),如今也已被逐漸推至臺(tái)前。

周躍峰博士分享到,對(duì)于ChatGPT來說,英文數(shù)據(jù)訓(xùn)練的效率要比中文高。

原因不在于中文不適合科學(xué)語言表達(dá),而是數(shù)字化時(shí)代下,被記錄下來的中文資料遠(yuǎn)遠(yuǎn)少于英文資料。

所以周躍峰提出:如果中國不重視存力,將會(huì)對(duì)未來我們挖掘人工智能潛力、發(fā)展人工智能產(chǎn)業(yè),造成巨大制約。

如果更進(jìn)一步解釋的話,他認(rèn)為機(jī)器和人一樣,它需要有腦力,即算力;還要知道方法論,即算法。

回顧人類從猿猴發(fā)展到智慧人類的過程中,文字的產(chǎn)生讓人類文明飛速發(fā)展。

如果對(duì)應(yīng)來看,機(jī)器的數(shù)據(jù)可以堪比人類發(fā)展史中的文字。

因?yàn)橛辛宋淖趾?,信息得以被記錄、交流和傳承,人類開始可以自我學(xué)習(xí)和進(jìn)化。機(jī)器也是一樣的,如果世界沒有被數(shù)據(jù)記錄下來、讓機(jī)器去讀,它也只是一個(gè)冰冷的機(jī)器而已。

總之,大模型趨勢(shì)下,關(guān)于數(shù)據(jù)、計(jì)算、存儲(chǔ)都正在經(jīng)歷一輪新變革。

高性能計(jì)算的“木桶效應(yīng)”,使得用上了先進(jìn)的芯片,并不代表具備先進(jìn)算力,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)三個(gè)環(huán)節(jié)缺一不可。

由此也就不難理解,華為為什么要在進(jìn)軍大模型領(lǐng)域后,率先在存儲(chǔ)領(lǐng)域布局。

只有從基礎(chǔ)入手,才能走得更穩(wěn),走得更遠(yuǎn)。

 

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
AT89C51ED2-RDTUM 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64VQFP

ECAD模型

下載ECAD模型
$18.07 查看
ATXMEGA256A3U-MHR 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN
$13.36 查看
ATXMEGA128A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$4.91 查看
華為

華為

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個(gè)國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動(dòng)健康等全場景獲得極致的個(gè)性化智慧體驗(yàn)。

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個(gè)國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動(dòng)健康等全場景獲得極致的個(gè)性化智慧體驗(yàn)。收起

查看更多

相關(guān)推薦