• 正文
  • 相關推薦
申請入駐 產業(yè)圖譜

熱點技術名詞 -“全調度以太網(wǎng)GSE”

01/15 14:47
1515
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

今日和文檔君一起學習技術名詞:

全調度以太網(wǎng)技術(Global Scheduling Ethernet,GSE)——基于報文容器PKTC轉發(fā)和負載均衡,并實現(xiàn)全局調度。

Q:什么是全調度以太網(wǎng)GSE?

A:GSE(Global Scheduling Ethernet),即全調度以太網(wǎng)技術。GSE是由中國移動聯(lián)合產業(yè)合作伙伴共同提出的一種以太網(wǎng)技術架構,是在現(xiàn)有以太網(wǎng)的基礎上進行了優(yōu)化和創(chuàng)新,以滿足智算中心高性能網(wǎng)絡技術,旨在突破傳統(tǒng)以太網(wǎng)的技術瓶頸,打造無阻塞、高帶寬、低時延的新型智算中心網(wǎng)絡。

Q:為什么需要GSE?

A:AI訓練中,我們常用RDMA協(xié)議來高速傳輸數(shù)據(jù)。但RDMA對丟包非常敏感,哪怕只丟了一點點數(shù)據(jù)包,網(wǎng)絡的有效傳輸速度就會大幅下降。

AI大模型訓練需要多個計算設備一起工作,它們之間需要頻繁通信和同步,這對網(wǎng)絡的要求就特別高?,F(xiàn)在AI模型越來越大,智算中心的網(wǎng)絡性能就得更強才行,需要無阻塞、“0”丟包、低延遲。

傳統(tǒng)的以太網(wǎng)在大規(guī)模、高速度的數(shù)據(jù)傳輸時,容易出現(xiàn)網(wǎng)絡擁塞等問題。這就像是一條高速公路,車一多就容易堵。

智算中心的網(wǎng)絡中數(shù)據(jù)流雖然不多,但每個流的數(shù)據(jù)量都很大,傳統(tǒng)的負載均衡方式就容易出問題,導致數(shù)據(jù)包丟失,動態(tài)時延增大等問題,從而影響AI訓練的效率。

GSE技術就像是給去往某個目的地的多條高速公路裝上了智能導航系統(tǒng),它能主動控制車流選擇最優(yōu)路徑,避免堵車,更高效地轉發(fā)數(shù)據(jù)包。這樣一來,丟包就少了,網(wǎng)絡延遲也低了,整體傳輸速度就更高了,AI訓練效率也就提升了。

Q:GSE技術特點

A:1. 從“流”分發(fā)轉變?yōu)椤皥笪摹狈职l(fā)。傳統(tǒng)ECMP 負載均衡會導致鏈路負載不均以及哈希極化,可能引起擁塞和丟包。

GSE設備會將數(shù)據(jù)包進行邏輯分組,組裝成長度較長的“定長”容器,并基于報文容器轉發(fā)和動態(tài)負載均衡,實現(xiàn)單條流在多路徑上均勻地負載分擔,提升有效帶寬。

如果把報文當作貨物,報文容器就好像載貨能力一樣的貨車,每輛貨車拉著同樣重量的貨物(數(shù)量可以不一樣),大量貨車被均勻地調度到去往同個目的地的多條高速路上,可以最大程度利用道路資源。

2. 從被動擁塞控制到主動流控,引入“授權請求”和“全局調度機制”,通過構建基于全局動態(tài)調度隊列(DGSQ)的擁塞控制機制,本設備發(fā)送流量速率由最終的設備出口、途經(jīng)的設備統(tǒng)一進行全網(wǎng)端到端授權,確保了流量負載不超過網(wǎng)絡的承載能力,有效避免了網(wǎng)絡擁塞而丟包。

這就好像貨車在出發(fā)前先詢問了目的地的庫房是否具備接收能力,根據(jù)目的地的收貨能力以及沿途路況來決定發(fā)出多少貨物,確保貨物能準確送達并接收。

由于AI大模型訓練時任意一輪計算的結束均依賴最后一個結果的返回,降低網(wǎng)絡長尾時延可有效提升訓練完成時間。

交換網(wǎng)絡整體轉發(fā)時延和轉發(fā)路徑上中間節(jié)點的擁塞情況正相關,消除中間節(jié)點的擁塞就可消除長尾時延。GSE技術實現(xiàn)了精細化調度和和高負載均衡,可有效降低長尾時延,提升訓練效率。

GSE支持GSE-N2N和GSE-E2E兩大技術場景,GSE-N2N通過網(wǎng)絡設備實現(xiàn)全部GSE功能,支持計算與網(wǎng)絡設備的解耦;GSE-E2E將部分GSE能力延伸至服務器網(wǎng)卡,借助端網(wǎng)協(xié)同實現(xiàn)高性能集群互聯(lián)。

Q:GSE vs RoCEv2 vs InfiniBand

A:

GSE RoCEv2 InfiniBand
網(wǎng)絡設備 GSE交換機 以太交換機 IB交換機
性能 組網(wǎng)性能相較傳統(tǒng)RoCEv2可提升40%已上 經(jīng)過調優(yōu)可接近IB 優(yōu)
兼容性 優(yōu),基于以太網(wǎng)改造,有開放標準 優(yōu),增強以太網(wǎng) 封閉,不兼容以太網(wǎng)
產業(yè)生態(tài) 中國移動攜手國內智算生態(tài)企業(yè)共同發(fā)布產品及標準。 多種芯片方案,大量網(wǎng)絡設備廠家 Nvidia為主等少量海外廠商
易用性 無需復雜的網(wǎng)絡參數(shù)配置 需要調節(jié)各種網(wǎng)絡參數(shù),較復雜,自動化部署正在完善中 集中式管理機制,由子網(wǎng)管理器負責整個網(wǎng)絡轉發(fā)表的計算與分發(fā)等工作
成熟度 新技術,持續(xù)完善中 成熟,還在持續(xù)演進完善 成熟

注:RoCEv2(RDMA over Converged Ethernet,融合以太網(wǎng)承載RDMA)

Q:GSE有哪些應用場景?

AGSE主要面向無損、高帶寬、低時延等高性能網(wǎng)絡需求業(yè)務場景,如AI大模型訓練的智算中心網(wǎng)絡。

Q:GSE業(yè)界應用進展

A:在2023年9月的中國網(wǎng)絡大會上,中國移動研究院攜手合作伙伴發(fā)布業(yè)界首款“全調度以太網(wǎng)(GSE)”樣機。在2023年11月21日的開放數(shù)據(jù)中心委員會(ODCC)冬季全會會議上,正式成立全調度以太網(wǎng)(GSE)技術特設組并召開第一次工作組會議。在2024年9月27日的中國算力大會上,中國移動攜手國內智算生態(tài)企業(yè)共同發(fā)布了全調度以太網(wǎng)(GSE)全套技術標準及首套商用產品。2024.11,中國移動聯(lián)合云豹智能共同研發(fā)首顆GSE DPU芯片--“智算琢光”。2024.12,中國移動聯(lián)合中興共同研發(fā)首顆可完整支持GSE功能的大容量高性能交換芯片

相關推薦