欧亚综合一区二区三区四区,老司机黄色网站

作者：鵬程

在人工智能與高性能計算領(lǐng)域，英偉達憑借多項核心技術(shù)占據(jù)行業(yè)領(lǐng)先地位。其中，除廣為人知的?AI?硬件、CUDA?生態(tài)外，NVLink?內(nèi)存共享端口技術(shù)同樣是其重要的核心競爭力，堪稱構(gòu)筑起英偉達市場優(yōu)勢的關(guān)鍵護城河之一。然而，隨著技術(shù)的發(fā)展與行業(yè)競爭的加劇，NVLink?正面臨諸多挑戰(zhàn)，其作為護城河的穩(wěn)固性引發(fā)廣泛關(guān)注。

?01NVLink如何構(gòu)建英偉達AI護城河？

早在?2014?年，英偉達便首次向外界公布了?NVLink?協(xié)議，這一創(chuàng)新技術(shù)的誕生，為多?GPU?協(xié)同工作開啟了新的篇章。2016?年，NVLink 1.0?在?DGX - 1?系統(tǒng)中首次得到實際應用，成功連接?8?個?P100 GPU。彼時，傳統(tǒng)的?PCIe（Peripheral Component Interconnect Express）互聯(lián)技術(shù)受限于帶寬和延遲，已難以滿足高性能計算（HPC）應用日益增長的需求。NVLink 1.0?以?80GB/s?的帶寬橫空出世，有效緩解了數(shù)據(jù)傳輸瓶頸，極大地提升了多?GPU?系統(tǒng)的協(xié)同效率，開創(chuàng)了高性能計算領(lǐng)域多?GPU?協(xié)同工作的新局面。

此后，NVLink?歷經(jīng)多次重要的技術(shù)迭代，持續(xù)突破性能極限。2017?年，NVLink 2.0?版本推出，引入了?NVSwitch?這一關(guān)鍵組件，進一步拓展了連接規(guī)模。借助?NVSwitch，多?GPU?和?CPU?節(jié)點能夠在更大范圍內(nèi)構(gòu)建起復雜的互聯(lián)網(wǎng)絡，每個鏈接的帶寬提升至?25GB/s，雙向總帶寬達到?50GB/s。以?V100 GPU?為例，其最高可支持?6?個鏈接，實現(xiàn)了?300GB/s?的雙向總帶寬，為大規(guī)模計算任務提供了更強大的支持。

2020?年發(fā)布的?NVLink 3.0?在技術(shù)上再次取得重大突破，將每個差分對的數(shù)據(jù)傳輸速率從?25Gbit/s?提升至?50Gbit/s，同時對差分對數(shù)量進行優(yōu)化，從?8?個減少到?4?個。以基于?Ampere?架構(gòu)的?A100 GPU?為例，其?12?個鏈接帶來了高達?600GB/s?的總帶寬，數(shù)據(jù)傳輸效率得到顯著提升。

到了?2022?年，NVLink 4.0?在信號技術(shù)方面實現(xiàn)重要革新，從?NRZ?進化到?PAM4。基于?Hopper?架構(gòu)的?GPU?憑借?18?個?NVLink 4.0?鏈接，實現(xiàn)了?900GB/s?的總帶寬，進一步鞏固了英偉達在高速互聯(lián)領(lǐng)域的技術(shù)優(yōu)勢。而在?COMPUTEX 2025?上，英偉達推出的第五代?NVLink?更是將帶寬提升至驚人的?1.2TB/s，不斷刷新高性能計算領(lǐng)域的性能上限。

同時，隨著技術(shù)的演進，NVLink的應用場景也不斷拓展。在人工智能與深度學習領(lǐng)域，大語言模型等AI模型訓練需要處理海量參數(shù)和數(shù)據(jù)，單GPU的內(nèi)存和計算能力遠遠不足，NVLink允許多GPU共享統(tǒng)一內(nèi)存池，加速模型訓練。

隨著技術(shù)的不斷演進，NVLink?的應用場景也在持續(xù)拓展。在人工智能與深度學習領(lǐng)域，大語言模型等?AI?模型訓練面臨著海量參數(shù)和數(shù)據(jù)處理的巨大挑戰(zhàn)，單?GPU?的內(nèi)存和計算能力遠遠無法滿足需求。NVLink?技術(shù)允許眾多?GPU?共享統(tǒng)一內(nèi)存池，通過高效的數(shù)據(jù)傳輸和協(xié)同計算，大幅加速模型訓練進程。實測數(shù)據(jù)顯示，采用?NVLink?互聯(lián)的千卡集群，參數(shù)同步效率提升?2?倍以上，整體算力利用率從?60%?躍升至?90%?量級。正是憑借?NVLink?技術(shù)構(gòu)筑起的強大技術(shù)壁壘，英偉達得以在全球?AI?訓練市場占據(jù)霸主地位，壟斷全球高端?GPU?市場，成為高性能計算領(lǐng)域的領(lǐng)軍企業(yè)。

?02NVLink 的競爭對手越來越多了

當前，英偉達?GPU?憑借高效率的運算能力，廣泛應用于全球各高算力領(lǐng)域，使得?NVLink?在事實上成為行業(yè)互聯(lián)標準。然而，這一局面也引發(fā)了其他科技巨頭的競爭。為了在高性能計算和?AI?領(lǐng)域與英偉達一爭高下，AMD、英特爾紛紛推出?CXL、UCIe?等互聯(lián)方案。這些競爭對手面臨著艱難的抉擇：若不加速與市場需求和現(xiàn)有生態(tài)的兼容適配，其產(chǎn)品很可能在激烈的競爭中被邊緣化；反之，在技術(shù)研發(fā)和市場推廣上則需投入巨大成本。

此外，行業(yè)內(nèi)的競爭態(tài)勢愈發(fā)激烈。UALink?聯(lián)盟近期正式發(fā)布?1.0?標準，為市場帶來新的技術(shù)選擇。國內(nèi)首家對標英偉達?“NVLink&NVSwitch”?的互聯(lián)通信方案提供商?——?北京探微芯聯(lián)科技有限公司，也宣布完成數(shù)千萬人民幣天使輪融資。探微芯聯(lián)源自清華大學類腦計算研究中心，專注于?GPU?與?GPU?間通信協(xié)議和交換芯片的研發(fā)，其自研的?ACCLink?&?ACCSwitch?技術(shù)，在性能和功能上可與英偉達的?NVLink?&?NVSwitch?技術(shù)相媲美，為國產(chǎn)高性能計算互聯(lián)技術(shù)的發(fā)展注入新的活力，也給英偉達的?NVLink?技術(shù)帶來了新的競爭壓力。

?03英偉達開放NVLink

在?2025?年臺北國際電腦展上，英偉達首席執(zhí)行官黃仁勛宣布開放?NVLink Fusion?技術(shù)授權(quán)，允許聯(lián)發(fā)科、美滿電子、富士通、高通等?12?家第三方企業(yè)接入其高速互連體系。這一舉措預計將帶動?AI?服務器制造成本下降?18%。表面上看，開放?NVLink?意味著英偉達正在放棄其長期以來堅持的硬件閉環(huán)優(yōu)勢，但深入分析其背后邏輯可以發(fā)現(xiàn)，這實則是英偉達戰(zhàn)略轉(zhuǎn)型的重要一步。通過?NVLink Fusion?吸引第三方硬件接入，英偉達旨在擴大?CUDA?生態(tài)的?“勢力范圍”，實現(xiàn)從單純的硬件賣家向?“技術(shù)標準輸出?+?區(qū)域產(chǎn)能綁定”?模式的蛻變，完成從?“賣鏟人”?到?“修路者”?的角色轉(zhuǎn)變。

近期，英偉達首度推出?NVLink Fusion，正式進軍?ASIC?市場，與?UALink?聯(lián)盟展開正面競爭。英偉達執(zhí)行長黃仁勛表示，目前?90%?的?ASIC?專案都將失敗，并強調(diào)英偉達的?ASIC?產(chǎn)品會比其他競爭者成長更快。然而，英偉達開放?NVLink Fusion?技術(shù)授權(quán)的背后，也透露出其對技術(shù)護城河被打破的擔憂。隨著越來越多競爭對手的涌現(xiàn)和技術(shù)的快速發(fā)展，英偉達不得不通過開放技術(shù)來鞏固自身的市場地位，但這折射出其核心技術(shù)正面臨著更多的競爭和挑戰(zhàn)。

?04華為超節(jié)點技術(shù)或打破NVLink壟斷

盡管英偉達開放了?NVLink?技術(shù)授權(quán)，但遺憾的是，首批獲得授權(quán)的?12?家企業(yè)中，沒有一家來自大陸。在國內(nèi)，如何發(fā)展相關(guān)技術(shù)成為構(gòu)建大規(guī)模國產(chǎn)?GPU?集群的關(guān)鍵所在。近期，“超節(jié)點”?這一概念在?AI?圈迅速走紅。超節(jié)點（SuperPod）最初由英偉達公司提出，在?AI?發(fā)展進程中，隨著大模型參數(shù)規(guī)模不斷增長，對?GPU?集群的規(guī)模需求也水漲船高，從千卡級逐步發(fā)展到萬卡級、十萬卡級，未來甚至可能邁向更大規(guī)模。構(gòu)建大規(guī)模?GPU?集群主要有兩種方式：Scale Up?和?Scale Out。Scale Up?即向上擴展，也稱為縱向擴展，通過增加單節(jié)點的資源數(shù)量來提升算力；Scale Out?則是向外擴展，又稱橫向擴展，通過增加節(jié)點的數(shù)量來實現(xiàn)規(guī)模增長。例如，在每臺服務器中增加幾塊?GPU，這就是?Scale Up，此時一臺服務器可視為一個節(jié)點；而通過網(wǎng)絡將多臺電腦（節(jié)點）連接起來，則屬于?Scale Out。

近期，華為高調(diào)發(fā)布了?AI?領(lǐng)域的重磅技術(shù)?——CloudMatrix 384?超節(jié)點。該超節(jié)點以?384?張昇騰算力卡組成，在目前已商用的超節(jié)點中單體規(guī)模最大，可提供高達?300 PFLOPs?的密集?BF16?算力，接近英偉達?GB200 NVL72?系統(tǒng)算力的兩倍。華為?CloudMatrix 384?超節(jié)點通過超高帶寬?Scale - Up?新型高速總線網(wǎng)絡，實現(xiàn)了從?“傳統(tǒng)以太網(wǎng)”?向?“共享總線網(wǎng)絡”?的重大演進，將資源互聯(lián)帶寬提升了?10?倍以上，在關(guān)鍵特性上超越了英偉達?NVL72?超節(jié)點。

這種集群計算技術(shù)有效地彌補了國產(chǎn)芯片在先進制程和算力上的不足。華為華為首席執(zhí)行官任正非在采訪中也表示，“單芯片還是落后美國一代，我們用數(shù)學補物理、非摩爾補摩爾，用群計算補單芯片，在結(jié)果上也能達到實用狀況?！比握茄a充說，“中國在中低端芯片上是可以有機會的，中國數(shù)十、上百家芯片公司都很努力。特別是化合物半導體機會更大。硅基芯片，我們用數(shù)學補物理、非摩爾補摩爾，利用集群計算的原理，可以達到滿足我們現(xiàn)在的需求?！彼€表示，“芯片問題其實沒必要擔心，用疊加和集群等方法，計算結(jié)果上與最先進水平是相當?shù)摹＼浖矫?，將來是千百種開源軟件滿足整個社會需要?！?/p>

值得注意的是，英偉達更早就有超節(jié)點了，但最多只能做到72塊卡。這主要是因為英偉達的卡和卡之間是用銅纜通信，即所謂的NVLink，其可以保證每秒百g級的通信效率，并且不需要經(jīng)過CPU，這樣才能保障多卡之間的訓練和推理，會隨著卡數(shù)的增加而提升吞吐量和效率。但NVLink也有問題，不能超過3米，否則信號會急劇衰減，所以，英偉達的多卡超節(jié)點只能放在一個機柜里，最多塞72塊，這也是他的上限。

與之相比，華為雖然昇騰單卡性能目前與英偉達仍存在一定差距，但華為作為通訊領(lǐng)域出身的企業(yè)，在通信技術(shù)方面具有得天獨厚的優(yōu)勢，處于行業(yè)領(lǐng)先地位。華為另辟蹊徑，采用光通信替代銅纜通信，這一創(chuàng)新舉措能夠在幾乎無限長度的傳輸距離下，保障比?NVLink?更高的帶寬。因此，華為的超節(jié)點不要求算力卡集中在一個機柜內(nèi)，甚至可以分布在不同機房。這種優(yōu)勢使得華為能夠更大規(guī)模地堆疊算力卡，384?超節(jié)點的實際算力節(jié)點已遠超英偉達的?72?超節(jié)點，并且未來還有進一步擴展的空間。此外，華為光通信技術(shù)在模塊化和異構(gòu)化方面表現(xiàn)出色，不僅支持昇騰卡，還能兼容其他各家的?TPU，形成了一個開放、靈活的生態(tài)系統(tǒng)。

?05英偉達也瞄準光通信技術(shù)

顯然，英偉達也意識到了相關(guān)問題，一直以來都在布局研究光通信技術(shù)和產(chǎn)品。英偉達正在為當前及下一代光學系統(tǒng)優(yōu)先采用硅光技術(shù)。2025?年?3?月，英偉達宣布推出全球首個采用新型微環(huán)調(diào)制器的?1.6T CPO?系統(tǒng)，并表示其?Quantum-X?硅光交換機將于?2025?年下半年出貨，Spectrum-X?系統(tǒng)也將在?2026?年下半年跟進。

然而，在光通信技術(shù)生態(tài)建設(shè)方面，英偉達面臨著諸多挑戰(zhàn)。Meta?和微軟倡導圍繞?CPO?建立新的生態(tài)系統(tǒng)，并致力于制定光學引擎制造的行業(yè)標準，但初期產(chǎn)品仍將基于專有設(shè)計。這對于傾向于自行設(shè)計服務器、交換機和所有互連設(shè)備的大客戶而言，成為了大規(guī)模部署的一大障礙。為了加速?CPO?技術(shù)的部署，英偉達計劃向終端用戶提供集成了?CPO?的完整系統(tǒng)，并全面負責系統(tǒng)的運行和維護。如果此類系統(tǒng)能夠帶來顯著的性能提升，客戶或許會愿意接受。但從長遠來看，完全依賴英偉達的設(shè)計并非?Meta、微軟等大型云公司可接受的長期戰(zhàn)略。要實現(xiàn)?CPO?技術(shù)的大規(guī)模部署，構(gòu)建一個全新的、充滿競爭的生態(tài)系統(tǒng)至關(guān)重要。

博通公司也在日前宣布，開始交付?Tomahawk 6?交換機系列芯片，該系列單芯片提供?102.4 Tbps?的交換容量，是目前市場上以太網(wǎng)交換機帶寬的兩倍。Tomahawk 6?專為下一代可擴展和可擴展?AI?網(wǎng)絡而設(shè)計，通過支持?100G / 200G SerDes?和共封裝光學模塊（CPO），提供更高的靈活性。