作者:陳伊凡,編輯:黃主任
盡管DeepSeek的爆火讓科技界看到了算力降價的可能性,但科技巨頭對人工智能算力的投資并未停下腳步。在剛結束的財報會中,諸多巨頭都宣布對AI算力的巨額投資計劃。
"英偉達的真正對手,可能會出現(xiàn)在光計算領域。"一位資深芯片研究人員、芯片連續(xù)創(chuàng)業(yè)者說,因為光計算,指向的是一種速度更快、成本更低的計算方式。然而多位業(yè)內人員表示,光計算距離商業(yè)化落地,還需要時間。
在沈亦晨看來,硅光技術正在迎來迄今為止最大的機遇。他是曦智科技的創(chuàng)始人、CEO,這是一家提供光電混合算力解決方案的前沿科技公司。
2017年,沈亦晨以第一作者的身份在Nature子刊封面的一篇論文中提出了一種新的深度學習硬件實現(xiàn)方式,他發(fā)現(xiàn)了一種基于光子的神經(jīng)網(wǎng)絡可以在計算速度和能效方面實現(xiàn)顯著提升。[1]這篇論文便是當下大熱的光計算賽道的技術源頭之一。
沈亦晨直言,在創(chuàng)業(yè)之初,并未想到大模型會給光芯片帶來全新的機會,一開始只是看到了光子芯片在人工智能方向上有應用潛力。但隨后出現(xiàn)的大模型,以及訓練大模型對算力的巨大需求,算是第一次為將光子芯片的商業(yè)應用提供了一個似乎已經(jīng)能夠觸及的商業(yè)化路徑。大模型爆發(fā)對算力的需求,一方面使得傳統(tǒng)電芯片的計算密度和互連的速度不匹配,導致光子和電子的共同封裝或深度集成成為短期內的必然選擇;另一方面是摩爾定律即將走到盡頭,光計算作為全新的架構,能夠補充電芯片的局限性。
機遇熱潮之下,往往是公眾和一些"隔行"人士對光計算的夸大和誤解。有媒體稱,如今的光芯片性能能夠比傳統(tǒng)電芯片能效提升數(shù)百萬倍,甚至有文章稱依靠光芯片未來可以完全取代GPU。
沈亦晨表示,這樣的說法并不準確,從科研到產(chǎn)業(yè),根本區(qū)別在于光芯片的技術特性是否能夠匹配到可持續(xù)的商業(yè)模式。"一味追求極致的技術指標,沒有太大價值;研發(fā)出能用、且真正為用戶創(chuàng)造價值的產(chǎn)品,才是我想做的事情。"沈亦晨表示。
本文訪談了芯片行業(yè)的多位專業(yè)人士,試圖回答光計算——這一被視為后摩爾時代的技術范式,其與傳統(tǒng)電芯片的關系是什么?光計算如今在商業(yè)化的過程中走到了哪一步?光計算能夠實現(xiàn)什么?要實現(xiàn)光計算的產(chǎn)業(yè)化,還有哪些關鍵挑戰(zhàn)?
一個古老想法的實踐
光學計算的核心,來自一個古老的設想——發(fā)明于19世紀90年代的馬赫-曾德爾干涉儀(Mach-Zehnder Interferometer)。這一設備將一束光一分為二,成為兩條路徑。分束后的光,沿著不同路徑傳播,當光遇到路徑末端的反射鏡,會返回分束器,此時兩束光合二為一,輸出光束的強度由輸入光束的強度與分裂光束之間的相位差決定。一方面,輸入的光越強,輸出的光就越強;另一方面,當一束光被分成兩束之后,這兩束光合并,如果波峰和波谷對齊(即相位相同),則輸出的光更強,如果波峰和波谷錯開(相位不同),輸出光越弱。
光學加速器具有以網(wǎng)格形式布局的馬赫-曾德爾陣列。這些陣列內的計算以光速進行,并且光通過芯片時能量消耗較低。
與電子不同,光子可以相互交叉但不產(chǎn)生相互作用。電阻會產(chǎn)生熱量、消耗能量,但光子通過透明介質時沒有阻力,從而可以降低功耗。
那么,從一百多年前的古老想法再到經(jīng)過數(shù)年實踐,光計算芯片如今是否真能如一些文章中所說,速度快千倍,能效提升數(shù)百萬倍?
在沈亦晨看來,今天我們所說的"光計算",其實都是光電混合計算——電仍然需要做存儲和非線性計算的工作。如果僅就這其中純光子計算的部分,也就是光的干涉過程所需的時間來看,光子芯片的確能夠比電芯片快差不多1000倍。但如果算上整個光子計算機系統(tǒng)所需要的時間,還有光電轉換、數(shù)模轉換以及內存、數(shù)字電路所花費的時間,那肯定無法達到1000倍的速度,也無法達到數(shù)百萬倍的能效提升。"光子計算比電子計算在相同節(jié)點下,能效領先5倍到10倍是一個合理的數(shù)字。"
光計算還有一個“缺點”,就是模擬計算的精度有限。正如習慣了開燃油車(以及其背后的工業(yè)體系和服務設施)的人剛接觸電動車時可能認為電動車的電池續(xù)航能力是一個缺陷,如今的主流軟件開發(fā)都是基于電芯片的硬件來開發(fā)高精度的算法,在這種高度依賴高精度算法的生態(tài)環(huán)境下,光計算的精度常常成為約束?!暗芏嗳瞬灰欢ㄒ庾R到的是,今天世界上最強大的人工智能還沒有辦法媲美人腦。而人腦就是一個典型的低精度模擬計算系統(tǒng)。所以精度低這個特點本身并不意味著模擬計算比數(shù)字計算要差,只能說各自適合不同的任務”,沈亦晨說。
加州光子芯片初創(chuàng)公司 Lightmatter 的創(chuàng)始人兼CEO尼克·哈里斯(Nick Harris)指出,光學計算機不適用于邏輯運算。但他表示,盡管它們"永遠不會運行Windows,但它們是運行神經(jīng)網(wǎng)絡的絕佳替代品"。[2]
因為,如果在低精度算法之下,光計算的低功耗、低時延的優(yōu)勢就顯現(xiàn)出來。正如在加速性能領域,電動車的表現(xiàn)可以遠超同價位的燃油車。[3]
人工智能深度學習網(wǎng)絡的不斷發(fā)展,是光計算商業(yè)化的主要推動力。最初的神經(jīng)網(wǎng)絡只有一兩層,節(jié)點幾千個,如今的深度學習網(wǎng)絡能達到一百多層,數(shù)十億節(jié)點,對算力需求巨大。此外,成本問題也不容小覷,畢竟處理愈加復雜的神經(jīng)網(wǎng)絡和數(shù)據(jù),電力消耗指數(shù)級上升。
光計算按照物理實現(xiàn)的方式可分為基于經(jīng)典光學的計算和基于量子光學的計算,經(jīng)典光計算可利用光的波動特性如干涉、衍射等規(guī)律來實現(xiàn)計算功能。量子計算包括超導、半導體、離子阱、光學等多種技術方案,光量子計算是以光子作為量子比特進行計算,通過對光子進行量子操控及測量來完成計算。[4]
不過,光計算的玩家并沒有打算完全放棄電芯片。對他們來說,光芯片和電芯片是一種互補,而不是替代。"這種互補在于,光芯片可以幫助電芯片在特定算法中提升算力。"一位光計算從業(yè)者表示。并且,光芯片制造工藝對制程不敏感,這樣一來,不依賴先進制程就能達到提升整體算力效能的目的。
基于業(yè)界的這一共識,當前的光計算技術路線以光電融合為主,如今已實現(xiàn)產(chǎn)品形態(tài)的光計算芯片架構都包含光芯片和電芯片。
在全球范圍內,風投、政府、初創(chuàng)公司和高校共同推動了這一古老研究的商業(yè)化。
2019年,美國國防部高級研究計劃局(DARPA)啟動了LUMOS項目,以研究具備深度學習能力、高算力和低功耗的集成光子芯片;歐盟"地平線2020計劃"資助建立了PhotonHub Europe,通過全方位服務的一站式光子創(chuàng)新中心加快歐洲工業(yè)對光子技術的采用和部署。此外,歐盟通過電子元件和系統(tǒng)聯(lián)合承諾等年度戰(zhàn)略計劃,進一步支持光子技術的發(fā)展;荷蘭方面,2022年4 月,荷蘭政府通過國家基金并聯(lián)合私營企業(yè)向光子集成電路產(chǎn)業(yè)投入11億歐元,以加速光子芯片技術創(chuàng)新研究。
英特爾在光芯片的道路上走得很早,其研究硅光技術20多年,并成立了互連集成光子學研究中心;IBM、谷歌、思科、NTT等國際公司也投入資源。全球也涌現(xiàn)出數(shù)十家光電混合算力初創(chuàng)企業(yè),大多孵化于高校,如麻省理工學院團隊創(chuàng)辦的Lightmatter和從劍橋大學走出來的光計算公司Optalysys。今年10月,Lightmatter完成了4億美元的D輪融資,估值達到44億美元。這意味著國際資本對光芯片的認可。
不過,根據(jù)第三方研究機構中國信通院的統(tǒng)計和研究,盡管全球光計算公司已有數(shù)十家,但已出現(xiàn)了截然不同的狀態(tài)。一類公司的光計算業(yè)務幾乎停滯,遲遲無法商用;一類公司的重點從光計算轉向了光互連;一直在光計算上堅持的公司并不多,因為光計算的技術壁壘更高,商業(yè)化的路線更長,不過,能夠在這條路上堅持下來,并具備產(chǎn)品化能力的,依然是市場熱捧的對象,例如Lightmatter和曦智科技,兩家公司目前分居全球光計算公司估值前兩名。
2025年3月,曦智科技發(fā)布的新一代光電混合計算卡曦智天樞,其核心是包含了128*128的光子矩陣的光學處理單元(OPU)和電學專用集成電路(ACIS),采用了大規(guī)模光電集成技術,通過TSV+Flipchip先進封裝技術將光電芯片集成和封裝,具有高性能、可編程性和通用性的性能優(yōu)勢。[5]
對光計算來說,矩陣相當于電芯片中制程的概念,矩陣需要不斷做大以提升性能。矩陣擴大帶來算力的提升,相應的單位算力功耗也會越低。
沈亦晨透露,曦智科技已經(jīng)在開發(fā)下一代256*256矩陣的光計算產(chǎn)品,曦智科技的光計算技術路線規(guī)劃仍然在穩(wěn)步推進。
光計算進入"Roadster時刻"
光計算如今處于什么階段?其第一批應用場景可能會在哪里?
對更多產(chǎn)業(yè)人士而言,論文中的指標只能作為參考,從實驗室到商業(yè)化之間,存在著"死亡之谷",有許多工程化問題需要解決。
以曦智科技的天樞計算卡為例,隨著光計算矩陣的規(guī)模不斷擴大,光電芯片的超大規(guī)模集成將面臨重大挑戰(zhàn)。為了應對這些問題,TSV垂直封裝技術變得尤為重要。同時,溫度波動對計算精度的影響也會變成一個亟待解決的難題。曦智科技的硅光設計工程師華士躍表示,天樞的工程化問題,花了三年到四年的時間才解決,工程實現(xiàn)周期很長。曦智科技更坦言,公司在天樞開發(fā)上投入的研發(fā)成本,比之前所有的研發(fā)投入都要多。
光計算的商業(yè)化進程如何?沈亦晨打了一個比方——從曦智科技的角度看,天樞的發(fā)布,意味著光計算進入了特斯拉的Roadster階段。
2006年特斯拉的第一款電動跑車Roadster在加利福尼亞州圣莫尼卡機場巴克機庫首次亮相,彼時,世人對于電動汽車這個概念,都還覺得是"天方夜譚"——首款Roadster由一個用了6831個獨立的鋰離子電池的巨大電池組驅動,這被視為是特斯拉在電動汽車技術上的首次商業(yè)化嘗試。[9]
多年后馬斯克回憶Roadster從設計到商業(yè)化的過程,稱"這基本上是一場瘋狂的噩夢。我們犯了各種各樣的錯誤,錯誤如此之多,令人尷尬。"
Roadster是特斯拉首款使用鋰離子電池的量產(chǎn)全電動跑車,也是首款續(xù)航里程達到200英里(320千米)的純電動車。Roadster當年的首批客戶,以科技極客群體為主。2006年7月,馬斯克在硅谷一場邀請制的線下聚會中向大眾展示了紅黑兩輛Roadster原型車,并邀請了眾多科技富豪前來試駕。試駕現(xiàn)場,獲得了30份訂單。
Roadster創(chuàng)造的歷史并不止于此,2018年,Roadster成為了有史以來第一輛穿越大氣層前往太空的汽車。
沈亦晨對這樣的科技故事娓娓道來,Roadster這種寫滿叛逆的開創(chuàng)性,將不可能變?yōu)榭赡艿慕?jīng)歷,是沈亦晨對于曦智產(chǎn)品的投射。沈亦晨笑稱,2021年發(fā)布的PACE是不能轉彎的電動車,只能在一些比賽上面跑,而今天的天樞則是一輛可以上路的電動車,具備了商業(yè)通用性,其商業(yè)化進展目前就在Roadster當初的小范圍百臺訂單階段。
與曦智的上一代光計算產(chǎn)品PACE相比,曦智剛剛發(fā)布的天樞計算卡,除了繼續(xù)支持光計算在部分應用場景中跑出相較于純電芯片的速度優(yōu)勢外,最大提升來自于可編程性和通用性的提升。這款光計算處理器上甚至已經(jīng)可以跑大模型算法——盡管受限于存儲帶寬,速度還很有限。
光計算今天走到了一個非常關鍵的時刻。
清華大學經(jīng)濟管理學院教授楊斌、朱恒源在其《戰(zhàn)略節(jié)奏》一書中提及了市場發(fā)展的S曲線,隨著行業(yè)的增長,市場會出現(xiàn)四個發(fā)展階段。
第一個階段是小眾市場,用戶為發(fā)燒友,規(guī)模小且零散,成長速度慢,需求差異高;第二階段的用戶為大眾市場,用戶為大眾,規(guī)模大、成長速度快、需求差異低;分眾市場為挑剔客,規(guī)模大、增速平穩(wěn)、需求差異高;雜合市場的用戶高度碎片化,規(guī)模趨于穩(wěn)定,成長速度低,需求差異性高。[10]
如今光計算芯片正處于從小眾市場向大眾市場轉變的關鍵節(jié)點,需要快速建立生態(tài)、拓展用戶和市場。
在交流中,沈亦晨與曦智科技首席運營官王瀧都不斷強調生態(tài)的重要性。造芯片難,但建立生態(tài)的難度可能是造芯片的幾百倍,這考驗的不光是技術的領先與否,還有建立在芯片之上的整個軟件棧。"需要讓原本習慣吃西餐的人習慣吃中餐。"一位芯片研究人員做了如此比喻。
生態(tài)需要越來越多開發(fā)者加入,也需要時間的耕耘。英偉達就是最好的例子。對這家公司而言,芯片僅是其戰(zhàn)略布局中的一環(huán),關鍵的是軟件生態(tài)。"給沒有實力做軟件開發(fā)的公司提供軟件服務。"前述研究人員表示。當大家習慣了用CUDA寫程序,就很難適應別的生態(tài)。
1999年,英偉達推出了首款GPU,此后,英偉達啟動了超級CUDA計算平臺的開發(fā)。黃仁勛的設想是要在每一顆顯卡上都運行CUDA。2006年,英偉達發(fā)布CUDA時,并沒有在科技界掀起太大風浪。英偉達選擇從高校入手——與全球頂尖研究機構和大學合作,逐步擴充應用場景。這種看似難以獲得短期回報的途徑,是很多新技術商業(yè)化探索的路線。因為高校的產(chǎn)品對穩(wěn)定性和量產(chǎn)的要求不高,還能成為最前沿的研究的試驗場,或許能夠押中體現(xiàn)技術優(yōu)勢的應用場景,從而實現(xiàn)商業(yè)化起飛,迅速從小眾市場上升到大眾市場。
2009年,多倫多大學教授杰弗里·辛頓(Geoffrey Hinton,2024年諾貝爾物理學獎得主)的團隊利用英偉達的CUDA平臺訓練了一個神經(jīng)網(wǎng)絡模型,用來進行語音識別。2012年,辛頓的學生Alex Krizhevsky和Ilya Sutskever用了兩個英偉達的GPU,在CUDA平臺上訓練一個視覺識別神經(jīng)網(wǎng)絡。與之相比,谷歌研究員訓練一個識別貓的神經(jīng)網(wǎng)絡,需要大概一萬六千個CPU。[11]
在沈亦晨看來,要建立一個光計算的生態(tài),選擇從高校入手也是目前看來最理想的商業(yè)化路徑。曦智科技與學校大量合作,提供光計算芯片給高校研究者們嘗試新場景應用。
曾經(jīng),一位多年芯片創(chuàng)業(yè)者與筆者交流時提及,芯片客戶分為三類,互聯(lián)網(wǎng)客戶、傳統(tǒng)行業(yè)客戶和新基建類客戶?;ヂ?lián)網(wǎng)客戶的生態(tài)依賴性最高,落地難度最大,而后兩者對國產(chǎn)化的需求更為迫切,這是中國芯片公司的機會,也是光計算企業(yè)的機會。反觀美國,因為電計算的勢頭太強,以英偉達為首的企業(yè)占據(jù)了過多風頭,使得電計算之外的技術路線難以有嶄露頭角的機會。
"如果能夠把模型的精度要求降下來,通過1-2年時間進行算法的量化開發(fā),或許三年之后,就能夠看到有一代光計算產(chǎn)品的各方面性能明顯優(yōu)于中國大陸用戶所使用的電計算方案。"——我們的這段對話發(fā)生在2024年底。一個多月之后,DeepSeek橫空出世,模型的精度要求下降,沈亦晨的預測已經(jīng)實現(xiàn)了一半。
參考資料
[1]?Deep learning with coherent nanophotonic circuits, Nature Photonics
[2]?Photonic Supercomputer For AI: 10X Faster, 90% Less Energy, Plus Runway For 100X Speed Boost, Forbes
[3]?燃油車不香了!實測零百加速榜Top10出爐,電動車狂占8款,優(yōu)視汽車
[4]?《光計算技術與產(chǎn)業(yè)發(fā)展研究報告(2023)》,中國信通院
[5]?曦智科技全球首發(fā)新一代光電混合計算卡,曦智科技
[6]?讓內存干CPU的活兒 這項技術將芯片運行速度提升百倍,科技日報
[7]?Optics & Photonics Global Industry Report 2024,SPIE
[8]?曦智科技發(fā)布全新光互連產(chǎn)品,曦智科技
[9]?Tesla Roadster unveiled in Santa Monica, AutoBlog
[10]?企業(yè)走好S線,戰(zhàn)略節(jié)奏才不亂,界面
[11]?2012,改變人類命運的180天,遠川研究所