作者|周一笑
郵箱|zhouyixiao@pingwest.com
當(dāng)下的AI Agent領(lǐng)域,正上演著一幕“奇特”的景象,一方面,是關(guān)于Agent能力極限的狂熱探討;但另一方面,是當(dāng)這些光鮮的Agent從實(shí)驗(yàn)室走向真實(shí)生產(chǎn)環(huán)境時(shí)的普遍“失速”與“沉寂”。
這之間巨大的落差,源于一個(gè)被行業(yè)集體選擇性忽視的“盲點(diǎn)”:我們癡迷于為Agent打造更聰明的“大腦”,卻忽略了為其提供一個(gè)穩(wěn)定、安全、可靠的“數(shù)字身體”(運(yùn)行環(huán)境)。
這正是“Agent的光刻機(jī)之問(wèn)”。在芯片制造中,若沒有EUV光源、精密光學(xué)系統(tǒng)和超凈間這些昂貴且復(fù)雜的物理基礎(chǔ),再精妙的芯片設(shè)計(jì)圖也無(wú)法被刻上晶圓。同理,Agent的價(jià)值實(shí)現(xiàn),也依賴于一個(gè)看不見、摸不著,卻至關(guān)重要的底層支撐。
如同光刻機(jī)需要EUV光源、光學(xué)系統(tǒng)和超凈間的完整配合,Agent也需要大模型、框架和云端環(huán)境的協(xié)同工作。
正是這個(gè)常被忽視的物理基礎(chǔ),通過(guò)提供持久化的狀態(tài)管理、絕對(duì)安全的隔離沙箱、確保結(jié)果可復(fù)現(xiàn)的標(biāo)準(zhǔn)化工具集,以及工業(yè)級(jí)的穩(wěn)定性和可觀測(cè)性,解決了Agent從脆弱的演示走向強(qiáng)大生產(chǎn)力工具時(shí)所面臨的一系列致命問(wèn)題。
因此,當(dāng)Agent技術(shù)從概念驗(yàn)證走向產(chǎn)業(yè)落地,下一階段的競(jìng)爭(zhēng)核心,已不再僅僅是模型智能的比拼。新的壁壘,在于誰(shuí)能率先打造出穩(wěn)定、可靠、高效且安全的云端運(yùn)行環(huán)境。這臺(tái)“隱形的光刻機(jī)”,將最終決定誰(shuí)能在即將到來(lái)的Agent時(shí)代中占據(jù)主導(dǎo)地位。
也是基于這一判斷,一些深耕云計(jì)算的廠商開始從一個(gè)全新的視角破局,阿里云的無(wú)影云電腦團(tuán)隊(duì)給出的答案是:他們選擇重注“云電腦”這一賽道,并對(duì)其進(jìn)行根本性的重新定義——讓它從一臺(tái)“給人用的電腦”,成為為一臺(tái)“給AI用的電腦” 。這一決定源于無(wú)影過(guò)去數(shù)年在企業(yè)服務(wù)市場(chǎng)積累的技術(shù)與認(rèn)知 。而如今,正是這些為“人”打造極致遠(yuǎn)程體驗(yàn)時(shí)沉淀的能力,恰好構(gòu)成了為“AI”解決光刻機(jī)問(wèn)題的先決條件。
1
意外崛起的MCP,喚醒了Agent沉睡
最早的 AI Agent 概念可以追溯到 20 世紀(jì)中期的科幻小說(shuō),尤其是艾薩克·阿西莫夫1950 年發(fā)表的《我,機(jī)器人》,奠定了“自主智能體”這一概念的雛形。人類一直以來(lái)都在幻想“假機(jī)器之手行自我之事”,科幻片里的賈維斯(Jarvis)、Moss(Her 中的 AI),甚至動(dòng)畫里的阿拉蕾,都是這些幻想的文化投射。
從概念到落地需要實(shí)際可行的技術(shù)指引,大模型興起后,Agent要落地,關(guān)鍵在于如何無(wú)縫接入海量工具——這正是MCP協(xié)議的使命。
2024年11月,Anthropic公司推出了MCP(Model Context Protocol),這個(gè)被譽(yù)為“AI界的USB-C”的開放標(biāo)準(zhǔn),正在改變Agent生態(tài)的發(fā)展軌跡。
MCP試圖解決了一個(gè)長(zhǎng)期困擾AI開發(fā)者的核心痛點(diǎn):工具調(diào)用的標(biāo)準(zhǔn)化問(wèn)題。在MCP之前,AI要想與外部工具互動(dòng),必須通過(guò)編寫代碼并調(diào)用API,效率低下且耗時(shí)費(fèi)力。隨著OpenAI、Google等巨頭宣布正式支持MCP協(xié)議。讓業(yè)界看到了MCP成為標(biāo)準(zhǔn)協(xié)議的可能。
在這樣的背景下,Agent應(yīng)用的開發(fā)架構(gòu)也在發(fā)生根本性變化。正如在與硅星人的交流中提到的,Agent要跑通,必須要有“新三大件”:
- 基礎(chǔ)模型:作為Agent的“大腦”,提供推理和規(guī)劃能力。MCP協(xié)議:作為Agent的“神經(jīng)系統(tǒng)”,連接大腦與外部工具,實(shí)現(xiàn)感知與操作。云端環(huán)境:作為Agent的“身體”,提供一個(gè)安全的、彈性的、高性能的物理載體,承載任務(wù)的最終執(zhí)行。
這“新三大件”的組合,正在重新定義Agent應(yīng)用的開發(fā)范式。而Agent應(yīng)用的復(fù)雜性、對(duì)算力的高要求、以及對(duì)安全隔離的需求,都要求有專門的基礎(chǔ)設(shè)施來(lái)承載。這就是為什么云電腦這樣的基礎(chǔ)設(shè)施產(chǎn)品開始受到關(guān)注——它們不僅提供了Agent運(yùn)行所需的環(huán)境,更重要的是,它們可能正在重新定義Agent時(shí)代的云計(jì)算架構(gòu)。
1
AgentBay:通用Agent的神兵利器
在這樣的行業(yè)背景下,阿里云無(wú)影團(tuán)隊(duì)做出了一個(gè)戰(zhàn)略判斷:云電腦的未來(lái)不再僅僅是“給人用的電腦”,而是要成為“給AI用的電腦”。
從技術(shù)原理來(lái)看,AI“感知”世界的方式(通過(guò)視頻、音頻流)與云電腦的技術(shù)原理(將畫面和聲音流式傳輸?shù)浇K端)天然契合;AI“操作”世界的方式(模擬鍵盤、鼠標(biāo)事件)也與云電腦的控制協(xié)議異曲同工。這種技術(shù)基因上的匹配,讓云電腦成為了AI Agent理想的數(shù)字化身軀。
更重要的是,無(wú)影團(tuán)隊(duì)認(rèn)識(shí)到了一個(gè)核心問(wèn)題:當(dāng)前Agent生態(tài)面臨的挑戰(zhàn),本質(zhì)上是基礎(chǔ)設(shè)施層面的挑戰(zhàn)。無(wú)論是算力瓶頸、安全隔離還是開發(fā)復(fù)雜性,都指向同一個(gè)需求——Agent需要一個(gè)專門為其設(shè)計(jì)的運(yùn)行環(huán)境?;谶@一判斷,無(wú)影推出了AgentBay,這是國(guó)內(nèi)首個(gè)支持MCP協(xié)議的云電腦服務(wù),它致力于解決的是Agent“能不能用好”和“能不能用得起”的挑戰(zhàn)。
首先是算力彈性。AgentBay采用了Serverless化的算力調(diào)度模式,開發(fā)者通過(guò)簡(jiǎn)單的API調(diào)用就能獲得彈性的云端算力。當(dāng)Agent執(zhí)行復(fù)雜任務(wù)時(shí),系統(tǒng)會(huì)自動(dòng)分配足夠的計(jì)算資源;任務(wù)完成后,資源立即釋放,按需使用。
特別值得一提的是,AgentBay支持高并發(fā)任務(wù)執(zhí)行。當(dāng)多個(gè)Agent需要同時(shí)處理大量任務(wù)時(shí),傳統(tǒng)的單機(jī)環(huán)境往往無(wú)法承受。而AgentBay可以同時(shí)拉起數(shù)百個(gè)云電腦實(shí)例,彼此之間完全隔離。并發(fā)能力的提升,讓Agent應(yīng)用具備了商業(yè)化部署的可能。
其次是安全隔離。AgentBay為每個(gè)任務(wù)創(chuàng)建獨(dú)立的云上安全運(yùn)行環(huán)境,這相當(dāng)于給Agent的每次執(zhí)行都提供了一個(gè)全新的“沙箱”,任務(wù)執(zhí)行完成后,這個(gè)沙箱會(huì)被完全銷毀。
第三個(gè)突破是開發(fā)門檻的降低。AgentBay原生支持MCP協(xié)議,開發(fā)者可以通過(guò)標(biāo)準(zhǔn)化的接口快速接入各種工具和服務(wù)。AgentBay還預(yù)集成了大量常用工具,包括Browser、Python(代碼執(zhí)行)、Terminal、File System等工具,可以開箱即用。
AgentBay更擅長(zhǎng)的是“水面下的能力”,正是這些能力讓客戶“眼前一亮”。例如多平臺(tái)支持,與市面上大多數(shù)只支持單一平臺(tái)的解決方案不同,AgentBay提供了Linux、Windows、Android等多種鏡像,并支持在一個(gè)任務(wù)中跨平臺(tái)操作。例如,Agent可以在Linux環(huán)境中進(jìn)行數(shù)據(jù)分析,然后切換到Windows環(huán)境生成報(bào)表,最后在Android環(huán)境中發(fā)布到移動(dòng)應(yīng)用,大大拓寬了Agent應(yīng)用的想象力。
還有人機(jī)協(xié)同的“兜底”機(jī)制。AgentBay內(nèi)置了無(wú)影云電腦多年積累的ASP串流技術(shù),當(dāng)AI在執(zhí)行任務(wù)時(shí)遇到需要人工干預(yù)的情況(比如需要輸入驗(yàn)證碼、處理異常情況等),可以直接呈現(xiàn)云端實(shí)時(shí)畫面,允許用戶隨時(shí)接管操作,低延遲讓實(shí)際體驗(yàn)跟用本地PC幾乎一致。用戶不用擔(dān)心Agent“查錯(cuò)水表、送錯(cuò)快遞”了。
“最多跑一次”也是AgentBay的創(chuàng)新。傳統(tǒng)模式下,Agent閱讀資訊和報(bào)告會(huì)從頭讀到尾,再?gòu)闹羞x取有價(jià)值的內(nèi)容,當(dāng)幾十個(gè)任務(wù)疊加時(shí),消耗的總時(shí)長(zhǎng)看起來(lái)就那么“高效”了。AgentBay可以做到“在你看之前已經(jīng)幫你看過(guò)了”,接到任務(wù)的那一刻起,AgentBay里的小AI就主動(dòng)幫助Agent進(jìn)行優(yōu)化和篩選,把最直接相關(guān)的內(nèi)容呈現(xiàn)出來(lái),信息只要跑一次就能讓Agent處理了。此外,AgentBay還有專屬的知識(shí)庫(kù)、歷史文件編輯等高階能力,具備一定程度的“記憶力”,讓云端環(huán)境更像用戶的“數(shù)字分身”
AgentBay的另一大價(jià)值在于清晰定義了Agent開發(fā)的標(biāo)準(zhǔn)架構(gòu)。過(guò)去,Agent開發(fā)者需要考慮各種環(huán)境兼容性問(wèn)題、資源調(diào)度問(wèn)題、安全隔離問(wèn)題?,F(xiàn)在AgentBay在基礎(chǔ)設(shè)施層面都解決了。開發(fā)者只需專注業(yè)務(wù)邏輯,其它交給AgentBay。
產(chǎn)品負(fù)責(zé)人屈立威表示:“我們的目標(biāo)是讓開發(fā)者能夠'拎包入住',只需要專注于業(yè)務(wù)邏輯的實(shí)現(xiàn)。”從市場(chǎng)反饋來(lái)看,目前國(guó)內(nèi)頭部的幾家Agent大廠包括阿里系的夸克、釘釘?shù)犬a(chǎn)品都在使用AgentBay來(lái)承載他們的Agent應(yīng)用。
據(jù)團(tuán)隊(duì)介紹,AgentBay未來(lái)將聚焦于兩大核心方向的演進(jìn):一是打造“視覺理解中間層”,讓AI能更低成本地理解和操作圖形界面;二是構(gòu)建“長(zhǎng)期記憶模塊”,讓云端環(huán)境真正成為具備持續(xù)學(xué)習(xí)能力的個(gè)性化“數(shù)字分身”。
1
Agent時(shí)代的基礎(chǔ)設(shè)施:長(zhǎng)期投入、做好服務(wù)
當(dāng)我們將視野從具體的應(yīng)用場(chǎng)景拉回到行業(yè)發(fā)展的宏觀層面時(shí),一個(gè)問(wèn)題浮現(xiàn)出來(lái):在Agent即將大規(guī)模商業(yè)化的前夜,什么樣的基礎(chǔ)設(shè)施能夠承載這一輪技術(shù)革命?
阿里云無(wú)影事業(yè)部總裁張獻(xiàn)濤表示:“我們的定位是服務(wù)好所有Agent廠商,而非在應(yīng)用層面直接競(jìng)爭(zhēng)。我們是'賣鏟子'的,而不是自己去'挖礦'?!?/p>
在Agent生態(tài)中,模型能力、應(yīng)用開發(fā)、基礎(chǔ)設(shè)施三個(gè)層面各有其專業(yè)門檻和發(fā)展規(guī)律。模型層面需要大量的算法研發(fā)和數(shù)據(jù)積累,應(yīng)用層面需要對(duì)具體業(yè)務(wù)場(chǎng)景的深度理解,而基礎(chǔ)設(shè)施層面則需要對(duì)云計(jì)算、網(wǎng)絡(luò)、安全等底層技術(shù)的長(zhǎng)期投入。
“做基礎(chǔ)設(shè)施,沒有三年五年的積累是很難做起來(lái)的。阿里云在早期發(fā)展階段也用了七八年持續(xù)不斷投入基礎(chǔ)技術(shù)研發(fā)才有了今天的地位??康牟粌H僅是某個(gè)產(chǎn)品,而是對(duì)客戶的全方位服務(wù)和對(duì)技術(shù)的長(zhǎng)期投入。服務(wù)器穩(wěn)定性、數(shù)據(jù)安全、網(wǎng)絡(luò)可用性,這些都是看不到的技術(shù)戰(zhàn)場(chǎng)?!?/p>
這讓人回想起2008年,當(dāng)史蒂夫·喬布斯在發(fā)布會(huì)上首次向世界介紹App Store時(shí),很少有人能預(yù)見到,這個(gè)新生的應(yīng)用商店,將如何開啟一個(gè)價(jià)值萬(wàn)億的移動(dòng)互聯(lián)網(wǎng)時(shí)代,并催生出無(wú)數(shù)顛覆性的商業(yè)模式。這正是蘋果打造的通往移動(dòng)世界的“基礎(chǔ)設(shè)施”。
今天,當(dāng)大多數(shù)人還在驚嘆于Agent“大腦”的聰明才智時(shí),無(wú)影選擇打造那個(gè)承載一切的“數(shù)字身體”和運(yùn)行平臺(tái)。而AgentBay也似乎像那個(gè)初生的App Store,讓開發(fā)者去自由地構(gòu)建和想象Agent時(shí)代的未來(lái)。
畢竟,AI是一場(chǎng)沒有終點(diǎn)的馬拉松。每當(dāng)一個(gè)范式被突破,圍繞它的所有細(xì)節(jié)都將被重構(gòu)。Agent是如此, MCP也是如此,而為這一切提供動(dòng)力的“新基建”,才剛剛開始。