在《AI + a16z》在4月28日播放的節(jié)目中,a16z負(fù)責(zé)基礎(chǔ)設(shè)施領(lǐng)域的合伙人 Guido Appenzeller、Matt Bornstein和Yoko Li探討了目前科技行業(yè)最熱門(mén)的話題之一:AI 智能體(AI agents)。
三位嘉賓從多個(gè)角度深入討論了這一概念,包括:
是否存在一個(gè)統(tǒng)一的“智能體”定義
如何區(qū)分智能體、大語(yǔ)言模型(LLM)和功能函數(shù)(functions)
如何思考智能體的定價(jià)模式
智能體是否真的可以替代人類(lèi)
數(shù)據(jù)孤島對(duì)能訪問(wèn)網(wǎng)絡(luò)的智能體會(huì)產(chǎn)生哪些影響?
他們聲稱(chēng)并不掌握了所有答案,但他們提出了一系列值得所有正在開(kāi)發(fā)、購(gòu)買(mǎi),甚至推廣AI 智能體的人關(guān)注的問(wèn)題與洞見(jiàn)。
該播客原文鏈接:https://a16z.com/podcast/what-is-an-ai-agent/
以下為完整對(duì)話內(nèi)容
超算百科編譯
Guido Appenzeller:我覺(jué)得有些事情我們可以先說(shuō)清楚。首先,“智能體”這個(gè)概念本身就存在很多分歧。我們?cè)诩夹g(shù)層面聽(tīng)到過(guò)很多不同的定義,甚至在市場(chǎng)和銷(xiāo)售方面也是一樣,因?yàn)檫@里面涉及一些銷(xiāo)售模式。
我們先從技術(shù)角度談起吧。我認(rèn)為這里有一個(gè)連續(xù)譜(存在一個(gè)從簡(jiǎn)單到復(fù)雜的不同層次)。我聽(tīng)過(guò)最簡(jiǎn)單的“智能體”定義,其實(shí)就是一個(gè)聰明的提示詞(prompt),它基于某種知識(shí)庫(kù)或上下文,并具有類(lèi)似聊天界面的功能。
從用戶的角度來(lái)看,這種東西看起來(lái)就像一個(gè)人類(lèi)智能體,對(duì)吧?比如,如果我問(wèn):“我在產(chǎn)品 X、Y、Z 上遇到了技術(shù)問(wèn)題”,它就會(huì)查看知識(shí)庫(kù)并返回一個(gè)預(yù)設(shè)好的回答。
Yoko Li:但也不一定非得有知識(shí)庫(kù),對(duì)吧?
Guido:是的,不一定非得有知識(shí)庫(kù)。我明白了。所以也許它只是一個(gè)訓(xùn)練好的模型。模型權(quán)重本身就是知識(shí),所以它更簡(jiǎn)單。那么,根據(jù)某些定義,一個(gè)智能體可能就只是一個(gè)帶有聊天界面的大語(yǔ)言模型,對(duì)嗎?
Yoko:沒(méi)錯(cuò)。
Guido:而在另一端,有些人則認(rèn)為,只有具備接近通用人工智能(AGI)能力的東西才能稱(chēng)為真正的智能體。它需要長(zhǎng)期持續(xù)運(yùn)行,能夠?qū)W習(xí),擁有知識(shí)庫(kù),并能獨(dú)立解決問(wèn)題。如果我們采用最極端的定義,是不是可以說(shuō),這樣的“智能體”現(xiàn)在還不存在?
Yoko:我認(rèn)為是的,目前還不行。
Guido:那以后會(huì)實(shí)現(xiàn)嗎?
Yoko:這是個(gè)哲學(xué)問(wèn)題。
Guido:好吧,確實(shí)如此。那么,如果我們考慮中間的狀態(tài),有沒(méi)有辦法把這整個(gè)連續(xù)譜分成幾個(gè)類(lèi)別,或者至少是不同等級(jí)的“智能體行為”?
Yoko:當(dāng)然有不同的智能體類(lèi)型。比如有幫助藝術(shù)家創(chuàng)作新的貝塞爾曲線的藝術(shù)智能體;也有我們常提到的編程智能體,也就是所謂的“每日智能體”(這里指的是目前最受關(guān)注、最常被討論、最有潛力落地的 AI 智能體類(lèi)型)。
Guido:而且我們自己也在用。
Yoko:沒(méi)錯(cuò),我們確實(shí)在用。還有些智能體只是 LLM 的封裝。
Guido:對(duì)。
Matt Bornstein:我想我是這群人中的反方觀點(diǎn)者。在我看來(lái),“智能體”這個(gè)詞其實(shí)就是 AI 應(yīng)用程序的代稱(chēng)。任何使用 AI 的東西,現(xiàn)在都可以被稱(chēng)為智能體。在這次談話之前,我還特意去網(wǎng)上查了一下,看看有沒(méi)有什么關(guān)于 AI 智能體的有趣觀點(diǎn)。我發(fā)現(xiàn) Karpathy 幾年前做過(guò)一個(gè)非常精彩的演講,我可以稍微介紹一下。不過(guò)有意思的是,在 YouTube 推薦視頻里,標(biāo)題都是“AI 智能體將徹底改變你的生活方式”、“超級(jí)智能 AI 的崛起”之類(lèi)的。這明顯就是市場(chǎng)營(yíng)銷(xiāo)的套路。
我認(rèn)為最清晰的定義是一個(gè)能進(jìn)行復(fù)雜規(guī)劃并能與外部系統(tǒng)交互的東西。但問(wèn)題是,現(xiàn)在的 LLM 本質(zhì)上已經(jīng)具備這兩項(xiàng)能力了。它們通常內(nèi)置了規(guī)劃能力,并且至少能從互聯(lián)網(wǎng)或通過(guò) MCP 等協(xié)議獲取信息。因此,這條界限其實(shí)非常模糊。
Karpathy 的演講特別有意思,他把 AI 智能體比作自動(dòng)駕駛汽車(chē),認(rèn)為這是一個(gè)真實(shí)存在的問(wèn)題,但更像是一個(gè)十年期的項(xiàng)目。而我們現(xiàn)在看到的大多數(shù)東西,更像是“周末 demo 版本”(這里指的是它們更像是開(kāi)發(fā)者花一兩個(gè)晚上快速做出來(lái)的演示產(chǎn)品,而不是真正成熟、穩(wěn)定、具備長(zhǎng)期自主能力的系統(tǒng))。這也是為什么我們會(huì)產(chǎn)生這么多混亂的原因:我們面對(duì)的是一個(gè)定義不清、模糊不清的概念,而 LLM 正在不斷吞噬它。
所以我個(gè)人認(rèn)為,我們目前擁有的東西都不是真正意義上的智能體?!爸悄荏w”這個(gè)詞本身可能就是一個(gè)定義不清、被過(guò)度使用的術(shù)語(yǔ)。但如果有人愿意花時(shí)間去認(rèn)真定義“智能體”到底是什么——比如,如何以數(shù)字形式復(fù)制一個(gè)人的行為,并投入十年時(shí)間讓它真正發(fā)揮作用,這才是我真正期待看到的。
Guido:所以,定義“智能體”是一件困難的工作。也許我們可以換個(gè)角度,談?wù)勅藗兪侨绾问褂盟麄兎Q(chēng)之為“智能體”的工具,以及這些工具在智能體行為上的程度差異。
Yoko:我也覺(jué)得我們或許應(yīng)該重新定義“智能體”,因?yàn)槲覀兌贾馈爸悄荏w”這個(gè)詞本身就不是個(gè)好術(shù)語(yǔ)。它對(duì)不同的人來(lái)說(shuō)意味著太多不同的東西。如果我們要深入探討這個(gè)問(wèn)題,我們需要明確:我們所說(shuō)的“智能體”到底指什么?別人說(shuō)“智能體”時(shí)又意味著什么?我們還可以用哪些方式來(lái)利用這種被稱(chēng)為“智能體”的過(guò)程?
Guido:我覺(jué)得,如果我們?cè)噲D定義“智能體”或至少是“智能體行為的程度”,或許更容易一些。這背后似乎有一個(gè)用戶界面方面的因素。比如說(shuō),一個(gè)純輔助助手(copilot),用戶和 LLM 來(lái)回互動(dòng)完成任務(wù),通常不被稱(chēng)為“智能體”,對(duì)吧?這有點(diǎn)像“輔助助手”和“智能體”之間的 UI 模式區(qū)別。
Yoko:是的。那你覺(jué)得“智能體行為”應(yīng)該包含哪些元素呢?比如 Matt 提到的“規(guī)劃”可能是一個(gè)要素,還有“決策”也是。當(dāng)然必須要有 LLM 的參與。我很想聽(tīng)聽(tīng)你的看法。
Guido:最近我們聽(tīng)到 Anthropic 對(duì)“智能體”的一種定義是:一個(gè) LLM 在調(diào)用工具的過(guò)程中循環(huán)運(yùn)行。這有兩個(gè)關(guān)鍵點(diǎn):第一,它不是一個(gè)單一的提示詞,也不是一組靜態(tài)的提示序列,而是 LLM 能夠?qū)⑤敵龇答伣o自己,并據(jù)此決定下一步該怎么做。甚至還能決定何時(shí)終止某個(gè)任務(wù)。對(duì)于那些更高級(jí)的智能體行為來(lái)說(shuō),這個(gè)定義算是比較合理的。
Matt:但按照這個(gè)定義,那每個(gè)聊天機(jī)器人豈不是都成了智能體?比如我去 chatgpt.com 用他們的最新推理模型加網(wǎng)絡(luò)搜索功能,它難道不是在調(diào)用工具并將輸出結(jié)果反饋到新的提示詞中,從而執(zhí)行鏈?zhǔn)剿季S嗎?
Guido:鏈?zhǔn)剿季S處于兩者之間。如果只是一個(gè)單提示詞返回結(jié)果,那不具備“規(guī)劃”和“長(zhǎng)期任務(wù)”的特征。但如果是一個(gè)復(fù)雜的任務(wù),那就開(kāi)始看起來(lái)像是智能體行為了。
Matt:我覺(jué)得定義一個(gè)系統(tǒng)真的很困難,尤其是當(dāng)它的輸入是人為設(shè)定的時(shí)候。因?yàn)檫@些系統(tǒng)的設(shè)計(jì)初衷是處理非結(jié)構(gòu)化輸入,它們幾乎可以接受任何內(nèi)容。如果你讓它查天氣,那顯然不是智能體行為,只是調(diào)用 API。但如果你讓它“定義一種新的天氣哲學(xué)”,它也會(huì)很樂(lè)意去做。所以,有時(shí)候它是智能體,有時(shí)候不是,這就是市場(chǎng)上很多人感到困惑的地方。
如果我們用你剛才說(shuō)的那種方式來(lái)描述,即“一個(gè)與工具聯(lián)動(dòng)的 LLM 循環(huán)”,我覺(jué)得這樣更有意義。
Guido:話說(shuō)回來(lái),我們似乎正在看到用戶界面出現(xiàn)一定程度的專(zhuān)業(yè)化趨勢(shì),大概分為兩個(gè)方向。一個(gè)是像 Cursor 這樣的工具,它強(qiáng)調(diào)用戶、LLM 和工作對(duì)象之間的緊密反饋循環(huán)。我希望在操作時(shí)能立即得到響應(yīng),延遲越低越好。另一個(gè)則是后端系統(tǒng)插件,比如源代碼管理系統(tǒng)。這類(lèi)智能體更多是通過(guò)回答幾個(gè)問(wèn)題就把任務(wù)扔過(guò)去,然后盡可能讓智能體獨(dú)立工作一段時(shí)間。
所以,雖然你說(shuō)得對(duì),我們很難在系統(tǒng)定義上劃出一條清晰的界限,但用戶界面方面確實(shí)出現(xiàn)了某種程度的分化。你覺(jué)得這個(gè)說(shuō)法合理嗎?
Yoko:我?guī)缀跤X(jué)得,在我們提到的所有智能體應(yīng)用場(chǎng)景中,它們都有一個(gè)共同的核心要素:推理和決策能力。?如果你只是讓 LLM 把一段文本翻譯成 JSON,那可能不算智能體。但如果你讓 LLM 決定“這段回復(fù)該發(fā)給誰(shuí),并自動(dòng)發(fā)送給對(duì)應(yīng)的人”,這就更像智能體了。它更像是一個(gè)計(jì)劃過(guò)程。我不確定智能體是否需要“規(guī)劃”還是只需要“決策”,也許兩者都需要。我覺(jué)得它更像是一個(gè)多步驟的 LLM 鏈條加上一個(gè)動(dòng)態(tài)的決策樹(shù)。
Guido:是的,動(dòng)態(tài)決策樹(shù)。
Yoko:沒(méi)錯(cuò)。
Matt:我覺(jué)得我們都被這個(gè)問(wèn)題“套住了”。人文學(xué)者喜歡分類(lèi),喜歡在不同類(lèi)型的事物之間做細(xì)微區(qū)分。但我們是計(jì)算機(jī)科學(xué)家,不是那種人。所以我們不太擅長(zhǎng)處理這種介于零和一之間的事情,總是試圖把它歸為其中一種。
當(dāng)然,“智能體”不僅僅是技術(shù),它也正在成為一種產(chǎn)品,這意味著它也需要被營(yíng)銷(xiāo)。一個(gè)人如何定位自己的產(chǎn)品,會(huì)極大影響其定價(jià)策略。更重要的是,大多數(shù)智能體的價(jià)值目前仍不確定,它們能在多大程度上真正取代或僅僅是增強(qiáng)人類(lèi)工作者的能力,仍是未知數(shù)。
Guido:確實(shí)有一個(gè)有趣的點(diǎn),那就是“智能體”確實(shí)有營(yíng)銷(xiāo)的角度。我聽(tīng)過(guò)一些初創(chuàng)公司的說(shuō)法,他們基本上是在說(shuō):“嘿,我們能把自己的軟件定價(jià)更高,因?yàn)樗且粋€(gè)智能體?!庇谑撬麄兛梢愿嬖V客戶:“你可以用這個(gè)智能體代替一個(gè)人工員工。那個(gè)人工員工年薪五萬(wàn)美元,而我們的智能體只要三萬(wàn)?!甭?tīng)起來(lái)很有吸引力。實(shí)際上,早期階段這種對(duì)比定價(jià)對(duì)買(mǎi)家來(lái)說(shuō)確實(shí)容易理解。
但從另一方面看,我們知道產(chǎn)品的價(jià)格最終都會(huì)趨近于邊際生產(chǎn)成本。比如以前我請(qǐng)人翻譯一頁(yè)文字,現(xiàn)在我用 ChatGPT,我根本不會(huì)按原來(lái)的價(jià)格付錢(qián)。我只是支付 API 成本的一小部分,也就是幾分錢(qián)而已。所以我很好奇,這場(chǎng)關(guān)于“智能體”的爭(zhēng)論有多少是由營(yíng)銷(xiāo)和定價(jià)驅(qū)動(dòng)的。
Matt:我覺(jué)得這個(gè)問(wèn)題也很有意思。你們能想到哪些領(lǐng)域已經(jīng)被 AI 或 AI 智能體完全取代了嗎?我提前說(shuō)明一下,我有個(gè)極端的觀點(diǎn),等下再說(shuō)。
Yoko:目前還沒(méi)有完全取代的情況,但肯定有部分替代。例如語(yǔ)音智能體正在逐步取代接待員,或者負(fù)責(zé)回應(yīng)客戶的工作人員。很多傳統(tǒng)由人工完成的任務(wù)已經(jīng)轉(zhuǎn)移給了 AI。但我認(rèn)為它們還沒(méi)達(dá)到 100% 替代的程度。人類(lèi)可以去做其他事情了。我們看到的是,一些崗位的招聘增長(zhǎng)放緩了。也就是說(shuō),不是現(xiàn)有工作被取代,而是新增崗位減少了。
Guido:完全正確。我認(rèn)為在少數(shù)情況下,AI 會(huì)完全取代人類(lèi)。但在大多數(shù)情況下,是兩個(gè)員工變成一個(gè)員工,但這個(gè)員工的效率提高了。
Matt:或者公司可能仍然保留兩名員工,只是讓他們做別的事。
Guido:也可能變成三名員工,因?yàn)樗麄冏兊酶咝Я恕?/p>
Matt:是的。這真是個(gè)很有趣的問(wèn)題。我覺(jué)得它之所以與“智能體”相關(guān),是因?yàn)槿藗冇幸环N錯(cuò)覺(jué),認(rèn)為我們會(huì)創(chuàng)造出真正的人類(lèi)替代品。而“智能體”這個(gè)名字本來(lái)就是用來(lái)稱(chēng)呼人的——在我們沒(méi)有 AI 的時(shí)候,我們就有人叫“智能體”,現(xiàn)在依然有很多人被稱(chēng)為智能體。但事實(shí)上并沒(méi)有發(fā)生這種替代。正如你所說(shuō),Yoko,我們?cè)缇陀锌头詣?dòng)化了,比如 1-800 號(hào)碼,讓你按鍵選擇服務(wù)選項(xiàng)。這種東西早就存在了?,F(xiàn)在的 AI 只是做得更好而已。
翻譯也是一個(gè)很好的例子,Guido。這些系統(tǒng)確實(shí)可以很好地執(zhí)行翻譯任務(wù),但你不太可能直接把一段內(nèi)容丟給 ChatGPT,然后直接發(fā)布到網(wǎng)站上。實(shí)際上還需要做一些后續(xù)工作。我覺(jué)得這是因?yàn)榇蠖鄶?shù)人類(lèi)從事的工作中,其實(shí)都有創(chuàng)造性的成分。我們?cè)诠韫扔袝r(shí)會(huì)忘記這一點(diǎn)——世界各地的人都在做各種各樣的工作,這些工作并不只是“有人必須做”的苦力活,而是需要思考和判斷的工作。我不確定 AI 是否具備我們所理解的“意圖”或“決策能力”。它仍然是一個(gè)需要有人按下按鈕的系統(tǒng)。它可能在后臺(tái)運(yùn)行得很好,但它仍然需要有人給出提示并啟動(dòng)它。這是我眼中造成混淆的核心原因。
我們都覺(jué)得有一天,某個(gè)具有意圖、創(chuàng)造力和思考能力的人類(lèi)會(huì)被 AI 取代。但我懷疑這是否在理論上是可能的。這幾乎是個(gè)悖論:如果說(shuō)一個(gè) AI 是在“自主思考”,那它也一定是某個(gè)人設(shè)計(jì)出來(lái)的。這已經(jīng)進(jìn)入老派科幻小說(shuō)的哲學(xué)范疇了,但我確實(shí)認(rèn)為這是我們當(dāng)前混亂的一個(gè)重要原因。
Yoko:有趣的是,我們現(xiàn)在討論的“智能體”有兩種類(lèi)型。一種是替代或協(xié)助人類(lèi)工作的智能體,另一種是更底層的系統(tǒng)流程智能體,它們彼此協(xié)作,互相傳遞任務(wù)。某種程度上,智能體就像是系統(tǒng)中的技術(shù)細(xì)節(jié)。但我們?cè)谡務(wù)摗爸悄荏w”時(shí),這兩種含義都包括在內(nèi)。
Guido:如果是這樣的話,那“智能體”和“函數(shù)”之間有什么區(qū)別嗎?
Yoko:我認(rèn)為是有區(qū)別的。智能體應(yīng)該是多個(gè)函數(shù)加上中間的 LLM。
Guido:如果我有一個(gè)低級(jí)別的智能體,我給它一個(gè)任務(wù),它返回一個(gè)任務(wù)結(jié)果,那看起來(lái)有點(diǎn)像傳統(tǒng)的 API 調(diào)用。
Yoko:但中間有 LLM 來(lái)決定該做什么 API 調(diào)用。
Guido:明白了。但這不就是函數(shù)內(nèi)部的工作機(jī)制嗎?
Yoko:是的。
Guido:那從外部來(lái)看,我會(huì)在意這個(gè)區(qū)別嗎?
Yoko:你不會(huì)在意。比如我們常說(shuō)的 AI 銷(xiāo)售發(fā)展代表(SDR)智能體,意思就是它可以訪問(wèn) CRM 系統(tǒng),提取數(shù)據(jù)、篩選列表、起草郵件并發(fā)送郵件。這更像是流程級(jí)的操作,而不是人類(lèi)級(jí)別的操作。
Guido:完全正確。
Yoko:是的,這就是我的意思。
Guido:如果你不知道它內(nèi)部是怎么運(yùn)作的,那傳統(tǒng)的函數(shù)和智能體其實(shí)是無(wú)法區(qū)分的。
Yoko:完全同意。但作為程序員,當(dāng)你寫(xiě)一個(gè)函數(shù)時(shí),你會(huì)定義一個(gè)智能體接口。
Guido:明白了。我們稍后再回到定價(jià)問(wèn)題。在此之前,讓我們更深入地討論一下與智能體互動(dòng)的方式與傳統(tǒng)軟件功能有何不同或相似之處。
Matt:關(guān)于這個(gè)問(wèn)題,還有一個(gè)很有趣的點(diǎn)。我完全同意你的看法,Guido,我覺(jué)得你也基本同意。如果你從功能角度來(lái)看,它其實(shí)就是一個(gè)函數(shù)??晒蚕?、可復(fù)用的函數(shù)一直以來(lái)都不是一件容易的事。這是市場(chǎng)中一直嘗試的目標(biāo)之一。人們?cè)M拔铱梢詫?xiě)一個(gè)函數(shù),地球上的任何人都可以使用它”。比如,你可以下載一個(gè)包含多種功能的包,但要單獨(dú)分享一個(gè)函數(shù)卻很難做到。
但現(xiàn)在有了 AI,這種想法某種程度上實(shí)現(xiàn)了。因?yàn)槟憧梢韵螺d別人訓(xùn)練好的模型,微調(diào)它,訓(xùn)練 LoRA,然后打包上傳到 HuggingFace 等平臺(tái),供其他人使用。雖然是否使用 LLM 是一個(gè)實(shí)現(xiàn)細(xì)節(jié),但模型本身占據(jù)了函數(shù)的大部分功能,這是一種與傳統(tǒng)代碼截然不同的“動(dòng)物”。它天生具有一定的共享性,因?yàn)闆](méi)人每次寫(xiě)代碼都要重新訓(xùn)練模型。當(dāng)然,它也有一些缺點(diǎn),比如體積大、部署難等等。但我認(rèn)為,未來(lái)我們會(huì)圍繞這種新型功能構(gòu)建新的基礎(chǔ)設(shè)施和開(kāi)發(fā)工具。
Guido:這很有道理?;叵脒^(guò)去,上一次我們發(fā)明了一個(gè)重要的新組件來(lái)構(gòu)建系統(tǒng),可能是網(wǎng)絡(luò)技術(shù)。當(dāng)時(shí)我們對(duì)“調(diào)用函數(shù)”的理解發(fā)生了巨大變化。
Matt:完全正確。
Guido:API 的復(fù)雜性和圍繞它的基礎(chǔ)設(shè)施今天完全不同了。
Yoko:這真是個(gè)很棒的觀點(diǎn)?,F(xiàn)在想想,我覺(jué)得人類(lèi)其實(shí)也可以看作是一種函數(shù)。如果你做一個(gè)思想實(shí)驗(yàn),把程序中的 LLM 替換成人類(lèi),你會(huì)發(fā)現(xiàn)它給程序帶來(lái)的輸出其實(shí)和 LLM 差不多。
Matt:如果有一天我們都接入服務(wù)器,可以像 Lambda 函數(shù)一樣被調(diào)用,那我才同意“智能體”真的誕生了。那才是真正的智能體。
Guido:那 Mechanical Turk 不就是這樣的嗎?或者甚至你的收件箱?
Matt:是的,聽(tīng)起來(lái)像個(gè)智能體。
Yoko:我記得亞馬遜幾年前在舊金山開(kāi)了一家 Amazon Go 超市,宣傳說(shuō)是背后的計(jì)算機(jī)視覺(jué)模型識(shí)別顧客拿走了什么商品。但后來(lái)人們發(fā)現(xiàn)他們其實(shí)雇傭了很多人在后臺(tái)實(shí)時(shí)標(biāo)注數(shù)據(jù)。所以在那個(gè)案例中,人類(lèi)就是……
Guido:秘密智能體。
Yoko:沒(méi)錯(cuò),如今可能已被 LLM 取代了。
Matt:這正是我想說(shuō)的。即使是超市收銀員這樣的工作,你以為很簡(jiǎn)單,其實(shí)并不簡(jiǎn)單。你可以用自動(dòng)化來(lái)壓縮這部分工作量,但它永遠(yuǎn)不會(huì)完全消失。
Yoko:是的,完全同意。好了,既然如此,企業(yè)應(yīng)該如何為他們的智能體定價(jià)呢?按使用人數(shù)、按 token、還是按任務(wù)?提示:現(xiàn)在下結(jié)論可能還太早。
Guido:一般來(lái)說(shuō),當(dāng)你推出一個(gè)全新的產(chǎn)品類(lèi)別時(shí),最初的定價(jià)往往是參照現(xiàn)狀來(lái)的。你要么替代,要么增強(qiáng)某些原有功能。假設(shè)我們真的能直接替代一個(gè)人類(lèi),那就可以按照“這個(gè)人年薪多少”來(lái)定價(jià)。但隨著時(shí)間推移,競(jìng)爭(zhēng)加劇,價(jià)格會(huì)逐漸向邊際成本靠攏。這取決于很多因素,比如你是否有護(hù)城河、客戶是否鎖定等等。長(zhǎng)遠(yuǎn)來(lái)看,大多數(shù)智能體的成本都很低,尤其是僅依賴(lài)幾個(gè) LLM 調(diào)用就能運(yùn)行的智能體,而且成本還在不斷下降。
Matt:我甚至認(rèn)為這已經(jīng)在發(fā)生了。大多數(shù) AI 應(yīng)用,特別是我們稱(chēng)之為 AI 智能體應(yīng)用的,它們的銷(xiāo)售話術(shù)通常是“你應(yīng)該付我們 X 元,因?yàn)槲覀儙湍闶∠铝?Y 元”。這是一種經(jīng)典的 ROI(投資回報(bào)率)計(jì)算方式。
Guido:建立價(jià)值對(duì)吧。
Matt:是的,價(jià)值定價(jià)。但現(xiàn)實(shí)中,大多數(shù)買(mǎi)家其實(shí)很清楚幕后發(fā)生了什么。他們知道這些東西其實(shí)很簡(jiǎn)單。所以他們會(huì)問(wèn):“運(yùn)行這些 GPU 成本是多少?我們?cè)敢鉃榇酥Ц兑稽c(diǎn)溢價(jià)?!蔽艺J(rèn)為現(xiàn)在很多供應(yīng)商就是這樣定價(jià)的。
Guido:從長(zhǎng)遠(yuǎn)來(lái)看,你期望獲得健康的利潤(rùn)率,就像 SaaS 一樣,歷史上 SaaS 的利潤(rùn)率一直很高。
Yoko:挺有意思的,我們總是建議公司不要基于成本定價(jià),而是基于你為客戶創(chuàng)造了多少價(jià)值。這可能是相對(duì)于市場(chǎng)上其他供應(yīng)商,或者是相對(duì)于自建系統(tǒng)的成本。傳統(tǒng)上,基礎(chǔ)設(shè)施服務(wù)如果是給人用的,通常是按座位收費(fèi);如果是機(jī)器之間的服務(wù),則是按使用量計(jì)費(fèi)。但我不知道“智能體”應(yīng)該放在哪一類(lèi)。
Guido:它可能既可以被人使用,也可以被智能體使用。
Yoko:沒(méi)錯(cuò)。
Matt:我覺(jué)得你的分析是對(duì)的。現(xiàn)實(shí)是大多數(shù) AI 公司還不清楚自己到底創(chuàng)造了什么價(jià)值。這個(gè)行業(yè)太新了,大家還在摸索。比如 OpenAI,他們已經(jīng)有幾百萬(wàn)用戶了,但很可能不清楚這些用戶到底在用它做什么。一旦他們搞清楚了——你現(xiàn)在可以看到他們?cè)诖怪鳖I(lǐng)域發(fā)力,推出針對(duì)特定場(chǎng)景的產(chǎn)品,比如代碼生成——那時(shí)定價(jià)才會(huì)真正跟上來(lái)。
Yoko:這讓我想起你提到的 OpenAI 的例子。我在想 AI 伴侶,因?yàn)槟鞘亲罱咏鞍词褂萌藬?shù)收費(fèi)”的人類(lèi)應(yīng)用場(chǎng)景。你不可能因?yàn)槟愫湍愕?AI 伴侶說(shuō)了多少句話就收費(fèi)。雖然有些基礎(chǔ)模型……
Matt:確實(shí)有一些服務(wù)是按響應(yīng)次數(shù)收費(fèi)的,我沒(méi)用過(guò),但它們確實(shí)存在。
Yoko:哦?哇。所以一般不會(huì)按“你和 AI 伴侶聊了多少句”來(lái)收費(fèi),通常都是按月訂閱制。
Guido:如果每次說(shuō)話都要收費(fèi),感覺(jué)就不像真朋友了,對(duì)吧?
Yoko:沒(méi)錯(cuò),那太交易化了。
Matt:這些都是理論上的討論。人們喜歡坐在一起暢談:“我們要按人數(shù)、按任務(wù)、按拯救的世界經(jīng)濟(jì)來(lái)收費(fèi)!”但實(shí)際上這些定價(jià)都是拍腦袋想出來(lái)的。Guido 說(shuō)得對(duì),我們應(yīng)該先看看我們所謂的“智能體”背后的技術(shù)是什么,在哪里部署,為什么部署。定價(jià)、營(yíng)銷(xiāo)、銷(xiāo)售策略,這些都會(huì)隨之而來(lái),取決于你實(shí)際在賣(mài)什么。
如果你現(xiàn)在賣(mài)的東西看起來(lái)像智能體,但你還沒(méi)搞清楚它到底為用戶創(chuàng)造了什么價(jià)值,那你將來(lái)怎么證明自己有資格漲價(jià)?
Matt:你需要賣(mài)的是一個(gè)解決方案,而不是一個(gè)產(chǎn)品。這在企業(yè)市場(chǎng)的打法中是非常成熟的思路。代碼就是一個(gè)例子,現(xiàn)在它的價(jià)格已經(jīng)脫離了底層技術(shù),因?yàn)樗_實(shí)有效,ROI 很清晰。作為一個(gè)工程 VP 或 CTO,你可以明確地說(shuō):“我節(jié)省了很多成本,團(tuán)隊(duì)效率提升了?!蹦憧梢宰龀稣5?ROI 分析。
Guido:而且員工也會(huì)更開(kāi)心。
Matt:是的。你買(mǎi)的是一個(gè)解決方案,一個(gè)能解決你問(wèn)題的產(chǎn)品。微軟、甲骨文、Salesforce 的做法一直都是如此。一旦我們看到更多這樣的案例,這些產(chǎn)品才會(huì)真正成為商業(yè)實(shí)體,定價(jià)也會(huì)變得像傳統(tǒng)企業(yè)那樣穩(wěn)定。
Yoko:我認(rèn)為這取決于高層應(yīng)用。舉個(gè)例子,我玩 Pokémon GO。當(dāng)你收集了足夠的寶可夢(mèng),但背包滿了之后,你就得花錢(qián)買(mǎi)一個(gè)新的虛擬背包。作為一名基礎(chǔ)設(shè)施投資者,我投資存儲(chǔ)業(yè)務(wù),當(dāng)我看到為額外 30 個(gè)寶可夢(mèng)空間付費(fèi)的價(jià)格時(shí),發(fā)現(xiàn)它比真實(shí)的存儲(chǔ)成本貴了幾千倍。這讓我意識(shí)到……
Guido:我驚訝它只貴了幾千倍。
Yoko:是的,只貴了幾千倍。
Guido:我以為是 10^15 倍。
Yoko:沒(méi)想到吧,寶可夢(mèng)存儲(chǔ)居然有一整條價(jià)格曲線。其實(shí)這背后有兩個(gè)原因:一是壟斷,二是應(yīng)用場(chǎng)景不同。普通玩家不會(huì)去想“存儲(chǔ)到底多少錢(qián)”,他們只關(guān)心“為了這個(gè)游戲值不值得花這個(gè)錢(qián)?”對(duì)他們來(lái)說(shuō),只要好玩,多花一百美元也沒(méi)關(guān)系。
Matt:是的,這正是我要說(shuō)的。隱含的意思是,這個(gè)產(chǎn)品或解決方案必須對(duì)他們有用,對(duì)非技術(shù)人員來(lái)說(shuō),他們不會(huì)去自己搭建一個(gè) S3 存儲(chǔ)桶來(lái)自托管寶可夢(mèng)。
Guido:是的,尤其是寶可夢(mèng)。
Yoko:而且這個(gè)差異化是可以防守的,因?yàn)?Pokémon GO 不是開(kāi)源的,也沒(méi)有替代品。只有一個(gè)地方你能買(mǎi)到寶可夢(mèng)存儲(chǔ)。
Guido:再加上強(qiáng)大的品牌效應(yīng),還有社交網(wǎng)絡(luò)效應(yīng),你可以和朋友一起玩。
Yoko:是的。我相信未來(lái)我們會(huì)看到 AI 智能體版本的這種現(xiàn)象,比如為 AI 伴侶的衣柜付費(fèi)存儲(chǔ)。
隨著 AI 市場(chǎng)的發(fā)展和演變,“智能體”的能力最終會(huì)落在哪里?比如,它們是集成在 LLM 中,還是必須調(diào)用外部工具?誰(shuí)最有能力影響這個(gè)發(fā)展方向?
Guido:這是一個(gè)非常有趣的問(wèn)題。從系統(tǒng)架構(gòu)的角度來(lái)看,我認(rèn)為智能體的構(gòu)建方式與今天的 SaaS 軟件沒(méi)有太大區(qū)別。讓我解釋一下。在一個(gè)智能體中,我們通常有一個(gè) LLM 加上提示詞組成的循環(huán)結(jié)構(gòu),并結(jié)合外部工具的使用。LLM 本身由于高度專(zhuān)業(yè)化,需要龐大的 GPU 集群支持,因此通常需要獨(dú)立部署。狀態(tài)管理方面,今天我們?cè)?SaaS 中都是通過(guò)數(shù)據(jù)庫(kù)等外部系統(tǒng)來(lái)處理的,因此也應(yīng)該外部化。剩下的邏輯其實(shí)非常輕量,主要是從數(shù)據(jù)庫(kù)中檢索上下文、組裝提示詞、運(yùn)行提示詞,并偶爾調(diào)用工具。這些核心邏輯可以在一臺(tái)服務(wù)器上運(yùn)行大量的智能體實(shí)例,不需要太多的計(jì)算資源。這個(gè)思路對(duì)嗎?
Matt:是的,我完全同意。對(duì)我而言,一個(gè)有趣的架構(gòu)問(wèn)題是,如何處理 LLM 輸出的不確定性。許多我們常用和喜愛(ài)的 AI 應(yīng)用,比如聊天機(jī)器人或圖像生成器,它們只是把模型的輸出返回給用戶。但當(dāng)你試圖將 LLM 的輸出整合進(jìn)程序的控制流中時(shí),這其實(shí)是一個(gè)非常難解決的問(wèn)題。雖然目前架構(gòu)差異不大,但未來(lái)可能會(huì)引發(fā)更深遠(yuǎn)的變化。
Yoko:我認(rèn)為贏家將是那些在基礎(chǔ)模型之上進(jìn)行定制和優(yōu)化的專(zhuān)家,而不是基礎(chǔ)模型本身。比如我在過(guò)去兩周一直在用 GPT-4o 的圖像模型生成漫畫(huà)風(fēng)格圖片。它在吉卜力風(fēng)和日本漫畫(huà)方面表現(xiàn)很好,但也就只會(huì)幾種風(fēng)格。藝術(shù)界喜歡的是“分布之外”的作品,大家都想看到不一樣的東西。印象派剛出現(xiàn)時(shí),其他畫(huà)家都說(shuō):“你的眼睛有問(wèn)題嗎?為什么要畫(huà)模糊的畫(huà)?”風(fēng)格在變,但正因?yàn)槿绱?,推?dòng)分布的責(zé)任在于人類(lèi)和新一代專(zhuān)家,他們要用新的數(shù)據(jù)、新的工作流、新的美學(xué)來(lái)拓展邊界。
Guido:沒(méi)錯(cuò),基礎(chǔ)模型永遠(yuǎn)不可能覆蓋全部需求。
當(dāng)然,歸根結(jié)底,智能體的實(shí)用性取決于它們能訪問(wèn)的工具和數(shù)據(jù)。如果主要的網(wǎng)絡(luò)平臺(tái)決定限制智能體訪問(wèn)數(shù)據(jù),會(huì)發(fā)生什么?
Guido:目前智能體面臨的一大難題是數(shù)據(jù)壁壘。有些是因?yàn)榧夹g(shù)限制,比如你想訪問(wèn)某個(gè)數(shù)據(jù),但系統(tǒng)難以集成。有些則是人為設(shè)置的壁壘,比如 iPhone 的照片數(shù)據(jù)沒(méi)有開(kāi)放 API,因?yàn)樗且粋€(gè)封閉生態(tài)系統(tǒng)。
Matt:也就是數(shù)據(jù)孤島。
Guido:是的。這會(huì)不會(huì)阻礙智能體的發(fā)展?或者說(shuō),消費(fèi)者公司往往不愿意提供對(duì)其服務(wù)的自動(dòng)化訪問(wèn),因?yàn)樗麄兿胍脩舻淖⒁饬?,以便投放廣告。這是否會(huì)限制智能體的部署?
Yoko:如果未來(lái)瀏覽器原生支持智能體,可以直接瀏覽網(wǎng)頁(yè),情況會(huì)不會(huì)改變?
Guido:這是個(gè)好問(wèn)題,是的。
Matt:Yoko 說(shuō)得對(duì)。掌握數(shù)據(jù)的人往往有強(qiáng)烈的動(dòng)機(jī)保留數(shù)據(jù),因?yàn)樗麄兒ε?AI 會(huì)對(duì)他們?cè)斐捎绊?。他們緊緊抓住手頭的資產(chǎn)。這些問(wèn)題很少能通過(guò)制定新協(xié)議來(lái)解決。但總有人會(huì)想辦法說(shuō):“如果你的數(shù)據(jù)是公開(kāi)可見(jiàn)的,我們就要獲取它?!碑吘?,那數(shù)據(jù)本來(lái)就不是你的,而是關(guān)于我的數(shù)據(jù),憑什么你來(lái)保管?
Yoko:我也覺(jué)得模型的新進(jìn)展可能會(huì)打破數(shù)據(jù)壁壘。目前智能體瀏覽網(wǎng)頁(yè)的效果很差,速度慢、體驗(yàn)差,需要多次嘗試才能完成一個(gè)任務(wù)。但想象一下,如果基礎(chǔ)模型具備這樣的能力:智能體可以登錄任意網(wǎng)站,像人類(lèi)一樣操作,或者 SSH 登錄服務(wù)器執(zhí)行命令,甚至為移動(dòng)設(shè)備啟動(dòng)虛擬機(jī)、訪問(wèn)設(shè)備農(nóng)場(chǎng)來(lái)玩 Pokémon GO。那原本只能由人類(lèi)訪問(wèn)的數(shù)據(jù),可能也將對(duì)智能體開(kāi)放。
Guido:也有可能出現(xiàn)相反的趨勢(shì):很多消費(fèi)級(jí)網(wǎng)站正在采用越來(lái)越高級(jí)的驗(yàn)證碼技術(shù),來(lái)阻止 AI 智能體的自動(dòng)化訪問(wèn)。防止智能體訪問(wèn),因?yàn)樗鼈冎幌胛祟?lèi)注意力。我最近試用了一個(gè)深度研究工具,它用的是某個(gè)主流 LLM。其中一個(gè)步驟就是繞過(guò)某個(gè)網(wǎng)站的驗(yàn)證碼機(jī)制。它甚至知道自己想要的信息被阻擋了,還進(jìn)行了推理。這未免有點(diǎn)太反烏托邦了吧?
Matt:它成功了嗎?
Guido:成功了。
Matt:這真是個(gè)很有趣的例子。還記得 Gmail 剛引入廣告時(shí)的爭(zhēng)議嗎?當(dāng)時(shí)他們說(shuō):“我們不會(huì)讀你的郵件,但我們的算法會(huì)讀,并據(jù)此推薦廣告?!蔽覀兒髞?lái)慢慢接受了這個(gè)事實(shí)。但有些數(shù)據(jù)持有者反應(yīng)強(qiáng)烈,比如亞馬遜后來(lái)改發(fā)確認(rèn)郵件時(shí)不再附帶訂單詳情,而是讓用戶點(diǎn)擊鏈接查看。這說(shuō)明數(shù)據(jù)持有者確實(shí)找到了方法來(lái)限制數(shù)據(jù)的外泄?,F(xiàn)在這種情況還會(huì)發(fā)生嗎?
Yoko:但同樣的數(shù)據(jù)可能還是能通過(guò)客戶端安裝的廣告網(wǎng)絡(luò)爬取到。
Matt:沒(méi)錯(cuò),總有其他途徑,雖然可能不是完全一樣的數(shù)據(jù),但已經(jīng)足夠接近了。
Guido:也許未來(lái)我們很難區(qū)分一個(gè) LLM 和一個(gè)人類(lèi)之間的行為,這可能改變游戲規(guī)則。
最后,Guido、Matt 和 Yoko 回答了一個(gè)顯而易見(jiàn)的問(wèn)題:在我們能看到的最長(zhǎng)時(shí)間范圍內(nèi),為了讓智能體成為一個(gè)真正具有變革性的創(chuàng)新,我們需要實(shí)現(xiàn)哪些目標(biāo)?
Guido:我的樂(lè)觀設(shè)想是,在兩年內(nèi),我們能讓智能體代表我使用我所能訪問(wèn)的幾乎所有工具。當(dāng)然我們也清楚,目前還有幾個(gè)關(guān)鍵技術(shù)尚未突破:智能體的安全性、身份驗(yàn)證、訪問(wèn)控制、數(shù)據(jù)保留機(jī)制、以及如何應(yīng)對(duì)那些試圖阻止智能體訪問(wèn)的消費(fèi)類(lèi)網(wǎng)站。如果解決了這些問(wèn)題,智能體將極大地簡(jiǎn)化許多任務(wù)。比如我現(xiàn)在 Google Drive 上的數(shù)據(jù),如果智能體能自動(dòng)理解和處理這些數(shù)據(jù),而不是分散在多個(gè)碎片化的來(lái)源中,那將會(huì)大大提高效率。這就是我對(duì)智能體未來(lái)的積極預(yù)期:它能代表你訪問(wèn)所有你能訪問(wèn)的數(shù)據(jù),并為你執(zhí)行任務(wù),節(jié)省大量時(shí)間,讓你的生產(chǎn)力提升數(shù)倍。
Yoko:我的看法略有不同。我認(rèn)為關(guān)鍵在于基礎(chǔ)模型的多模態(tài)能力。目前它還是以文本為主,這對(duì)編碼和文本任務(wù)非常有效。但對(duì)于視覺(jué)優(yōu)先的任務(wù),還沒(méi)有一對(duì)一的映射。即使是瀏覽網(wǎng)頁(yè),現(xiàn)在也只能通過(guò)每幾秒截圖再傳給模型的方式,體驗(yàn)非常糟糕。所以我看好多模態(tài)模型的發(fā)展。如果我們能訓(xùn)練模型學(xué)習(xí)點(diǎn)擊網(wǎng)頁(yè)按鈕、瀏覽網(wǎng)頁(yè)、使用設(shè)備、繪圖、制作矢量圖等多種行為,那么智能體將解鎖前所未有的能力。
Matt:你們大概猜得到我的答案。如果兩年或五年后我們不再使用“智能體”這個(gè)詞,那將是一個(gè)巨大的勝利。哥倫比亞大學(xué)的一些研究人員發(fā)表了一篇有趣的論文,叫做《AI as Normal Technology》,他們指出,社會(huì)對(duì) AI 的認(rèn)知存在一個(gè)錯(cuò)誤的二元對(duì)立:要么 AI 帶來(lái)烏托邦,要么帶來(lái)末日。但實(shí)際上,我們應(yīng)該把它當(dāng)作像水、電、互聯(lián)網(wǎng)一樣的正常技術(shù)來(lái)看待。智能體只是幫助我們實(shí)現(xiàn)這一目標(biāo)的一種方式。我認(rèn)為這才是我們前進(jìn)的方向。這些技術(shù)非常強(qiáng)大,我們已經(jīng)知道如何使用它,也了解它的應(yīng)用場(chǎng)景。接下來(lái)就是如何讓它為我們所用。
掃碼關(guān)注我們