作者 | ?程茜,編輯 | ?漠影
數(shù)據(jù)角色被重塑,產(chǎn)業(yè)亟需深度融合AI能力的新型數(shù)據(jù)底座。
生成式AI時(shí)代究竟該如何構(gòu)建數(shù)據(jù)庫(kù)?智東西5月20日?qǐng)?bào)道,剛剛過(guò)去的周六,OceanBase 2025開(kāi)發(fā)者大會(huì)上,我們找到了這家數(shù)據(jù)庫(kù)廠(chǎng)商的答案——一體化數(shù)據(jù)底座。OceanBase CEO楊冰說(shuō):“一體化數(shù)據(jù)底座指的是希望通過(guò)一體化產(chǎn)品、一體化引擎,同時(shí)處理OLTP、OLAP以及AI的混合負(fù)載?!彼麄兿胍罱K解決的難題就是AI的大爆發(fā)時(shí)代,數(shù)據(jù)庫(kù)應(yīng)當(dāng)如何更好地存儲(chǔ)、處理數(shù)據(jù),從而更好地適應(yīng)新時(shí)代需要,謀求更長(zhǎng)遠(yuǎn)發(fā)展。
當(dāng)下,企業(yè)的數(shù)據(jù)存儲(chǔ)與處理正面臨前所未有的挑戰(zhàn)。一方面,大模型訓(xùn)練、實(shí)時(shí)推理等場(chǎng)景產(chǎn)生的海量異構(gòu)數(shù)據(jù),要求存儲(chǔ)系統(tǒng)具備極高的容量彈性與跨模態(tài)管理能力;另一方面,數(shù)據(jù)處理需兼顧事務(wù)處理的實(shí)時(shí)性、分析決策的高效性及AI任務(wù)的復(fù)雜計(jì)算需求。然而,傳統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施與生成式AI下的數(shù)據(jù)需求割裂,產(chǎn)業(yè)亟需能整合多模態(tài)數(shù)據(jù)處理、海量數(shù)據(jù)處理等特征,并深度融合AI能力的新型數(shù)據(jù)底座。在此背景下,國(guó)產(chǎn)數(shù)據(jù)庫(kù)的主力玩家OceanBase,已經(jīng)在數(shù)據(jù)庫(kù)轉(zhuǎn)型之路上率先突圍:宣布全面擁抱AI,打造“Data×AI”核心能力、啟動(dòng)人才和組織體系升級(jí),并圍繞一體化數(shù)據(jù)底座為核心發(fā)布首款面向AI的應(yīng)用產(chǎn)品PowerRAG。
開(kāi)發(fā)者大會(huì)同天,智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝進(jìn)行了深入交流,試圖探尋這家數(shù)據(jù)庫(kù)主力廠(chǎng)商在AI時(shí)代的核心競(jìng)爭(zhēng)力。
01.從Data Infra向Data×AI Infra躍遷數(shù)據(jù)在AI時(shí)代的角色將如何重塑?
數(shù)據(jù)的特征會(huì)直接影響模型的性能、泛化能力和應(yīng)用效果,但伴隨著AI的發(fā)展,數(shù)據(jù)衍生出一系列亟待突破的全新挑戰(zhàn)。螞蟻集團(tuán)CTO何征宇提到了四大挑戰(zhàn)。作為大模型訓(xùn)練基石的互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)即將枯竭,未來(lái)獲取高質(zhì)量數(shù)據(jù)的成本將逐步攀升。嚴(yán)謹(jǐn)?shù)男袠I(yè)數(shù)據(jù)稀缺且流動(dòng)困難,存在三重特征:數(shù)字化進(jìn)程滯后、數(shù)據(jù)質(zhì)量要求嚴(yán)苛、核心數(shù)字化知識(shí)沉淀不足。
多模態(tài)數(shù)據(jù)需要更強(qiáng)處理能力。未來(lái)越來(lái)越多的數(shù)據(jù)需要包含視覺(jué)、觸覺(jué)、本體感覺(jué)和音頻等諸多信息。數(shù)據(jù)的質(zhì)量評(píng)估難。評(píng)估的質(zhì)量決定模型質(zhì)量,但現(xiàn)有數(shù)據(jù)與模型質(zhì)量評(píng)估方式,難以指導(dǎo)大模型訓(xùn)練擺脫“訓(xùn)模如煉丹”的窘境。對(duì)于數(shù)據(jù)的重要性,何征宇一針見(jiàn)血指出:“數(shù)據(jù)的邊界決定了大模型的能力上限,所有的數(shù)據(jù)公司都將成為AI公司?!迸c此同時(shí),數(shù)據(jù)量的增長(zhǎng)仍在突飛猛進(jìn)。IDC預(yù)測(cè)到2028年,受生成式AI等技術(shù)驅(qū)動(dòng),全球新生成數(shù)據(jù)量規(guī)模將達(dá)到393.9ZB,其中企業(yè)數(shù)據(jù)規(guī)模和增速尤為凸顯,全球企業(yè)級(jí)數(shù)據(jù)的數(shù)據(jù)量較2023年整體增長(zhǎng)在400%以上。
可以看到,數(shù)據(jù)在AI時(shí)代的角色正在被重塑。正如楊冰所說(shuō),如今數(shù)據(jù)基礎(chǔ)設(shè)施不僅要實(shí)現(xiàn)“物理變化”,如支撐海量數(shù)據(jù)存儲(chǔ)、可擴(kuò)展性等突破存儲(chǔ)、計(jì)算的瓶頸,還要發(fā)生“化學(xué)變化”,如支持知識(shí)的學(xué)習(xí)、獲取,支持應(yīng)用的推理以及決策。因此,AI正驅(qū)動(dòng)數(shù)據(jù)基礎(chǔ)設(shè)施Data Infra向“數(shù)據(jù)×AI”的融合架構(gòu)Data×AI Infra躍遷。在生成式AI應(yīng)用爆發(fā)之際,傳統(tǒng)的數(shù)據(jù)基礎(chǔ)設(shè)施的轉(zhuǎn)型顯得更為急迫。IDC軟件市場(chǎng)研究經(jīng)理李凌霄提到,數(shù)據(jù)基礎(chǔ)設(shè)施目前的負(fù)載割裂、云環(huán)境割裂、多模態(tài)割裂、技術(shù)債務(wù)正阻礙生成式AI落地。
傳統(tǒng)TP+AP環(huán)境會(huì)造成長(zhǎng)數(shù)據(jù)鏈條資源消耗、負(fù)載需求,無(wú)法在生成式AI場(chǎng)景下?lián)碛袑?shí)時(shí)支撐能力以及充分的計(jì)算資源;同時(shí)企業(yè)在不同云平臺(tái)間的數(shù)據(jù)交互、加工、治理割裂;傳統(tǒng)場(chǎng)景下專(zhuān)庫(kù)專(zhuān)用的架構(gòu)做異構(gòu)數(shù)據(jù)間聯(lián)合查詢(xún)時(shí),會(huì)造成性能消耗和響應(yīng)延遲;企業(yè)需要在生成式AI時(shí)代,保持、延續(xù)其此前基礎(chǔ)設(shè)施架構(gòu)的完整。其中,2023年隨著大模型發(fā)展而爆發(fā)的向量數(shù)據(jù)庫(kù),曾因擅長(zhǎng)處理非結(jié)構(gòu)化數(shù)據(jù)被視為企業(yè)最大化發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵工具,但如今其難以獨(dú)立解決復(fù)雜業(yè)務(wù)問(wèn)題的弊端愈發(fā)凸顯。
諸多企業(yè)實(shí)現(xiàn)向量融合的方式是在現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施之上融合向量插件,很少會(huì)選擇獨(dú)立部署。楊傳輝提到,向量數(shù)據(jù)庫(kù)是一個(gè)臨時(shí)態(tài),因?yàn)橛脩?hù)在查詢(xún)時(shí)往往會(huì)涉及向量、標(biāo)量等混合數(shù)據(jù),獨(dú)立的向量數(shù)據(jù)庫(kù)未來(lái)會(huì)被替代。在大模型落地行至關(guān)鍵機(jī)遇期,數(shù)據(jù)和大模型能力如何融合,成為數(shù)據(jù)庫(kù)領(lǐng)域企業(yè)決勝AI時(shí)代的核心競(jìng)爭(zhēng)力分水嶺。深耕數(shù)據(jù)庫(kù)領(lǐng)域的OceanBase已經(jīng)先行一步,開(kāi)始探索構(gòu)建適配AI時(shí)代的數(shù)據(jù)底座新范式。
02.兩大思路加速一體化數(shù)據(jù)庫(kù)轉(zhuǎn)型首發(fā)AI產(chǎn)品PowerRAG
擁抱AI已經(jīng)成為千行百業(yè)共識(shí),一貫秉持穩(wěn)扎穩(wěn)打理念的OceanBase于今年4月底,宣布全面進(jìn)入AI時(shí)代。彼時(shí),OceanBase CEO楊冰發(fā)布全員信,宣布要打造“Data×AI”核心能力,加速打造AI時(shí)代數(shù)據(jù)底座。具體來(lái)看,OceanBase的Data×AI戰(zhàn)略的關(guān)鍵是要實(shí)現(xiàn)數(shù)據(jù)與AI的融合,而一體化數(shù)據(jù)底座就是一體化數(shù)據(jù)庫(kù)的延伸,其核心仍然是能不能做好數(shù)據(jù)處理。
其背后的考量一直是以用戶(hù)需求出發(fā)。AI時(shí)代對(duì)于數(shù)據(jù)處理的兩個(gè)顯著需求是:高質(zhì)量、海量數(shù)據(jù)以及混合負(fù)載。楊傳輝說(shuō),AI應(yīng)用出現(xiàn)使得工作負(fù)載邊界逐漸模糊,其無(wú)法嚴(yán)格區(qū)分向量、標(biāo)量數(shù)據(jù),開(kāi)發(fā)者的需求也隨之變化:他們希望在一套引擎里直接通過(guò)一條SQL處理所有工作負(fù)載。這恰恰是OceanBase的核心優(yōu)勢(shì)所在。OceanBase除了能夠支持OLTP和OLAP傳統(tǒng)數(shù)據(jù)庫(kù)工作負(fù)載,還能支持AI領(lǐng)域工作負(fù)載,如半結(jié)構(gòu)化數(shù)據(jù)JSON處理、向量數(shù)據(jù)庫(kù)、混合檢索以及RAG能力等。從宏觀(guān)角度來(lái)看,這些技術(shù)積淀為數(shù)據(jù)與模型的一體化融合提供了基礎(chǔ),成為大模型落地產(chǎn)生價(jià)值的關(guān)鍵所在。
還是從需求出發(fā),數(shù)據(jù)和模型實(shí)現(xiàn)融合需要解決的有兩大問(wèn)題:數(shù)據(jù)處理和模型本身的準(zhǔn)確性、成本、行業(yè)適配性等。在此基礎(chǔ)上,OceanBase進(jìn)一步將打造“Data×AI”核心能力細(xì)化為兩方面工作:一方面是要將數(shù)據(jù)融入模型里,希望通過(guò)提高數(shù)據(jù)質(zhì)量、結(jié)構(gòu)化程度,提升模型準(zhǔn)確度、推理效率,讓小模型也能有大效果,同時(shí)降低推理成本;另一方面是希望將AI原生集成到數(shù)據(jù)庫(kù)中,楊傳輝闡述說(shuō)這有兩種融合方式,一是較為直觀(guān)的在數(shù)據(jù)庫(kù)里通過(guò)類(lèi)似AI function方式直接集成大模型能力,另一種是實(shí)現(xiàn)SQL+AI的混合計(jì)算,分析、問(wèn)答一體完成,這樣的融合需要較長(zhǎng)的時(shí)間來(lái)實(shí)現(xiàn)。關(guān)于一體化數(shù)據(jù)底座布局的考量,OceanBase在產(chǎn)品層面首發(fā)了面向AI的應(yīng)用產(chǎn)品PowerRAG,為開(kāi)發(fā)者打造AI驅(qū)動(dòng)的開(kāi)箱即用RAG服務(wù)。楊傳輝說(shuō),他們首要解決的是“能用”問(wèn)題,通過(guò)RAG方式提升大模型準(zhǔn)確率,再逐步從“可用”推進(jìn)到“好用”,使得AI應(yīng)用走向?qū)嶋H生產(chǎn)場(chǎng)景。
傳統(tǒng)的搭建RAG服務(wù)方案存在開(kāi)發(fā)周期長(zhǎng)、維護(hù)成本高、灰箱調(diào)試?yán)щy、性能難以?xún)?yōu)化等問(wèn)題。打通應(yīng)用開(kāi)發(fā)數(shù)據(jù)層、平臺(tái)層、接口層與應(yīng)用層全流程的PowerRAG,可以提供Document(文檔)和 Chat(對(duì)話(huà))兩個(gè)核心API接口,使得用戶(hù)可以快速實(shí)現(xiàn)文檔知識(shí)庫(kù)、智能對(duì)話(huà)、圖像比對(duì)、數(shù)據(jù)分析等多種AI應(yīng)用場(chǎng)景的開(kāi)發(fā)。這只是OceanBase在應(yīng)用層面探索的第一步。未來(lái),OceanBase將逐漸形成從算力、基礎(chǔ)設(shè)施,到平臺(tái)層、應(yīng)用層、交付形態(tài)的一體化數(shù)據(jù)底座全方位布局。
03.15年積淀企業(yè)級(jí)分布式數(shù)據(jù)庫(kù)能力已打下基礎(chǔ)
這個(gè)勢(shì)頭正猛的國(guó)產(chǎn)數(shù)據(jù)庫(kù)主力,經(jīng)過(guò)15年的磨礪,已經(jīng)淬煉出獨(dú)特的Data×AI Infra方法論,構(gòu)建起智能時(shí)代的核心競(jìng)爭(zhēng)力。成立自2010年的OceanBase,是螞蟻集團(tuán)100%自研的原生分布式數(shù)據(jù)庫(kù),目前支持支付寶全部核心賬務(wù)、核心支付系統(tǒng),連續(xù)十余年穩(wěn)定支撐雙十一的高并發(fā)場(chǎng)景。如今OceanBase取得的成績(jī)可以用這幾個(gè)數(shù)據(jù)加以概括:IDC發(fā)布的《2024年上半年中國(guó)分布式事務(wù)數(shù)據(jù)庫(kù)軟件市場(chǎng)跟蹤報(bào)告》顯示,OceanBase占據(jù)獨(dú)立數(shù)據(jù)庫(kù)市場(chǎng)份額第一、市場(chǎng)整體第四;楊冰透露,目前OceanBase社區(qū)已經(jīng)擁有超2.5萬(wàn)名開(kāi)發(fā)者,突破100萬(wàn)下載次數(shù)、可統(tǒng)計(jì)的開(kāi)源集群數(shù)超5萬(wàn)個(gè)。
OceanBase已通過(guò)橫向擴(kuò)展的技術(shù)底座構(gòu)建起符合AI時(shí)代技術(shù)能力的技術(shù)基礎(chǔ),同時(shí)以縱向深化的高性能數(shù)據(jù)處理基準(zhǔn),為打造AI時(shí)代的一體化數(shù)據(jù)底座積勢(shì)。從技術(shù)底座的布局看,OceanBase最基本的企業(yè)級(jí)分布式數(shù)據(jù)庫(kù)能力,為AI時(shí)代的海量數(shù)據(jù)處理分析打下基礎(chǔ)。同時(shí),其同步推進(jìn)向量性能、混合檢索等支持AI應(yīng)用落地的核心基礎(chǔ)設(shè)施發(fā)展。從性能表現(xiàn)看,OceanBase的性能已經(jīng)達(dá)到開(kāi)源向量數(shù)據(jù)庫(kù)業(yè)界領(lǐng)先水平。楊傳輝現(xiàn)場(chǎng)演示對(duì)比了OceanBase與業(yè)界主流的3款開(kāi)源向量數(shù)據(jù)庫(kù),結(jié)果顯示,OceanBase的跑分超過(guò)其他三大業(yè)界主流開(kāi)源向量數(shù)據(jù)庫(kù)。
此外,在處理海量數(shù)據(jù)方面,OceanBase引入BQ量化算法,OceanBase的測(cè)試結(jié)果顯示,在同等召回率與性能的情況下,引入該算法(HNSW+BQ)能夠?qū)崿F(xiàn)內(nèi)存成本較HNSW降低 95%。為幫助用戶(hù)降低AI場(chǎng)景中常見(jiàn)的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)成本,OceanBase引入針對(duì)JSON半結(jié)構(gòu)化數(shù)據(jù)的壓縮能力。經(jīng)OceanBase測(cè)試, OceanBase在TPC-H 10G數(shù)據(jù)集上JSON壓縮比可達(dá)MongoDB的3倍。同時(shí),在技術(shù)布局的前瞻構(gòu)建與用戶(hù)需求的精準(zhǔn)洞察之外,OceanBase宣布了全維度擁抱AI的戰(zhàn)略決斷,并且即刻啟動(dòng)組織效能革新與人才結(jié)構(gòu)升級(jí)的雙輪驅(qū)動(dòng)。OceanBase CTO楊傳輝擔(dān)任AI戰(zhàn)略一號(hào)位,全面統(tǒng)籌AI戰(zhàn)略制定和技術(shù)產(chǎn)品落地,同時(shí)成立AI平臺(tái)與應(yīng)用部、AI引擎組等,將形成AI時(shí)代從一體化存儲(chǔ)到一體化計(jì)算的全方位布局。全面進(jìn)入AI時(shí)代背后,是OceanBase打造AI時(shí)代一體化數(shù)據(jù)底座的技術(shù)底氣與信心。
04.結(jié)語(yǔ):OceanBase全面擁抱AI數(shù)據(jù)庫(kù)轉(zhuǎn)型已先行一步
隨著AI發(fā)展,數(shù)據(jù)庫(kù)在智能生態(tài)中承載的能力正經(jīng)歷顛覆性變革,從傳統(tǒng)的數(shù)據(jù)存儲(chǔ)容器蛻變?yōu)轵?qū)動(dòng)AI全流程的智能引擎。數(shù)據(jù)庫(kù)企業(yè)正以主動(dòng)變革的姿態(tài),將技術(shù)迭代轉(zhuǎn)化為AI時(shí)代的增長(zhǎng)引擎。OceanBase希望由“數(shù)據(jù)庫(kù)”向“數(shù)據(jù)底座”演進(jìn),形成全方位、一體化處理這些問(wèn)題的解決方案,為AI時(shí)代的企業(yè)解決數(shù)據(jù)處理難題。
(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)