七夕是什么?
對(duì)于中國(guó)人來(lái)說(shuō),七夕絕不僅僅是一個(gè)關(guān)于愛(ài)情和浪漫的節(jié)日記憶。它是對(duì)美好的詩(shī)性眷戀,對(duì)想象的包容,對(duì)不可能的掙脫,對(duì)星辰大海與人間煙火的歸一。
而今人與古人最大的區(qū)別在于,今天我們有了科學(xué)的工具。在古人只能想象牛郎織女的故事時(shí),在同樣的七夕,今人可以自己動(dòng)手去變不可能為可能。
英國(guó)詩(shī)人塞繆爾·約翰遜說(shuō),語(yǔ)言是科學(xué)的唯一工具。古時(shí)候,人類(lèi)很早就有了巴別塔的傳說(shuō),希望讓不同國(guó)家、族群的人享受無(wú)界限的語(yǔ)言;而在今天,各行各業(yè)都需要語(yǔ)音、語(yǔ)義、知識(shí)相關(guān)的自然語(yǔ)言技術(shù),來(lái)提高產(chǎn)業(yè)智能化水準(zhǔn),升級(jí)工作間的溝通與交流效率;面向未來(lái),人類(lèi)還希望通過(guò)自然語(yǔ)言與機(jī)器對(duì)話,與萬(wàn)物交互,讓語(yǔ)言跨過(guò)人機(jī)交互的界限。
這些希望,就像這個(gè)時(shí)代關(guān)于牽??椗膲?mèng)境,但區(qū)別在于,這個(gè)七夕有人正在努力讓夢(mèng)境變成現(xiàn)實(shí)。并且為了這個(gè)目標(biāo),他們已經(jīng)奔跑了整整十年。
用技術(shù)破解語(yǔ)言的謎題的實(shí)現(xiàn)方式,就是 AI 的重要分支 NLP 技術(shù)。而國(guó)內(nèi)最著名的 NLP 技術(shù)團(tuán)隊(duì)與產(chǎn)業(yè)旗幟,就是百度 NLP。
8 月 25 日七夕這天,以“掌握知識(shí)、理解語(yǔ)言、擁有智能”為主題的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)在線上開(kāi)啟。百度 CTO 王海峰發(fā)表主旨演講,解讀百度語(yǔ)言與知識(shí)技術(shù)的發(fā)展歷程與最新成果,與產(chǎn)學(xué)研各界分享技術(shù)及產(chǎn)業(yè)發(fā)展趨勢(shì)和展望。
百度集團(tuán)副總裁吳甜和百度技術(shù)委員會(huì)主席吳華分別發(fā)布百度語(yǔ)言與知識(shí)技術(shù)系列產(chǎn)品和數(shù)據(jù)集共建計(jì)劃,推出 3 大新品和 6 項(xiàng)升級(jí),全面加速 NLP 技術(shù)大規(guī)模產(chǎn)業(yè)應(yīng)用。
成立十年以來(lái),百度 NLP 團(tuán)隊(duì)始終都是中國(guó) NLP 在學(xué)術(shù)探索與產(chǎn)業(yè)落地方面的雙向引領(lǐng)者。王海峰認(rèn)為,“在百度語(yǔ)言與知識(shí)技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢(shì),即技術(shù)發(fā)展趨勢(shì)和產(chǎn)業(yè)發(fā)展趨勢(shì),并力爭(zhēng)引領(lǐng)趨勢(shì)?!?/p>
從研究方法、研究對(duì)象、研究方向、產(chǎn)業(yè)應(yīng)用等各個(gè)層面來(lái)看,百度 NLP 都是今天中國(guó)布局最完整,與產(chǎn)業(yè)接軌最成熟,技術(shù)前沿性最豐富的產(chǎn)業(yè)力量。十年來(lái),百度在 NLP 領(lǐng)域獲得包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的 20 多個(gè)獎(jiǎng)項(xiàng),30 多項(xiàng)國(guó)際競(jìng)賽冠軍,發(fā)表學(xué)術(shù)論文超過(guò) 300 篇,申請(qǐng)專(zhuān)利 2000 多項(xiàng)。同時(shí)也積極推動(dòng) NLP 技術(shù)產(chǎn)業(yè)落地,與行業(yè)發(fā)展緊密結(jié)合,將 NLP 技術(shù)優(yōu)勢(shì)平臺(tái)化開(kāi)放給廣大開(kāi)發(fā)者,引領(lǐng)智能語(yǔ)言技術(shù)與千行萬(wàn)業(yè)結(jié)合。
如果說(shuō),古人想象的最大界限,就是牛郎織女間的銀河,那么全球化的今天,人與人、人與機(jī)器間的最大界限,就是語(yǔ)言的界限。神話的鵲橋橫穿銀河兩端,今天百度 NLP 所做的事情,就是為智能時(shí)代搭建一座新的語(yǔ)言鵲橋。解析這場(chǎng)峰會(huì),我們可以讀懂:
過(guò)去十年,百度打造了怎樣的 NLP 藍(lán)圖?
此刻的產(chǎn)業(yè)機(jī)遇期,百度如何為千行萬(wàn)業(yè)提供 NLP 的動(dòng)力與加速度?
面向未來(lái),人類(lèi)的新巴別塔上,還有哪些待解之謎?
一座語(yǔ)言的鵲橋,在此刻的煙火塵世與未來(lái)的智能時(shí)代間凝結(jié)——以百度 NLP 之名。
往昔的耕耘:十年蘊(yùn)育百度 NLP 藍(lán)圖
十年發(fā)展的百度 NLP,確實(shí)已經(jīng)積累了太多技術(shù)、應(yīng)用與產(chǎn)業(yè)案例。但百度今天的 NLP 實(shí)力,又是牢牢建立在過(guò)往十年的產(chǎn)業(yè)發(fā)展底座上。所以在百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)中,王海峰首先全面分享了百度在語(yǔ)言與知識(shí)技術(shù)領(lǐng)域的完整布局和最新成果。為我們展示了一張歷時(shí)十年,耕耘而出的百度 NLP 全景圖:
在堪稱(chēng) NLP 底座的知識(shí)領(lǐng)域,百度打造了世界上最大規(guī)模知識(shí)圖譜,擁有超過(guò) 50 億實(shí)體和 5500 億事實(shí),并在不斷演進(jìn)和更新。百度知識(shí)圖譜應(yīng)用于各行各業(yè),每天的調(diào)用次數(shù)超過(guò) 400 億次。
在此基礎(chǔ)上,百度不斷強(qiáng)化堪稱(chēng) NLP 核心的語(yǔ)義理解技術(shù)能力。2019 年 3 月,百度提出知識(shí)增強(qiáng)的語(yǔ)義理解框架 ERNIE,在深度學(xué)習(xí)的基礎(chǔ)上融入知識(shí),具備人類(lèi)一樣的學(xué)習(xí)能力,曾一舉登頂全球權(quán)威數(shù)據(jù)集 GLUE 榜單,首次突破 90 分大關(guān)?;谥R(shí)圖譜和語(yǔ)義表示,實(shí)現(xiàn)了閱讀理解、對(duì)話理解以及跨模態(tài)深度語(yǔ)義理解。
為了讓人機(jī)交互自然流暢,語(yǔ)言生成技術(shù)是 NLP 體驗(yàn)的關(guān)鍵。基于預(yù)訓(xùn)練技術(shù)的成功經(jīng)驗(yàn),百度提出基于多流機(jī)制的語(yǔ)言生成預(yù)訓(xùn)練技術(shù),兼顧詞、短語(yǔ)等不同粒度的語(yǔ)義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過(guò)圖結(jié)構(gòu)語(yǔ)義表示引入篇章知識(shí),在單文檔和多文檔摘要生成效果都有提升。
這些技術(shù)藍(lán)圖流入產(chǎn)業(yè)譜系,就構(gòu)成了百度 NLP 技術(shù)在應(yīng)用層面的深耕與實(shí)踐。在對(duì)話系統(tǒng)領(lǐng)域,百度提出了知識(shí)圖譜驅(qū)動(dòng)的對(duì)話控制技術(shù),以及首個(gè)基于隱空間的大規(guī)模開(kāi)放域?qū)υ捘P?PLATO 等,并推出智能對(duì)話定制和服務(wù)平臺(tái) UNIT,可幫助開(kāi)發(fā)者高效構(gòu)建智能對(duì)話系統(tǒng),實(shí)現(xiàn)規(guī)?;瘧?yīng)用。
在另一個(gè)重要的 NLP 應(yīng)用機(jī)器翻譯領(lǐng)域,百度翻譯目前能夠支持 200 多種語(yǔ)言,每日響應(yīng)超過(guò)千億字符的翻譯請(qǐng)求,支持超過(guò) 40 多萬(wàn)家第三方應(yīng)用,技術(shù)上,提出了多智能體聯(lián)合學(xué)習(xí)、基于語(yǔ)義單元的同傳模型、稀缺語(yǔ)種分組混合訓(xùn)練算法等。
百度大腦語(yǔ)言與知識(shí)技術(shù)的探索,同時(shí)還以平臺(tái)化的方式輸出,賦能千行萬(wàn)業(yè),提升社會(huì)生產(chǎn)的普遍智能化水準(zhǔn)。
從這張根據(jù)公開(kāi)數(shù)據(jù)整理的全球 NLP 巨頭產(chǎn)業(yè)布局對(duì)比圖中,我們可以發(fā)現(xiàn)百度 NLP 在核心技術(shù)、產(chǎn)品應(yīng)用布局,以及研發(fā)力量?jī)?chǔ)備上,都已經(jīng)具備了國(guó)際一流水準(zhǔn),可以與谷歌、微軟兩大 AI 巨頭一教高下。百度 NLP 的產(chǎn)業(yè)成績(jī),已經(jīng)客觀達(dá)成了國(guó)內(nèi)最強(qiáng)、世界頂級(jí),開(kāi)啟了代表中國(guó) NLP 產(chǎn)業(yè)向未來(lái)航行的領(lǐng)軍者態(tài)勢(shì)。
十年蘊(yùn)育成了百度 NLP 藍(lán)圖,同時(shí)也蘊(yùn)育了百度在語(yǔ)言與知識(shí)領(lǐng)域的不斷突破與創(chuàng)新能力。今天,百度 NLP 并沒(méi)有停下腳步,而是為千行萬(wàn)業(yè)與廣大 AI 開(kāi)發(fā)者帶來(lái)了最浪漫的七夕禮物。
此刻的浪漫:5 款新產(chǎn)品、2 大計(jì)劃,推動(dòng) NLP 邂逅產(chǎn)業(yè)
推動(dòng) NLP 技術(shù)走向產(chǎn)業(yè),融入智能化進(jìn)程,是以深度學(xué)習(xí)為代表的 AI 第四次興起周期中最重要的產(chǎn)業(yè)議題之一。而這一目標(biāo),是建立在大量可規(guī)模化復(fù)用、能夠支撐工業(yè)級(jí)應(yīng)用的 NLP 技術(shù)與產(chǎn)品基礎(chǔ)上的。為此,百度在七夕這天帶來(lái)了重磅的 NLP 禮物——百度集團(tuán)副總裁吳甜接續(xù)發(fā)布文心(ERNIE)、TextMind、AI 同傳會(huì)議解決方案、智能創(chuàng)作平臺(tái)、智能對(duì)話定制與服務(wù)平臺(tái) UNIT 等 5 款新產(chǎn)品:
百度推出的語(yǔ)義理解技術(shù)與平臺(tái)文心(ERNIE),基于深度學(xué)習(xí)平臺(tái)飛槳打造,提供一站式 NLP 開(kāi)發(fā)與服務(wù),將減少開(kāi)發(fā)者 90%數(shù)據(jù)標(biāo)注量、90%算力投入、85%模型開(kāi)發(fā)時(shí)長(zhǎng),進(jìn)而全面降低 NLP 定制開(kāi)發(fā)的成本,讓開(kāi)發(fā)者更簡(jiǎn)單、高效地定制企業(yè)級(jí) NLP 模型。
全新發(fā)布 TextMind 智能文檔分析平臺(tái),基于 OCR、NLP 技術(shù),以文檔解析為核心能力,支持文檔對(duì)比與文檔審核,具備“多快好省”的核心優(yōu)勢(shì),促進(jìn)企業(yè)辦公智能升級(jí)。
全新發(fā)布 AI 同傳會(huì)議解決方案,覆蓋會(huì)議全場(chǎng)景、全流程,旨在打造用戶(hù)隨身的“會(huì)議同傳專(zhuān)家”。在邀測(cè)期間,百度 AI 同傳會(huì)議解決方案已經(jīng)支持了上百場(chǎng)會(huì)議,覆蓋數(shù)十個(gè)領(lǐng)域,包括線上遠(yuǎn)程會(huì)議、線下會(huì)議。
百度大腦智能創(chuàng)作平臺(tái)針對(duì)媒體應(yīng)用場(chǎng)景再升級(jí),全新推出智能策劃、智能采編、智能審校三大媒體場(chǎng)景方案,進(jìn)一步助力媒體效率,加強(qiáng)采編能力。
智能對(duì)話定制與服務(wù)平臺(tái) UNIT 升級(jí) 3 大特性:更智能的任務(wù)式對(duì)話理解、極致便捷的表格問(wèn)答和融合通用的新引擎。截至目前,UNIT 平臺(tái)已有 2.7 萬(wàn)開(kāi)發(fā)者,10 萬(wàn)應(yīng)用,累計(jì)交互 4200 億,并積累知識(shí) 2.4 億。此次 UNIT 全新推出的三大能力,將進(jìn)一步降低任務(wù)式對(duì)話、智能問(wèn)答的定制成本,并融合通用對(duì)話能力,提升交互體驗(yàn)。
在 NLP 產(chǎn)業(yè)化落地中,另一個(gè)長(zhǎng)期挑戰(zhàn)是數(shù)據(jù)匱乏、算力不足。為應(yīng)對(duì)挑戰(zhàn),百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)發(fā)起全球首個(gè)中文自然語(yǔ)言處理數(shù)據(jù)共建計(jì)劃——千言,解決數(shù)據(jù)稀缺問(wèn)題。
千言一期由來(lái)自國(guó)內(nèi) 11 家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者共同建設(shè),已涵蓋開(kāi)放域?qū)υ挕㈤喿x理解等 7 大任務(wù),20 余個(gè)中文開(kāi)源數(shù)據(jù)集。百度技術(shù)委員會(huì)主席吳華表示,百度計(jì)劃在未來(lái) 3 年,面向 20 余個(gè)任務(wù),收集和建設(shè)不少于 100 個(gè)中文自然語(yǔ)言處理數(shù)據(jù)集,覆蓋語(yǔ)言與知識(shí)技術(shù)全部領(lǐng)域。
吳華還發(fā)布了百度語(yǔ)言與知識(shí)技術(shù)算力共享計(jì)劃,通過(guò)百度 AI STUDIO 平臺(tái)提供算力支持,讓廣大開(kāi)發(fā)者破除算力桎梏,專(zhuān)注于技術(shù)創(chuàng)新。
全新的技術(shù)、產(chǎn)品與產(chǎn)業(yè)合作計(jì)劃,構(gòu)成了百度 NLP 與千行萬(wàn)業(yè)智能升級(jí)進(jìn)一步“相知相戀”的契機(jī)。在這個(gè)七夕里,最好的禮物是美好的未來(lái),而這也是百度 NLP 的長(zhǎng)久努力方向。
未來(lái)的銀河:從 NLP 到智能時(shí)代
十年堅(jiān)守,是為未來(lái)。
在 AI 技術(shù)推動(dòng)第四次工業(yè)革命到來(lái)的關(guān)鍵契機(jī)中,NLP 技術(shù)構(gòu)成了變局的核心。從技術(shù)特征上看,NLP 最大的潛力在于其探索深度是近乎無(wú)限的,并且將始終激發(fā)新的需求、新的產(chǎn)業(yè)邏輯與落地場(chǎng)景。
無(wú)論是從百度過(guò)往布局的技術(shù)藍(lán)圖,還是今天推動(dòng)的新技術(shù)、新產(chǎn)品,百度 NLP 始終在指向宏偉的未來(lái),也就是百度 NLP 在部門(mén)成立時(shí)提出的“掌握知識(shí)、理解語(yǔ)言、擁有智能”。為了不斷走近 NLP 指向的智能時(shí)代,百度 NLP 始終堅(jiān)持人才為本,不斷在發(fā)展過(guò)程中培養(yǎng)、吸引全球頂尖人才,為長(zhǎng)期發(fā)展探索做出堅(jiān)實(shí)準(zhǔn)備。在峰會(huì)上,百度推出以王海峰為代表的百度 NLP“十年十人”,也正是他們的十年堅(jiān)守,不忘初心,才讓 NLP 技術(shù)從科幻作品中走到現(xiàn)實(shí),變成通往未來(lái)的康莊大道。
今天的 NLP 技術(shù)發(fā)展,還遠(yuǎn)遠(yuǎn)沒(méi)有走到盡頭。雖然百度 NLP 成果輝煌,但我們眼前更多的是未知與挑戰(zhàn)。峰會(huì)上,王海峰也提到了語(yǔ)言與知識(shí)技術(shù)發(fā)展面臨的難題。他表示,復(fù)雜知識(shí)表示和快速構(gòu)建技術(shù),知識(shí)與深度學(xué)習(xí)進(jìn)一步融合,深度融合感知和認(rèn)知的跨模態(tài)語(yǔ)義理解技術(shù),模型可解釋性和魯棒性等等,仍有很多技術(shù)難題需要持續(xù)研究和解決。
而正是始終有未知,始終在探索,才讓未來(lái)的銀河絢爛于今夜的七夕。百度 NLP 的技術(shù)藍(lán)圖、新品發(fā)布,更遠(yuǎn)處指向著智能時(shí)代的洪流,指向著解開(kāi)語(yǔ)言之謎的可能與執(zhí)著。
關(guān)于百度 NLP 的未來(lái)發(fā)展,王海峰提出:“我們致力于更好的與學(xué)術(shù)界、產(chǎn)業(yè)界攜手,推動(dòng)語(yǔ)言與知識(shí)技術(shù)發(fā)展,進(jìn)而推動(dòng)人工智能技術(shù)持續(xù)進(jìn)步,為產(chǎn)業(yè)持續(xù)升級(jí)、社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展貢獻(xiàn)力量。我們對(duì)未來(lái)充滿(mǎn)信心,堅(jiān)持掌握知識(shí)、理解語(yǔ)言、擁有智能,繼續(xù)突破和創(chuàng)新,為技術(shù)和社會(huì)進(jìn)步做出更大貢獻(xiàn)?!?/p>
當(dāng)自然語(yǔ)言的奧秘,邂逅千行萬(wàn)業(yè)的智能化升級(jí)——金風(fēng)玉露一相逢,便勝卻人間無(wú)數(shù)。