最近,聽到不少語音圈兒的盆友都在議論一場(chǎng)比賽。
什么超少樣本啊,什么亂入啊,還有什么教育……
咦,“教育”是什么鬼?
仔細(xì)打聽才知道,原來是剛剛落幕的國(guó)際TTS(語音合成)賽事M2VoC。
M2VoC,又稱多說話人多風(fēng)格音色克隆大賽,就是給你極少的語音樣本(最少5個(gè)的那種),讓你合成同種風(fēng)格的聲音。
這不就一場(chǎng)常規(guī)的技術(shù)玩家競(jìng)技盛會(huì)嘛?
盆友表示,意外就意外在,這次的子賽道冠軍里,混進(jìn)了一個(gè)“異類”——
搞直播網(wǎng)課的猿輔導(dǎo)。
搞在線教育,還能搞出個(gè)AI冠軍???
據(jù)說,獲獎(jiǎng)團(tuán)隊(duì)當(dāng)時(shí)還有其他緊急任務(wù),就隨機(jī)派了兩個(gè)人,硬擠了5天時(shí)間來參賽。
疑似凡爾賽,而且有證據(jù)!
但橋豆麻袋,猿輔導(dǎo),確定是一家在線教育公司哈?!
M2VoC首戰(zhàn)告捷
還是先來看看比賽本身。
猿輔導(dǎo)亂入?yún)⒓拥谋荣悾锹晫W(xué)、語音和信號(hào)處理國(guó)際會(huì)議(ICASSP)信號(hào)處理挑戰(zhàn)期間任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)。
而ICASSP作為IEEE信號(hào)處理協(xié)會(huì)組織的年度會(huì)議,也是信號(hào)處理及應(yīng)用方面最權(quán)威的會(huì)議之一。
據(jù)稱,這還是世界上第一個(gè)小資源音色克隆挑戰(zhàn)賽。
大賽共分為兩個(gè)賽道,一個(gè)少樣本賽道,另一個(gè)是比“少樣本”更少的賽道。
在極少樣本賽道,參賽者需要針對(duì)不同說話風(fēng)格和5個(gè)可用音色樣本進(jìn)行校驗(yàn)和測(cè)試。
每個(gè)賽道又分為開集和閉集。開集,即用任何公開數(shù)據(jù);閉集,即只能用官方給到的數(shù)據(jù)。
最終共有150多支隊(duì)伍參賽,而在極少樣本開集賽道中猿輔導(dǎo)獲得了第一。
另外在少樣本開集、極少樣本閉集的賽道里,分別獲得了第4、第5的成績(jī)。
實(shí)際上,猿輔導(dǎo)此次比賽中呈現(xiàn)的,并非實(shí)驗(yàn)室技術(shù)。
而是一個(gè)早已經(jīng)在小猿口算、猿輔導(dǎo)網(wǎng)課等產(chǎn)品中的技術(shù),用于英語發(fā)音、題干讀題等場(chǎng)景。
比如說讀一個(gè)數(shù)學(xué)題,有些幼齡的小朋友字認(rèn)不全,需要讀出來讓孩子理解;另外,老師們也可以設(shè)定一個(gè)題目,根據(jù)題目的文字合成一個(gè)音頻。
尤其是在英語聽力上的應(yīng)用,發(fā)音要求更為嚴(yán)苛。
但一線老師反饋說,這比公開服務(wù)更好用。
以前,由老師出題,然后找正規(guī)的英音、美音老師錄制。一般外包公司制作一周才返回語音包。
如果有修改,那就最少2周,遇到節(jié)假日就更不可控了。
現(xiàn)在通過語音合成,一句10秒長(zhǎng)度的句子,不到1秒就可以完成語音轉(zhuǎn)化,效率上有很大的提升。
這樣一來,2個(gè)人準(zhǔn)備5天時(shí)間就參加比賽,就也不是那么夸張了。
只是沒想到的是,第一次征戰(zhàn)國(guó)際賽事的他們,就獲得子賽道第一的成績(jī)。
對(duì)于這樣的結(jié)果,他們表示有點(diǎn)意外。
拿到(極少樣本開集)子賽道第一名,我們有點(diǎn)意外。技術(shù)領(lǐng)域的大牛很多,我們也會(huì)繼續(xù)努力!
基本思路跟平時(shí)的訓(xùn)練流程一致,由大規(guī)模樣本的預(yù)訓(xùn)練和小規(guī)模樣本的微調(diào)訓(xùn)練組成。
至于獲獎(jiǎng)的原因,團(tuán)隊(duì)內(nèi)部分析認(rèn)為,除了訓(xùn)練數(shù)據(jù)選的比較好之外,他們?cè)谡Z音合成的前端所采用的停頓、韻律模型,讓合成出來的語音效果更加自然了。
一般來說,通用的語音合成技術(shù),大都將目光聚焦在合成字眼的準(zhǔn)確性。其他有如準(zhǔn)確發(fā)音、韻律情緒、適當(dāng)停頓等問題通常不會(huì)顧及。
就是一個(gè)莫得感情的朗讀機(jī)器~
但在教育領(lǐng)域,這些平時(shí)容易忽視的痛點(diǎn),就變成了技術(shù)團(tuán)隊(duì)重點(diǎn)攻克的對(duì)象。
既要保證在遇到類似多音字這樣的情況時(shí),發(fā)出正確的讀音,又需要在面向低齡兒童的教學(xué)場(chǎng)景中,讓拼讀更加自然、富有韻律不生澀。
不能因?yàn)槲依淠偷⒄`了小孩學(xué)習(xí)呀?。ㄊ謩?dòng)狗頭)
也恰好因?yàn)檫@一點(diǎn),猿輔導(dǎo)得到了主辦方、評(píng)委會(huì)的肯定。
在猿輔導(dǎo)搞技術(shù)是一種什么體驗(yàn)?
所以,猿輔導(dǎo)作為一家在線教育公司,為什么會(huì)出現(xiàn)在語音合成技術(shù)的國(guó)際賽場(chǎng)上?
其實(shí)緣于一個(gè)偶然的契機(jī)。
當(dāng)時(shí),這次的參賽隊(duì)員楊明祺將隨手刷到的大賽信息轉(zhuǎn)發(fā)到語音組群里。就在研發(fā)同學(xué)們的日常吹水中,他們突然想到,猿輔導(dǎo)在這方面已有技術(shù)積累,何不趁著這個(gè)比賽跟其他隊(duì)伍切磋交流一下,看看在統(tǒng)一任務(wù)下別人有什么不一樣的想法可以借鑒學(xué)習(xí)。
這種保持對(duì)前沿技術(shù)關(guān)注、主動(dòng)學(xué)習(xí)的操作,倒并不是臨時(shí)起意,而是整個(gè)技術(shù)部門再正常不過的日常。
從他們堅(jiān)持已久的一個(gè)習(xí)慣中也可見一斑——
Paper reading,是猿輔導(dǎo)AI Lab自2014年成立以來一直堅(jiān)持至今的一項(xiàng)活動(dòng)。
7年來,團(tuán)隊(duì)每周都會(huì)安排一位技術(shù)同學(xué)在組會(huì)時(shí)分享一篇前沿技術(shù)論文,并與其他同事深入交流討論。
起初,整個(gè)實(shí)驗(yàn)室的都要一起參加這樣的閱讀會(huì)。后來隨著規(guī)模的不斷擴(kuò)大,改為下設(shè)5個(gè)實(shí)驗(yàn)室分別舉辦,自己實(shí)驗(yàn)室的同學(xué)當(dāng)然必須參加,其他實(shí)驗(yàn)室的人也可以根據(jù)興趣參與進(jìn)來。
不同技術(shù)之間的碰撞,也成為了猿輔導(dǎo)獨(dú)有的技術(shù)方法論。
語音實(shí)驗(yàn)室語音合成組的楊明祺,就分享了一段經(jīng)歷。
在聽到降噪小組分享有關(guān)提高信噪比的最新技術(shù)時(shí),語音合成組就想到,是否能將這樣的技術(shù)應(yīng)用到TTS上來。因?yàn)槠綍r(shí)采集的訓(xùn)練樣本,錄制環(huán)境不一,音質(zhì)無法保證,而引入相關(guān)技術(shù),就能從數(shù)據(jù)層面來提升最終合成語音的質(zhì)量。
除此之外,作為一家在線教育公司,猿輔導(dǎo)有更豐富、更具體的落地場(chǎng)景,因此也就要比一般的技術(shù)公司更看重技術(shù)落地。
低延時(shí)直播,就是這樣一個(gè)例子。
市面上通用的直播技術(shù),可能有1-3秒、甚至更長(zhǎng)的延時(shí),對(duì)于直播帶貨這個(gè)場(chǎng)景下影響不大,但要是在教育教學(xué)上,學(xué)生和老師有著很強(qiáng)的互動(dòng)需求,幾秒的延時(shí)就會(huì)影響教學(xué)體驗(yàn)。
就比如,老師在課上提問,學(xué)生正在思考的時(shí)候,老師就已經(jīng)給出答案講下一個(gè)問題了。
因此,就需要將延時(shí)技術(shù)從3秒降到0.3秒,來維持課堂效果。
語音組馬楠也表示,
很多時(shí)候,一線的教學(xué)老師提出需求,研發(fā)人員就要想辦法結(jié)合最先進(jìn)的技術(shù)來滿足。
所以平時(shí)看到一些新的論文、技術(shù)方案,也會(huì)想著能具體落到什么場(chǎng)景,能否配合一線老師教學(xué)。
也正因?yàn)榭粗芈涞氐谋举|(zhì),他們隨時(shí)保持著Ready的狀態(tài)。
什么時(shí)候有新的需求,就想著法兒的用技術(shù)去滿足,也因此團(tuán)隊(duì)成員們練就了能快速適應(yīng)業(yè)務(wù)轉(zhuǎn)型的本領(lǐng)。
馬楠說,他們這個(gè)語音合成組,大多本來不是這個(gè)專業(yè)的,比如有的成員過去是做搜索的,可以說都是逐漸摸索學(xué)習(xí)過來的。
現(xiàn)在他們從一個(gè)想法到Demo,只需要半個(gè)月到1個(gè)月的時(shí)間就可以達(dá)成。
因此,也不同于其他技術(shù)團(tuán)隊(duì)的成就感,他們成就感的來源,更多是一線老師的反饋。
“比公開服務(wù)更好用”,就是他們接收到的最好的嘉獎(jiǎng)。
隱藏在教育背后的技術(shù)實(shí)力
事實(shí)上,雖然外界對(duì)猿輔導(dǎo)的認(rèn)知更多地聚焦在“教育”上,但猿輔導(dǎo)從成立之初,就是一家把“技術(shù)”視作核心競(jìng)爭(zhēng)力的公司。
在2014年,猿輔導(dǎo)就成立了AI Lab,是在線教育行業(yè)內(nèi)首個(gè)成立AI研究院的企業(yè)。
從業(yè)務(wù)上看,猿輔導(dǎo)旗下有:拍一下就能秒出解題思路的小猿搜題,用AI幫助老師、家長(zhǎng)批改作業(yè)的小猿口算,利用AI打造智能學(xué)習(xí)模型的斑馬AI課……
其背后所需要的技術(shù)支持,不止于語音,還包括視覺、自然語言理解、音視頻等多個(gè)領(lǐng)域。
就用斑馬AI課來舉個(gè)例子好了。
斑馬AI課作為目前國(guó)內(nèi)面向?qū)W齡前兒童的最大在線課程學(xué)習(xí)平臺(tái),最吸引人的一點(diǎn)就是能做到“因材施教”。
也就是說,不僅僅是根據(jù)小盆友的年紀(jì)簡(jiǎn)單粗暴地劃分學(xué)習(xí)階段,而是讓孩子也能自適應(yīng)學(xué)習(xí)。
等等,自適應(yīng),這不是個(gè)教育AI模型的法子嗎?
其實(shí)是這么回事兒,以猿輔導(dǎo)百億級(jí)少兒語言行為大數(shù)據(jù)為基礎(chǔ),通過對(duì)孩子的語言行為進(jìn)行分析,就能更加細(xì)致地了解到孩子當(dāng)前的學(xué)習(xí)情況,進(jìn)而智能地調(diào)整課程的難度、“打怪”的路徑。上完網(wǎng)課,還能根據(jù)AI大數(shù)據(jù)分析,生成個(gè)性化的學(xué)習(xí)報(bào)告,及時(shí)反饋學(xué)習(xí)成果。
另外,就像之前提到的,通用模型在落地到更加垂直的場(chǎng)景中時(shí),表現(xiàn)往往不盡如人意。比如小朋友咿咿呀呀的發(fā)音,就比常規(guī)的成人語音識(shí)別更加困難,需要有針對(duì)性地收集數(shù)據(jù)、優(yōu)化模型。
源于這樣的背景,目前,猿輔導(dǎo)已經(jīng)發(fā)展形成語音實(shí)驗(yàn)室、視覺實(shí)驗(yàn)室、自然語言理解實(shí)驗(yàn)室、音視頻實(shí)驗(yàn)室和基礎(chǔ)支撐五大實(shí)驗(yàn)室。
而作為技術(shù)人員的馬楠也強(qiáng)調(diào):
對(duì)于我們的產(chǎn)品來說,前沿技術(shù)的支持并不是可有可無的,而是產(chǎn)品之所以能成立的核心原因。
以搜題為例,如果OCR的準(zhǔn)確率不夠高,搜得不夠準(zhǔn),用戶根本就不會(huì)選擇使用。
站在現(xiàn)在這個(gè)時(shí)間節(jié)點(diǎn),從用戶選擇的角度來看,猿輔導(dǎo)已經(jīng)成為國(guó)內(nèi)網(wǎng)課用戶規(guī)模最大的在線教育公司。
而從技術(shù)驗(yàn)證的層面來看,猿輔導(dǎo)曾先后在MS MARCO機(jī)器閱讀理解水平測(cè)試、斯坦福問答數(shù)據(jù)集兩項(xiàng)世界級(jí)NLP賽事中斬獲冠軍,如今也在語音等更多領(lǐng)域的世界賽事上嶄露頭角……
資本對(duì)其業(yè)務(wù)、技術(shù)的認(rèn)可,也已落在了具體的數(shù)字上:估值155億美金,是全球估值最高的在線教育獨(dú)角獸公司。
就在這樣的高速發(fā)展之中,體量越來越大的猿輔導(dǎo),在重視落地之外,也越來越看重“長(zhǎng)期主義”。
馬楠就透露,現(xiàn)在在技術(shù)團(tuán)隊(duì)內(nèi)部,有相當(dāng)一部分人力投入到了前沿技術(shù)的探索、攻關(guān)當(dāng)中。這類研發(fā)工作在短期看來不會(huì)立刻被用上,但公司認(rèn)為,從長(zhǎng)期發(fā)展的角度來看,這些積累將成為猿輔導(dǎo)技術(shù)護(hù)城河的關(guān)鍵組成。
最后,再來總結(jié)一下,猿輔導(dǎo)究竟是一家什么樣的技術(shù)公司?
以在線教育之名,從每個(gè)具體場(chǎng)景出發(fā),將AI技術(shù)之力在各個(gè)產(chǎn)品中得以體現(xiàn)。
如果一項(xiàng)技術(shù)研發(fā)的很厲害但沒用上,對(duì)猿輔導(dǎo)來說是不太可能的。
因此可以說,猿輔導(dǎo)的AI更具有實(shí)用主義色彩。
曾經(jīng),中國(guó)的教育領(lǐng)域一度被認(rèn)為格局已成。但以猿輔導(dǎo)為代表的第三代教育科技公司,卻以黑馬之勢(shì)登上歷史舞臺(tái),撕開了一條新的進(jìn)擊之路。
背后的核心關(guān)鍵詞,正是技術(shù),正是AI。
而教育在AI等新一代技術(shù)驅(qū)動(dòng)之下展現(xiàn)的潛力,或許才剛剛開始。