• 正文
    • M2VoC首戰(zhàn)告捷
    • 在猿輔導(dǎo)搞技術(shù)是一種什么體驗(yàn)?
    • 隱藏在教育背后的技術(shù)實(shí)力
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

拿到國(guó)際AI比賽冠軍的,居然是個(gè)搞教育的

2021/03/31
89
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

最近,聽到不少語音圈兒的盆友都在議論一場(chǎng)比賽。

什么超少樣本啊,什么亂入啊,還有什么教育……

咦,“教育”是什么鬼?

仔細(xì)打聽才知道,原來是剛剛落幕的國(guó)際TTS(語音合成)賽事M2VoC。

M2VoC,又稱多說話人多風(fēng)格音色克隆大賽,就是給你極少的語音樣本(最少5個(gè)的那種),讓你合成同種風(fēng)格的聲音。

這不就一場(chǎng)常規(guī)的技術(shù)玩家競(jìng)技盛會(huì)嘛?

 

盆友表示,意外就意外在,這次的子賽道冠軍里,混進(jìn)了一個(gè)“異類”——

搞直播網(wǎng)課的猿輔導(dǎo)。

搞在線教育,還能搞出個(gè)AI冠軍???

據(jù)說,獲獎(jiǎng)團(tuán)隊(duì)當(dāng)時(shí)還有其他緊急任務(wù),就隨機(jī)派了兩個(gè)人,硬擠了5天時(shí)間來參賽。

疑似凡爾賽,而且有證據(jù)!

但橋豆麻袋,猿輔導(dǎo),確定是一家在線教育公司哈?!

M2VoC首戰(zhàn)告捷

還是先來看看比賽本身。

猿輔導(dǎo)亂入?yún)⒓拥谋荣悾锹晫W(xué)、語音和信號(hào)處理國(guó)際會(huì)議(ICASSP)信號(hào)處理挑戰(zhàn)期間任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)。

而ICASSP作為IEEE信號(hào)處理協(xié)會(huì)組織的年度會(huì)議,也是信號(hào)處理及應(yīng)用方面最權(quán)威的會(huì)議之一。

據(jù)稱,這還是世界上第一個(gè)小資源音色克隆挑戰(zhàn)賽。

大賽共分為兩個(gè)賽道,一個(gè)少樣本賽道,另一個(gè)是比“少樣本”更少的賽道。

在極少樣本賽道,參賽者需要針對(duì)不同說話風(fēng)格和5個(gè)可用音色樣本進(jìn)行校驗(yàn)和測(cè)試。

每個(gè)賽道又分為開集和閉集。開集,即用任何公開數(shù)據(jù);閉集,即只能用官方給到的數(shù)據(jù)。

最終共有150多支隊(duì)伍參賽,而在極少樣本開集賽道中猿輔導(dǎo)獲得了第一。

 

另外在少樣本開集、極少樣本閉集的賽道里,分別獲得了第4、第5的成績(jī)。

實(shí)際上,猿輔導(dǎo)此次比賽中呈現(xiàn)的,并非實(shí)驗(yàn)室技術(shù)。

而是一個(gè)早已經(jīng)在小猿口算、猿輔導(dǎo)網(wǎng)課等產(chǎn)品中的技術(shù),用于英語發(fā)音、題干讀題等場(chǎng)景。

比如說讀一個(gè)數(shù)學(xué)題,有些幼齡的小朋友字認(rèn)不全,需要讀出來讓孩子理解;另外,老師們也可以設(shè)定一個(gè)題目,根據(jù)題目的文字合成一個(gè)音頻。

尤其是在英語聽力上的應(yīng)用,發(fā)音要求更為嚴(yán)苛。

但一線老師反饋說,這比公開服務(wù)更好用。

以前,由老師出題,然后找正規(guī)的英音、美音老師錄制。一般外包公司制作一周才返回語音包。

如果有修改,那就最少2周,遇到節(jié)假日就更不可控了。

現(xiàn)在通過語音合成,一句10秒長(zhǎng)度的句子,不到1秒就可以完成語音轉(zhuǎn)化,效率上有很大的提升。

這樣一來,2個(gè)人準(zhǔn)備5天時(shí)間就參加比賽,就也不是那么夸張了。

只是沒想到的是,第一次征戰(zhàn)國(guó)際賽事的他們,就獲得子賽道第一的成績(jī)。

對(duì)于這樣的結(jié)果,他們表示有點(diǎn)意外。

拿到(極少樣本開集)子賽道第一名,我們有點(diǎn)意外。技術(shù)領(lǐng)域的大牛很多,我們也會(huì)繼續(xù)努力!

基本思路跟平時(shí)的訓(xùn)練流程一致,由大規(guī)模樣本的預(yù)訓(xùn)練和小規(guī)模樣本的微調(diào)訓(xùn)練組成。

至于獲獎(jiǎng)的原因,團(tuán)隊(duì)內(nèi)部分析認(rèn)為,除了訓(xùn)練數(shù)據(jù)選的比較好之外,他們?cè)谡Z音合成的前端所采用的停頓、韻律模型,讓合成出來的語音效果更加自然了。

一般來說,通用的語音合成技術(shù),大都將目光聚焦在合成字眼的準(zhǔn)確性。其他有如準(zhǔn)確發(fā)音、韻律情緒、適當(dāng)停頓等問題通常不會(huì)顧及。

就是一個(gè)莫得感情的朗讀機(jī)器~

但在教育領(lǐng)域,這些平時(shí)容易忽視的痛點(diǎn),就變成了技術(shù)團(tuán)隊(duì)重點(diǎn)攻克的對(duì)象。

既要保證在遇到類似多音字這樣的情況時(shí),發(fā)出正確的讀音,又需要在面向低齡兒童的教學(xué)場(chǎng)景中,讓拼讀更加自然、富有韻律不生澀。

不能因?yàn)槲依淠偷⒄`了小孩學(xué)習(xí)呀?。ㄊ謩?dòng)狗頭)

也恰好因?yàn)檫@一點(diǎn),猿輔導(dǎo)得到了主辦方、評(píng)委會(huì)的肯定。

在猿輔導(dǎo)搞技術(shù)是一種什么體驗(yàn)?

所以,猿輔導(dǎo)作為一家在線教育公司,為什么會(huì)出現(xiàn)在語音合成技術(shù)的國(guó)際賽場(chǎng)上?

其實(shí)緣于一個(gè)偶然的契機(jī)。

當(dāng)時(shí),這次的參賽隊(duì)員楊明祺將隨手刷到的大賽信息轉(zhuǎn)發(fā)到語音組群里。就在研發(fā)同學(xué)們的日常吹水中,他們突然想到,猿輔導(dǎo)在這方面已有技術(shù)積累,何不趁著這個(gè)比賽跟其他隊(duì)伍切磋交流一下,看看在統(tǒng)一任務(wù)下別人有什么不一樣的想法可以借鑒學(xué)習(xí)。

這種保持對(duì)前沿技術(shù)關(guān)注、主動(dòng)學(xué)習(xí)的操作,倒并不是臨時(shí)起意,而是整個(gè)技術(shù)部門再正常不過的日常。

從他們堅(jiān)持已久的一個(gè)習(xí)慣中也可見一斑——

Paper reading,是猿輔導(dǎo)AI Lab自2014年成立以來一直堅(jiān)持至今的一項(xiàng)活動(dòng)。

7年來,團(tuán)隊(duì)每周都會(huì)安排一位技術(shù)同學(xué)在組會(huì)時(shí)分享一篇前沿技術(shù)論文,并與其他同事深入交流討論。

起初,整個(gè)實(shí)驗(yàn)室的都要一起參加這樣的閱讀會(huì)。后來隨著規(guī)模的不斷擴(kuò)大,改為下設(shè)5個(gè)實(shí)驗(yàn)室分別舉辦,自己實(shí)驗(yàn)室的同學(xué)當(dāng)然必須參加,其他實(shí)驗(yàn)室的人也可以根據(jù)興趣參與進(jìn)來。

不同技術(shù)之間的碰撞,也成為了猿輔導(dǎo)獨(dú)有的技術(shù)方法論。

語音實(shí)驗(yàn)室語音合成組的楊明祺,就分享了一段經(jīng)歷。

在聽到降噪小組分享有關(guān)提高信噪比的最新技術(shù)時(shí),語音合成組就想到,是否能將這樣的技術(shù)應(yīng)用到TTS上來。因?yàn)槠綍r(shí)采集的訓(xùn)練樣本,錄制環(huán)境不一,音質(zhì)無法保證,而引入相關(guān)技術(shù),就能從數(shù)據(jù)層面來提升最終合成語音的質(zhì)量。

除此之外,作為一家在線教育公司,猿輔導(dǎo)有更豐富、更具體的落地場(chǎng)景,因此也就要比一般的技術(shù)公司更看重技術(shù)落地。

低延時(shí)直播,就是這樣一個(gè)例子。

市面上通用的直播技術(shù),可能有1-3秒、甚至更長(zhǎng)的延時(shí),對(duì)于直播帶貨這個(gè)場(chǎng)景下影響不大,但要是在教育教學(xué)上,學(xué)生和老師有著很強(qiáng)的互動(dòng)需求,幾秒的延時(shí)就會(huì)影響教學(xué)體驗(yàn)。

就比如,老師在課上提問,學(xué)生正在思考的時(shí)候,老師就已經(jīng)給出答案講下一個(gè)問題了。

因此,就需要將延時(shí)技術(shù)從3秒降到0.3秒,來維持課堂效果。

語音組馬楠也表示,

很多時(shí)候,一線的教學(xué)老師提出需求,研發(fā)人員就要想辦法結(jié)合最先進(jìn)的技術(shù)來滿足。

所以平時(shí)看到一些新的論文、技術(shù)方案,也會(huì)想著能具體落到什么場(chǎng)景,能否配合一線老師教學(xué)。

也正因?yàn)榭粗芈涞氐谋举|(zhì),他們隨時(shí)保持著Ready的狀態(tài)。

什么時(shí)候有新的需求,就想著法兒的用技術(shù)去滿足,也因此團(tuán)隊(duì)成員們練就了能快速適應(yīng)業(yè)務(wù)轉(zhuǎn)型的本領(lǐng)。

馬楠說,他們這個(gè)語音合成組,大多本來不是這個(gè)專業(yè)的,比如有的成員過去是做搜索的,可以說都是逐漸摸索學(xué)習(xí)過來的。

現(xiàn)在他們從一個(gè)想法到Demo,只需要半個(gè)月到1個(gè)月的時(shí)間就可以達(dá)成。

因此,也不同于其他技術(shù)團(tuán)隊(duì)的成就感,他們成就感的來源,更多是一線老師的反饋。

“比公開服務(wù)更好用”,就是他們接收到的最好的嘉獎(jiǎng)。

隱藏在教育背后的技術(shù)實(shí)力

事實(shí)上,雖然外界對(duì)猿輔導(dǎo)的認(rèn)知更多地聚焦在“教育”上,但猿輔導(dǎo)從成立之初,就是一家把“技術(shù)”視作核心競(jìng)爭(zhēng)力的公司。

在2014年,猿輔導(dǎo)就成立了AI Lab,是在線教育行業(yè)內(nèi)首個(gè)成立AI研究院的企業(yè)。

從業(yè)務(wù)上看,猿輔導(dǎo)旗下有:拍一下就能秒出解題思路的小猿搜題,用AI幫助老師、家長(zhǎng)批改作業(yè)的小猿口算,利用AI打造智能學(xué)習(xí)模型的斑馬AI課……

其背后所需要的技術(shù)支持,不止于語音,還包括視覺、自然語言理解、音視頻等多個(gè)領(lǐng)域。

就用斑馬AI課來舉個(gè)例子好了。

斑馬AI課作為目前國(guó)內(nèi)面向?qū)W齡前兒童的最大在線課程學(xué)習(xí)平臺(tái),最吸引人的一點(diǎn)就是能做到“因材施教”。

也就是說,不僅僅是根據(jù)小盆友的年紀(jì)簡(jiǎn)單粗暴地劃分學(xué)習(xí)階段,而是讓孩子也能自適應(yīng)學(xué)習(xí)。

等等,自適應(yīng),這不是個(gè)教育AI模型的法子嗎?

 

其實(shí)是這么回事兒,以猿輔導(dǎo)百億級(jí)少兒語言行為大數(shù)據(jù)為基礎(chǔ),通過對(duì)孩子的語言行為進(jìn)行分析,就能更加細(xì)致地了解到孩子當(dāng)前的學(xué)習(xí)情況,進(jìn)而智能地調(diào)整課程的難度、“打怪”的路徑。上完網(wǎng)課,還能根據(jù)AI大數(shù)據(jù)分析,生成個(gè)性化的學(xué)習(xí)報(bào)告,及時(shí)反饋學(xué)習(xí)成果。

另外,就像之前提到的,通用模型在落地到更加垂直的場(chǎng)景中時(shí),表現(xiàn)往往不盡如人意。比如小朋友咿咿呀呀的發(fā)音,就比常規(guī)的成人語音識(shí)別更加困難,需要有針對(duì)性地收集數(shù)據(jù)、優(yōu)化模型。

源于這樣的背景,目前,猿輔導(dǎo)已經(jīng)發(fā)展形成語音實(shí)驗(yàn)室、視覺實(shí)驗(yàn)室、自然語言理解實(shí)驗(yàn)室、音視頻實(shí)驗(yàn)室和基礎(chǔ)支撐五大實(shí)驗(yàn)室。

而作為技術(shù)人員的馬楠也強(qiáng)調(diào):

對(duì)于我們的產(chǎn)品來說,前沿技術(shù)的支持并不是可有可無的,而是產(chǎn)品之所以能成立的核心原因。

以搜題為例,如果OCR的準(zhǔn)確率不夠高,搜得不夠準(zhǔn),用戶根本就不會(huì)選擇使用。

站在現(xiàn)在這個(gè)時(shí)間節(jié)點(diǎn),從用戶選擇的角度來看,猿輔導(dǎo)已經(jīng)成為國(guó)內(nèi)網(wǎng)課用戶規(guī)模最大的在線教育公司。

而從技術(shù)驗(yàn)證的層面來看,猿輔導(dǎo)曾先后在MS MARCO機(jī)器閱讀理解水平測(cè)試、斯坦福問答數(shù)據(jù)集兩項(xiàng)世界級(jí)NLP賽事中斬獲冠軍,如今也在語音等更多領(lǐng)域的世界賽事上嶄露頭角……

資本對(duì)其業(yè)務(wù)、技術(shù)的認(rèn)可,也已落在了具體的數(shù)字上:估值155億美金,是全球估值最高的在線教育獨(dú)角獸公司。

就在這樣的高速發(fā)展之中,體量越來越大的猿輔導(dǎo),在重視落地之外,也越來越看重“長(zhǎng)期主義”。

馬楠就透露,現(xiàn)在在技術(shù)團(tuán)隊(duì)內(nèi)部,有相當(dāng)一部分人力投入到了前沿技術(shù)的探索、攻關(guān)當(dāng)中。這類研發(fā)工作在短期看來不會(huì)立刻被用上,但公司認(rèn)為,從長(zhǎng)期發(fā)展的角度來看,這些積累將成為猿輔導(dǎo)技術(shù)護(hù)城河的關(guān)鍵組成。

最后,再來總結(jié)一下,猿輔導(dǎo)究竟是一家什么樣的技術(shù)公司?

以在線教育之名,從每個(gè)具體場(chǎng)景出發(fā),將AI技術(shù)之力在各個(gè)產(chǎn)品中得以體現(xiàn)。

如果一項(xiàng)技術(shù)研發(fā)的很厲害但沒用上,對(duì)猿輔導(dǎo)來說是不太可能的。

因此可以說,猿輔導(dǎo)的AI更具有實(shí)用主義色彩。

曾經(jīng),中國(guó)的教育領(lǐng)域一度被認(rèn)為格局已成。但以猿輔導(dǎo)為代表的第三代教育科技公司,卻以黑馬之勢(shì)登上歷史舞臺(tái),撕開了一條新的進(jìn)擊之路。

背后的核心關(guān)鍵詞,正是技術(shù),正是AI。

而教育在AI等新一代技術(shù)驅(qū)動(dòng)之下展現(xiàn)的潛力,或許才剛剛開始。

相關(guān)推薦