<i id="ul49m"></i><dfn id="ul49m"><pre id="ul49m"></pre></dfn>

有事離開(kāi)？不用擔(dān)心

掃一掃繼續(xù)用手機(jī)看

微信掃碼

不再提醒

點(diǎn)贊
評(píng)論
分享

復(fù)制鏈接

新浪微博

微信/QQ掃碼

《與非觀察室》系列

18:20

智能語(yǔ)音的蛻變，不是一場(chǎng)數(shù)字游戲

2020/07/07
12:12

元器件供應(yīng)鏈管理數(shù)字化變革進(jìn)行時(shí)

01/06 17:33
21:25

變則通，江波龍的一盤大棋

2024/04/08
29:23

國(guó)產(chǎn)數(shù)字EDA的現(xiàn)狀分析與策略思考

2023/10/25
17:43

擁抱改變，西門子眼中的數(shù)字化、低碳化大勢(shì)

2023/05/30
19:42

汽車產(chǎn)業(yè)鏈大變局，本土Tier1/Tier2機(jī)會(huì)幾何？

2023/05/15
19:46

ChatGPT算力集群中的國(guó)產(chǎn)芯片機(jī)會(huì)！

2023/03/31
18:37

與非觀察室之對(duì)話飛騰：一顆CPU的誕生史

2022/08/25
20:01

AI芯片——大象在盒子里跳舞？

2022/03/31
20:15

痛并快樂(lè)著，大缺貨下，元器件獨(dú)立分銷商的轉(zhuǎn)型焦慮

2022/03/01

智能語(yǔ)音的蛻變，不是一場(chǎng)數(shù)字游戲

原創(chuàng)

2020/07/07 作者：吳子鵬

231

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

“芝麻開(kāi)門。”
“芝麻關(guān)門。”
“我要去五樓。”

這幾條充滿童趣的語(yǔ)句，實(shí)際上是控制電梯的語(yǔ)音指令。疫情當(dāng)前，電梯是非常高風(fēng)險(xiǎn)的區(qū)域，尤其是手指碰觸電梯按鍵的時(shí)候。針對(duì)這一場(chǎng)景，思必馳推出了電梯語(yǔ)音控制模塊。“在后裝的電梯上也可以進(jìn)行安裝，而且安裝起來(lái)非常簡(jiǎn)單方便。” 思必馳 IoT 商務(wù)總經(jīng)理陳葦珍在演示過(guò)程中表示。

思必馳 IoT 商務(wù)總經(jīng)理陳葦珍

“97%或者 99%只是實(shí)驗(yàn)室數(shù)據(jù)”

電梯控制是一個(gè)典型的語(yǔ)音識(shí)別應(yīng)用場(chǎng)景，技術(shù)的進(jìn)步正在改變人機(jī)交互的方式和結(jié)果。

語(yǔ)音識(shí)別是人機(jī)交互中的重要技術(shù)，所涉及的領(lǐng)域包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等，近些年語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步，開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。

人工智能和機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威學(xué)者吳恩達(dá)此前表示，當(dāng)語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到 99%時(shí)將改變?nèi)藱C(jī)交互方式。陳葦珍認(rèn)為：“不管 97%還是 99%，如果單純強(qiáng)調(diào)這種實(shí)驗(yàn)室的語(yǔ)音識(shí)別的數(shù)據(jù)，它的價(jià)值會(huì)相對(duì)有限，需要結(jié)合到具體的場(chǎng)景來(lái)看，比如說(shuō)辦公、車載、家居、金融等領(lǐng)域的應(yīng)用場(chǎng)景，再結(jié)合大數(shù)據(jù)的運(yùn)算和認(rèn)知計(jì)算，才能夠真正地形成一個(gè)好的交互體驗(yàn)。”

她強(qiáng)調(diào)：“思必馳更關(guān)注的是完整的人機(jī)語(yǔ)音交互技術(shù)，除了語(yǔ)音控制之外，更多的是關(guān)注交互能力和對(duì)話能力。我們的語(yǔ)音識(shí)別包括連續(xù)的云端識(shí)別，還有實(shí)時(shí)識(shí)別、抗噪識(shí)別、遠(yuǎn)場(chǎng)識(shí)別以及大詞匯識(shí)別和本地識(shí)別。”

關(guān)注思必馳的人都知道他們還有一個(gè)“語(yǔ)音識(shí)別++”。“除了提供文本信息識(shí)別之外，語(yǔ)音識(shí)別++也會(huì)有情緒識(shí)別、年齡識(shí)別、聲紋識(shí)別這些信息。” 陳葦珍介紹說(shuō)：“我們的情緒識(shí)別已經(jīng)能夠去支持覆蓋主流的情緒：憤怒、快樂(lè)、喜悅等，可以針對(duì)性地做出擬人化反映。同時(shí)這種分類的識(shí)別計(jì)算是為了把我們的識(shí)別信息進(jìn)行多樣化，輔助生成用戶畫(huà)像。”

讓機(jī)器能夠感受人的喜怒哀樂(lè)，從人機(jī)交互走向人人交互，甚至是超越人人交互，這個(gè)過(guò)程確實(shí)不只是識(shí)別準(zhǔn)確率提升的問(wèn)題。

遠(yuǎn)場(chǎng)和混合語(yǔ)言是“攔路虎”

在語(yǔ)音識(shí)別的具體應(yīng)用場(chǎng)景中，我們總是能夠發(fā)現(xiàn)一些有共性且突出的識(shí)別障礙，比如遠(yuǎn)場(chǎng)聲音的處理以及混合語(yǔ)言的處理。

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別常見(jiàn)的場(chǎng)景比如會(huì)議室、車載場(chǎng)景、智能家居等，這些場(chǎng)景中會(huì)出現(xiàn)較為明顯的“雞尾酒會(huì)問(wèn)題”，出現(xiàn)收音不理想和背景音噪聲等情況。

對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別而言，不僅要有好的語(yǔ)音識(shí)別算法，在硬件層面同樣需要一定規(guī)格的配置。陳葦珍表示：“思必馳推出了軟硬一體化的麥克風(fēng)陣列解決方案，能夠支持在家居環(huán)境 5 米的良好交互效果，能夠支持 360 度的角度適應(yīng)。線性陣列方面，能夠支持 180 度的角度適應(yīng)，同時(shí)可以實(shí)現(xiàn)純軟件算法的降噪。”

另一個(gè)障礙是混合語(yǔ)言應(yīng)用場(chǎng)景，包括中英文混合、方言等。“混合識(shí)別確實(shí)是比較難攻克的問(wèn)題，主要難點(diǎn)實(shí)際是在聲學(xué)模型上。目前，我們?cè)诼晫W(xué)模型的建模上采用從端到端的中英文交雜輸出的方式。這個(gè)模型的好處是一個(gè)模型能夠同時(shí)支持中文、英文或者是中英文交雜輸出，同時(shí)能夠保證它的中文性能不受損傷。” 陳葦珍講到。

結(jié)合她的描述，這樣的方式是可以復(fù)制的，從中文+英文到中文+粵語(yǔ)，甚至是中文+英文+粵語(yǔ)，能夠融入的方言還包括上海話、四川話、重慶話和山東話等。

后記

讓機(jī)器與人能夠像人與人一樣溝通，這是一種感性的需求。隨著智能語(yǔ)音技術(shù)的不斷精進(jìn)，人與機(jī)器之間必將突破交互的限制，達(dá)到交流的程度。在人與人的交流過(guò)程中，智慧的人類彼此之間有著更為豐富的表達(dá)，對(duì)于機(jī)器而言人類是“善變”的。因此，讓機(jī)器找到萬(wàn)變不離其宗的規(guī)律，是人機(jī)交互更進(jìn)一步的關(guān)鍵所在。

原創(chuàng)聲明：本文為與非網(wǎng)原創(chuàng)內(nèi)容，著作權(quán)歸與非網(wǎng)所有。未經(jīng)與非網(wǎng)書(shū)面授權(quán)，不得以任何方式加以使用。轉(zhuǎn)載合作

人工客服
（售后/吐槽/合作/交友）

思必馳

思必馳是國(guó)內(nèi)專業(yè)的對(duì)話式人工智能平臺(tái)公司，擁有全鏈路的智能語(yǔ)音語(yǔ)言技術(shù)，自主研發(fā)了新一代人機(jī)交互平臺(tái)(DUI)，和人工智能芯片(TH1520)；為車聯(lián)網(wǎng)、IoT及政務(wù)、金融等眾多行業(yè)場(chǎng)景合作伙伴提供自然語(yǔ)言交互解決方案。并擁有中英文綜合語(yǔ)音技術(shù)。思必馳語(yǔ)音識(shí)別、聲紋識(shí)別、口語(yǔ)對(duì)話系統(tǒng)等技術(shù)曾經(jīng)多次在美國(guó)國(guó)家標(biāo)準(zhǔn)局、國(guó)際研究機(jī)構(gòu)評(píng)測(cè)中奪得冠軍。