語音合成
Speech Synthesis 或Text to Speech(TTS)
語音合成(Speech Synthesis)是人類語音的人工合成。用于此目的的計算機系統(tǒng)稱為語音計算機或語音合成器,可以在軟件或硬件產(chǎn)品中實現(xiàn)。文本到語音(TTS)系統(tǒng)將普通語言文本轉(zhuǎn)換為語音;其他系統(tǒng)則把像音標(biāo)這樣的符號語言表示法翻譯成語音。其他系統(tǒng)則使用符號語言表征例如標(biāo)音法翻譯成語音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )
1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.
2. A symbolic linguistic representation符號語言表征是一種話語的表征,它使用符號來表征話語的語言信息,如語音、音位、形態(tài)學(xué)、句法或語義的信息。符號語言表征不同于非符號表征,如錄音,因為它們使用符號來表示語言信息,而不是測量。
合成語音可以通過連接存儲在數(shù)據(jù)庫中的記錄語音片段來創(chuàng)建。系統(tǒng)存儲的語音單元大小不同;存儲音素和亞音素(phones and diphones)[3]的系統(tǒng)提供最大的輸出范圍,但可能缺乏清晰度。對于特定的使用領(lǐng)域,整個單詞或句子的存儲允許高質(zhì)量的輸出。或者,合成器可以結(jié)合聲道模型和其他人類聲音特征來創(chuàng)建一個完全“合成”的聲音輸出。
3.語音學(xué)(Phonetics)是語言學(xué)的一個分支,研究人類語言的聲音,或者,在手語中,是手語的等效方面。它涉及語音或信號(電話)的物理特性:它們的生理產(chǎn)生、聲學(xué)特性、聽覺感知和神經(jīng)生理狀態(tài)。另一方面,音韻學(xué)是研究聲音或符號系統(tǒng)的抽象語法特征。
語音合成器的質(zhì)量是由它與人類聲音的相似性和它被清晰理解的能力來判斷的。一種可理解的文本-語音轉(zhuǎn)換程序允許有視覺障礙或閱讀障礙的人在家用電腦上聽書面文字。自上世紀(jì)90年代初以來,許多計算機操作系統(tǒng)都包含語音合成器。
文本到語音系統(tǒng)(或“引擎”)由兩部分組成:前端和后端。前端有兩個主要任務(wù)。首先,它將包含數(shù)字和縮寫等符號的原始文本轉(zhuǎn)換為相當(dāng)于輸出的單詞。這個過程通常稱為文本規(guī)范化、預(yù)處理或標(biāo)記化。然后前端為每個單詞分配語音轉(zhuǎn)錄,并將文本劃分和標(biāo)記為韻律單位,如短語、子句和句子。將音標(biāo)分配給單詞的過程稱為文本到音素或字母到音素的轉(zhuǎn)換。音標(biāo)和韻律信息共同構(gòu)成了前端輸出的符號語言表征。后端通常被稱為合成器,然后將符號語言表示轉(zhuǎn)換成聲音。在某些系統(tǒng)中,這部分包括計算目標(biāo)韻律(音高輪廓,音素時長),然后將之加到輸出語音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)
之前的文章有提到過,目前國內(nèi)的主流語音合成方案有科大訊飛、搜狗、云知聲、思必馳等。
而語音合成目前市面上一般使用參數(shù)合成,或者拼接合成,前者的音庫都是在10小時左右,基本用不到20小時,對于合成人聲效果的自然度,更依賴算法,而拼接則對于數(shù)據(jù)的需求量很高,對合成人聲效果的自然度,更依賴數(shù)據(jù)量。很多聽起來很自然的音庫時長在100~200小時左右。
以及,TTS模型通常也會分為中文,英文,或者中英混輸?shù)?。做?xùn)練的文本,有很多文字比較拗口,故而對錄音聲優(yōu)的功力有要求,中英混輸?shù)哪P蛿?shù)據(jù)就更難了。如果是普通的中文TTS模型,以剛才的例子“馬上為您播放周杰倫的《晴天》live版本”,這種就可以在錄音時加入一些簡單的字母,單詞,短語等等。
合成的wav文件回傳到終端音箱,并播放出來,如此,完成了一環(huán)基礎(chǔ)的用戶與智能硬件之間的對話。
方法上:波形拼接合成和參數(shù)合成
波形拼接語音合成:
基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng)
超大規(guī)模音庫制作:語料設(shè)計;音庫錄制;精細切分;韻律標(biāo)注;
優(yōu)點:音質(zhì)最佳,錄音和合成音質(zhì)差異小,正常句子的自然度也好
缺點:非常依賴音庫的規(guī)模大小和制作質(zhì)量,尺寸大,無法在嵌入式設(shè)備中應(yīng)用,仍然存在拼接不連續(xù)性
參數(shù)語音合成技術(shù):
對于引得頻譜特性參數(shù)進行建模,生成參數(shù)合成器,來構(gòu)建文本序列映射到語音的映射關(guān)系
優(yōu)點:尺寸小,語音自然度好
缺點:音質(zhì)不如拼接合成