智能機器人原理與應(yīng)用 課件 第6章 智能機器人的語音合成與識別_第1頁
智能機器人原理與應(yīng)用 課件 第6章 智能機器人的語音合成與識別_第2頁
智能機器人原理與應(yīng)用 課件 第6章 智能機器人的語音合成與識別_第3頁
智能機器人原理與應(yīng)用 課件 第6章 智能機器人的語音合成與識別_第4頁
智能機器人原理與應(yīng)用 課件 第6章 智能機器人的語音合成與識別_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

北京信息科技大學(xué)自動化學(xué)院智能機器人原理與應(yīng)用“智能檢測技術(shù)與模式識別”研究所第6章

智能機器人的語音合成與識別語言是人類最重要的交流工具,自然方便,準(zhǔn)確高效。讓機器與人之間進(jìn)行自然語言交流是智能機器人領(lǐng)域的一個重要研究方向。語音合成與識別技術(shù)涉及語音聲學(xué)、數(shù)字信號處理、人工智能、微機原理、模式識別、語言學(xué)和認(rèn)知科學(xué)等眾多前沿科學(xué),是一個涉及面很廣的綜合性科學(xué),其研究成果對人類的應(yīng)用領(lǐng)域和學(xué)術(shù)領(lǐng)域都具有重要價值。近年來,語音合成與識別取得顯著進(jìn)步,逐漸從實驗室走向市場,應(yīng)用于工業(yè)、消費電子產(chǎn)品、醫(yī)療、家庭服務(wù)、機器人等各個領(lǐng)域。6.1語音合成的基礎(chǔ)理論語音合成是指由人工通過一定的機器設(shè)備產(chǎn)生出語音。具體方法是利用計算機將任意組合的文本轉(zhuǎn)化為聲音文件,并通過聲卡等多媒體設(shè)備將聲音輸出。簡單地說,就是讓機器把文本資料讀出來。由圖6.1可知,語音合成系統(tǒng)完成文本到語音數(shù)據(jù)的轉(zhuǎn)化過程中可以簡單分為兩個步驟。圖6.1

語音合成技術(shù)原理示意圖(1)文本經(jīng)過前端的語法分析,通過詞典和規(guī)則的處理得到格式規(guī)范,攜帶語法層次的信息,傳送到后端。(2)后端在前端分析的結(jié)果基礎(chǔ)上,經(jīng)過韻律方面的分析處理得到語音的時長、音高等韻律信息,再根據(jù)這些信息在音庫中挑選最合適的語音單元,語音單元再經(jīng)過調(diào)整和拼接就能得到最終的語音數(shù)據(jù)。6.1.1語音合成分類6.1語音合成的基礎(chǔ)理論1.波形合成法波形合成法是一種相對簡單的語音合成技術(shù),它把人發(fā)音的語音數(shù)據(jù)直接存儲或進(jìn)行波形編碼后存儲,根據(jù)需要進(jìn)行編輯組合輸出。2.參數(shù)合成法參數(shù)合成法也稱為分析合成法,只在譜特性的基礎(chǔ)上來模擬聲道的輸出語音,而不考慮內(nèi)部發(fā)音器官是如何運動的。3.規(guī)則合成法規(guī)則合成法通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。6.1語音合成的基礎(chǔ)理論6.1.2常用語音合成技術(shù)1.共振峰合成法習(xí)慣上,聲道傳輸頻率響應(yīng)上的極點稱為共振峰。語音的共振峰頻率(極點頻率)的分布特性決定著語音的音色。共振峰合成涉及共振峰的頻率、帶寬、幅度參數(shù)和基音周期等相關(guān)參數(shù)。要產(chǎn)生可理解的語音信號,至少要有3個共振峰;要產(chǎn)生高質(zhì)量合成語音信號,至少要有5個共振峰?;诠舱穹搴铣煞ㄖ饕幸韵?種實用模型。1)級聯(lián)型共振峰模型2)并聯(lián)型共振峰模型3)混合型共振峰模型6.1語音合成的基礎(chǔ)理論2.

LPC(線性預(yù)測)參數(shù)合成LPC合成技術(shù)本質(zhì)上是一種時間波形的編碼技術(shù),目的是為了降低時間域信號的傳輸速率。LPC合成技術(shù)的優(yōu)點是簡單直觀,其合成過程實質(zhì)上只是一種簡單的譯碼和拼接過程。另外,由于波形拼接技術(shù)的合成基元是語音的波形資料,保存了語音的全部信息,因而對于單個合成基元來說,能夠獲得較高的自然度。3.

PSOLA算法合成語音早期的波形編輯技術(shù)只能回放音庫中保存的東西。然而,任何一個語言單元在實際語流中都會隨著語言環(huán)境的變化而變化。20世紀(jì)80年代末,丹尼斯?德?維特和貝阿特?多瓦爾等提出了基音同步疊加技術(shù)(PSOLA)。PSOLA算法和早期波形編輯有原則性的差別,它既能保持原始語音的主要音段特征,又能在音節(jié)拼接時靈活調(diào)整其基音、能量和音長等韻律特征,因而很適合漢語語音的規(guī)則合成。由于韻律修改針對的側(cè)面不同,PSOLA算法的實現(xiàn)目前有以下3種方式。(1)時域基音同步疊加TD-PSOLA。(2)線性預(yù)測基音同步疊加LPC-PSOLA。(3)頻域基音同步疊加FD-PSOLA。6.1語音合成的基礎(chǔ)理論概括起來,用PSOLA算法實現(xiàn)語音合成時主要有以下3個步驟。1)基音同步分析2)基音同步修改3)基音同步合成6.2語音識別的基本原理6.2.1語音識別的基本原理語音識別系統(tǒng)本質(zhì)上是一個模式識別系統(tǒng),其原理如圖6.5所示。外界的模擬語音信號經(jīng)由麥克風(fēng)輸入計算機,計算機平臺利用其A/D轉(zhuǎn)換器將模擬信號轉(zhuǎn)換成計算機能處理的語音信號,然后將該語音信號送入語音識別系統(tǒng)前端進(jìn)行預(yù)處理。預(yù)處理會過濾語音信息中不重要的信息與背景噪聲等,以方便后期的特征提取與訓(xùn)練識別。預(yù)處理主要包括語音信號的預(yù)加重,分幀加窗和端點檢測等工作。特征提取主要是為了提取語音信號中反映語音特征的聲學(xué)參數(shù),除掉相對無用的信息。語音識別中常用的特征參數(shù)有短時平均能量或幅度、短時自相關(guān)函數(shù)、短時平均過零率、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)等。圖6.5語音識別結(jié)構(gòu)圖6.2語音識別的基本原理1.語音訓(xùn)練語音訓(xùn)練是在語音識別之前進(jìn)行的,用戶多次從系統(tǒng)前端輸入訓(xùn)練語音,系統(tǒng)的前端語音處理部分會對訓(xùn)練語音進(jìn)行預(yù)處理和特征提取,之后利用特征提取得到的特征參數(shù)可以組建起一個訓(xùn)練語音的參考模型庫,或者是對此模型庫中己經(jīng)存在的參考模型作適當(dāng)?shù)男薷摹?.語音識別語音識別是指將待識別語音經(jīng)過特征提取后的特征參數(shù)與參考模型庫中的各個模式一一進(jìn)行比較,將相似度最高的模式作為識別的結(jié)果輸出,完成模式的匹配過程。模式匹配是整個語音識別系統(tǒng)的核心。6.2語音識別的基本原理6.2.2語音識別的預(yù)處理語音信號預(yù)處理包括采樣量化、分幀加窗和端點檢測等。1.采樣量化采樣就是在時間域上等間隔地抽取模擬信號,得到序列模擬音頻后,將其轉(zhuǎn)化成數(shù)字音頻的。實際上就是將模擬音頻的電信號轉(zhuǎn)換成二進(jìn)制碼0和1。0和1便構(gòu)成了數(shù)字音頻文件。采樣頻率越大,音質(zhì)越有保證。如圖6.6所示,采樣過程可表達(dá)如下:

(6.18)其中n為整數(shù),T為采樣周期,

為采樣頻率。圖6.6語音信號采樣示意圖6.2語音識別的基本原理2.分幀加窗語音信號本身是一種非平穩(wěn)的信號。但研究發(fā)現(xiàn),在一個很短的時間內(nèi)(10~30ms),信號很平穩(wěn)。所以可以對連續(xù)的語音信號進(jìn)行10~30ms分幀操作。假定每幀內(nèi)的信號是短時平穩(wěn)的,我們可以對每幀進(jìn)行短時分析,包括提取短時能量、短時自相關(guān)函數(shù)、短時過零率、短時頻譜等。同時,為了保證特征參數(shù)變化比較平滑,幀之間會有部分重疊,重疊的部分可以是1/2幀或1/3幀,此部分稱為幀移。對信號作適當(dāng)?shù)募哟疤幚?,可以減小語音幀之間的截斷效果,使上一幀結(jié)束處和下一幀起始處的信號更加連續(xù)。加窗函數(shù)常用的有矩陣窗和漢明窗等(其中N均為幀長)。矩陣窗為

(6.22)漢明窗為

(6.23)6.2語音識別的基本原理3.端點檢測端點檢測就是通過準(zhǔn)確地判斷輸入語音段的起點和終點來減少運算量、數(shù)據(jù)量以及時間,進(jìn)而得到真正的語音數(shù)據(jù)。比較常用的端點檢測方法有兩種:多門限端點檢測法和雙門限端點檢測法。在語音信號檢測過程中,多門限檢測算法有較長的時間延時,不利于進(jìn)行語音過程實時控制,所以大多采用雙門限端點檢測方法。雙門限端點檢測方法是通過利用語音信號的短時能量和平均過零率的性質(zhì)來進(jìn)行端點檢測,其步驟如下。(1)設(shè)定閾值。(2)尋找語音信號端點檢測的起點。(3)尋找語音信號端點檢測的終點。(4)語音端點結(jié)果檢測。6.2語音識別的基本原理6.2.3語音識別的特征參數(shù)提取對語音信號完成端點檢測和分幀處理后,下一步就是特征參數(shù)的提取。語音信號數(shù)據(jù)量巨大,為了減小數(shù)據(jù)量,必須進(jìn)行特征提取。語音特征參數(shù)可以是共振峰值、基本頻率、能量等語音參數(shù)。目前,在語音識別中比較有效的特征參數(shù)為線性預(yù)測倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。1.線性預(yù)測系數(shù)線性預(yù)測(linearprediction,LP)普遍地應(yīng)用于語音信號處理的各個方面。線性預(yù)測是基于全極點模型的假設(shè),采用時域均方誤差最小準(zhǔn)則來估計模型參數(shù)。線性預(yù)測的計算效率很高,而且還能與聲管發(fā)音模型相聯(lián)系。線性預(yù)測分析的基本思想是每個語音信號采樣值都可以用它過去取樣值的加權(quán)和來表示,各加權(quán)系數(shù)應(yīng)使實際語音采樣值與線性預(yù)測采樣值之間誤差的平方和達(dá)到最小,即進(jìn)行最小均方誤差的逼近。線性預(yù)測是將被分析信號用一個模型來表示,即將語音信號看作是某一模型的輸出。因此,它可以用簡單的模型參數(shù)來描述。如圖6.7所示。圖6.7信號模型圖2.線性預(yù)測倒譜系數(shù)(LPCC)6.2語音識別的基本原理線性預(yù)測倒譜系數(shù)(LPCC)是線性預(yù)測系數(shù)在倒譜中的表示。該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,缺點是對輔音的描述能力較差,抗噪聲性能較差。倒譜系數(shù)是利用同態(tài)處理方法,對語音信號求離散傅里葉變換DFT后取對數(shù),再求反變量IDFT就可以得到?;贚PC分析的倒譜在獲得線性預(yù)測系數(shù)后,可以用一個遞推公式計算得出L。

(6.31)公式中:——倒譜系數(shù);——預(yù)測系數(shù);n——倒譜系數(shù)的階數(shù)(n=1,2,…,p)p——預(yù)測系數(shù)的階數(shù)。6.2語音識別的基本原理3.Mel倒譜系數(shù)(MFCC)基于語音信號產(chǎn)生模型的特征參數(shù)強烈地依賴模型的精度,模型假設(shè)的語音信號的平穩(wěn)性并不能隨時滿足。現(xiàn)在常用的另一個語音特征參數(shù)為基于人的聽覺模型的特征參數(shù)。Mel倒譜系數(shù)MFCC是受人的聽覺系統(tǒng)研究成果推動而導(dǎo)出的聲學(xué)特征,采用Mel頻率倒譜參數(shù)(Melfrequencycepstrumcoefficients,MFCC)運算特征提取方法,己經(jīng)在語音識別中得到廣泛應(yīng)用。人耳聽到的聲音的高低與聲音的頻率并不成線形正比關(guān)系,與普通實際頻率倒譜分析不同,MFCC的分析著眼于人耳的聽覺特性。MFCC的具體步驟如下。運用式(6.32)將實際頻率尺度轉(zhuǎn)化為Mel頻率尺度:

(6.32)在Mel頻率軸上配置L個通道的三角形濾波器組,每個三角形濾波器的中心頻率c(l)在Mel頻率軸上等間隔分配。設(shè)

,和

分別是第1個三角形濾波器的上限、中心和下限并滿足:(6.33)6.2語音識別的基本原理根據(jù)語音信號幅度譜,求每個三角形濾波器的輸出公式如下。

(6.34)式(6.34)中,(6.35)對所有濾波器輸出進(jìn)行對數(shù)運算,再進(jìn)一步做離散余弦變換(DCT),即可得到MFCC:

(6.36)6.2語音識別的基本原理6.2.4模型訓(xùn)練和模式匹配語音識別核心部分的作用是實現(xiàn)參數(shù)化的語音特征矢量到語音文字符號的映射,一般包括模型訓(xùn)練和模式匹配技術(shù)。模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配。近幾十年比較成功的識別方法有隱馬爾可夫模型(HMM)、動態(tài)時間規(guī)整(DTW)技術(shù)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等。1.隱馬爾可夫模型隱馬爾可夫模型是20世紀(jì)70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù)。目前,大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的??梢?,HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。1)HMM語音模型2)HMM語音識別過程3)幾種不同的HMM模型

6.2語音識別的基本原理2.動態(tài)時間規(guī)整動態(tài)時間規(guī)整(DTW)是語音識別中較為經(jīng)典的一種算法,它將待識別語音信號的時間軸進(jìn)行不均勻的彎曲,使其特征與模板特征對齊,并在兩者之間不斷地進(jìn)行兩個矢量距離最小的匹配路徑計算,從而獲得這兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。設(shè)測試語音參數(shù)共有N幀矢量,而參考模板共有M幀矢量,且N不等于M。要找時間規(guī)整函數(shù)j=w(i),使測試矢量的時間軸i非線性地映射到模板的時間軸j上,并滿足(6.37)式中:

表示第i幀測試矢量T(i)和第j幀模板矢量R(j)之間的距離測度;D為在最優(yōu)情況下的兩矢量之間的匹配路徑。3.矢量量化6.2語音識別的基本原理傳統(tǒng)的量化方法是標(biāo)量量化。標(biāo)量量化中的整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值,對于一個輸入標(biāo)量信號,量化時落入小區(qū)間的值就要用這個代表值代替。隨著對數(shù)據(jù)壓縮的要求越來越高,矢量量化迅速發(fā)展起來。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。在實際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為以下兩類。(1)無記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。(2)有記憶的矢量量化。6.2語音識別的基本原理6.2.5視聽語音分離模型視聽語音分離模型(audio-visualspeechseparationmodel)的獨特之處在于,通過結(jié)合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說,例如特定人物對象的音頻與其發(fā)聲時的嘴部動作相關(guān)聯(lián),這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對應(yīng)著哪一個特定對象。對視頻中的視覺信號進(jìn)行分析,不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質(zhì)量(相較于只借助音頻來進(jìn)行特定對象語音分離),更加重要的還在于它能將分離后的純凈單一音軌與視頻中的可視對象聯(lián)系起來,如圖6.8所示。圖6.8視聽分離模型的輸入輸出6.3智能機器人的語音定向與導(dǎo)航與視覺一樣,聽覺是也是智能機器人的重要標(biāo)志之一,是實現(xiàn)人機交互、與環(huán)境交互的重要手段。由于聲音具有繞過障礙物的特性,在機器人多信息采集系統(tǒng)中,聽覺可以與機器人視覺相配合,彌補其視覺有限性及不能穿過非透光障礙物的局限性。機器人聽覺定位跟蹤聲源的研究主要分為基于麥克風(fēng)陣列和基于人耳聽覺機理的聲源定位系統(tǒng)研究。基于麥克風(fēng)陣列的聲源定位系統(tǒng)具有算法多樣、技術(shù)成熟、歷史悠久、定位準(zhǔn)確、抗干擾能力強等優(yōu)點。但是,該方法也具有計算量大、實時性差等不足,尤其是當(dāng)麥克風(fēng)數(shù)量很大時,不足顯得更加突出。隨著DSP硬件的發(fā)展,這些問題會逐漸解決?;谌硕犛X機理的聲源定位系統(tǒng)研究是當(dāng)前國際前沿研究課題。它從人的聽覺生理和心理特性出發(fā),研究人在聲音識別過程中的規(guī)律,尋找人聽覺表達(dá)的各種線索,建立數(shù)學(xué)模型,用計算機來實現(xiàn)它,即計算聽覺場景分析所要研究的內(nèi)容。該方法符合人的聽覺機理,是智能科學(xué)研究的成果。由于人耳聽覺機理尚未完全被人類認(rèn)識,所以該系統(tǒng)研究還處在低級階段。6.3智能機器人的語音定向與導(dǎo)航麥克風(fēng)陣列聲源定位是指用麥克風(fēng)陣列采集聲音信號,通過對多道聲音信號進(jìn)行分析和處理,在空間中定出一個或多個聲源的平面或空間坐標(biāo),得到聲源的位置。現(xiàn)有聲源定位技術(shù)可分為以下3類。(1)基于最大輸出功率的可控波束形成技術(shù)。(2)基于高分辨率譜估計技術(shù)。(3)基于聲達(dá)時間差的定位技術(shù)。6.3.2基于人耳聽覺機理的聲源定位系統(tǒng)6.3.1基于麥克風(fēng)陣列的聲源定位系統(tǒng)人耳聽覺系統(tǒng)能夠同時定位和分離多個聲源,這種特性經(jīng)常被稱作雞尾酒會效應(yīng)。通過這一效應(yīng),一個人在嘈雜聲音的環(huán)境中能集中在一個特定的聲音或語音。一般認(rèn)為,聲音的空間定位主要依靠聲源的時相差和強度差確定。從人類聽覺生理和心理特性出發(fā),研究人在聲音或語音識別過程中的規(guī)律被稱為聽覺場景分析,而用計算機模仿人類聽覺生理和心理機制建立聽覺模型的研究范疇稱為計算聽覺場景析。6.4智能機器人的語音系統(tǒng)實例6.4.1InterPhonic6.5語音合成系統(tǒng)InterPhonic語音合成系統(tǒng)是由我國自主研發(fā)的中英文語音合成系統(tǒng),以先進(jìn)的大語料和TrainableTTS這兩種語音合成技術(shù)為基礎(chǔ),提供可比擬真人發(fā)音的高自然度、高流暢性、面向任意文本篇章的連續(xù)合成語音合成系統(tǒng)。InterPhonic6.5語音合成系統(tǒng)致力于建立和改善人—機語音界面,為大容量語音服務(wù)提供高效穩(wěn)定的語音合成功能,并提供從電信級、企業(yè)級到桌面級的全套應(yīng)用解決方案,是新概念聲訊服務(wù)、語音網(wǎng)站、多媒體辦公教學(xué)的核心動力。1.主要功能InterPhonic語音合成系統(tǒng)具有的主要功能如下。(1)高質(zhì)量語音。(2)多語種服務(wù)。(3)多音色服務(wù)。(4)高精度文本分析技術(shù)。(5)多字符集支持。(6)多種數(shù)據(jù)輸出格式。(7)提供預(yù)錄音合成模板。(8)靈活的接口。(9)語音調(diào)整功能。(10)配置和管理工具。(11)效果優(yōu)化。(12)一致的訪問方式。(13)背景音和預(yù)錄音。6.4智能機器人的語音系統(tǒng)實例2.產(chǎn)品特點(1)獨創(chuàng)的語料信息統(tǒng)計模型。(2)前后端一致性的語料庫設(shè)計方法、和語料庫的自動構(gòu)建方法。(3)在聽感量化思想指導(dǎo)下,以變長韻律模板為基礎(chǔ)的高精度韻律模型。(4)高魯棒性的智能化文本分析處理技術(shù)。(5)基于聽感損失最小的語料庫裁減技術(shù)。(6)特定語種知識和系統(tǒng)建模方法分離的多語種語音合成系統(tǒng)框架。(7)面向特定領(lǐng)域應(yīng)用的定制語音合成技術(shù)。(8)

Hmm-based波形拼接技術(shù)。3.產(chǎn)品應(yīng)用6.4智能機器人的語音系統(tǒng)實例語音合成技術(shù)是一種能夠在任何時間、任何地點、向任何人提供語音信息服務(wù)的高效便捷手段,非常符合信息時代海量數(shù)據(jù)、動態(tài)更新和個性化查詢的需求。InterPhonic6.5語音合成系統(tǒng)提供高效、靈活的服務(wù),可以在多種領(lǐng)域內(nèi)使用,如PC語音互動式娛樂和教學(xué);電信級、企業(yè)級呼叫中心平臺(unitedmessageservice,UMS)和VoicePortal等新興語音服務(wù)系統(tǒng)。6.4.2Translatotron26.4智能機器人的語音系統(tǒng)實例1.

Translatotron的起源2019年,谷歌公司推出了Translatotron,這是有史以來第一個能夠直接在兩種語言之間翻譯語音的模型。這種直接的S2ST模型能夠有效地進(jìn)行端到端的訓(xùn)練,還具有在翻譯語音中保留源說話者的聲音(非語言信息)的獨特能力。然而,盡管它能夠以高保真度生成聽起來自然的翻譯語音,但與強大的基線級聯(lián)S2ST系統(tǒng)(如由直接語音到文本翻譯模型[1,2]和Tacotron2組成)相比,它的表現(xiàn)仍然不佳。在translatotron2:穩(wěn)定、簡潔的語音到語音翻譯中,谷歌描述了Translatotron的改進(jìn)版本,該版本顯著提高了性能,還應(yīng)用了一種將源說話者的聲音轉(zhuǎn)換為翻譯語音的新方法。即使輸入語音包含多個說話者輪流說話,修改后的語音轉(zhuǎn)移方法也是成功的,它減少了誤用的可能性,并更好地符合谷歌的AI原則。在3個不同語料庫上的實驗一致表明,Translatotron2在翻譯質(zhì)量、語音自然度和語音魯棒性方面大大優(yōu)于原始的Translatotron。6.4智能機器人的語音系統(tǒng)實例2.

Translatotron2簡介Translatotron2由4個主要組件組成:語音編碼器、目標(biāo)音素解碼器、目標(biāo)語音合成器和將它們連接在一起的注意力模塊。編碼器、注意力模塊和解碼器的組合類似典型的直接語音到文本翻譯模型。合成器以解碼器和注意力的輸出為條件。3.Translatotron2的性能Translatotron2在各個方面都大大優(yōu)于原始的Translatotron:更高的翻譯質(zhì)量(由BLEU衡量,越高越好);語音自然度(由MOS衡量,越高越好)和語音魯棒性(由UDR衡量,越低越好)。它在更難的Fisher語料庫中表現(xiàn)尤為出色。Translatotron2在翻譯質(zhì)量和語音質(zhì)量方面的性能接近強基線級聯(lián)系統(tǒng)的性能,并且在語音魯棒性方面優(yōu)于級聯(lián)基線。6.4智能機器人的語音系統(tǒng)實例4.多語言語音到語音翻譯除了西班牙語到英語S2ST,谷歌還評估了Translatotron2在多語言設(shè)置上的性能,其中模型從4種不同語言輸入語音,并將它們翻譯成英語。沒有提供輸入語音的語言,迫使模型自行檢測語言。在這項任務(wù)上,Translatotron2再次大幅超越了原來的Translatotron。雖然S2ST和ST之間的結(jié)果不能直接比較,但接近的數(shù)字表明Translatotron2的翻譯質(zhì)量與基線語音到文本翻譯模型相當(dāng),這表明Translatotron2在多語言S2ST上也非常有效。6.4.3百度深度語音識別系統(tǒng)6.4智能機器人的語音系統(tǒng)實例1.主要功能1)技術(shù)領(lǐng)先,識別準(zhǔn)確2)多語種識別3)智能語言處理4)多種調(diào)用方式5)毫秒級實時識別音頻流6)文字識別結(jié)果支持時間戳2.應(yīng)用場景1)實時語音輸入2)視頻直播字幕3)演講字幕同屏4)實時會議記錄5)課堂音頻識別3.產(chǎn)品優(yōu)勢1)識別效果領(lǐng)先2)支持多設(shè)備終端3)服務(wù)穩(wěn)定高效4)模型自助優(yōu)化6.5自然語言處理6.5.1定義自然語言處理(naturallanguageprocessing,

NLP)是計算機科學(xué)與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學(xué)的一部分。6.5.2發(fā)展歷程1948年,香農(nóng)把馬爾可夫過程模型應(yīng)用于建模自然語言,并提出把熱力學(xué)中“熵”的概念擴展到自然語言建模領(lǐng)域。此時尚未有NLP,但由于熵也是NLP的基石之一,在此也算作是NLP的發(fā)展歷程。1.NLP規(guī)則時代2.NLP統(tǒng)計時代3.NLP深度時代6.5自然語言處理6.5.3NLP的分類NLP的細(xì)分領(lǐng)域和技術(shù)實在太多,根據(jù)NLP的終極目標(biāo),大致可以分為自然語言理解(NLU)和自然語言生成(NLG)兩種。大致來說,NLP可以分為以下幾個領(lǐng)域。(1)文本檢索。(2)機器翻譯。(3)文本分類/情感分析。(4)信息抽取。(5)序列標(biāo)注。(6)文本摘要。(7)問答系統(tǒng)。(8)對話系統(tǒng)。(9)知識圖譜。(10)文本聚類。6.5自然語言處理6.5.4基本技術(shù)(1)分詞:基本算是所有NLP任務(wù)中最底層的技術(shù)。不論解決什么問題,分詞永遠(yuǎn)是第一步。(2)詞性標(biāo)注:判斷文本中的詞的詞性(名詞、動詞、形容詞等),一般作為額外特征使用。(3)句法分析:分為句法結(jié)構(gòu)分析和依存句法分析兩種。(4)詞干提取:從單詞各種前綴后綴變化、時態(tài)變化等變化中還原詞干,常見于英文文本處理。(5)命名實體識別:識別并抽取文本中的實體,一般采用BIO形式。(6)指代消歧:文本中的代詞,如“他”“這個”等,還原成其所指實體。(7)關(guān)鍵詞抽?。禾崛∥谋局械年P(guān)鍵詞,用以表征文本或下游應(yīng)用。(8)詞向量與詞嵌入:把單詞映射到低維空間中,并保持單詞間相互關(guān)系不變。是NLP深度學(xué)習(xí)技術(shù)的基礎(chǔ)。(9)文本生成:給定特定的文本輸入,生成所需要的文本,主要應(yīng)用于文本摘要、對話系統(tǒng)、機器翻譯、問答系統(tǒng)等領(lǐng)域。6.5自然語言處理6.5.5常用算法舉例TF-IDF:TF-IDF(termfrequency-inversedocumentfrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(termfrequency),IDF是逆文本頻率指數(shù)(inversedocumentfrequency)。LSI:隱性語義索引(latentsemanticidexing,LSI),也叫LatentSemanticAnalysis(LSA),是信息檢索領(lǐng)域一類非常重要的技術(shù)思想。它通過對詞項—文檔矩陣的奇異值分解,在理論上成功地解決了潛在語義(或叫隱性語義)的檢索問題。Glove:Glove算法是一種基于全局詞頻統(tǒng)計的回歸算法。它不是基于神經(jīng)網(wǎng)絡(luò),而是基于最小二乘原理的回歸方法。LSTM:長短期記憶網(wǎng)絡(luò)(longshort-termMemory,LSTM)是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長期依賴問題而專門設(shè)計出來的,所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。CNN:卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,CNN)是深度學(xué)習(xí)中非常常見的算法(模型),在圖像處理中應(yīng)用廣泛,基于CNN的專利申請近些年也增長迅速。6.5自然語言處理6.5.6終極目標(biāo)從計算機誕生,NLP這個概念被提出伊始,人們便希望計算機能夠理解人類的語言,于是便有了圖靈測試。6.5.7研究難點仍有很多制約NLP發(fā)展的因素,這些因素構(gòu)成了NLP的難點。而且要命的是,大多數(shù)難點是基礎(chǔ)技術(shù)的難點。研究的難點主要如下。(1)詞義消歧。(2)二義性。(3)

OOV問題。(4)文本相似度計算。(5)文本生成的評價指標(biāo)。6.5.8社會影響NLP發(fā)展迅速,對社會的影響越來越大。從語言翻譯到語音識別,從聊天機器人到識別情感,NLP正在提供有價值的見解,使我們的生活更高效。6.5自然語言處理6.6人機對話6.6.1概述人機對話是計算機的一種工作方式,即計算機操作員或用戶與計算機之間通過控制臺或終端顯示屏幕,以對話方式進(jìn)行工作。操作員可用命令或命令過程告訴計算機執(zhí)行某一任務(wù)。計算機將計算、處理和控制的情況及時顯示出來,供人觀察與了解;而人通過一些輸入設(shè)備把各種數(shù)據(jù)與指令輸入機器,進(jìn)行操縱和控制,即人與機器對話,如圖6.11所示。通過人機對話交互,用戶可以查詢信息,例如查詢天氣信息和高校的基本信息等。人機對話是人工智能領(lǐng)域的重要挑戰(zhàn)。近幾年,隨著人工智能的興起,人機對話的研究也越來越火熱。圖6.12是NLP頂級會議ACL和EMNLP自2010年以來相關(guān)論文的數(shù)量,可以看出從2016年開始,對話類論文的數(shù)量增長迅猛,2018年相比于2010年,論文數(shù)量有數(shù)倍的增長。對話相關(guān)技術(shù)的逐步成熟也引發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論