語音識別-科普性介紹.docx_第1頁
語音識別-科普性介紹.docx_第2頁
語音識別-科普性介紹.docx_第3頁
語音識別-科普性介紹.docx_第4頁
語音識別-科普性介紹.docx_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

.隨機過程理論在語音識別中的應(yīng)用第一章 語音識別總述1.1語音識別技術(shù)簡介語音識別技術(shù)就是讓機器通過識別和理解過程,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在當下流行的即時通訊軟件(如:微信、QQ等)里,語音識別技術(shù)得到了非常廣泛的應(yīng)用。當對方發(fā)來一段語音信息而自己不方便收聽時便可以使用語音轉(zhuǎn)化功能將語音信息轉(zhuǎn)化成文字信息。此外,在許多輸入法(如:訊飛輸入法)中也可以使用語音輸入功能。用戶只需要對著麥克風(fēng)說話,輸入法便可以將語音轉(zhuǎn)換為文字填入輸入框,在方便用戶的同時也提高了文字輸入效率。語音識別涉及的領(lǐng)域包括:數(shù)字信號處理、聲學(xué)、語音學(xué)、計算機科學(xué)、心理學(xué)、人工智能等,是一門涵蓋多個學(xué)科領(lǐng)域的交叉科學(xué)技術(shù)。語音識別的技術(shù)原理是模式識別,其一般過程可以總結(jié)為:預(yù)處理、特征提取、基于語音模型庫下的模式匹配、基于語言模型庫下的語言處理、完成識別。圖1.0.1 語音識別過程第二章 預(yù)處理聲音的實質(zhì)是波。在現(xiàn)如中得到廣泛應(yīng)用的音頻文件格式(如:mp3等)都經(jīng)過了壓縮無法直接識別。語音識別所使用的音頻文件格式必須是未經(jīng)壓縮處理的wav格式文件。下圖是一個波形示例。圖2.0.2 語音波形示例有了聲波源文件輸入便可以按照圖2.1.1所示的各個步驟進行識別。2.1靜音切除如圖2.1.2所示,在得到的聲波信號輸入中需要實際處理的信號并不一定占滿整個時域,會有靜音和噪聲的存在。因此,必須先對得到的輸入信號進行一定的預(yù)處理,消去靜音的部分并且濾除噪聲的干擾才能對實際需要處理的有效語音進行識別。噪聲處理部分本文已在上文進行過討論,這里不再贅述。去除靜音需要用到VAD算法,本文對其做簡單介紹。2.1.1 VAD算法VAD算法全稱為Voice Activity Detection,又稱語音邊界檢測。其可實現(xiàn)的功能有對語音信號進行打斷、去除語音信號中的靜音部分從而獲取有效語音,還可以去除一部分噪聲對后續(xù)語音識別過程造成的干擾。VAD主要是對輸入語音信號的一些時域或頻域特征判斷其是否屬于靜音部分。本文只對這些參數(shù)做簡要介紹,具體算法不屬于本文重點因而不在此做細致討論。2.1.2時域參數(shù)時域參數(shù)是通過對輸入信號在時域上的特征參量進行區(qū)分。在信噪比較高的環(huán)境下使用時域參數(shù)進行區(qū)分效果顯著。1.相關(guān)性分析 通過對足夠短的時間范圍內(nèi)的語音信號進行相關(guān)性檢測可以初步判定該時間范圍內(nèi)的信號是否屬于靜音部分。在實際應(yīng)用中,靜音的部分實際上會混有各種各樣的噪聲,因此并非絕對意義上靜音。噪聲在各個時間范圍內(nèi)的相關(guān)性比較低,而人說話的語音相關(guān)性則比較強。因此,在高信噪比的條件下區(qū)分成功率很高。然而,由于噪聲多種多樣,因此相關(guān)性分析只適用于區(qū)分小部分噪聲與語音,這是其局限性所在。2. 時域能量靜音部分的噪聲能量相較于有效語音能量而言要少得多,因此可以通過比較短時間范圍內(nèi)的輸入信號能量來判定該段信號是否輸入靜音部分。而在實際生活中,會出現(xiàn)高能量噪聲的情況,此時再用時域能量參數(shù)就顯得愛莫能助。.3.2.1.2頻域參數(shù)頻域參數(shù)的抗噪性能要優(yōu)于時域參數(shù),但是由于需要用到傅立葉變換等變換方法進行分析域轉(zhuǎn)換,因此相應(yīng)的計算復(fù)雜度較高,花費時間也較長。1. 譜熵熵本是源于熱力學(xué)的參數(shù),用于描述系統(tǒng)的混亂度。在信息論中用于描述信息源的不確定性。 圖2.1.1 噪聲譜 圖2.1.2 語音譜在實際應(yīng)用中,噪聲譜較為平坦,譜熵較大。而語音能量集中在低頻段,譜熵較小,因此可通過譜熵來判斷信號屬于噪聲還是有效語音。譜熵的可靠性不會受信號大小的影響,其大小只與信噪比有關(guān)。2. 自適應(yīng)子帶即使在很低的信噪比下,語音幀仍然具有較高信噪比的子帶,而噪聲幀卻沒有。因此可以根據(jù)每幀信號的最小頻帶所占的該幀總能量的概率來自適應(yīng)選擇子帶的多少。2.2分幀2.2.1分幀簡介如圖2.0.2的有效語音信號波形在時域上是無法對其進行識別的的。因此必須算出有效語音信號在頻域上的分布情況,因而需要對有效語音信號做傅立葉變換從而得到其在頻域上的分布情況。圖2.2.1 有效語音信號波形圖傅立葉變換的前提是輸入信號是平穩(wěn)的,而如圖2.2.1所示的有效語音信號的前三分之一和后三分之二明顯不一樣,這是由于發(fā)音者的發(fā)音姿態(tài)變換而導(dǎo)致的,所以整體來看語音信號不平穩(wěn)。但如果取適量小的時間范圍內(nèi)(如圖中矩形框圈出的時間范圍),僅在該時間范圍內(nèi)做分析的話,發(fā)聲者的發(fā)聲姿態(tài)基本不變,語音信號就可以看成平穩(wěn)的,就可以截取出來做傅立葉變換了。將有效語音信號的截取成一幀一幀的平穩(wěn)信號的過程就稱為分幀。2.2.1分幀時長由上述的討論可知,通過分幀操作所得到的每一幀信號需滿足如下兩個條件:1. 它必須足夠短來保證幀內(nèi)信號是平穩(wěn)的。上文提到過,發(fā)音者發(fā)音姿態(tài)的變化是導(dǎo)致信號不平穩(wěn)的原因,所以在一幀的期間內(nèi)發(fā)音姿態(tài)不能有明顯變化。即一幀的長度應(yīng)當小于一個音素的長度。正常語速下,音素的持續(xù)時間大約是 50至200 ms,所以幀長一般取為小于 50 ms。2.每一幀信號又必須包括足夠多的振動周期,因為傅立葉變換是對信號的頻域進行分析,只有每一個頻率成分在時域重復(fù)振動足夠多次才能分析頻率。語音的基頻,男聲在 100 Hz左右,女聲在 200 Hz左右,換算成周期就是 10 ms和 5 ms。既然一幀要包含多個周期,所以一般取至少 20 ms。通過以上的討論,幀長一般取為 20 至50 ms,20、25、30、40、50 都是比較常用的數(shù)值。2.3加窗為了提高傅立葉變換所得頻譜的分辨率,取出來的一幀信號,在做傅立葉變換之前,要先進行加窗的操作,即與一個窗函數(shù)相乘,如圖2.3.1所示。 圖2.3.1(a) 原信號 圖2.3.1(b) 漢明窗函數(shù)圖2.3.1(c) 加窗處理結(jié)果加窗的目的是讓一幀信號的幅度在兩端漸變到 0從而提高傅立葉變換結(jié)果頻譜的分辨率。由加窗處理過程可以看出,信號兩端的部分被逐漸削弱至0,因此在該幀信號中無法計入頻譜。在實際處理時,往往通過不同幀之間進行重疊來彌補加窗處理帶來的損失。圖2.3.2 重疊分幀如圖2.2.1所示,每一幀信號時長為25ms,以10ms作為幀移取下一段信號。由此第一幀信號后15ms的波形便會在下一幀信號前15ms中出現(xiàn)。2.4傅立葉變換對一幀信號做傅立葉變換,得到信號頻譜如下:圖2.4.1 信號頻譜圖如圖2.4.1,從信號頻譜圖中可知該幀語音信號呈現(xiàn)出的精細結(jié)構(gòu)和包絡(luò)兩種模式。平滑連接每一個精細結(jié)構(gòu)的小峰便得到包絡(luò)。又由包絡(luò)可以得到共振峰,圖中能看出四個,分別在 500、1700、2450、3800 Hz附近。它代表了發(fā)音者的口型,對此特征進行提取便可只發(fā)音者發(fā)出的是哪個音。第三章 聲學(xué)特征提取人通過聲道產(chǎn)生聲音,聲道的形狀決定了發(fā)出怎樣的聲音。聲道的形狀包括舌頭,牙齒等。如果我們可以準確的知道這個形狀,那么我們就可以對產(chǎn)生的音素進行準確的描述。聲道的形狀在語音短時可以由功率譜的包絡(luò)中顯示出來。因此,準確描述這一包絡(luò)的特征就是聲學(xué)特征識別步驟的主要功能。接收端接收到的語音信號經(jīng)過上文的預(yù)處理以后便得到有效的語音信號,對每一幀波形進行聲學(xué)特征提取便可以得到一個多維向量。這個向量便包含了一幀波形的內(nèi)容信息,為后續(xù)的進一步識別做準備。本文主要介紹使用最多的MFCC聲學(xué)特征。3.1 MFCC簡介MFCC(Mel Frequency Cepstrum Coefficient)特征是基于人耳對聲音的敏感特性而提出的。人耳聽聲音時,耳蝸相當于一組濾波器。當聲音頻率在1KHz以下時,人耳的感知能力與頻率成線性關(guān)系,但在1KHz以上時,人耳的感知能力與聲音頻率更接近對數(shù)關(guān)系。這也就解釋了為什么人耳對于低頻聲音的感知比高頻聲音更敏感。MFCC是Mel頻率倒譜系數(shù)的縮寫。Mel頻率是基于人耳聽覺特性提出來的,其計算公式為:它與Hz頻率成非線性對應(yīng)關(guān)系。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計算得到的Hz頻譜特征。由于Mel頻率與Hz頻率之間非線性的對應(yīng)關(guān)系,使得MFCC隨著頻率的提高,其計算精度隨之下降。因此,在應(yīng)用中常常只使用低頻MFCC,而丟棄中高頻MFCC。3.2 MFCC的一般過程MFCC特征提取的一般過程如下:圖3.2.1 MFCC特征提取的一般過程圖中的分幀加窗以及FFT已經(jīng)在預(yù)處理部分中提到,這里不再贅述。3.2.1 Mel濾波器組假設(shè)原信號經(jīng)過預(yù)加重、分幀加窗后的DFT為式中x(n)為輸入的語音信號,N表示傅立葉變換的點數(shù)。式中x(n)為輸入的語音信號,N表示傅立葉變換的點數(shù)。將能量譜通過一組Mel尺度的三角形濾波器組,定義一個有M個濾波器的濾波器組(濾波器的個數(shù)和臨界帶的個數(shù)相近),采用的濾波器為三角濾波器,中心頻率為 。M通常取22-26。各之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬,如圖所示:圖3.2.2 Mel頻率濾波器組三角濾波器的頻率響應(yīng)定義為:式中:此處使用三角帶通濾波器有兩個目的:第一、使得到的頻譜變得平滑,并且可以去除諧波的干擾從而凸顯出原語音信號的共振峰。因此,一段語音的音調(diào)并不會由MFCC特征表示出來。換句話說,語音信號的音調(diào)不會對MFCC的參數(shù)產(chǎn)生影響。第二、可以有效減少運算量。計算每個濾波器組輸出的對數(shù)能量為:經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):將上述的對數(shù)能量帶入離散余弦變換,求出L階的Mel-scale Cepstrum參數(shù)。L階指MFCC系數(shù)階數(shù),通常取12-16。這里M是三角濾波器個數(shù)。3.2.2 對數(shù)能量語音信號的能量表現(xiàn)為音量的大小,每一幀信號的能量也是語音信號的一個重要特征,而這個參數(shù)非常容易計算得到,因此,通常在已經(jīng)得到的參數(shù)基礎(chǔ)上再加上一幀的對數(shù)能量。對數(shù)能量的定義為:如此就使得每一幀語音信號特征向量又多了一個維度。在此階段也可加入其它語音特征。例如:音高、過零率以及共振峰等。3.2.3 動態(tài)差分參數(shù)的提?。òㄒ浑A差分和二階差分)標準的倒譜參數(shù)MFCC只反映了語音參數(shù)的靜態(tài)特性,語音的動態(tài)特性可以用這些靜態(tài)特征的差分譜來描述。實驗證明:把動、靜態(tài)特征結(jié)合起來才能有效提高系統(tǒng)的識別性能。差分參數(shù)的計算可以采用下面的公式:式中,表示第t個一階差分;表示第t個倒譜系數(shù);Q表示倒譜系數(shù)的階數(shù);K表示一階導(dǎo)數(shù)的時間差,可取1或2。將上式中結(jié)果再代入就可以得到二階差分的參數(shù)。3.2.4 特征提取結(jié)果總而言之,MFCC的全部組成其實是:N維MFCC參數(shù)(N/3MFCC系數(shù)+ N/3一階差分參數(shù)+ N/3二階差分參數(shù))+幀能量(此項可根據(jù)需求替換)聲音信號經(jīng)過MFCC特征提取后便可得到描述其內(nèi)容信息特征的向量。為方便后續(xù)說明,我們假設(shè)經(jīng)過特征提取后每一幀的信號都變換為一個12維的向量,并用色塊顏色的深淺來表示向量值的大小。圖3.2.3 原波形圖3.2.4 信號聲學(xué)特征圖第四章 模式匹配模式匹配也即是解碼過程。它是對上文得到的經(jīng)過處理的聲音信號與已有的語音模型庫進行匹配以達到識別的目的。經(jīng)過特征識別,我們已經(jīng)得到了描述聲音內(nèi)容信息特征的向量。接下來的解碼過程就是在給定語音模型的情況下,找到最可能對應(yīng)的發(fā)音的過程。圖4.0.1 語音識別全過程本文主要介紹隱馬爾科夫模型在模式匹配環(huán)節(jié)中的作用。4.1馬爾科夫模型與隱馬爾科夫模型按照維基百科的說法,到目前為止語音識別的技術(shù)都沒有脫離隱馬爾可夫模型框架。可見隱馬爾科夫模型在語音識別中的重要性。為了透徹闡述隱馬爾科夫模型,有必要同時簡單介紹一下馬爾科夫模型與隱馬爾科夫模型。4.1.1 馬爾科夫模型馬爾科夫模型通過研究事物發(fā)生以及相互轉(zhuǎn)化的概率從而對未來事物的狀態(tài)進行預(yù)測。在馬爾科夫模型中,事物當前的狀態(tài)只與上一個狀態(tài)而與其它任何時候的狀態(tài)均無關(guān)。用馬爾科夫的一句富含哲理的話說:“過去發(fā)生的所有信息都匯集在今天,而明天如何,只取決于今天,與歷史再無關(guān)聯(lián)。”為加深理解,以預(yù)測天氣為例。假設(shè)每天天氣只有三種狀態(tài):晴天、雨天、多云。若第一天為晴天,則第二天也為晴天的概率為0.5,為多云的概率為0.375,為雨天的概率為0.125。同樣也定義若第一天為雨天或多云,第二天為其它狀態(tài)的天氣之間的轉(zhuǎn)移概率。圖4.1.1 不同天氣之間的轉(zhuǎn)移概率假設(shè)第一個觀察天(即昨天)為晴天,并由此預(yù)測今天的天氣情況。到此,我們建立了一個一階馬爾科夫模型。它包含三個狀態(tài)(即:晴天、多云、雨天)、各個狀態(tài)之間的轉(zhuǎn)換概率(如圖4.1.1所示)以及初始概率(即:昨天的天氣)晴天。既然已知昨天為晴天,則初始晴天概率、初始多云概率、。則據(jù)此預(yù)測今天的天氣:由此可知,今天為晴天的概率最大。既然已知今天的天氣概率情況,又可以據(jù)此預(yù)測明天的天氣情況: 以此類推,后天的天氣情況只與明天有關(guān)而與昨天,今天都無關(guān)。4.1.2 隱馬爾科夫(HMM)模型在隱馬爾科夫模型中,必備的三個要素分別初始概率、轉(zhuǎn)移概率、輸出概率。其中,初始概率與轉(zhuǎn)移概率的含義與馬爾科夫模型中相同,輸出概率是指狀態(tài)值映射到對應(yīng)觀測值的概率。例如:若當前的天氣情況不能直接獲得,只能通過測量空氣濕度間接獲得。同樣舉預(yù)測天氣的例子,定義以下輸出概率。圖4.1.2 不同天氣之間對應(yīng)空氣濕度的輸出概率若觀測到連續(xù)三天,空氣的潮濕程度分別為干燥,干燥,潮濕,則這三天最有可能是哪種天氣情況。這里的隱馬爾科夫鏈:P(干燥、干燥、潮濕|HMM)=P(干燥、干燥、潮濕|晴天、晴天、晴天)+P(干燥、干燥、潮濕|晴天、晴天、多云)+P(干燥、干燥、潮濕|晴天、晴天、雨天)+P(干燥、干燥、潮濕|晴天、多云、晴天)+P(干燥、干燥、潮濕|雨天、雨天、雨天)。采用窮舉的辦法可以找到概率最大的天氣排序情況。這種由觀測值推知狀態(tài)值的方法就是隱馬爾科夫模型。它可以用來描述含有隱含位置參數(shù)的馬爾科夫過程。4.2語音模型庫以中文為例進行后續(xù)說明。中文的發(fā)音由聲母、韻母和整體認讀音節(jié)組合而成。因而將每一個聲母,韻母,整體認讀音節(jié)稱作“音素”。每一個音素都有一定的發(fā)音規(guī)律,可以將這個發(fā)音實現(xiàn)經(jīng)過特征提取后編算成計算機可存儲的聲學(xué)特征作為已知的語音模型庫以方便后續(xù)的模式匹配。除了音素的存儲之外,語音模型庫還存儲了大量單字,單詞,成語等語句元素所對應(yīng)的語音輸出概率。(例如:當接收到語音信號“sui ji”時,這個信號識別為“隨即”二字的概率為0.3,識別為“隨機”二字的概率為0.5)這類似于隱馬爾科夫模型中狀態(tài)值映射到觀測值的輸出概率。4.3隱馬爾科夫模型在模式匹配中的應(yīng)用在完成特征提取后,就可以對未知語音幀序列進行識別了。完成模式匹配識別有兩個步驟:(1)使用隱馬爾科夫模型,構(gòu)建一個狀態(tài)量足夠多的狀態(tài)網(wǎng)絡(luò)。狀態(tài)網(wǎng)絡(luò)的搭建是由單詞級別的網(wǎng)絡(luò)展開成音素網(wǎng)絡(luò),再展開成狀態(tài)網(wǎng)絡(luò)。例如下圖。圖4.3.1 狀態(tài)路徑圖中,以中文單詞“隨機”為例,將其拆分為音素“s”、“ui”、“j”、“i”,并由此生成對應(yīng)的狀態(tài)路徑“S1-S2-S3-S4-S5-S6-S7-S8-S9-S10- S11-S12”。(2)從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑,即在所有可能的路徑中選擇一條概率最大的路徑作為識別結(jié)果。這個要求可由相應(yīng)的搜索算法(如:Viterbi算法)滿足。本文著重闡述涉及隱馬爾科夫模型的第一個步驟。由于說話語速的不同,每一個音素的持續(xù)幀數(shù)也不相同,所以可能會出現(xiàn)一幀或者幾幀屬于一個音素的情況,因此將音素又繼續(xù)細分為更小的單位:狀態(tài)。在隱馬爾科夫模型,狀態(tài)是隱變量,語音是觀測值。通過預(yù)處理、特征提取,我們將語音信號進行了分幀,并且也得到了用于描述每一幀語音信號聲學(xué)特征的多維向量,這個過程的最終結(jié)果對應(yīng)在隱馬爾科夫模型中獲得了觀測值。此后,將之前分割的每一幀語音片段的聲學(xué)特征與語音模型庫中已知音素的狀態(tài)的聲學(xué)特征進行對比。得到當前觀測值對應(yīng)隱變量的輸出概率。圖4.3.2 獲得輸出概率 圖中,每個小豎條代表一幀。經(jīng)過條件概論公式計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論