智能信息感知技術(shù) 課件第七章智能語音傳感技術(shù)

上傳人：q*** IP屬地：山東上傳時間：2024-07-26 格式：PPTX 頁數(shù)：74 大?。?.27MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩69頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

智能傳感技術(shù)——第七章

智能語音傳感技術(shù)目錄27.1

智能語音傳感技術(shù)基礎(chǔ)常見的智能語音傳感技術(shù)智能語音數(shù)據(jù)處理技術(shù)智能語音傳感技術(shù)典型應(yīng)用7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)聲音是空氣或其他介質(zhì)的波動,是物體的撞擊、摩擦、運動產(chǎn)生的振動以波的形式向外傳播的。根據(jù)物體振動所產(chǎn)生波的頻率高低，分為聲波和超聲波。超聲波20k

Hz聲波3聲音傳感器是一種可以檢測、測量并顯示聲音波形的傳感器。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)聲音傳感器（話筒、麥克風(fēng))，根據(jù)聲波引起的物體振動(比如振動膜)將其轉(zhuǎn)化為電信號，從而實現(xiàn)聲波的檢測。純壓力式話筒速率式話簡混合式話筒全方向性（振動膜兩側(cè)開放）一定方向性（振動膜單側(cè)開放）結(jié)構(gòu)分類47.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)常用聲音傳感器原理介紹變磁阻式話筒5聲波使振動膜發(fā)生振動，導(dǎo)致銜鐵在兩磁極之間運動，銜鐵的運動將改變回路中的磁通，從而使磁鐵上纏繞的線圈產(chǎn)生感應(yīng)電壓。如果氣隙和銜鐵的形狀設(shè)計合理，則輸出感應(yīng)電壓具有很好的線性特性。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)動圈式話筒動圈式話筒是一種更加專業(yè)的話筒,它將振動膜和線圈整合在一條窄金屬條中,并放置在卡形磁鐵的兩個磁極之間。其輸出電壓和阻抗都很低，一般這種話筒都內(nèi)建變壓器或前置放大器。動圈式話簡具有很好的方向性，廣泛應(yīng)用于嘈雜場合的廣播系統(tǒng)中67.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)駐極體話筒駐極體話筒是一種電容式聲音傳感器。駐極體相當于永磁體，其中存在永久的靜電荷。話筒主要由一塊駐極體材料(一側(cè)鍍金屬膜用于連接引線)和單獨的振動膜構(gòu)成。駐極體話筒具有體積小、結(jié)構(gòu)簡單、電聲性能好、價格低的特點，廣泛用于盒式錄音機、無線話筒及聲控等電路中。77.1

智能語音傳感技術(shù)基礎(chǔ)87.1.1

傳統(tǒng)語音傳感器技術(shù)壓電陶瓷片話筒壓電陶瓷片話筒是利用壓電陶瓷作為壓力敏感元件，進行壓電轉(zhuǎn)換，實現(xiàn)對聲波振動的感知。壓電陶瓷是一種人工合成材料,收到外界壓力時可以在兩面產(chǎn)生電荷，電荷量與壓力成正比。壓電陶瓷片的壓電效應(yīng)是可逆流的，在壓電陶瓷片上多加一個交變的電場，陶瓷片就會時而變薄時而加厚，還會產(chǎn)生振動以及發(fā)射聲波（壓電陶瓷蜂鳴器）。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)硅微傳聲器（MEMS）微機電系統(tǒng)（MEMS,

Micro-Electro-Mechanical

System）MEMS麥克風(fēng)是利用硅薄膜來檢測聲壓的，MEMS麥克風(fēng)能夠在芯片上集成一個模數(shù)轉(zhuǎn)換器，形成具有數(shù)字輸出的麥克風(fēng)。MEMS麥克風(fēng)具有半導(dǎo)體產(chǎn)品的種種優(yōu)點,最為重要的一個特性是，MEMS麥克風(fēng)容易實現(xiàn)數(shù)字化，從而削除了傳輸噪音。目前主要應(yīng)用在手機中，

數(shù)碼相機、MP3播放器和PDA、耳機和助聽器等領(lǐng)域也正在從駐極體式麥克風(fēng)向MEMS過渡。97.1

智能語音傳感技術(shù)基礎(chǔ)7.1.1

傳統(tǒng)語音傳感器技術(shù)主要技術(shù)指標聲音傳感器的技術(shù)指標主要包括：靈敏度、頻率響應(yīng)、動態(tài)范圍、指向性、重復(fù)性和何尺寸等。駐極體聲音傳感器的靈敏度有自由場靈敏度、聲壓靈敏度和擴散場靈敏度之分。（1）自由場靈敏度是聲音傳感器輸出端的開路電壓和置人前所在處的自由聲場聲壓之比。（2）聲壓靈敏度采用的是作用在聲音傳感器膜片上的實際電壓，同一個聲音傳感器，聲壓靈敏度小于自由場靈敏度，且在高頻時下降明顯。（3）擴散場靈敏度則是指聲音傳感器受到來自各不同方向，無規(guī)則場聲壓的均勻激勵，其輸出與聲音傳感器所處的方位無關(guān)。107.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)智能語音傳感技術(shù)系統(tǒng)在傳統(tǒng)的聲音傳感器的基礎(chǔ)上加入智能語音處理的相關(guān)技術(shù)，實現(xiàn)的功能不僅僅是將語音捕捉下來，而是感知到語音中包含的有用信息并將其應(yīng)用于實際問題。117.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)127.1

智能語音傳感技術(shù)基礎(chǔ)137.1.2

智能語音傳感技術(shù)（1）語音信號采集：通過聲音傳感器捕獲語音信號，輸入后端的處理器中。此時，獲得的語音信號為模擬信號，需要在下一階段進行必要的處理，才能進行進一步的智能分析。（2）語音預(yù)處理：初步獲取的語音信號是連續(xù)的時序信號，其中可能包括采集過程中引入的噪聲，并且連續(xù)信號不方便我們進行后續(xù)的數(shù)字化處理過程。因此，在智能語音分析之前必須對采集的語音信號進行預(yù)處理步驟，其中主要包含：預(yù)加重處理、加窗分幀處理、端點檢測等。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)預(yù)加重處理

：信號傳輸線表現(xiàn)出來的是低通濾波特性，傳輸過程中信號的高頻成分衰減大，低頻成分衰減少。預(yù)加重技術(shù)的思想就是在傳輸線的始端增強信號的高頻成分，以補償高頻分量在傳輸過程中的過大衰減。我們知道，信號頻率的高低主要是由信號電平變化的速度決定的，所以信號的高頻分量主要出現(xiàn)在信號的上升沿和下降沿處，預(yù)加重技術(shù)就是增強信號上升沿和下降沿處的幅度。為了消除發(fā)聲過程中，聲帶和嘴唇造成的效應(yīng)，來補償語音信號受到發(fā)音系統(tǒng)所壓抑的高頻部分，并且能凸顯高頻的共振峰。預(yù)加重處理一般通過加高通濾波實現(xiàn)。147.1

智能語音傳感技術(shù)基礎(chǔ)157.1.2

智能語音傳感技術(shù)加窗分幀：傅里葉變換要求輸入的信號是平穩(wěn)的，語音信號在宏觀上是不平穩(wěn)的，在微觀上是平穩(wěn)的，這就可以把語音信號分為一些短段來進行處理，每一個短段稱為一幀。分幀可通過可移動的有限長度窗口進行加權(quán)的方法實現(xiàn)。每一個短時語音幀看成平穩(wěn)的隨機信號，利用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進行處理時，按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù)，處理完成后再取下一幀，最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。7.1

智能語音傳感技術(shù)基礎(chǔ)167.1.2

智能語音傳感技術(shù)不同的窗函數(shù)在頻域的響應(yīng)的不同對導(dǎo)致處理信號頻譜時也不近相同，常用的有矩形窗、漢明窗、漢寧窗等。窗函數(shù)的選擇會對語音信號的頻譜的泄露產(chǎn)生不同的影響，也會對后面的特征提取的參數(shù)的保真性有很大影響。選擇的窗函數(shù)盡可能滿足減少語音信號的頻譜側(cè)漏，而頻譜的泄漏取決于窗函數(shù)頻譜兩側(cè)主瓣和旁瓣。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)端點檢測（語音活動檢測）

：一段語音信號可以分為無聲段（包含背景噪聲）和語音段（包含清音和濁音）。端點檢測的目的是檢測出一段語音信號的起點和終點，去掉靜音的部分，去掉噪聲的部分，找到一段語音真正有效的內(nèi)容。177.1

智能語音傳感技術(shù)基礎(chǔ)187.1.2

智能語音傳感技術(shù)基于閾值的方法：通過提取時域（短時能量、短期過零率等）或頻域（MFCC、譜熵等）特征，通過合理的設(shè)置門限，達到區(qū)分語音和非語音的目的。

端點檢測，

也叫語音活動檢測，

Voice

ActivityDetection，這是傳統(tǒng)的

VAD

方法VAD，它的目的是對語音和非語音的區(qū)域進行區(qū)分。通俗來理解，端點檢測就是為了從帶有噪聲的語音中準確的定位出語音的開始點，和結(jié)束點，去掉靜音的部分，去掉噪聲的部分。7.1

智能語音傳感技術(shù)基礎(chǔ)197.1.2

智能語音傳感技術(shù)基于分類模型的方法：可以將語音檢測視作語音/非語音的兩分類問題，進而用機器學(xué)習(xí)的方法訓(xùn)練分類器，達到檢測語音的目的?；诼晫W(xué)模型的方法：可以利用一個完整的聲學(xué)模型（建模單元的粒度可以很粗），在解碼的基礎(chǔ)，通過全局信息，判別語音段和非語音段。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)語音增強：較強的噪聲會嚴重影響語音信號的質(zhì)量，對語音信號的特征提取帶來較大誤差，所以在預(yù)處理階段會對語音信號進行增強。常用方法有譜減法、維納濾波法、小波去噪法、子空間法等。207.1

智能語音傳感技術(shù)基礎(chǔ)217.1.2

智能語音傳感技術(shù)語音增強：譜減法顧名思義，譜減法，就是用帶噪信號的頻譜減去噪聲信號的頻譜。譜減法基于一個簡單的假設(shè)：假設(shè)語音中的噪聲只有加性噪聲，只要將帶噪語音譜減去噪聲譜，就可以得到純凈語音，這么做的前提是噪聲信號是平穩(wěn)的或者緩慢變化的。提出這個假設(shè)就是基于短時譜（25ms），就是頻譜在短時間內(nèi)是平穩(wěn)不變的。維納濾波法Wiener濾波是第二次世界大戰(zhàn)中，為了解決火力控制系統(tǒng)精確跟蹤問題，Wiener相繼提出了平穩(wěn)隨機過程的最優(yōu)線性濾波理論，首次將數(shù)理統(tǒng)計知識和線性系統(tǒng)理論聯(lián)系起來，形成了對隨機信號作平滑，濾波和預(yù)測的最新估計理論。在此后的發(fā)展中，Wiener濾波被應(yīng)用于更多的領(lǐng)域，并沿用至今。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)語音增強：小波去噪法在數(shù)學(xué)上，小波去噪問題的本質(zhì)是一個函數(shù)逼近問題，即如何在由小波母函數(shù)伸縮和平移版本所展成的函數(shù)空間中，根據(jù)提出的衡量準則，尋找對原信號的最佳逼近，以完成原信號和噪聲信號的區(qū)分。

也就是尋找從實際信號空間到小波函數(shù)空間的最佳映射，以便得到原信號的最佳恢復(fù)。從信號學(xué)的角度看，小波去噪是一個信號濾波的問題，而且盡管在很大程度上小波去噪可以看成是低通濾波，但是由于在去噪后還能成功地保留信號特征，所以在這一點上又優(yōu)于傳統(tǒng)的低通濾波器。由此可見，小波去噪實際上是特征提取和低通濾波功能的綜合，其流程框圖如圖所示。227.1

智能語音傳感技術(shù)基礎(chǔ)237.1.2

智能語音傳感技術(shù)語音增強：子空間法子空間法是先對每個麥克風(fēng)陣元的信號使用單通道子空間或利用輸入信號的相關(guān)矩陣子空間構(gòu)建信號子空間，然后采用固定波束形成或自適應(yīng)波束形成實現(xiàn)語音增強。這種算法分別由Hansen和Asano于1997年提出，并在之后的幾年里被其他學(xué)者不斷完善，比如Doclo等提出的基于廣義奇異值分解的波束形成法。子空間法最大的缺點是計算復(fù)雜度太大，難于實時應(yīng)用于數(shù)字信號處理。7.1

智能語音傳感技術(shù)基礎(chǔ)247.1.2

智能語音傳感技術(shù)（3）智能語音分析：廣義上來講智能語音技術(shù)有各種各樣的定義，一般來說有語音識別、聲紋識別、語音合成和智能翻譯等。語音識別：通過特征提取得到的聲學(xué)模型，在搜索空間中與詞典或語言模型進行匹配。聲紋識別：通過聲音來做對人的識別和認證，應(yīng)用于需要人的發(fā)聲媒介來控制命令的場景。語音合成：把文字轉(zhuǎn)化成擬人化的聲音，完成人機語音交互的閉環(huán)，滿足多種場景對不同聲音的需求。智能翻譯：通過分析句子語法和結(jié)構(gòu)，以及單詞和詞組進行翻譯工作。7.1

智能語音傳感技術(shù)基礎(chǔ)7.1.2

智能語音傳感技術(shù)（4）系統(tǒng)輸出: 將結(jié)果輸出到各個應(yīng)用終端，來實現(xiàn)諸多功能。257.2

常見的智能語音傳感技術(shù)267.2.1

智能語音問答系統(tǒng)智能語音問答系統(tǒng)綜合運用了知識表示、信息檢索、自然語言處理等技術(shù)。智能語音問答系統(tǒng)能夠使用戶以自然語言提問的形式而不是關(guān)鍵詞的組合，提出信息查詢需求，系統(tǒng)依據(jù)對問題進行分析，從各種數(shù)據(jù)資源中自動找出準確的答案

這里加入概述性的描述性文字（總述功能及應(yīng)用）從系統(tǒng)功能上講，智能語音問答系統(tǒng)分為開放域自動問答和限定域自動問答。7.2

常見的智能語音傳感技術(shù)7.2.1

智能語音問答系統(tǒng)智能語音問答系統(tǒng)總體架構(gòu)277.2

常見的智能語音傳感技術(shù)7.2.1

智能語音問答系統(tǒng)語音識別功能模塊構(gòu)建流程287.2

常見的智能語音傳感技術(shù)系統(tǒng)終端7.2.1

智能語音問答系統(tǒng)語義理解功能模塊構(gòu)建方法語義理解主要提供一種問答句式解析功能，能夠?qū)⒄Z音識別模塊生成的文本信息與語義模板進行匹配，得到使用者關(guān)心的重要信息。語義模型語義標注+語義預(yù)測系統(tǒng)終端語義PK語義信息關(guān)鍵詞及類型297.2

常見的智能語音傳感技術(shù)關(guān)鍵詞信息關(guān)鍵詞類型數(shù)據(jù)庫界面展示實體關(guān)鍵詞實體關(guān)鍵詞7.2.1

智能語音問答系統(tǒng)關(guān)鍵詞檢索功能模塊構(gòu)建方法關(guān)鍵詞檢索功能主要是將從語義理解模塊獲得的關(guān)鍵詞信息及其類型對應(yīng)到具體的實體及其關(guān)系的名稱，并與對應(yīng)的實體模型相匹配，最后到數(shù)據(jù)庫中查詢并展示相應(yīng)的信息。307.2

常見的智能語音傳感技術(shù)7.2.2

智能語音情感分析系統(tǒng)智能語音情感分析是人機交互中的重要研究領(lǐng)域，能使機器理解人類的情感狀態(tài)，增強人機交互過程中的準確性及舒適性。如何理解語音中的情感因素？如何通過語音表達不同情感？317.2

常見的智能語音傳感技術(shù)327.2.2

智能語音情感分析系統(tǒng)智能語音情感分析方法類別直接利用語音特征進行情感分析常用語音特征包括能量、音高、過零率、共振峰、語譜圖、梅爾倒譜系數(shù)等。將語音轉(zhuǎn)換為文本進行情感分析語音+文本進行情感分析7.2

常見的智能語音傳感技術(shù)7.2.2

智能語音情感分析系統(tǒng)（1）建立情感分析語料庫（問題導(dǎo)向）（2）基于情感分析語料庫訓(xùn)練模型（svm、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計模型、決策樹等）（3）

利用模型對語音數(shù)據(jù)進行情感分析語音資料數(shù)據(jù)清洗語音情感特征提取文本情感特征提取語音文本轉(zhuǎn)換情感分類模型情感分析結(jié)果337.2

常見的智能語音傳感技術(shù)347.2.2

智能語音情感分析系統(tǒng)智能語音情感分析系統(tǒng)“青鸞”——中國移動“青鸞”系統(tǒng)基于海量熱線語音數(shù)據(jù)進行智能情感分析，輸出關(guān)鍵標簽和結(jié)構(gòu)化情感分類，生成個性化語音理解分析報告，提供語音結(jié)構(gòu)化檢索、情感語義理解、認知方案生成、業(yè)務(wù)運營決策輔助等能力，面向分析、推薦、維系、預(yù)測四大類場景進行應(yīng)用，并通過數(shù)據(jù)可視化運營分析界面方式進行展示。精益運營潛在客戶挖掘、推薦解釋感知監(jiān)控面向無線和家寬場景，實現(xiàn)智能評測預(yù)警和效果跟蹤主要實現(xiàn)功能滿意度提升從資費、無線、寬帶各方面來進行滿意度精確調(diào)查用戶體驗分析綜合語音分析、文本分析、準確獲得用戶體驗信息7.2

常見的智能語音傳感技術(shù)7.2.3

智能語音控制系統(tǒng)智能語音控制系統(tǒng)在目前很多場景中被應(yīng)用，例如智能駕駛、智能家居、智能機器人控制等。執(zhí)語指指行音

令

相輸抽匹應(yīng)入取配操作357.2

常見的智能語音傳感技術(shù)7.2.3

智能語音控制系統(tǒng)福特領(lǐng)界語音控制功能實測小度音箱+智能家居367.3

智能語音數(shù)據(jù)處理技術(shù)377.3.1

語音特征提取語音特征提取的目的是提取語音信號中能代表語音特征的信息，減少語音識別時所要處理的數(shù)據(jù)量。特征提取是語音信號處理的前提和基礎(chǔ)，只有分析出可以代表語音信號本質(zhì)特征的參數(shù)，才能對這些參數(shù)進行高效的語音通信、語音合成和語音識別等處理，并且語音合成的好壞語音識別率的高低，也都取決于語音特征提取的準確性和魯棒性。7.3

智能語音數(shù)據(jù)處理技術(shù)387.3.1

語音特征提取目前流行的語音學(xué)特征提取方法主要有兩類:1)采用傳統(tǒng)特征,從原始音頻文件中提取信號特征,捕獲最原始的不同類型的聲學(xué)特征,從而判定該特征所屬的語音學(xué)任務(wù)類型;2)將傳統(tǒng)特征與深度學(xué)習(xí)模型相融合, 在交叉領(lǐng)域中突出特征的重點,由于不同任務(wù)的側(cè)重點不同,融合的方式體現(xiàn)出了多樣化、個性化的特點。7.3

智能語音數(shù)據(jù)處理技術(shù)7.3.1

語音特征提取常見聲學(xué)特征39頻譜類特征MFCC（一階差分和二階差分的MFCC參數(shù)組）MFCC:

/xmdxcsj/article/details/51228791線性預(yù)測倒譜系數(shù)（LPCC）梅爾刻度濾波器組過濾（logMel）……7.3

智能語音數(shù)據(jù)處理技術(shù)7.3.1

語音特征提取基于深度學(xué)習(xí)的語音特征提取深度學(xué)習(xí)方法可以從不同層次的輸入中學(xué)習(xí)有效的語音信號的非線性表現(xiàn)形式,目前已經(jīng)被廣泛應(yīng)用于聲紋識別、語音識別和情感識別。407.3

智能語音數(shù)據(jù)處理技術(shù)417.3.2

語音增強語音增強是指當語音信號被各種各樣的噪聲干擾、甚至淹沒后，從噪聲背景中提取有用的語音信號，抑制、降低噪聲干擾的技術(shù)。語音增強涉及的應(yīng)用領(lǐng)域十分廣泛，包括語音通話、電話會議、場景錄音、軍事竊聽、助聽器設(shè)備和語音識別設(shè)備等語音增強方法的分類按照其運用方法的不同可以分成兩大類：數(shù)字信號處理的語音增強方法和基于機器學(xué)習(xí)的語音增強方法按照其通道數(shù)目的不同可以劃分為：單通道語音增強方法和麥克風(fēng)陣列的語音增強方法7.3

智能語音數(shù)據(jù)處理技術(shù)7.3.2

語音增強427.3

智能語音數(shù)據(jù)處理技術(shù)7.3.2

語音增強麥克風(fēng)陣列的語音增強由于利用了更多的麥克風(fēng)，考慮了信號的空間信息，因此在抑制特定方向的干擾、進行語音分離等方面，比單通道的語音增強更有優(yōu)勢。主流的麥克風(fēng)陣列方法有：固定波束形成的方法和自適應(yīng)波束形成的方法。437.3

智能語音數(shù)據(jù)處理技術(shù)7.3.2

語音增強基于掩碼的深度學(xué)習(xí)法447.3

智能語音數(shù)據(jù)處理技術(shù)7.3.3

語音識別語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的一種技術(shù)。457.3

智能語音數(shù)據(jù)處理技術(shù)467.3.3

語音識別20世紀50年代，AT&T貝爾實驗室的Audry系統(tǒng)，它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。60年代末70年代初，語音信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù)的提出，解決了語音信號的特征提取和不等長匹配問題。（主要模板匹配法）20世紀80年代末，突破了大詞匯量、連續(xù)語音和非特定人這三大障礙，第一次把這三個特性都集成在一個系統(tǒng)中，比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng)，它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。（統(tǒng)計模型及神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于語音識別）7.3

智能語音數(shù)據(jù)處理技術(shù)477.3.3

語音識別20世紀90年代前期，許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。IBM公司推出的ViaVoiceDragonSystem公司的NaturallySpeakingNuance公司的NuanceVoicePlatform語音平臺Microsoft的Whisper,Sun的VoiceTone等語音識別技術(shù)前世今生7.3

智能語音數(shù)據(jù)處理技術(shù)487.3.3

語音識別我國語音識別研究工作起步于五十年代，但近年來發(fā)展很快。目前，我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步，在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢，并達到國際先進水平。中科院自動化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機構(gòu)都有實驗室進行過語音識別方面的研究，其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。2002年，“天語”中文語音系列產(chǎn)品——PattekASR，結(jié)束了中文語音識別產(chǎn)品被外國公司壟斷的歷史。7.3

智能語音數(shù)據(jù)處理技術(shù)497.3.3

語音識別語音識別技術(shù)分類按詞匯量大小，可以分為小詞表、中詞表和大詞表以及無限詞匯量語音識別；按發(fā)音方式，有孤立詞、連接詞和連續(xù)語音的語音識別；按說話人適應(yīng)范圍，有特定說話人、限定人和非特定說話人的語音識別；按照任務(wù)的不同：說話人識別、關(guān)鍵詞檢出、語音辨識，和連續(xù)語音識別。7.3

智能語音數(shù)據(jù)處理技術(shù)507.3.3

語音識別常用語音識別的方法有三種：基于語音學(xué)和聲學(xué)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。（1）基于語音學(xué)和聲學(xué)的方法在語音識別技術(shù)提出開始就有了這方面的研究，但由于其模型及語音知識過于復(fù)雜，現(xiàn)階段沒有達到實用的階段。① 分段和標號，把語音信號按時間分成離散的段，每段對應(yīng)一個或幾個語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標號。② 得到詞序列，根據(jù)第一步所得語音標號序列得到一個語音基元網(wǎng)格，從詞典得到有效的詞序列，也可結(jié)合句子的文法和語義同時進行。7.3

智能語音數(shù)據(jù)處理技術(shù)517.3.3

語音識別（2）模板匹配的方法模板匹配的方法發(fā)展比較成熟，目前已達到了實用階段。在模板匹配方法中，要經(jīng)過四個步驟：特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種：動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。動態(tài)時間規(guī)整(DTW)把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中，未知單詞的時間軸要不均勻地扭曲或彎折，以使其特征與模型特征對正。7.3

智能語音數(shù)據(jù)處理技術(shù)527.3.3

語音識別隱馬爾可夫法(HMM)HMM方法現(xiàn)已成為語音識別的主流技術(shù)，目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型，將之看作一個數(shù)學(xué)上的雙重隨機過程：一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程，另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測的。7.3

智能語音數(shù)據(jù)處理技術(shù)537.3.3

語音識別矢量量化(VQ)與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。將語音信號波形的k個樣點的每一幀，或有k個參數(shù)的每一參數(shù)幀，構(gòu)成k維空間中的一個矢量，然后對矢量進行量化。量化時，將k維無限空間劃分為M個區(qū)域邊界，然后將輸入矢量與這些邊界進行比較，并被量化為“距離”最小的區(qū)域邊界的中心矢量值。其中最關(guān)鍵的就是設(shè)計矢量量化器。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書。7.3

智能語音數(shù)據(jù)處理技術(shù)547.3.3

語音識別(3)神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識別方法。深度學(xué)習(xí)最早應(yīng)用于語音識別問題時的作用是替代GMM-HMM框架中的高斯混合模型，負責聲學(xué)模型的建模，即DNN-HMM結(jié)構(gòu)。在這種結(jié)構(gòu)里，深層神經(jīng)網(wǎng)絡(luò)負責計算音頻幀屬于某一聲學(xué)狀態(tài)的概率或者是提取出聲音的特征，其余的部分和GMM-HMM結(jié)構(gòu)相同。目前，常用于語音識別的深度學(xué)習(xí)模型有自動編碼器(

Auto-encoder，AE)

、深度神經(jīng)網(wǎng)絡(luò)(

Deep

Neural

Network，DNN)

、卷積神經(jīng)網(wǎng)絡(luò)(

Convolutional

Neural

Network，CNN)

和遞歸神經(jīng)網(wǎng)絡(luò)(

Ｒecurrent

Neural

Network，ＲNN)

等。7.3

智能語音數(shù)據(jù)處理技術(shù)7.3.3

語音識別CTC（Connectionisttemporal

classification）CTC模型常與深度學(xué)習(xí)結(jié)合進行端到端的語音識別。傳統(tǒng)的語音識別的聲學(xué)模型訓(xùn)練，對于每一幀的數(shù)據(jù)，需要知道對應(yīng)的label才能進行有效的訓(xùn)練，在訓(xùn)練數(shù)據(jù)之前需要做語音對齊的預(yù)處理。采用CTC作為損失函數(shù)的聲學(xué)模型訓(xùn)練，是一種完全端到端的聲學(xué)模型訓(xùn)練，不需要預(yù)先對數(shù)據(jù)做對齊，只需要一個輸入序列和一個輸出序列即可以訓(xùn)練，并直接輸出序列預(yù)測的概率，不需要外部的后處理。557.3

智能語音數(shù)據(jù)處理技術(shù)7.3.4

聲紋識別56每個人的語音聲學(xué)特征既有相對穩(wěn)定性，又有變異性，不是絕對的、一成不變的。聲紋識別的優(yōu)點：易采集非接觸式聲紋辨認和確認的算法復(fù)雜度低準確度高。聲紋識別(VoiceprintRecognition,

VPR)，也稱為說話人識別(Speaker

Recognition)。包括說話人辨認(Speaker

Identification)

和說話人確認(Speaker

Verification)。聲紋(Voiceprint)，是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜，是由波長、頻率以及強度等百余種特征維度組成的生物特征，具有穩(wěn)定性、可測量性、唯一性等特點。7.3

智能語音數(shù)據(jù)處理技術(shù)577.3.4

聲紋識別兩個人的聲紋圖譜的差異性主要體現(xiàn)在如下方面：共鳴方式特征：咽腔共鳴、鼻腔共鳴和口腔共鳴嗓音純度特征：不同人的嗓音，純度一般是不一樣的，粗略地可分為高純度（明亮）、低純度（沙啞）和中等純度三個等級平均音高特征：平均音高的高低就是一般所說的嗓音是高亢還是低沉音域特征：音域的高低就是通常所說的聲音飽滿還是干癟不同人的聲音在語譜圖中共振峰的分布情況不同，聲紋識別正是通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個人，從而實現(xiàn)“聞聲識人”的功能。7.3

智能語音數(shù)據(jù)處理技術(shù)7.3.4

聲紋識別587.3

智能語音數(shù)據(jù)處理技術(shù)597.3.4

聲紋識別聲紋識別系統(tǒng)根據(jù)是否規(guī)定輸入語音文本可以分為：文本相關(guān)的(Text-Dependent)和文本無關(guān)的(Text-Independent)兩種。文本相關(guān)聲紋識別系統(tǒng)：要求用戶按照規(guī)定的內(nèi)容發(fā)音，每個人的聲紋模型逐個被精確地建立，而識別時也必須按規(guī)定的內(nèi)容發(fā)音，因此可以達到較好的識別效果，但系統(tǒng)需要用戶配合，如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合，則無法正確識別該用戶。文本無關(guān)的聲紋識別系統(tǒng)：不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對困難，但用戶使用方便，可應(yīng)用范圍較寬。7.3

智能語音數(shù)據(jù)處理技術(shù)607.3.4

聲紋識別典

型

的

聲

紋

識

別

模

型

可

以

分

為

兩

種

：

template model

和stochastic

model，即模板模型和隨機模型(非參數(shù)模型和參數(shù)模型)。模板模型（非參數(shù)模型）將訓(xùn)練特征參數(shù)和測試的特征參數(shù)進行比較，兩者之間的失真（

distortion

）

作為相似度。

例如VQ

（

Vectorquantization矢量量化）模型和動態(tài)時間規(guī)整法DTW（dynamic

timewarping）模型。隨機模型（參數(shù)模型）用一個概率密度函數(shù)來模擬說話人，訓(xùn)練過程用于預(yù)測概率密度函數(shù)的參數(shù)，匹配過程通過計算相應(yīng)模型的測試語句的相似度來完成。例如（GMM和HMM）高斯混合模型和隱馬爾科夫模型。7.3

智能語音數(shù)據(jù)處理技術(shù)617.3.5

語音情感識別自動語音情感識別則是計算機對人類上述情感感知和理解過程的模擬,它的任務(wù)就是從采集到的語音信號中提取表達情感的聲學(xué)特征,并找出這些聲學(xué)特征與人類情感的映射關(guān)系。語音情感識別相關(guān)研究出現(xiàn)在20世紀80年代中期,它們開創(chuàng)了使用聲學(xué)統(tǒng)計特征進行情感分類的先河。1985年Minsky教授提出“讓計算機具有情感能力”觀點。在20世紀80年代末至90年代初期,麻省理工學(xué)院多媒體實驗室構(gòu)造了一個“情感編輯器”。1999年,Moriyama提出語音和情感之間的線性關(guān)聯(lián)模型。進入21世紀以來，語音情感識別研究被賦予了更多的迫切要求，發(fā)展步伐逐步加快，國際期刊、會議及相關(guān)賽事也不斷增加。7.3

智能語音數(shù)據(jù)處理技術(shù)627.3.5

語音情感識別國際著名的研究組織：貝爾法斯特女王大學(xué)Cowie和Douglas-Cowie領(lǐng)導(dǎo)的情感語音小組;麻省理工大學(xué)Picard領(lǐng)導(dǎo)的媒體研究實驗室;慕尼黑工業(yè)大學(xué)Schuller負責的人機語

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

智能信息感知技術(shù) 課件第七章智能語音傳感技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

智能信息感知技術(shù) 課件 第七章 智能語音傳感技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

智能信息感知技術(shù) 課件第七章智能語音傳感技術(shù)