




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理教學(xué)大綱教學(xué)大綱n課程名稱:數(shù)字語音處理n課程英文名稱:DIGITAL SPEECH PROCESSINGn總學(xué)時(shí):32 n講課學(xué)時(shí):32n學(xué) 分:2n開課單位:信息學(xué)部通信工程系n授課對(duì)象:電子信息工程專業(yè)及通信工程專業(yè) n先修課程:信號(hào)與系統(tǒng) 數(shù)字信號(hào)處理基礎(chǔ)數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理教學(xué)大綱教學(xué)大綱n教材:數(shù)字語音處理,姚天任編,華中科技大學(xué)出版社,1992n教學(xué)參考書:n語音信號(hào)數(shù)字處理,楊行峻、遲惠生編,電子工業(yè)出版社n語音信號(hào)處理,易克初等編,國防工業(yè)出版社,2000n教學(xué)目的:本課程作為本科生的一門選修課,主要
2、向?qū)W生系統(tǒng)地介紹語音信號(hào)處理中的基本理論、方法,包括:語音信號(hào)的編碼壓縮技術(shù)、語音識(shí)別技術(shù)、語音合成技術(shù)。通過本課程的學(xué)習(xí)使學(xué)生掌握本課程的基本方法,開闊視野,為今后從事相關(guān)的研究開發(fā)工作奠定基礎(chǔ)。 數(shù)字語音處理學(xué)時(shí)安排學(xué)時(shí)安排n第一章 緒論(共1學(xué)時(shí))語音信號(hào)處理的發(fā)展歷史,語音信號(hào)處理的分類,語音識(shí)別技術(shù)的分類。n第二章 語音信號(hào)產(chǎn)生的數(shù)字模型(共2學(xué)時(shí))發(fā)音器官的生理、語音信號(hào)的產(chǎn)生模型n第三章 語音波形的數(shù)字編碼(共4學(xué)時(shí))語音編碼的基本方法, 子帶編碼。n第四章 短時(shí)時(shí)域處理技術(shù)(共4學(xué)時(shí))短時(shí)能量、短時(shí)平均幅度、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)數(shù)字語音處理學(xué)時(shí)安排學(xué)時(shí)安排n第五章 短
3、時(shí)傅里葉分析(共4學(xué)時(shí))n第六章 語音信號(hào)的線性預(yù)測(cè)(共3學(xué)時(shí))線性預(yù)測(cè)分析基本原理,基于自相關(guān)的線性預(yù)測(cè)分析。n第七章 語音信號(hào)的同態(tài)預(yù)測(cè)和倒譜分析(共4學(xué)時(shí))n第八章 矢量量化(共4學(xué)時(shí))矢量量化的基本原理、特征矢量及畸變準(zhǔn)則的選擇,LBG算法。n第九章 隱馬爾科夫模型(共4學(xué)時(shí))n第十章數(shù)字語音處理的應(yīng)用(共2學(xué)時(shí)) 數(shù)字語音處理考核方式n方式1:n平時(shí):小測(cè)驗(yàn)4次,占總成績的70%-80%n期末:總結(jié)報(bào)告,占總成績的20%-30%n方式2:n平時(shí):報(bào)告1份,占總成績的20%-30%n期末:閉卷考試,總成績的70%-80%數(shù)字語音處理1.緒論n語音信號(hào)處理的研究內(nèi)容n語音信號(hào)處理的發(fā)展歷
4、史n講授內(nèi)容數(shù)字語音處理語音信號(hào)處理的研究內(nèi)容n語音信號(hào)的數(shù)字表示方法n波形表示:n參數(shù)表示:n語音信號(hào)處理的方法和技術(shù)n時(shí)域、頻域和變換域n語音信號(hào)處理的應(yīng)用n識(shí)別、合成、壓縮、增強(qiáng)數(shù)字語音處理語音信號(hào)的數(shù)字表示方法n如何選擇表示方法?n保存消息內(nèi)容n便于傳輸和貯存n便于變換和處理n不能嚴(yán)重?fù)p害消息內(nèi)容數(shù)字語音處理波形表示法n波形表示法取樣數(shù)字語音處理波形表示法量化后的波形數(shù)字語音處理參數(shù)表示法n參數(shù)表示法:語音信號(hào)看成是某個(gè)模型在一定激勵(lì)作用下產(chǎn)生的輸出,而激勵(lì)源和模型的參數(shù)便作為語音信號(hào)的表示。W=f(A,B) A激勵(lì),B模型參數(shù)例:產(chǎn)生“信息學(xué)部”的語音信號(hào)W=f(信息學(xué)部,140)數(shù)
5、字語音處理語音信號(hào)處理的方法和技術(shù)n時(shí)域(時(shí)變信號(hào),但短時(shí)平穩(wěn))n短時(shí)處理技術(shù)n短時(shí)能量n短時(shí)平均過零率n短時(shí)自相關(guān)n頻域n短時(shí)傅里葉分析n變換域n小波變換數(shù)字語音處理語音信號(hào)處理的應(yīng)用n語音壓縮和編碼:語音通信數(shù)字化;n語音合成:自動(dòng)報(bào)站、自動(dòng)報(bào)時(shí)、自動(dòng)警告、電話自動(dòng)查詢和語音提示等;n語音識(shí)別:聲控應(yīng)用、自動(dòng)口語翻譯;n說話認(rèn)識(shí)別:安全加密、銀行信息電話查詢服務(wù)以及破案和法庭取證;n語音增強(qiáng):通常作為語音處理的前端。 數(shù)字語音處理n1874年電話的發(fā)明,貝爾(Bell);n1939年聲碼器的研制成功語音是由人的聲帶振動(dòng)而產(chǎn)生的聲源(載波)受到運(yùn)動(dòng)的聲道控制(調(diào)制)產(chǎn)生的;語音處理的發(fā)展歷史
6、(1)數(shù)字語音處理語音處理的發(fā)展歷史(2)n1947年貝爾實(shí)驗(yàn)室發(fā)明語譜圖儀語音信號(hào)研究的開始;一男性說“歡迎光臨”的寬帶語譜圖數(shù)字語音處理語音處理的發(fā)展歷史(3)n50年代第一臺(tái)口授打字機(jī)和英語單詞語音識(shí)別器;n60年代出現(xiàn)了第一臺(tái)以數(shù)字計(jì)算機(jī)為基礎(chǔ)的孤立詞語音識(shí)別器和有限連續(xù)語音識(shí)別器;n70年代動(dòng)態(tài)規(guī)劃技術(shù)、隱馬爾可夫模型、線性預(yù)測(cè)技術(shù)和矢量量化碼書生成方法用于語音編碼和識(shí)別;n80、90年代語音處理技術(shù)產(chǎn)品化IBM Tangora-5和Tangora-20英語聽寫機(jī),Dragon Dictate 詞匯翻譯系統(tǒng)(70000),漢語聽寫機(jī)。CMU語音組研制成功SPHINX系統(tǒng)(997,95
7、.8%);n國內(nèi),清華大學(xué)、中科院聲學(xué)所和中科院自動(dòng)化所在漢語聽寫機(jī)漢語聽寫機(jī)研究方面有一定成果。數(shù)字語音處理講授內(nèi)容n語音信號(hào)產(chǎn)生的數(shù)字模型n語音信號(hào)處理方法n語音波形編碼方法n短時(shí)處理方法(時(shí)頻域)n線性預(yù)測(cè)、倒譜、矢量量化n隱含馬爾科夫模型(HMM)n語音信號(hào)處理的應(yīng)用n語音壓縮、合成、識(shí)別、增強(qiáng)數(shù)字語音處理2.語音信號(hào)產(chǎn)生的數(shù)字模型n人類語音的產(chǎn)生n過程復(fù)雜n信息豐富多樣n至今尚未找到理想模型來描述語音產(chǎn)生過程nFant于1960年提出的線性模型是模擬語音主要特征的比較成功的模型之一n人類發(fā)音的生理過程n語音信號(hào)的聲學(xué)特性數(shù)字語音處理2.1人類的語言器官n人體發(fā)音器官肺、氣管、肺、氣管
8、、喉(包括聲帶)和聲道喉(包括聲帶)和聲道n肺肺是語音產(chǎn)生的能源所在;n聲帶聲帶為產(chǎn)生語音提供主要的激勵(lì)源;聲道是指聲門至嘴唇的所有器官:n咽、鼻腔咽、鼻腔 、口腔、口腔等,它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用。鼻齒齦上唇牙齒下唇下顎骨舌骨甲狀軟骨氣管鼻咽軟腭口腔小舌舌根會(huì)厭喉管聲帶環(huán)狀軟骨食道鼻腔硬腭舌尖部舌中部舌后部數(shù)字語音處理 人類的語言器官 (a)閉合狀態(tài) 濁音 (b)張開狀態(tài)清音甲狀腺軟骨數(shù)字語音處理2.2語音產(chǎn)生過程(1)n濁音產(chǎn)生機(jī)理n濁音聲帶繃緊,氣流使聲帶產(chǎn)生張弛振動(dòng),即聲帶將周期性的啟開和閉合。例如: a,o,e。n聲帶開啟:氣流從聲門噴射出來,形成
9、脈沖。 n聲帶閉合:對(duì)應(yīng)于脈沖序列的間隙期。開啟閉合數(shù)字語音處理2.2語音產(chǎn)生過程(2)n清音和爆破音產(chǎn)生機(jī)理n清音聲帶完全舒展,聲道某個(gè)部位收縮形成的狹窄通道,氣流被迫以高速通過,并在附近產(chǎn)生空氣的湍流,形成摩擦音(清音),例如:s、x。n爆破音聲帶完全舒展,聲道某個(gè)部位完全閉合,氣流遇阻產(chǎn)生壓力,一旦閉合點(diǎn)突然開啟便會(huì)讓氣壓快速釋放,形成爆破音,例如:b、p。數(shù)字語音處理2.2語音產(chǎn)生過程(3)n語音:空氣流激勵(lì)聲道產(chǎn)生激勵(lì)源聲道氣流數(shù)字語音處理2.2語音產(chǎn)生過程(4)n激勵(lì)源n濁音:位于聲門處的準(zhǔn)周期脈沖,由聲帶振動(dòng)形成。n脈沖周期、脈沖寬度以及脈沖形狀與聲帶的長度、厚度及張力等參數(shù)有關(guān)
10、。n聲帶越短、厚度越薄、張力越大,聽起來的感覺的音調(diào)越高。n清音:位于聲道的某個(gè)收縮區(qū)的聲音湍流(類似于噪聲)n爆破音:位于聲道某個(gè)閉合點(diǎn)處建立起來的氣壓及其突然釋放。數(shù)字語音處理2.2聲道n聲道:一根具有非均勻截面的聲管,在發(fā)音時(shí)起著共鳴器的作用。數(shù)字語音處理2.2共振峰(formant): n聲道是一個(gè)諧振腔,當(dāng)激勵(lì)的頻率達(dá)到至聲道的固有頻率,則聲道會(huì)以最大的振幅振蕩,此時(shí)的頻率稱之為共振峰或共振峰頻率。n聲道具有一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度 。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語音對(duì)應(yīng)于一組不同的共振峰參數(shù)。n實(shí)際應(yīng)用
11、中,頭三個(gè)共振峰最重要。數(shù)字語音處理2.2共振峰與語譜圖一男性說“歡迎光臨”的寬帶語譜圖數(shù)字語音處理2.2共振峰的計(jì)算 理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻的(此時(shí)可把聲道看作一個(gè)粗細(xì)均勻的圓筒),從喉到唇的距離L=17 cm,音速c=340 m/s,則共振峰將發(fā)生在:HzLccFHzLccFHzLccF前三個(gè)共振峰:n為第n個(gè)共振峰的波長LcncFnnn250045,150043500101743404, 2 , 1)(4123322211計(jì)算)(數(shù)字語音處理2.3 語音信號(hào)的線性產(chǎn)生模型在研究了發(fā)聲器官和語音的產(chǎn)生過程以后,便可以建立一個(gè)離散時(shí)域的語音信號(hào)產(chǎn)生的數(shù)字模型數(shù)字模型,它將
12、是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語音信號(hào)的基礎(chǔ)基礎(chǔ)。下圖是一個(gè)完整的語音信號(hào)產(chǎn)生的數(shù)字模型:數(shù)字語音處理2.3 語音信號(hào)的線性產(chǎn)生模型由此模型框圖,我們可將語音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:(1)激勵(lì)模型(2)聲道模型(3)輻射模型數(shù)字語音處理2.3.1 激勵(lì)模型n濁音濁音激勵(lì)模型: 發(fā)濁音時(shí)聲帶繃緊,聲帶不斷張開和關(guān)閉產(chǎn)生的脈沖波,類似于斜三角波斜三角波n清音清音激勵(lì)模型:聲帶處于松弛狀態(tài),不發(fā)生振動(dòng),氣流通過聲門直接進(jìn)入聲道,氣流被阻礙形成湍流,相當(dāng)于隨機(jī)白噪聲 數(shù)字語音處理2.3.1 激勵(lì)模型(a)濁音激勵(lì) 數(shù)字模型中可用周期為T0單
13、位取樣序列串作為聲門脈沖模型g(n)的輸入輸入,其輸出就是濁音濁音激勵(lì)激勵(lì)。 由于人類語音的頻率范圍主要集中在300Hz3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。數(shù)字語音處理2.3.1 激勵(lì)模型otherwiseKnLLKLnLnLnng, 0,)(2)(cos0),cos1 (21)( )GunL為三角波斜上升時(shí)間,K為斜三角波下降時(shí)間,兩者均為整數(shù)則 激勵(lì)激勵(lì)為: 是一個(gè)以基音周期T0為周期的斜三角波脈沖串序列。( )( )( )GvunA x ng n聲門脈沖模型聲門脈沖模型數(shù)字語音處理2.3.1 激勵(lì)模型由左邊的頻譜圖可知聲門脈沖模型是一個(gè)低通濾波器,一個(gè)二級(jí)點(diǎn)模型。量的參數(shù)
14、是調(diào)節(jié)濁音的幅值或能vvAzAzE,1)(1)1)(1 (11)()()(1,)1)(1 (1)(12111211211zgzgzAzEzGzUggzgzgzGv都接近數(shù)字語音處理2.3.1 激勵(lì)模型(b)清音激勵(lì)清音激勵(lì) 在發(fā)清音時(shí),聲帶處于松弛狀態(tài),不發(fā)生振動(dòng),氣流通過聲門直接進(jìn)入聲道,所有的清輔音都屬于這種情況。無論是擦音還是塞音,聲道都被阻礙形成湍流,所以激勵(lì)信號(hào)相當(dāng)于隨機(jī)白噪聲。實(shí)際上可以用均值為0,均方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨隨機(jī)噪聲發(fā)生器機(jī)噪聲發(fā)生器來產(chǎn)生此序列。數(shù)字語音處理激勵(lì)模型n應(yīng)該指出,單純的將語音信號(hào)分成受周期脈沖激勵(lì)和受噪音激勵(lì)兩種情況,與
15、實(shí)際情況不完全相符。有時(shí)即便將兩種激勵(lì)情況按照一定比例疊加,也不能刻畫某些語音,如濁擦音。n模型的內(nèi)部結(jié)構(gòu)并不和語音產(chǎn)生的物理過程一致,這種模型和真實(shí)模型只是在輸出處等效。n模型是“短時(shí)的”,其中G(Z)和R(Z)不變,而基音頻率、清濁開關(guān)、增益、聲道參數(shù)ak都是時(shí)變的;聲道參數(shù)在1030ms的范圍內(nèi)近似不變;激勵(lì)參數(shù)在5ms左右近似不變。n語音信號(hào)處理的兩個(gè)基本問題:語音分析與合成,都是基于這個(gè)模型來實(shí)現(xiàn)的。n還有更復(fù)雜更精細(xì)的模型。數(shù)字語音處理2.3.2 聲道模型兩種建模方法:(a)聲管模型聲管模型(b)共振峰模型共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,基于各種音素發(fā)音的不同諧振特點(diǎn)可建
16、立起三種實(shí)用的共振峰模型:(a)級(jí)聯(lián)型 (b)并聯(lián)型 (c)混合型由于人耳聽覺的柯蒂氏器官的毛細(xì)胞是按照頻率感受來排列其位置的,所以共振峰模型共振峰模型很有效,經(jīng)常被使用。數(shù)字語音處理2.3.2 聲道模型共振峰模型1、級(jí)聯(lián)型:、級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:PkkkzaGzV11)(這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:011Pkkkza若P為偶數(shù),解其根會(huì)得到共扼復(fù)數(shù)(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp數(shù)字語音處理2.3.2 聲道模型共振峰模型2/1212/111)()(PiiiPiizczbGzVG
17、zV上式中,P是全極點(diǎn)濾波器的階,一般在8-12范圍內(nèi)取值,它的每一對(duì)極點(diǎn)對(duì)應(yīng)一個(gè)共振峰。a為聲道模型參數(shù),它隨聲道的調(diào)音運(yùn)動(dòng)而不斷變化。數(shù)字語音處理2.3.2 聲道模型共振峰模型2、并聯(lián)型并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假設(shè)分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。數(shù)字語音
18、處理數(shù)字語音處理2.3.2 聲道模型共振峰模型 前面兩種共振峰模型各自都只能適用于部分語音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長度,一般成人取3到5級(jí)。 級(jí)聯(lián)型結(jié)構(gòu)較為簡單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來就得到一種較為完備的共振峰模型。數(shù)字語音處理混合型共振峰模型并聯(lián)部分,從第一到第五共振峰的幅度都可以獨(dú)立的進(jìn)行控制和調(diào)節(jié),用來模擬輔音頻譜特性中的能量集中區(qū)。此外,在并聯(lián)部分還有一條直通路徑,其幅度為控制因子AB,這是專門為一些頻譜特性比較平坦的音素(如f,p,b等)而考慮的。數(shù)字語音處理2.3.3 輻射模型 在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出
19、來,到達(dá)聽者耳朵的這段過程,聲音信號(hào)會(huì)衰減,而且有高通濾波高通濾波的特性。 常用一個(gè)一階的數(shù)字高通濾波器數(shù)字高通濾波器模擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型輻射模型(radiation model):1, 1),1 ()(1rrrzzR數(shù)字語音處理完整的數(shù)字模型的系統(tǒng)函數(shù):)()()()(zRzVzUzH激勵(lì)模型激勵(lì)模型聲道模型聲道模型輻射模型輻射模型數(shù)字語音處理2.3 語音信號(hào)的線性產(chǎn)生模型小結(jié)1. 語音產(chǎn)生的線性模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡單的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來模擬。 2. 語音產(chǎn)生的數(shù)字模
20、型中增益控制(對(duì)Av或AN)代表了輸出語音的音響強(qiáng)度;時(shí)變線性系統(tǒng)主要用來模擬聲道的特性;3. 數(shù)字語音處理中兩個(gè)基本問題,語音分析和語音合語音分析和語音合成成,都是基于這個(gè)模型來實(shí)現(xiàn)的;4. 線性產(chǎn)生模型的特點(diǎn):n系統(tǒng)參數(shù)固定不變短時(shí)分析;n全極點(diǎn)性質(zhì)零點(diǎn)可由多個(gè)極點(diǎn)逼近;n激勵(lì)源和聲道互相獨(dú)立適用于大多數(shù)數(shù)字語音處理。數(shù)字語音處理2.4 語音信號(hào)的特性語音學(xué)和語言學(xué)概要語音的聲學(xué)特性語音的時(shí)間波形和頻譜特性語音信號(hào)的統(tǒng)計(jì)特性數(shù)字語音處理2.4.1語言學(xué)和語音學(xué)概要對(duì)語音學(xué)和語言學(xué)的詳盡討論對(duì)我們來講離題太遠(yuǎn),但是對(duì)語音信號(hào)加以處理以改善或提取信息時(shí),如果我們對(duì)語音信號(hào)的結(jié)構(gòu)(信號(hào)中信息編碼
21、的方法)有盡可能多的知識(shí)則是很有幫助的。 1. 語言學(xué):是以人類的語言為研究對(duì)象的一門科學(xué),主要對(duì)控制語音中各個(gè)音的排列規(guī)則及其含義進(jìn)行研究。語言(Language)是從千百萬個(gè)人的言語(Speech)中概括總結(jié)出來的規(guī)律性的符號(hào)系統(tǒng)。所以,研究語言首先要了解一下人的言語(說話)過程。數(shù)字語音處理2.4.1語言學(xué)和語音學(xué)概要人的說話過程分為五個(gè)階段(1)想說階段:人的說話首先是客觀現(xiàn)實(shí)在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動(dòng)機(jī);接著講話神經(jīng)中樞選擇恰當(dāng)?shù)膯卧~、短語以及按語法規(guī)則的組合,以表達(dá)他想說的內(nèi)容和情感。這個(gè)階段與大腦中樞的活動(dòng)有關(guān)。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音
22、器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動(dòng)作發(fā)出聲音來。另外還開動(dòng)另一個(gè)“反饋系統(tǒng)”即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳收集到的聲波信息,經(jīng)過中耳的放大作用,到達(dá)內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動(dòng)轉(zhuǎn)化為耳蝸內(nèi)的毛細(xì)胞的電位變化,由聽覺神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽覺神經(jīng)中樞收到脈沖信息后,辨認(rèn)出說話的人及其所說的信息,從而聽懂講話者的話。數(shù)字語音處理2.4.1語言學(xué)和語音學(xué)概要 從五個(gè)階段來看,言語的過程包含著相當(dāng)復(fù)雜的因素,其中有心理的、生理的、物理的以及個(gè)人的和社會(huì)的因素。這里,個(gè)人的因
23、素還指講話者的口音和用詞造句的特色以及聽話者的聽音和理解能力;社會(huì)的因素則是指講話者和聽話音對(duì)用于進(jìn)行交際的手段有共同的理解的社會(huì)基礎(chǔ)。 語言是從言語中概括出來的一個(gè)符號(hào)系統(tǒng)。包括形式和內(nèi)容兩個(gè)方面,即語音的形式和語義的內(nèi)容。將這兩個(gè)基本要素相結(jié)合起來,可以構(gòu)成語言的語素、詞、短語和句子等的不同層次的單位;這個(gè)構(gòu)成規(guī)則就是語法。目前我們可以利用語法和語義信息減小語音識(shí)別中搜索匹配范圍,提高語音識(shí)別率。數(shù)字語音處理2.4.1語言學(xué)和語音學(xué)概要2.語音學(xué):研究語音中各個(gè)音的物理特征和分類的學(xué)科。從某種意義上講,語音學(xué)與語音信號(hào)處理這門學(xué)科聯(lián)系更緊密。 大多數(shù)語言包括漢語在內(nèi)可以用一組不同的音即音素
24、來加以描述。對(duì)于漢語來說約有六十個(gè)音素,包括元音、復(fù)合元音和輔音。研究語音學(xué)的途徑有很多種,例如語言學(xué)家研究音素的不同特性或特征。而對(duì)我們來講,只要研究不同的聲學(xué)特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語譜特征。本章后面幾個(gè)話題均以語音學(xué)為基礎(chǔ)。數(shù)字語音處理2.4.2語音的聲學(xué)特性1. 物理屬性音色、音調(diào)、音強(qiáng)和音長;音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,而聲波頻率的高低又由語音的基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強(qiáng):聲音的強(qiáng)
25、弱,由聲波的振幅所決定。音長:聲音的長短,取決于發(fā)音時(shí)間的長短。數(shù)字語音處理2.4.2 語音的聲學(xué)特性2. 語音的構(gòu)成音節(jié)(syllable) 、音素音素(phoneme):語音發(fā)音的最小單位。分類:(1)國際標(biāo)準(zhǔn)分類清音:發(fā)清音時(shí)聲帶不振動(dòng)。濁音:發(fā)濁音時(shí)聲帶振動(dòng)。(2)我國傳統(tǒng)分類元音(韻母):是當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。數(shù)字語音處理2.4.2 語音的聲學(xué)特性音節(jié):說話時(shí)一次發(fā)出的,具有一個(gè)響亮的中心,
26、并被明顯感覺到的語音片段。一個(gè)音節(jié)可由一個(gè)音素或幾個(gè)音素構(gòu)成。音節(jié)最典型的結(jié)構(gòu),就是以一個(gè)元音或雙元音(diphthong)為主體,其前面或后面可能連接一個(gè)或多個(gè)輔音。3. 漢語語音的特點(diǎn)聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按一定的方式構(gòu)成的,是語言的最小使用單位;音節(jié)結(jié)構(gòu)簡單,與其它語言相比漢語語音音節(jié)和音素都很少。數(shù)字語音處理2.4.2 語音的聲學(xué)特性4. 語義:語音總是和一定的意義相聯(lián)系著,一定的語音要表達(dá)一定的思想和意義;另外,語音還能表達(dá)出一定的語氣、情感,甚至表達(dá)許多“言外之意”。5.元音的共振峰特性:元音構(gòu)成一個(gè)音節(jié)的主干,無論從發(fā)音長度還是從能量看,元音
27、在音節(jié)中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者說研究其頻譜特性。數(shù)字語音處理2.4.2 語音的聲學(xué)特性影響元音共振峰特性的發(fā)音機(jī)制:(1)舌頭的形狀卷舌音(e)、平舌音(2)舌頭在口腔中的位置,簡稱舌位;(3)嘴唇的形狀,即口形;其中由舌位的高低前后位置改變,可以發(fā)出不同的音素,也就是說舌位與元音的共振峰特性有密切關(guān)系。男人男人 60200Hz女人女人150300 Hz小孩小孩 200400數(shù)字語音處理2.4.2 語音的聲學(xué)特性圖4-1 漢語單元音舌位梯形圖(1)F1與舌位高低有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位高 低 為 開 口 度 。(2)F2與舌位前
28、后密切相關(guān),舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)F3與舌位關(guān)系不密切,但受舌尖活動(dòng)影響;舌尖抬高卷起時(shí)F3就明顯下降。數(shù)字語音處理1、語音信號(hào)的時(shí)頻特性數(shù)字語音處理波形特性n語音信號(hào)幅度動(dòng)態(tài)范圍一般最大為動(dòng)態(tài)范圍一般最大為40分貝分貝,實(shí)際由于說話人的差別可以達(dá)到6070分貝。n元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲特性相元音幅度較大,有準(zhǔn)周期性;清輔音幅度小,和噪聲特性相似似。n在長時(shí)間的語音信號(hào)中有相當(dāng)多的無信號(hào)區(qū)間,即所謂的語語音寂靜區(qū)間音寂靜區(qū)間。 n幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅度非常高的情況概率很小。n
29、長時(shí)平均幅度長時(shí)平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽瑪(Gamma)分布逼近。n對(duì)于短時(shí)幅度短時(shí)幅度概率密度用高斯分布逼近就夠了。 數(shù)字語音處理n語音信號(hào)波形是語音聲波經(jīng)過聲-電轉(zhuǎn)換器得到的連續(xù)時(shí)間函數(shù);波形圖是語音幅度隨時(shí)間變化的二維圖。n波形以振幅隨時(shí)間變化為特征,綜合的表達(dá)了語音的全部信息:包括語音的內(nèi)容、音調(diào)、音質(zhì)、相對(duì)音量變化等;數(shù)字語音處理長時(shí)平均幅度的概率密度分布n伽瑪函數(shù)逼近的效果最好,其次是拉普拉斯函數(shù),而高斯分布逼近效果最差。n語音信號(hào)的振幅通常都趨向于集中在低電平范圍內(nèi)。數(shù)字語音處理語音信號(hào)相鄰樣值之間存在很大的相關(guān)性n短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)和長時(shí)自相關(guān)函數(shù)長時(shí)自相關(guān)函數(shù)可以用來描述語音的幅度特性n語音信號(hào)的相鄰取樣值之間的相關(guān)性是很大的;n相關(guān)性隨著取樣值之間的間隔的加大而迅速減弱;數(shù)字語音處理頻率特性n帶寬有限一般為203400Hz ,有限的帶寬特性決定了可以用有限的奈奎斯特取樣速率,把語音信號(hào)離散化 n功率譜密度n語音中不同頻譜分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)字電子考試試題及答案
- 保育員考試試題及答案
- 思科考試試題及答案
- 新滬科版九年級(jí)下冊(cè)初中數(shù)學(xué)全冊(cè)教案
- 胰腺癌的治療方法
- 《學(xué)前兒童藝術(shù)教育與活動(dòng)指導(dǎo)》電子教案-13 學(xué)前兒童創(chuàng)造性戲劇活動(dòng)探索
- 湖北省云學(xué)名校聯(lián)盟2023-2024學(xué)年高一下學(xué)期3月聯(lián)考政治試卷 含解析
- 上海市交通大學(xué)附中2021-2022學(xué)年高一下學(xué)期期中語文 含解析
- 安徽省合肥市廬江縣、巢湖市七校2022-2023學(xué)年高二下學(xué)期第一次聯(lián)考?xì)v史無答案
- 2024年浙江省1月高考日語真題 含解析
- 浙江公路技師學(xué)院招聘考試真題2024
- 零碳園區(qū)的相關(guān)政策
- 中職生規(guī)范行為主題班會(huì)
- 注冊(cè)稅務(wù)師考前沖刺試卷帶答案2025
- 2025年財(cái)務(wù)管理的前沿動(dòng)態(tài)試題及答案
- (一模)2025年廣州市普通高中畢業(yè)班綜合測(cè)試(一)物理試卷(含答案詳解)
- 腦卒中中西醫(yī)結(jié)合護(hù)理
- 2023年江蘇省高中信息技術(shù)青年教師教學(xué)基本功大賽試卷
- 家長講堂:法制主題教育
- 2024年江蘇省南京市中考數(shù)學(xué)試卷真題(含答案逐題解析)
- 2025年一次性工亡補(bǔ)助金協(xié)議書樣本
評(píng)論
0/150
提交評(píng)論