




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)第2章 語(yǔ)音信號(hào)基礎(chǔ)知識(shí)1.人類(lèi)的語(yǔ)言器官2.語(yǔ)音產(chǎn)生過(guò)程3.語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型4.語(yǔ)音信號(hào)的特性5.人類(lèi)的聽(tīng)覺(jué)功能Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)1. 人類(lèi)的語(yǔ)言器官 人類(lèi)能以語(yǔ)言溝通,進(jìn)而累積知識(shí),形成文化,其中一個(gè)主要的原因,就是人類(lèi)具有較其它生物優(yōu)越的發(fā)音器官。 人類(lèi)的發(fā)音器官能夠產(chǎn)生多樣性的聲音,構(gòu)成豐富的詞匯,無(wú)疑是最關(guān)鍵的因素。 聲音是一種波,能被人耳聽(tīng)到,它的振動(dòng)頻率在2020 000 Hz之間。 1 1、人類(lèi)的語(yǔ)言器官、人類(lèi)的語(yǔ)言器官Speech Sig
2、nal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)1. 人類(lèi)的語(yǔ)言器官o 人體發(fā)音器官肺、氣管、喉(包括聲帶)和聲道,肺是語(yǔ)音產(chǎn)生的能源所在;聲帶為產(chǎn)生語(yǔ)音提供主要的激勵(lì)源;聲道是指聲門(mén)至嘴唇的所有器官:咽、鼻腔 、口腔等,它們具有非均勻截面,且隨時(shí)間變它們具有非均勻截面,且隨時(shí)間變化,起共鳴器(或諧振器)的作用?;鸸缠Q器(或諧振器)的作用。1 1、人類(lèi)的語(yǔ)言器官、人類(lèi)的語(yǔ)言器官Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)1. 人類(lèi)的語(yǔ)言器官圖2-1 人類(lèi)的發(fā)音器官注:喉部以上的部分統(tǒng)稱(chēng)為聲道;氣管和肺在聲門(mén)以下1 1、人類(lèi)的語(yǔ)言器官、人類(lèi)的語(yǔ)言器官S
3、peech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)1. 人類(lèi)的語(yǔ)言器官圖2-2 最重要的發(fā)音器官之一:聲帶 (a)閉合狀態(tài) (b)張開(kāi)狀態(tài) 甲狀軟骨 杓狀軟骨 環(huán)狀軟骨 聲門(mén) 聲帶1 1、人類(lèi)的語(yǔ)言器官、人類(lèi)的語(yǔ)言器官Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí) 人的說(shuō)話(huà)過(guò)程分為五個(gè)階段(1)想說(shuō)階段:人的說(shuō)話(huà)首先是客觀(guān)現(xiàn)實(shí)在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說(shuō)話(huà)的動(dòng)機(jī);接著講話(huà)神經(jīng)中樞選擇恰當(dāng)?shù)膯卧~、短語(yǔ)以及按語(yǔ)法規(guī)則的組合,以表達(dá)他想說(shuō)的內(nèi)容和情感。這個(gè)階段與大腦中樞的活動(dòng)有關(guān)。(2)說(shuō)出階段:由上階段中樞的決策,以脈沖形式向發(fā)音器官發(fā)
4、出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動(dòng)作發(fā)出聲音來(lái)。另外還開(kāi)動(dòng)另一個(gè)“反饋系統(tǒng)”即講話(huà)者的聽(tīng)覺(jué)系統(tǒng),來(lái)幫助修正語(yǔ)音。(3)傳送階段:說(shuō)出來(lái)的話(huà)語(yǔ)是一連串的聲波,憑借空氣為媒介傳到聽(tīng)話(huà)者耳中。(4)接收階段:聽(tīng)話(huà)者從外耳收集到的聲波信息,經(jīng)過(guò)中耳的放大作用,到達(dá)內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動(dòng)轉(zhuǎn)化為耳蝸內(nèi)的毛細(xì)胞的電位變化,由聽(tīng)覺(jué)神經(jīng)傳給大腦。(5)理解階段:講話(huà)者大腦聽(tīng)覺(jué)神經(jīng)中樞收到脈沖信息后,辨認(rèn)出說(shuō)話(huà)的人及其所說(shuō)的信息,從而聽(tīng)懂講話(huà)者的話(huà)。2 2、語(yǔ)音產(chǎn)生的過(guò)程、語(yǔ)音產(chǎn)生的過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)2.語(yǔ)音產(chǎn)生過(guò)程肺聲帶聲道直流氣流聲音嘴唇聲壓波
5、速度波能源激勵(lì)源諧振源輻射源交流氣流2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)發(fā)聲機(jī)理2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)2.語(yǔ)音產(chǎn)生過(guò)程o 語(yǔ)音的形成過(guò)程空氣由肺部排入喉部,經(jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語(yǔ)音。濁音(Voiced sounds) :聲帶繃緊,氣流通過(guò)時(shí)會(huì)使得開(kāi)口變成一開(kāi)一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流,如a,o;清音(Unvoiced or Fricative sounds) :聲帶完全舒展,聲
6、道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開(kāi)啟,空氣壓力快速釋放 ,如b,p。能被人耳聽(tīng)到,它的振動(dòng)頻率在2020 000 Hz之間 2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)2. 語(yǔ)音產(chǎn)生過(guò)程語(yǔ)音的兩個(gè)重要聲學(xué)特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開(kāi)和閉合一次的時(shí)間的倒數(shù)。人類(lèi)基音頻率的范圍在80500 Hz左右。共振峰(Fn , n=1,2,.):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率分量而衰減其
7、他頻率分量,被放大的頻率我們稱(chēng)之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度 。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語(yǔ)音對(duì)應(yīng)于一組不同的共振峰參數(shù)。實(shí)際應(yīng)用中,頭三個(gè)共振峰最重要,越多越精確。2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)口腔對(duì)聲源頻譜的調(diào)制共振峰2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)o共振峰是聲道的重要聲學(xué)特性。聲道對(duì)于一個(gè)激勵(lì)信號(hào)的響應(yīng),可以
8、用一個(gè)含有多對(duì)極點(diǎn)的線(xiàn)性系統(tǒng)來(lái)近似描述。每對(duì)極點(diǎn)都對(duì)應(yīng)一個(gè)共振峰頻率。這個(gè)線(xiàn)性系統(tǒng)的頻率響應(yīng)特性稱(chēng)為共振峰特性,它決定信號(hào)頻譜的總輪廓,或稱(chēng)譜包絡(luò)。o語(yǔ)音的頻率特性主要是由共振峰決定的。而聲道的共振峰特性決定所發(fā)聲音的頻譜特性,即音色。 o元音的音色和區(qū)別特征主要取決于聲道的共振峰特性。共振峰特性可以從語(yǔ)音信號(hào)頻譜分析得到的幅頻特性觀(guān)察到。 o在聲學(xué)語(yǔ)音學(xué)中通??紤]F1和F2,但在語(yǔ)音識(shí)別技術(shù)中至少要考慮三個(gè)共振峰,而在語(yǔ)音合成技術(shù)中考慮五個(gè)共振峰是最為現(xiàn)實(shí)的。o聲波的共振也稱(chēng)為共鳴。聲道截面積隨縱向位置而改變的函數(shù),稱(chēng)為聲道截面積函數(shù),它決定共振峰的特性。 Speech Signal Pro
9、cessing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)頻率范圍/Hz成年男子成年女子帶寬F12008002501 0004070F26002 8007003 3005090F31 3003 4001 5004 00060180前三個(gè)共振峰的頻率范圍 2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)2. 語(yǔ)音產(chǎn)生過(guò)程理想狀態(tài)下共振峰的計(jì)算:假設(shè)聲道截面是均勻的(此時(shí)可把聲道看作一個(gè)粗細(xì)均勻的圓筒),從喉到唇的距離L=17 cm,音速c=340 m/s,則共振峰將發(fā)生在:諧振頻率發(fā)生在500Hz的奇數(shù)倍 HzLccFHzLccFHzLccF
10、振峰:我們們計(jì)算一下前三個(gè)n為第n個(gè)共振峰的波長(zhǎng)LcncFnnn250045,150043500101743404,2, 1)(4123322211)(2 2、語(yǔ)音信號(hào)產(chǎn)生過(guò)程、語(yǔ)音信號(hào)產(chǎn)生過(guò)程Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)3. 語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語(yǔ)音的產(chǎn)生過(guò)程以后,便可以建立一個(gè)離散時(shí)域的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號(hào)處理技術(shù)應(yīng)用于語(yǔ)音信號(hào)的基礎(chǔ)。下圖是一個(gè)完整的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型:3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字
11、模型Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(1)激勵(lì)模型 由此模型框圖,我們可將語(yǔ)音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線(xiàn)性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:激勵(lì)模型、聲道模型、輻射模型激勵(lì)模型 根據(jù)發(fā)濁音和發(fā)清音的機(jī)理又分為:(a)濁音激勵(lì) (b)清音激勵(lì)3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(a)濁音激勵(lì) 由前面所講發(fā)音過(guò)程可知,發(fā)濁音時(shí)聲帶不斷地張開(kāi)和閉合將產(chǎn)生間歇的準(zhǔn)周期性脈沖波,其周期為基音周期,單個(gè)脈沖的波形類(lèi)似于斜三角波,故數(shù)字模型中可用周
12、期為T(mén)0單位取樣序列串作為聲門(mén)脈沖模型g(n)的輸入,其輸出就是濁音激勵(lì)。 由于人類(lèi)語(yǔ)音的頻率范圍主要集中在300Hz3400Hz,數(shù)字模型中的信號(hào)取樣率一般為8KHz。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí) 由圖可見(jiàn),它是一個(gè)低通濾波器低通濾波器。頻率分析表明,其幅度譜按12 dB/倍頻程的速率衰減。如果將其表示為Z變換的全極模型全極模型的形式,有G(z)1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,則由此形成的激勵(lì)信號(hào)頻譜很接近于聲門(mén)脈沖的頻譜。顯然,上式
13、表明斜三角波可描述為一個(gè)二階極點(diǎn)的模型斜三角波可描述為一個(gè)二階極點(diǎn)的模型。需要指出,不同人、不同語(yǔ)音,其聲門(mén)脈沖的形狀不一定相同,但在語(yǔ)音合成中對(duì)其形狀要求不很苛刻,只要其傅里葉變換有近似的特性就可以了。 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí) 周期性的斜三角波脈沖可看做加權(quán)的單位脈沖串激勵(lì)上述單個(gè)斜三角脈沖的結(jié)果。而周期沖激序列及幅值因子可表示成下面的Z變換形式 E(z)AV/(1-z-1) (2-5)所以整個(gè)激勵(lì)模型可表示為U(z)G(z)E(z)AV/(1-z-1) 1/ (1-g1z-1)(1-g2z-1) (2-6)3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型
14、、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(b)清音激勵(lì)發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把清音激勵(lì)模擬成隨機(jī)白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨機(jī)噪聲發(fā)生器來(lái)產(chǎn)生此序列。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(1)激勵(lì)模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型 共振峰模型將聲道視為一個(gè)諧振腔,按此原則導(dǎo)出。 基于各種音素發(fā)音的不同諧振特點(diǎn)可建立起三種實(shí)用的共振峰模型:
15、(a)級(jí)聯(lián)型 (b)并聯(lián)型 (c)混合型3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(a)級(jí)聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:PkkkzaGzV11)(這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:011Pkkkza若P為偶數(shù),解其根會(huì)得到共扼復(fù)數(shù)(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Processing第第02章基礎(chǔ)
16、知識(shí)章基礎(chǔ)知識(shí)2/1112/111)()(PiiiPiizczbGzVGzVTFjTiiieep2*F=1/T - 取樣頻率 i/ - 共振峰的頻寬。Fi是 - 共振峰(formant)的中心頻率TFjTiiieep2這樣分解則每一個(gè)二階因式均對(duì)應(yīng)一個(gè)共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語(yǔ)音的各個(gè)共振峰所對(duì)應(yīng)的二階系統(tǒng)級(jí)聯(lián)起來(lái)就形成了一個(gè)完整的級(jí)聯(lián)型聲道模型,且具有明顯的諧振特性。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(b)并聯(lián)型適用于鼻音、復(fù)合元音及
17、大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假設(shè)分子與分母無(wú)公因子且分母無(wú)重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對(duì)應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)前面兩種共振峰模型各自都只能適用于部分語(yǔ)音,級(jí)聯(lián)或并聯(lián)的級(jí)數(shù)取決于聲道的長(zhǎng)度,
18、一般成人取3到5級(jí)。級(jí)聯(lián)型結(jié)構(gòu)較為簡(jiǎn)單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來(lái)就得到一種較為完備的共振峰模型。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)(c)混合型我們可以根據(jù)發(fā)音的需要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB,這是專(zhuān)為一些頻譜特性較為平坦的音素如f、p、b而考慮的,以增強(qiáng)反諧振特性。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(2) 聲道模型 Speech Signal Process
19、ing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來(lái),到達(dá)聽(tīng)者耳朵的這段過(guò)程,聲音信號(hào)會(huì)衰減,而且有高通濾波的特性,我們常用一個(gè)一階的數(shù)字高通濾波器擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型(radiation model),其數(shù)學(xué)式如下1, 1),1 ()(0010RRzRzR完整的數(shù)字模型的系統(tǒng)函數(shù)由激勵(lì)模型、聲道模型和輻射模型的級(jí)聯(lián)來(lái)表示 :011( )( ) ( ) ( )(1)(1)qkkkGRH zG z V z R zbzc z3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型(3) 輻射模型 Speech Signal Processing第第02章基礎(chǔ)知識(shí)
20、章基礎(chǔ)知識(shí)Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)總結(jié):1. 到此為止組成語(yǔ)音產(chǎn)生的數(shù)字模型的三個(gè)組成部分己介紹完畢。此模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡(jiǎn)單的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來(lái)模擬。 2. 語(yǔ)音產(chǎn)生的數(shù)字模型中增益控制(對(duì)Av或AN)代表了輸出語(yǔ)音的音響強(qiáng)度;時(shí)變線(xiàn)性系統(tǒng)主要用來(lái)模擬聲道的特性;3. 數(shù)字語(yǔ)音處理中兩個(gè)基本問(wèn)題,即語(yǔ)音分析和語(yǔ)音合成,都是基于這個(gè)模型來(lái)實(shí)現(xiàn)的;4. 此數(shù)字模型的特點(diǎn):o系統(tǒng)參數(shù)固定不變短時(shí)分析;o全極點(diǎn)性質(zhì)零點(diǎn)可由多個(gè)極點(diǎn)逼近;o激勵(lì)
21、源和聲道互相獨(dú)立適用于大多數(shù)數(shù)字語(yǔ)音處理。3 3、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型、語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4. 語(yǔ)音信號(hào)的特性語(yǔ)音學(xué)和語(yǔ)言學(xué)概要語(yǔ)音的聲學(xué)特性語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)的統(tǒng)計(jì)特性4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音信號(hào)(Speech Signal)4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)數(shù)字語(yǔ)音信號(hào)表示(Representations of Speech
22、 Signals)4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.1 語(yǔ)音的聲學(xué)特性1. 物理屬性音色、音調(diào)、音強(qiáng)和音長(zhǎng);音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,而聲波頻率的高低又由語(yǔ)音的基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說(shuō)來(lái),老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強(qiáng):聲音的強(qiáng)弱,由聲波的振幅所決定。音長(zhǎng):聲音的長(zhǎng)短,取決于發(fā)音時(shí)間的長(zhǎng)短。4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processi
23、ng第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.2 語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音可以直接用它的時(shí)間波形來(lái)表示,根據(jù)時(shí)間波形可以看出語(yǔ)音信號(hào)的一些主要特性。就其本性而言,語(yǔ)音波形是時(shí)間的連續(xù)函數(shù),是隨時(shí)間而變化的,但比較緩慢,1030ms4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音的頻譜特性由聲道的形狀和尺寸決定,隨時(shí)間變化短時(shí)譜(清濁音的不同、對(duì)數(shù)和線(xiàn)性振幅譜);語(yǔ)譜圖(濁音和清音的不同、寬帶和窄帶語(yǔ)譜圖)4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基
24、礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性左圖中的u(n)就是前面所講的聲音激勵(lì)ug(n), 由于聲門(mén)波脈沖模型g(n)引入兩個(gè)極點(diǎn),故在語(yǔ)音信號(hào)約0.8至1.0 kHz以上的頻率造成12db/倍頻程的衰減4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性語(yǔ)音信號(hào)時(shí)域波形示意圖:靜息波 脈沖波(清塞音)準(zhǔn)周期波(濁音)噪聲波(摩擦音 )4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-2 聲音的語(yǔ)譜
25、圖4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性窄頻帶的語(yǔ)譜圖(narrowband spectrograms)語(yǔ)譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fourier transform),當(dāng)我們用較長(zhǎng)的分析窗口(analysis windows),約20ms,對(duì)應(yīng)頻寬約為45 Hz,得到的頻率分辨率較高,頻譜上可以看到諧振的成分。在語(yǔ)譜圖上呈現(xiàn)等距的黑白相間橫線(xiàn)條,其間距就是基頻(F0) 。4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.
26、3語(yǔ)音的時(shí)間波形和頻譜特性寬頻帶的語(yǔ)譜圖(wideband spectrograms) 若是在轉(zhuǎn)換演算時(shí)用較少的取樣點(diǎn),分析窗口大約3ms ,對(duì)應(yīng)頻寬約300 Hz,則頻譜上看不到諧振成分,在語(yǔ)譜圖上看不到等距的黑白相間。頻率分辨率較低,反而是時(shí)軸上的分辨率較高,看到明顯的垂直線(xiàn)條。4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語(yǔ)譜圖上就是顏色較深的位置。在發(fā)元音時(shí),音強(qiáng)較大,聲帶振動(dòng)而呈現(xiàn)出基頻及其諧振頻率,也可以
27、明顯看到共振峰,能量集中在低頻。如果是發(fā)輔音,而且聲帶不振動(dòng),就看不到諧振頻率。通常輔音的音強(qiáng)小,顏色看來(lái)就比較淡,而且能量較集中在高頻。若是在沒(méi)有語(yǔ)音的空檔,則語(yǔ)譜圖上呈現(xiàn)的,就是有一段空白。4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性元音與輔音的聲學(xué)特性(一) 元音發(fā)元音的聲音時(shí),聲帶是振動(dòng)的,音強(qiáng)也較大,波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對(duì)應(yīng)的頻率就是基頻,通常以F0表示。正常說(shuō)話(huà)時(shí),元音的音長(zhǎng)大約是50到400ms之間。元音在頻譜上會(huì)呈現(xiàn)能量集中的現(xiàn)象,集中處的
28、頻帶稱(chēng)為共振峰。在5 kHz的語(yǔ)音頻帶范圍內(nèi),會(huì)有5個(gè)共振峰,分別以F1F2F3F4與F5代表,其中F1F2與F3比較明顯 。4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-3 三個(gè)元音的語(yǔ)譜圖(分別對(duì)應(yīng)漢語(yǔ)拼音的 元音i , a , u )4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-4 雙元音在語(yǔ)譜圖上共振峰轉(zhuǎn)移(過(guò)渡)的現(xiàn)象分別對(duì)應(yīng)漢語(yǔ)拼音的雙元音 ai , ei , ao , ou4
29、 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性(二) 輔音輔音是對(duì)元音的前或后作修飾。帶聲的輔音會(huì)有類(lèi)似元音的共振峰,因?yàn)槁晭д駝?dòng),所以和元音一樣有諧振的成分,但相對(duì)于元音,能量小得多。不帶聲的摩擦音(如f, s, sh, x, h)類(lèi)似噪音,能量?jī)A向在高頻。發(fā)鼻音時(shí),鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動(dòng)而有共振峰,但低頻的共振峰能量較弱。下圖分別對(duì)應(yīng)漢語(yǔ)拼音輔音:b b, , p p, , m m, , f f, , j j, , q q, , x x, , zhzh, , chch
30、, , shsh4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.3語(yǔ)音的時(shí)間波形和頻譜特性圖4-5 塞音(或爆破音)出現(xiàn)在元音前的例子下圖分別對(duì)應(yīng) baba , , da da , , ga ga , , pa pa , , ta ta , , ka ka在一個(gè)音節(jié)的開(kāi)始若有塞音,當(dāng)氣流放出之后,隨著就發(fā)元音,聲帶開(kāi)始振動(dòng),在語(yǔ)譜圖上可以觀(guān)察到一小段時(shí)間之后,才有明顯的共振峰出現(xiàn),這一小段時(shí)間就叫做嗓音的起始時(shí)間(voice onset time),簡(jiǎn)稱(chēng)VOT。返回4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Sign
31、al Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)4.4語(yǔ)音信號(hào)的統(tǒng)計(jì)特性1.語(yǔ)音信號(hào)可以看成是一個(gè)遍歷性隨機(jī)過(guò)程的樣本函數(shù);2.語(yǔ)音信號(hào)的統(tǒng)計(jì)特性可以用它的振幅概率密度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來(lái)描述概率密度的估算、逼近方法及意義;自相關(guān)函數(shù)的估計(jì)及影響因素(語(yǔ)音段和濾波情況);3.語(yǔ)音信號(hào)的統(tǒng)計(jì)特性也可以用功率譜來(lái)描述長(zhǎng)期平均功率譜可以用周期圖來(lái)估計(jì);4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音信號(hào)時(shí)域波形4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基
32、礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音信號(hào)的波形與頻譜4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音波形幅度分布4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)基頻變化范圍4 4、語(yǔ)音信號(hào)的特性、語(yǔ)音信號(hào)的特性Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能 用語(yǔ)言作溝通,就是說(shuō)話(huà)的人能讓對(duì)方聽(tīng)懂他在說(shuō)些什么,雙方用說(shuō)與聽(tīng)來(lái)達(dá)成信息交換與感情交流。而語(yǔ)言的學(xué)習(xí)過(guò)程,更是不斷地聽(tīng),然后學(xué)習(xí)會(huì)說(shuō),所以語(yǔ)言與聽(tīng)覺(jué)有密切的關(guān)聯(lián)性。 本節(jié)
33、將說(shuō)明人類(lèi)聽(tīng)覺(jué)器官的構(gòu)造,以及如何聽(tīng)聲音。并且對(duì)于人耳在聽(tīng)覺(jué)上的一個(gè)重要特性,聽(tīng)覺(jué)掩蔽效應(yīng)做了簡(jiǎn)要敘述,這是語(yǔ)音處理中常常會(huì)用到的聽(tīng)覺(jué)特性。5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音通信Speech Communication5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)聽(tīng)覺(jué)系統(tǒng)中聲音表示框圖5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)聽(tīng)覺(jué)器官5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第
34、第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)語(yǔ)音感知模型(Speech Perception Model)5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能外耳 從耳翼(pinnas)到鼓膜(eardrum)這一段叫做外耳。耳翼的功能在幫助判斷聲音的來(lái)源方向,它對(duì)于聽(tīng)者前方來(lái)的聲音比較敏感。 耳翼到鼓膜之間的通道叫做耳道(meatus) ,這是一個(gè)長(zhǎng)約2.7公分直徑約0.7公分的通道。對(duì)于聲波的傳播而言,這條通道等于是一個(gè)四分之一波長(zhǎng)的共振腔,它的第一個(gè)共振頻率大約是3 kHz,這個(gè)共振作用將35 kHz的聲波放大15 dB左右,因此使得我
35、們的聽(tīng)覺(jué)對(duì)于35 kHz的頻率范圍比較敏感。5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能中耳 在鼓膜與耳蝸之間有一個(gè)大約6立方公分的小空間,稱(chēng)之為中耳。在這個(gè)小空間內(nèi),有三塊小骨頭,分別是槌骨(hammer,或稱(chēng)為malleus), 砧骨(anvil或稱(chēng)為incus)與鐙骨(stapes,或稱(chēng)為stirrup)。 槌骨黏接在鼓膜上,聲波造成的空氣振動(dòng)會(huì)使鼓膜振動(dòng),進(jìn)而推動(dòng)槌骨的振動(dòng),鐙骨貼在耳蝸的橢圓形窗(oval window)上,槌骨的振動(dòng)經(jīng)過(guò)砧骨與鐙骨的傳遞,將振動(dòng)信號(hào)傳到耳蝸內(nèi)的淋巴液,所以中耳可以看成是聲波
36、到淋巴液的信號(hào)轉(zhuǎn)換,在此轉(zhuǎn)換過(guò)程中,對(duì)于1 kHz以上的信號(hào)做了 -15 dB/10倍頻程的衰減,可以看成是一個(gè)低通濾波器(low pass filter)。5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能人類(lèi)在分辨聲音時(shí),是取決于頻域上的分辨率,聽(tīng)覺(jué)器官等于是將時(shí)域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽(tīng)到聲音或分辨聲音,是取決于音強(qiáng)(intensity)與頻譜(spectrum)。一般人的聽(tīng)覺(jué)器官可以感知頻率范圍16 Hz到18 kHz的聲音,動(dòng)態(tài)范圍約1000倍。超出人類(lèi)聽(tīng)覺(jué)感知范圍,如20 kHz以上的聲波,我們稱(chēng)之
37、為超音波(ultrasonic)。人耳對(duì)于1 kHz到5 kHz的聲音最為敏感,但是對(duì)于1 kHz以下與5 kHz以上的聲音,就要較大的音強(qiáng)才聽(tīng)得到。5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能圖5-4人類(lèi)聽(tīng)覺(jué)的范圍5 5、語(yǔ)音感知、語(yǔ)音感知Speech Signal Processing第第02章基礎(chǔ)知識(shí)章基礎(chǔ)知識(shí)5. 人類(lèi)的聽(tīng)覺(jué)功能掩蔽效應(yīng)(masking effect) 當(dāng)一個(gè)聲音存在時(shí),它會(huì)將另一個(gè)聲音的感知臨界值提高,也就是說(shuō)當(dāng)某一頻率的聲音,有一特定音強(qiáng)存在時(shí),另一個(gè)不同頻率的聲音要將音強(qiáng)提高才會(huì)被聽(tīng)到,這就是聽(tīng)覺(jué)掩蔽效應(yīng)。 同時(shí)存在的聲音,常
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療合作框架協(xié)議書(shū)
- 咖啡公司轉(zhuǎn)讓協(xié)議書(shū)
- 商務(wù)用車(chē)服務(wù)協(xié)議書(shū)
- 口腔根管治療協(xié)議書(shū)
- 員工居家辦公協(xié)議書(shū)
- 單位汽車(chē)銷(xiāo)售協(xié)議書(shū)
- 半包裝修合同協(xié)議書(shū)
- 勞務(wù)派遣調(diào)遣協(xié)議書(shū)
- 單位職工解聘協(xié)議書(shū)
- 勞動(dòng)合同附屬協(xié)議書(shū)
- 《齊齊哈爾烤肉制作工藝與服務(wù)規(guī)范》(征求意見(jiàn)稿)
- 個(gè)人借條電子版模板
- 國(guó)寶大熊貓的資料三年級(jí)下冊(cè)
- 護(hù)理文書(shū)書(shū)寫(xiě)質(zhì)量監(jiān)管制度
- 2023年廣東省中考物理試卷分析
- 2023中小學(xué)德育工作指南德育工作實(shí)施方案
- 團(tuán)體體檢報(bào)告格式模板范文
- 漢heidenhain itnc用戶(hù)手冊(cè)探測(cè)循環(huán)
- 學(xué)習(xí)領(lǐng)會(huì)《在二十屆中央政治局第四次集體學(xué)習(xí)時(shí)的講話(huà)》心得
- 水稻聯(lián)合收割機(jī)使用與維護(hù)
- 供應(yīng)商考核評(píng)分表
評(píng)論
0/150
提交評(píng)論