(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf_第1頁
(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf_第2頁
(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf_第3頁
(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf_第4頁
(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

(通信與信息系統(tǒng)專業(yè)論文)非平穩(wěn)環(huán)境下的語音增強算法研究(1).pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要 環(huán)境噪聲的污染使許多語音處理系統(tǒng)的性能急劇下降,因此對受背景噪聲污 染的語音進行增強去噪成為目前迫切需要解決的問題。 本文主要研究了非平穩(wěn)環(huán)境下的單通道語音增強方法。首先針對有聲無聲判 決進行噪聲估計時,低信噪比或非平穩(wěn)條件下性能較差以及不能實時跟蹤噪聲特 性變化的缺點,采用改進的基于統(tǒng)計最小的方法來完成噪聲的準(zhǔn)確估計,并利用 子窗技術(shù)提高了算法的計算效率;然后結(jié)合人耳的聽覺掩蔽效應(yīng),利用掩蔽閾值 對譜減法中的系數(shù)進行自適應(yīng)調(diào)整。經(jīng)計算機仿真實驗證明,本文算法能夠有效 地抑制背景噪聲,同時保持語音可懂度,在噪聲消除和語音失真之間做了一個良 好的折衷。此外本文還對基于聽覺濾波器組的增強算法進行了初步研究,討論了 分析綜合濾波器組的設(shè)計。 關(guān)鍵詞:語音增強統(tǒng)計最小聽覺掩蔽譜減參數(shù) a b s t r a c t i nm a n yp r a c t i c a ls i t u a t i o n s ,s p e e c hp r o c e s s i n gs y s t e m sa r ec o n f r o n t e dw i t hh i g h a m b i e n tn o i s el e v e l s ,a n dt h e i rp e r f o r m a n c ed e g r a d e sd r a s t i c a l l y t h u s ,t h e r ei sa s t r o n g n e e dt oi m p r o v et h ep e r f o r m a n c eo ft h e s es y s t e m si nn o i s yc o n d i t i o n sb yd e v e l o p i n g e n h a n c e m e n ta l g o r i t h m s i nt h i sp a p e r , w ef o c u so ns i n g l ec h a n n e ls p e e c he n h a n c e m e n ti nn o n s t a t i o n a r y e n v i r o n m e n t s t h i sa l g o r i t h mu s e s i m p r o v e dm i n i m u ms t a t i s t i c sm e t h o df o rn o i s e e s t i m a t i n gt oo v e r c o m et h ed e f i c i e n c yo ft h ec o n v e n t i o n a lv o i c ea c t i v i t yd e t e c t o r s , w h i c ha r eo n l ye f f i c i e n tf o rs t a t i o n a r ye n v i r o n m e n t sa n dc a l l tt r a c kt h ev a r y i n gn o i s e w i t hc o n s t a n tt h r e s h o l d as u b - w i n d o wa p p r o a c hi su t i l i z e di nt h i sm e t h o dt os p e e du p t h ep e r f o r m a n c eo f t r a c k i n g f o l l o w i n g ,a u d i t o r ym a s k i n gp r o p e r t i e sa r ei n t r o d u c e di n t o t h es u b t r a c t i v e - t y p ee n h a n c e m e n tp r o c e s s i ta l l o w sf o ra na u t o m a t i ca d a p t a t i o ni nt i m e a n df r e q u e n c yo ft h ep a r a m e t r i ce n h a n c e m e n ts y s t e mw i t ht h em a s k i n gt h r e s h o l d ,a n d f i n d st h eb e s tt r a d e o f fb e t w e e nn o i s er e d u c t i o na n dt h es p e e c hd i s t o r t i o n o b j e c t i v ea n d s u b j e c t i v ee v a l u a t i o no ft h ep r o p o s e da l g o r i t h mi sp e r f o r m e dw i t hs e v e r a ln o i s et y p e si n t h en o i s e x 一9 2d a t a b a s e t h er e s u l t ss h o wt h a tt h i sm e t h o dl e a d st oas i g n i f i c a n t r e d u c t i o no fb a c k g r o u n dn o i s ea n dt h eu n n a t u r a ls t r u c t u r eo ft h er e s i d u a ln o i s e f u r t h e r m o r e ,a n o t h e rm e t h o di sr e s e a r c h e dp r i m a r i l yw h i c hi sb a s e do nt h ea u d i t o r y f i l t e rb a n k s ,a n dt h ed e s i g no ff i l t e rb a n k si sa l s od i s c u s s e di nt h i sp a p e r k e y w o r d s :s p e e c he n h a n c e m e n t m i n i m u ms t a t i s t i c s a u d i t o r ym a s k i n g s u b t r a c t i o np a r a m e t e r s 第一章緒論 第一章緒論 語音信號處理包含多個方面,如語音合成、語音編碼、語音識別、語音通信、 語音增強等。它是一門新興的、綜合性的學(xué)科,是一門涉及面很廣的交叉學(xué)科。 它與語音學(xué)、語言學(xué)、生理學(xué)、心理學(xué)等學(xué)科有密切的關(guān)系。語音信號處理是許 多信息領(lǐng)域應(yīng)用的核心技術(shù)之一,是目前發(fā)展最為迅速的信息科學(xué)研究領(lǐng)域中的 一個,其研究涉及一系列前沿科研課題,且處于迅速發(fā)展之中,研究成果具有重要 的學(xué)術(shù)及應(yīng)用價值。其中的語音增強是一種有效的解決噪聲污染、提高信噪比的 重要手段,是語音信號處理的一個重要分支,它在從帶噪語音信號中提取盡可能 純凈的原始語音,改進語音質(zhì)量,消除背景噪聲等方面發(fā)揮著越來越重要的作用。 1 1 語音增強的意義 現(xiàn)時生活中的語音不可避免的要受到周圍環(huán)境的影響,很強的背景噪聲例如 機械噪聲、通信設(shè)備內(nèi)部電噪聲以及其他說話者的語音均會嚴重影響語音信號的 質(zhì)量,環(huán)境噪聲的污染也使得許多語音處理系統(tǒng)的性能急劇惡化。例如,基于語 音生成模型的低碼率參數(shù)編碼中涉及至u l p c 系數(shù)的求解,該系數(shù)對語音的編解碼質(zhì) 量有重要的影響,由于噪聲的干擾導(dǎo)致l p c 系數(shù)的精確求解十分困難,從而極大地 降低了重建語音的質(zhì)量。目前的語音識別系統(tǒng)雖然己達到較高的識別率,但其前 提是在理想的環(huán)境或?qū)嶒炇噎h(huán)境中,在有噪聲的環(huán)境中,這些語音識別系統(tǒng)的識 別率會普遍地大幅度下降。原因在于大多數(shù)語音應(yīng)用系統(tǒng)都是建立在理想應(yīng)用環(huán) 境中的,所謂的理想環(huán)境是指不存在背景噪聲,話者干擾,和信道畸變的場合。 非理想環(huán)境對語音系統(tǒng)的影響,概括起來體現(xiàn)在以下幾個方面: ( 1 ) 在語音通信中使語音信號清晰度和可懂度下降,并導(dǎo)致聽覺疲勞; ( 2 ) 在語音識別中使應(yīng)用條件與訓(xùn)練條件失配,從而導(dǎo)致識別率下降; ( 3 ) 在語音低速率參數(shù)編碼中使語音生成模型參數(shù)的提取受到嚴重干擾,導(dǎo)致 重建語音質(zhì)量惡化。 諸多干擾因素中,信道畸變在很多情況下可以被有效的控制或避免,但是噪 聲的影響卻是無處不在,無法避免。語音增強是語音信號處理與識別系統(tǒng)的重要 組成部分。由于干擾通常都是隨機的,因而從帶噪語音中提取完全純凈的語音幾 乎不可能。因此語音增強的目的主要是改進語音質(zhì)量,消除背景噪聲,提高語音 的自然度,使人樂于接受,這是一種客觀度量;其次是提高語音可懂度,這是一 種主觀度量。所以語音增強的目標(biāo)對收聽人而占主要是減少疲勞,改善語音質(zhì)量, 提高語音可懂度;對語音處理系統(tǒng)( 識別器,聲碼器,手機) 而言主要是提高系 非平穩(wěn)環(huán)境下的語音增強算法研究 統(tǒng)的識別率和抗干擾能力。因此在實際需求的推動下,語音增強在許多領(lǐng)域得到 了廣泛應(yīng)用。 1 2 語音增強的研究歷史 語音增強這個研究課題早在6 0 年代即引起人們的注意,隨著數(shù)字信號處理理 論的成熟,7 0 年代取得了一些基礎(chǔ)性成果,使語音增強發(fā)展成為語音信號處理領(lǐng) 域的一個重要分支。1 9 7 8 年,l i n 和o p p e h e i m 提出了語音增強的維納濾波方法【1 】o 1 9 7 9 年,b o l l 提出了用譜減法來抑制噪聲【2 j 。1 9 8 0 年,m a u l a y 和m a l p a s s 提出了 軟判決噪聲抑制方法【3 j 。1 9 8 4 年,e p h r a i n 和m a l a h 提出了基于m m s e 短時譜估 計的語音增強方法【4 】。1 9 8 7 年,p a l i w a l 把卡爾曼濾波引入到語音增強領(lǐng)域【5 】。在 近4 0 年的研究中,各種語音增強方法不斷被提出,奠定了語音增強領(lǐng)域的基礎(chǔ)并 使之逐漸走向成熟。 在語音增強過程中,消除噪聲、提高語音信噪比和提高語音的可懂度是一對 矛盾,要濾除噪聲或多或少肯定會損害語音信號。一般地說,噪聲濾除的越多, 語音信號被損的程度就越利害,語音的可懂度就越低,特別是在低信噪比的情況 下,這一矛盾更加突出。 近年來,人們針對聽覺外周提出了一些計算模型1 6 ,并在語音編碼,音頻壓縮 和音質(zhì)的客觀度量等方面獲得了應(yīng)用,同時,基于人類聽覺特性的語音增強研究 也取得了一些進展。目前,在語音增強中用的比較成功的是聽覺掩蔽效應(yīng)【7 ,8 ,9 】,通 過改變帶噪語音的短時譜幅度使得所有噪聲成分都能夠被語音信號掩蔽掉。但是 由于其算法復(fù)雜,實現(xiàn)起來有很大困難。 1 3 語音和噪聲特性 語音增強與語音信號處理理論有關(guān),而且涉及到人的聽覺感知和語音學(xué);噪 聲來源眾多,隨應(yīng)用場合而異,它們的特性也不同,即使在實驗室仿真條件下, 也難以找到一種通用的語音增強算法可以適用于各種噪聲環(huán)境。因此必須針對不 同環(huán)境下的噪聲采取不同的語音增強策略。我們首先要了解一下語音和噪聲的有 關(guān)特性【1 0 1 。 1 3 1 語音和人耳感知特性 語音是時變、非平穩(wěn)、非遍歷的隨機過程。語音發(fā)聲是一個時變過程,很多 因素造成了發(fā)聲系統(tǒng)的時變性,例如聲道的面積隨著時間和距離改變,氣流速度 隨著聲門處壓力變化而變化等。但是聲道形狀有相對穩(wěn)定性,在一段時間內(nèi) 第一章緒論 ( 1 0 3 0 m s ) ,人的聲帶和聲道形狀是相對穩(wěn)定的,可認為其特征是不變的,因而 語音的短時譜具有相對穩(wěn)定性,在語音分析中可以把語音信號分為若干分析幀, 每一幀的語音可以認為是準(zhǔn)穩(wěn)定的。 語音可以分為周期性的濁音和非周期的清音。濁音和清音經(jīng)常在一個音節(jié)中 同時出現(xiàn)。濁音部分和音質(zhì)關(guān)系密切,在時域上呈現(xiàn)出明顯的周期性,在頻域上 有共振峰結(jié)構(gòu),而且能量大部分集中在較低頻段內(nèi),是語音中大幅度高能量的部 分;清音則具有明顯的時域和頻域特征,類似于白噪聲,能量較小,在強噪聲中 容易被掩蓋,但在較高信噪比時能提供較多的信息。在語音增強中,可以利用濁 音的周期性特征,采用梳狀濾波器提取語音分量或者抑制非語音信號,而清音則 難以與寬帶噪聲區(qū)分。 由于語音增強效果最終取決于人的主觀感受,所以語音感知對語音增強研究 有重要作用。人耳對背景噪聲有很大的抑制作用,了解其機理將有助于對語音增 強技術(shù)進行研究。 語音感知問題涉及到生理學(xué)、心理學(xué)、聲學(xué)和語音學(xué)諸多領(lǐng)域,其中很多問 題有待進一步研究。目前已有一些結(jié)論可用于語音增強: ( 1 ) 人耳對語音的感知主要是通過語音信號頻譜幅度獲得的,對相位譜則不敏 感。 ( 2 ) 人耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。 ( 3 ) 人耳有掩蔽效應(yīng),即強信號對弱信號有抑制作用,能夠?qū)⑵溲谏w。具體說 來,所謂人耳的聽覺掩蔽效應(yīng)是指一個聲音的存在會影響對另外一個較弱聲音的 聽覺,即一個聲音在聽覺上掩蔽了另一個較弱聲音的存在,使人覺得另一個較弱 的聲音不存在。另外,當(dāng)一個聲音突然停止,人耳約在1 5 0 m s 內(nèi)對其它弱音聽不 清楚,甚至聽不見。因而,利用人耳的生理特點,提高語音信號的信噪比,使有 用的語音信號大于噪聲一定級別,就可以在語音與噪聲共存的情況下使人耳感覺 不到噪聲的存在。 ( 4 ) 共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重 要,因此對語音信號進行一定程度的高通濾波不會對可懂度產(chǎn)生影響。 ( 5 ) 人耳在兩個人以上的說話環(huán)境中能夠分辨出需要聆聽的聲音。 1 3 2 噪聲特性 噪聲來源取決于實際的應(yīng)用環(huán)境,因而噪聲特性可以說變化無窮。噪聲可以 是加性的,也可以是非加性的,非加性噪聲主要是殘響及傳送網(wǎng)絡(luò)的電路噪聲等。 對于非加性噪聲,有些可以通過變換轉(zhuǎn)變?yōu)榧有栽肼?,例如,乘性噪聲可以通過 同態(tài)變換成為加性噪聲;某些與信號相關(guān)的量化噪聲可以通過偽隨機噪聲擾動的 4 非平穩(wěn)環(huán)境下的語音增強算法研究 方法變換成與信號獨立的加性噪聲。加性噪聲大致上有:周期性噪聲、脈沖噪聲、 寬帶噪聲和同聲道的其它語音干擾等。 周期性噪聲主要來源于發(fā)動機等周期性運轉(zhuǎn)的機械,電氣干擾,特別是電源 交流聲也會引起周期性噪聲,其特點是有許多離散的窄譜峰。周期性噪聲可以通 過濾波或變換技術(shù)將其去除。 脈沖噪聲來源于爆炸、撞擊和放電等,表現(xiàn)為時域波形中突然出現(xiàn)的窄脈沖。 這種噪聲可以在時域內(nèi)進行,根據(jù)帶噪語音幅度的平均值確定閾值,當(dāng)信號幅度 超出這個閾值時,判別為脈沖噪聲并將其衰減消除。 寬帶噪聲的來源很多,包括熱噪聲、氣流( 如風(fēng)、呼吸) 噪聲及各種隨機噪 聲源,量化噪聲通常作為白噪聲來處理,也可視為寬帶噪聲。由于寬帶噪聲與語 音信號在時域和頻域上完全重疊,因而消除它最困難。平穩(wěn)的寬帶噪聲,通???認為是白色高斯噪聲。 同聲道語音干擾是指當(dāng)多個語音疊加在一起同時在單信道中傳輸時,雙耳信 號因合并而消失。消除這種干擾可以利用語音和干擾語音的基音不同并不成整數(shù) 倍,采用梳狀濾波器提取基音和各次諧波,再恢復(fù)出有用語音信號。 背景噪聲對發(fā)音的影響主要是指噪聲破環(huán)了語音信號原有的聲學(xué)持征和模型 參數(shù),模糊了不同語音之間的差別,使語音質(zhì)量下降,可懂度降低。強噪聲會使 人產(chǎn)生聽覺疲勞,還對講話人產(chǎn)生影響,使講話人改變在安靜環(huán)境或低噪聲環(huán)境 中的發(fā)音方式,從而改變了語音的特征參數(shù),這對語音識別系統(tǒng)有很大影響。 1 4 語音增強算法概述 盡管目前語音增強在理論上尚未完全解決,還有待發(fā)展,但某些語音增強算 法已證明是有效的,它們大體上可分為四類:噪聲對消法、諧波增強法、基于參 數(shù)估計的語音再合成法和基于語音短時譜估計的語音增強算法【1 1 1 。上述算法各有 長處及限制。 這里簡單介紹一下各種語音增強方法的基本原理及其長處與限制。 ( 1 ) 噪聲對消法 噪聲對消法的基本原理是從帶噪語音中減去噪聲。圖1 1 給出了雙話筒采集系 統(tǒng)的噪聲對消器原理框圖。圖中帶噪語音序列刪和噪聲序列d c n ) 經(jīng)傅里葉變換后 得到各自的頻域分量,噪聲分量幅度譜經(jīng)數(shù)字濾波后與帶噪語音相減,然后加上 帶噪語音頻譜分量的相位,再經(jīng)傅里葉反變換恢復(fù)為時域信號。 第一章緒論 圖1 1 雙話筒采集的噪聲對消法原理框圖 自適應(yīng)濾波器通常采用f i r 濾波器,其系數(shù)可以采用最小均方誤差( l m s ) 準(zhǔn)則進行估計,使如下誤差信號最?。?衛(wèi) e ( n ) = 【s ( n ) + d ( 玎) 卜,( 刀) = 【s ( n ) + d ( 刀) 】一芝:w k r ( n k ) ( 1 1 ) 西 式中,1 ,例是帶噪信號濾波后的結(jié)果,倒是第二個話筒采集到的噪聲信號,為 濾波器系數(shù),為f i r 濾波器的抽頭數(shù)。只要噪聲與話音相互獨立,使p 例的平均 值最小,就能得到最接近于帶噪語音中的噪聲復(fù)制品。但若采集到的噪聲與話音 是相關(guān)的,則濾波器系數(shù)只能在語音間歇期間進行刷新。抽頭數(shù)與兩個話筒相 隔距離有關(guān),兩個話筒相隔數(shù)米時,值甚至可以取大于1 0 0 0 。 在強背景噪聲時,這種方法可以得到很好的消噪效果。噪聲對消法的一個缺 點是增強后的語音中會含有明顯的“音樂噪聲 ,這是由頻譜相減而產(chǎn)生的一種殘 留噪聲,具有一定的節(jié)奏性起伏感,故而稱為“音樂噪聲 。自適應(yīng)對消器的性能 還受到串音及回響的影響【1 2 】,另外由于參考話筒的位置對降噪效果影響很大,使 其在頭戴式通信產(chǎn)品及整機中的安裝比較困難,給設(shè)計和使用帶來很多不方便。 ( 2 ) 諧波增強法 這是基于語音的周期性的一種增強方法。語音信號的濁音段有明顯的周期性, 利用這一特點,可以采用自適應(yīng)梳狀濾波器來提取語音分量,抑制噪聲分量。 梳狀濾波器可以在時域?qū)崿F(xiàn),表達式為 旦 y ( 咒) = :c k x ( n 一肼) ( 1 - 2 ) 女三刁 式中,三為基頻周期:m 為常數(shù);x 例是濾波器的輸入信號序列;y 例是輸出信號 序列;g 為系數(shù),根據(jù)信號周期而變化。輸出信號是輸入信號延時加權(quán)和的平均 值。當(dāng)延時與周期一致時,這個平均過程將使周期性分量得到加強,抑制或消除 其他非周期性分量或與信號周期不同的其他周期性分量。 梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對語音信號進行傅里葉變換后可以鑒別出需 要提取的各次諧波分量,然后經(jīng)傅罩葉反變換恢復(fù)為時域信號。 這種方法關(guān)鍵是要精確估計出語音信號的基音周期,這在強背景噪聲干擾下 6 非平穩(wěn)環(huán)境下的語音增強算法研究 是很困難的事情。在基音發(fā)生變化的過渡段,這種方法會受到嚴重影響。 ( 3 ) 基于語音生成模型的增強算法 眾所周知,語音的發(fā)生過程可以模型化為激勵源作用于一個線性時變?yōu)V波器, 激勵源可以分濁音和清音兩類。時變?yōu)V波器則是聲道的模型,如圖1 2 所示。通常 認為聲道模型是一個全極點濾波器,其參數(shù)可以通過線性預(yù)測分析得到,但考慮 到鼻腔的共鳴作用,采用零極點模型更為合適。所以,如果知道激勵參數(shù)和聲道 濾波器的參數(shù),就可利用語音生成模型合成得到“純凈的語音 ,這種方法的關(guān)鍵 在于如何從帶噪語音中準(zhǔn)確地估計語音模型的參數(shù)( 包括激勵參數(shù)和聲道參數(shù)) 。 鑒于激勵參數(shù)難以準(zhǔn)確估計,也可以只利用聲道參數(shù)構(gòu)造濾波器進行濾波處理。 傳統(tǒng)用的兩種基于語音生成模型的算法為維納濾波和卡爾曼濾波法i l 引。維納 濾波法,首先要依據(jù)最大后驗概率準(zhǔn)則估計l p c 生成模型的參數(shù),然后利用參數(shù) 構(gòu)造非因果的維納濾波器對帶噪語音進行濾波,但維納濾波只在平穩(wěn)的條件下才 能保證最小均方誤差意義下的最優(yōu)估計,而語音是非平穩(wěn)的,只能在短時間內(nèi)近 似是平穩(wěn)的。另一方面它沒有完全利用語音的生成模型。而卡爾曼濾波可以彌補 以上兩個缺陷,它完全基于語音生成模型,且在非平穩(wěn)條件下,也保證最小均方 誤差意義下的最優(yōu)估計。 圖1 2 基于語音生成模型的語音增強原理框圖 實際的增強試驗表明,兩種算法在不同程度上都能消除噪聲,提高信噪比。 但是主觀試聽發(fā)現(xiàn)它們都對語音造成了一定的損傷。我們在對該算法的仿真中發(fā) 現(xiàn),上述算法的缺陷在于盡管多次迭代確實使后驗概率增大了,但這種迭代也帶 來了明顯的副作用。其中之一就是每迭代一次聲道譜的共振峰寬度減小,同時位 置也出現(xiàn)抖動,從而使增強后的語音帶有不悅耳的聲音。 ( 4 ) 基于短時譜幅度估計的方法 如前所述,語音是非平穩(wěn)的隨機過程,但在1 0 - - 3 0 m s 內(nèi)可以近似看成是平穩(wěn) 的。如果能從帶噪語音的短時譜中估計出“純凈 語音的短時譜,則可達到增強 的目的。 基于s t s a 的語音增強法包括譜減法及其各種變形【1 】,最小均方誤差估計法 ( m m s e ) 等。該類方法認為語音信號的短時譜幅度( s t s a ) 對語音的感知起主 第一章緒論 導(dǎo)作用,從而在語音增強中需要精確估計,而相位對語音的感知并不重要,沒有 必要精確估計。文獻 1 4 1 通過試驗為此提供了一定的依據(jù),文獻 4 ,1 5 】則證明在一 定條件下的語音相位的最小均方誤差估計值就是帶噪相位本身,因此基于s t s a 估計的語音增強方法一般都直接采用了帶噪語音的相位作為增強語音的相位。 譜減法通過從帶噪語音的s t s a 中直接減去噪聲的平均譜幅度來得到增強語 音的s t s a ,實現(xiàn)起來簡單,但是剩余噪聲大,并且產(chǎn)生不舒服的“音樂噪聲 。 其基本原理框圖如圖1 3 所示。圖中,文、j ( 力) 為s k ,s ( n ) 的估值。后來,e p h r a i m 等人提出了s t s a 的m m s e 估計法,部分的解決了“音樂噪聲 的問題,但在帶 噪語音的信噪比( s n r ) 較低時,其剩余噪聲還是很大的,尤其是當(dāng)信噪比小于 5 d b 時,文獻 1 6 提出了一種幀間約束的m m s e 語音增強算法,但其算法復(fù)雜, 不易實時實現(xiàn)。為充分利用譜減法計算效率較高的優(yōu)點,本文將人耳的聽覺掩蔽 效應(yīng)引入進來,用來減小音樂噪聲的影響,具體算法將在第三章進行詳細介紹。 “功= s 0 善0 ) 圖1 3 語音短時譜估計一般原理框圖 1 5 論文研究工作及內(nèi)容安排 本文研究了低信噪比非平穩(wěn)噪聲下的單通道語音增強算法??紤]到實時實現(xiàn) 對算法復(fù)雜度的要求,筆者采用了改進的中、低復(fù)雜度的譜減法。論文回顧了譜 減的發(fā)展及其優(yōu)缺點,然后將聽覺掩蔽效應(yīng)引入到譜減法中,對譜減系數(shù)進行自 適應(yīng)調(diào)整。在保證算法復(fù)雜度較低的前提下,克服了譜減法在低信噪比下音樂噪 聲較多的缺點,提高了增強語音的可懂度。文章采用改進的統(tǒng)計最小的方法對噪 聲進行跟蹤估計,彌補了基于有聲無聲檢測在非平穩(wěn)噪聲下不能準(zhǔn)確進行噪聲估 計的缺陷,并利用子窗方法提高了噪聲估計的計算效率。此外本文還對基于聽覺 濾波器組的增強算法進行了初步研究。 論文具體的結(jié)構(gòu)和內(nèi)容安排如下: 第二章首先介紹了有聲無聲檢測噪聲估計方法的原理,分析了其主要缺點及 其在非平穩(wěn)噪聲下的不適應(yīng)性,由此引入了基于統(tǒng)計最小的方法,對此方法原理 及改進進行了詳細推導(dǎo)介紹。 第三章回顧了譜減法的發(fā)展及其優(yōu)缺點,對一種經(jīng)典的改進譜減法重點進行 8 非平穩(wěn)環(huán)境下的語音增強算法研究 了分析,并將聽覺掩蔽效應(yīng)引入到此算法中,依據(jù)掩蔽閾值對此方法的譜減系數(shù) 自適應(yīng)調(diào)整。詳細分析了該算法的原理,對算法各部分的具體實現(xiàn)作了詳細討論, 并對算法進行性能評價,以客觀測試指標(biāo)測試了算法仿真結(jié)果。最后,還對基于 聽覺濾波器組的增強算法進行了初步研究。 第四章是論文的總結(jié)和結(jié)論,并指出了今后需要進一步研究的工作。 第二章噪聲估計算法分析與仿真 9 第二章噪聲估計算法分析與仿真 在基于單通道的帶噪語音信號處理中,噪聲估計是非常重要的工作,也是極 其關(guān)鍵的一步,估計的好壞直接關(guān)系著整個系統(tǒng)的性能。如果噪聲估計過低,殘 余噪聲將會被人耳感知到;估計過高,語音信號將會被抑制,同時降低了語音的 可懂度。然而在實際中對噪聲進行精確的估計是相當(dāng)困難的,尤其是在非平穩(wěn)或 者信噪比較低的背景噪聲環(huán)境中。 大部分噪聲估計算法不能適用于多種復(fù)雜的噪聲環(huán)境,部分算法由于計算量 的問題使得其實時性較差1 1 7 】。文獻 1 7 - 2 2 分別介紹了多種噪聲估計的算法,其中 以根據(jù)有聲無聲檢測估計方法最為成熟,并得到了廣泛應(yīng)用,然而此方法僅在平 穩(wěn)噪聲環(huán)境下較為適用1 2 0 】,當(dāng)噪聲為低信噪比或非平穩(wěn)的情況下,不能跟蹤上噪 聲變化,從而影響了算法的適用范圍,基于此本文提出了改進的統(tǒng)計最小方法【2 4 1 進行估計,它能夠跟蹤噪聲的變化,從而能夠適應(yīng)非平穩(wěn)噪聲環(huán)境。本章將對這 兩種進行分析、比較,并重點討論基于統(tǒng)計最小方法的實現(xiàn)過程。 2 1 基于有聲無聲檢測的噪聲估計 帶噪聲語音信號的有聲無聲檢測是帶噪語音信號處理中很重要的工作。在語 音增強處理中,有聲無聲檢測同樣得到了廣泛應(yīng)用,可以利用帶噪語音中檢測出 的無聲段噪聲對當(dāng)前噪聲進行估計。對于帶噪語音而言,理論上,解決了噪聲估 計的問題也就意味著解決了語音增強問題。 傳統(tǒng)上有聲無聲檢測算法是利用語音信號的短時平穩(wěn)性以及帶噪語音的短時 能量的概率分布,通過對語音短時能量大小的檢測進行判決。這種檢測算法的基 本思想是計算某幀信號的能量e ,選取適當(dāng)?shù)拈T限島,若e e r ,判定該幀為噪聲 幀,否則判定該幀為語音幀【2 們。然后再分別針對噪聲幀和語音幀進行噪聲估計。 2 1 1 判決門限的選取 設(shè)帶噪語音信號中的噪聲為加性高斯噪聲【2 5 】,則帶噪語音可表示為 y ( i ) = s ( i ) + 刀( ,)( 2 1 ) 其中s ( i ) 、n ( i ) 分別為語音信號和噪聲信號的樣值。s ( i ) 、n ( i ) 不相關(guān),選取幀長 為三點,一幀信號可表示為 y ( a ,) = y ( a 足+ i ) h ( i ) 非平穩(wěn)環(huán)境下的語音增強算法研究 = s ( z ,f ) + 刀( a ,f ) ,0 i 三一1( 2 - 2 ) 式中y ( z ,i ) 、j ( a ,i ) 、胛( a ,i ) 代表加窗后分幀信號,廳( f ) 為窗函數(shù)。當(dāng) s ( z ,i ) = o ( o i 三一1 ) 時,貝0 y ( z ,f ) = n ( z ,f )( 2 3 ) 該幀信號為不含語音的純噪聲,信號能量可表示為 e n = y ( 圳】2 = 【咒( 允,i ) 1 2 ( 2 4 ) 一般認為噪聲為零均值高斯過程,則n ( z ,i ) 的概率密度為 ( x ) = 赤e x p ( 一丟) ( 2 5 ) 其中,仃為噪聲均方差。 如果刀( f ) ,刀( ,+ 1 ) ,n ( i + k 一1 ) 互不相關(guān),則的概率密度可表示為口6 】 緲) : 兩志礦( 方肋寺圳 ( 2 - 6 ) t 0z 0 對于語音幀,由于s 。( f ) 與d 。( f ) 不相關(guān),能量可表示為 p ,= 【s ( f ) 】2 + 【”( 糾2 ( 2 - 7 ) 假設(shè)語音能量s ;k - - 1 【j ( f ) 】:,則該幀信號能量的條件概率分布為 f f 。o ( x s ) = 【志c 等尸2 一薔娜 p 8 , 0 x s 正倒囝是將向右平移了s 。由式( 2 _ 6 ) 、( 2 8 ) 可畫出、 | s ) 及誤判概率 圖如圖2 1 所示。 丘( 硝:矗( x ,研 隊。 圖2 1 厶( 力、0 $ 及誤判概率 第二章噪聲估計算法分析與仿真

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論