數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼_第1頁
數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼_第2頁
數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼_第3頁
數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼_第4頁
數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第4章

音頻壓縮編碼4.1音頻壓縮概述4.2音頻編碼技術(shù)4.3MPEG音頻編碼標(biāo)準(zhǔn)4.4音頻壓縮編碼在前沿科技中的應(yīng)用4.5本章小結(jié)

4.1音頻壓縮概述

4.1.1音頻信號音頻信號(audiosignals)是表示機(jī)械波的信號,是機(jī)械波的波長、強(qiáng)度變化的信息載體。根據(jù)機(jī)械波的特征,可分為規(guī)則信號和不規(guī)則信號,其中規(guī)則信號又可以分為語音、音樂和音效等。

數(shù)字音頻信號就是將模擬音頻信號進(jìn)行采樣、量化和編碼后所得到的信號。常見的數(shù)字音頻分類如表4-1所示。

4.1.2音頻壓縮的必要性和可能性

1.必要性

音頻信息在人們的工作和生活中具有非常重要的作用,數(shù)字化音頻信息的數(shù)據(jù)量也相當(dāng)巨大,為更好地存儲、傳輸和使用數(shù)字化的音頻信息,需要對音頻信息進(jìn)行標(biāo)準(zhǔn)化的編碼壓縮。

2.可行性

既然音頻壓縮如此重要,那么我們是否可以對數(shù)字化后的音頻信號進(jìn)行壓縮呢?回答是肯定的。統(tǒng)計分析表明,無論是語音還是音樂信號,都存在著多種冗余,包括時域冗余、頻域冗余和聽覺冗余。由此,數(shù)字音頻壓縮編碼主要基于兩種途徑:一種是去除聲音信號中的冗余部分;另一種是利用人耳的聽覺特性,將聲音中與聽覺無關(guān)的不相關(guān)部分去除。

聲音信號中的不相關(guān)部分是基于人耳的聽覺特性,因?yàn)槿硕鷮π盘柗?、頻率和時間的分辨能力是有限的。壓縮編碼就是要將那些人耳可感知的信息傳遞出去,而舍去那些感知不到的信息,在可接受的信號質(zhì)量下降的前提下,取得較低的比特率。為了達(dá)到這樣的目的,必須充分利用人耳聽覺的心理聲學(xué)特性。人耳聽覺系統(tǒng)的特性有三個。第一個特性是人耳對各頻率的靈敏度是不同的。在2~5kHz頻段,很低的信號電平就能被人耳聽到;在其他頻段時,相對要高一點(diǎn)的信號電平才能被聽到。這樣可以將輸入信號與最小聽覺閾值相比較,去除那些低于閾值的信號,從而可以壓縮數(shù)據(jù)。

第二個特性是頻率之間的掩蔽效應(yīng)(FrequencyMaskingEffect)。當(dāng)高電平的頻率點(diǎn)信號和低電平的不同頻率點(diǎn)信號同時出現(xiàn)時,將聽不到電平低的頻率點(diǎn)的聲音,因而,可以不對低于掩蔽閾值的信號進(jìn)行編碼,對高于掩蔽閾值的信號重新分配量化比值。第三個特性是時域的掩蔽效應(yīng)(Temporal

MaskingEffect)。它是指在一個強(qiáng)信號之前或之后的弱信號如果被遮蔽掉,也可以不進(jìn)行編碼。

4.2音頻編碼技術(shù)

音頻壓縮技術(shù)是指對原始數(shù)字音頻信號流運(yùn)用一定的數(shù)字信號處理技術(shù),在不降低有用信息量或者是降低的信息量可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它的逆變換稱為解壓縮或解碼。音頻信號在通過一個編解碼器后可能引入一定的失真和大量的噪聲。

對數(shù)字音頻信息的壓縮主要是依據(jù)音頻信息自身的相關(guān)性以及人耳對音頻信息的聽覺冗余度。音頻信息在編碼技術(shù)中通常分成兩類來處理:分別是語音和音樂,各自采用的技術(shù)有差異?,F(xiàn)代聲碼器的一個重要的問題是,如何把語音和音樂的編碼融合起來。語音編碼技術(shù)分為三類:波形編碼、參數(shù)編碼以及混合編碼。音樂的編碼技術(shù)主要有心理聲學(xué)模型、自適應(yīng)變換編碼(頻域編碼)和霍夫曼(Huffman)編碼等技術(shù)。本節(jié)主要講述基于心理聲學(xué)模型的感知編碼。

4.2.1波形編碼

波形編碼是指直接對音頻信號時域或頻域波形采樣值進(jìn)行編碼。它主要利用音頻采樣值的幅度變化規(guī)律和相鄰采樣值間的相關(guān)性進(jìn)行編碼,目標(biāo)是使重建后的音頻信號的波形與原音頻信號波形保持一致。由于波形編碼保留了信號原始樣值的細(xì)節(jié)變換,從而保留了信號的各種過渡特征,因此適應(yīng)性強(qiáng)、算法復(fù)雜度低、編解碼延時短、重建音頻信號質(zhì)量一般較高,但其壓縮比不高。

1.脈沖編碼調(diào)制(PCM)

采用脈沖編碼調(diào)制的模擬信號數(shù)字傳輸系統(tǒng)如圖4-1所示。由圖4-1可知,模擬信號經(jīng)過抽樣量化以后,可以得到一系列輸出,它們共有Q個電平狀態(tài)。當(dāng)Q

比較大時,如果直接量化成Q

進(jìn)制信號,其抗噪聲性能將會很差,因此,通常在發(fā)射端通過編碼器將Q進(jìn)制信號變換為k

位二進(jìn)制數(shù)字信號。而在接收端將收到的二進(jìn)制碼元經(jīng)過譯碼器再還原為Q

進(jìn)制信號,這種系統(tǒng)就是脈沖編碼調(diào)制系統(tǒng)。

圖4-1采用脈沖編碼調(diào)制的模擬信號數(shù)字傳輸系統(tǒng)

2.差分脈沖編碼調(diào)制(DPCM)

差分脈沖編碼調(diào)制是利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是:根據(jù)過去的樣本信號值去預(yù)測下一個樣本信號值,這個值稱為預(yù)測信號,然后對實(shí)際信號值與預(yù)測信號值之差進(jìn)行量化編碼,從而減少了冗余度。它與PCM的不同之處在于,PCM是對采樣信號進(jìn)行量化編碼,而DPCM是對實(shí)際信號值與預(yù)測信號值之差進(jìn)行量化編碼。由于存儲或傳送的是信號差值而不是信號幅度絕對值,因此降低了傳送或存儲的數(shù)據(jù)量。此外,它還能適應(yīng)大范圍變化的輸入信號。

DPCM的原理框圖如圖4-2所示。圖4-2DPCM的原理框圖

3.自適應(yīng)差分編碼調(diào)制(ADPCM)

自適應(yīng)差分編碼調(diào)制(AdaptiveDifferencePulseCodeModulation,ADPCM)綜合了

自適應(yīng)脈沖編碼調(diào)制(AdaptivePulseCodeModulation,APCM)的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心思想是:

利用自適應(yīng)的特性改變量化階的大小,即用小的量化階(Step-size)來編碼小的差值,使用大的量化階來編碼大的差值;

使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實(shí)際樣本值和預(yù)測值的差達(dá)到最小。ADPCM的原理框圖如圖4-3所示。接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預(yù)測下一個接收信號的預(yù)測值。

圖4-3ADPCM的原理框圖

4.2.2參數(shù)編碼

與波形編碼不同,參數(shù)編碼又稱為聲源編碼。它是指在頻率域或其他正交變換域中對信源信號提取特征參數(shù),并將它轉(zhuǎn)換成數(shù)字代碼進(jìn)行傳輸。其反過程為解碼,主要將收到的數(shù)字經(jīng)變換恢復(fù)特征參數(shù),再根據(jù)所得的特征參數(shù)重建語音信號。

線性預(yù)測編碼(LPC)及其他各種改進(jìn)型編碼都屬于參數(shù)編碼。線性預(yù)測編碼是一種非常重要的編碼方法。

線性預(yù)測器是使用過去的P

個樣本值來預(yù)測當(dāng)前時刻的采樣值x(n),其預(yù)測原理如圖4-4所示。預(yù)測值xpre可以用過去P

個樣本值的線性組合來表示,有

為方便起見,式(4-1)中采用負(fù)號。殘差誤差(ResidualError)即線性預(yù)測誤差為

圖4-4LPC的預(yù)測原理

4.2.3混合編碼

計算機(jī)的發(fā)展為語音編碼技術(shù)的研究提供了強(qiáng)有力的工具,而大規(guī)模、超大規(guī)模集成電路的出現(xiàn),則為語音編碼的實(shí)現(xiàn)提供了基礎(chǔ)。

碼本激勵線性預(yù)測編碼采取分幀技術(shù)進(jìn)行編碼,其幀長一般為20~30ms,每一語音幀再被分成2~5個子幀,在每個子幀內(nèi)搜索最佳的碼字矢量(簡稱碼矢量)作為激勵信號。CELP編碼流程圖如圖4-5所示。

圖4-5CELP編碼流程圖

4.2.4-感知編碼

1.理論基礎(chǔ)

1)心理聲學(xué)模型

心理聲學(xué)模型的核心思想是對信息量進(jìn)行壓縮,同時使失真盡可能不被覺察出來。利用人耳的掩蔽效應(yīng)就可以達(dá)到此目的,即較弱的聲音會被同時存在的較強(qiáng)的聲音所掩蓋,從而使得人耳無法聽到。在音頻壓縮編碼技術(shù)中,利用掩蔽效應(yīng)就可以給不同頻率處的信號分量分配不同的量化比特數(shù),用這種方法來控制量化噪聲,使得噪聲的能量低于掩蔽閾值,從而使得人耳感覺不到量化過程的存在。

2)聞域和臨界頻段

音頻壓縮理論建立在心理聲學(xué)模型基礎(chǔ)上,是從研究人耳的聽覺系統(tǒng)開始的。人耳實(shí)際上可看成一個多頻段的聽感分析器,在接收端的最后,它對瞬間的頻譜功率進(jìn)行了重新分配,這就為音頻的數(shù)據(jù)壓縮提供了依據(jù)。

3)掩蔽效應(yīng)

心理聲學(xué)模型中的一個基本概念就是聽覺掩飾特性——掩蔽效應(yīng),即一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象。前者稱為掩蔽聲音(MaskingTone),后者稱為被掩蔽聲音(MaskedTone)。

掩蔽效應(yīng)的基礎(chǔ)是感知編碼(PerceptualCoding)中的一個重要概念——臨界頻段,即人耳對不同頻率段聲音信號的反應(yīng)靈敏程度有所差別。

掩蔽可分為頻域掩蔽和時域掩蔽。頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發(fā)生掩蔽效應(yīng),即較強(qiáng)的音頻信號可以掩蔽臨界頻段中同時發(fā)出的較弱的信號。這種特性被稱為頻域掩蔽,也稱為同時掩蔽(SimultaneousMasking)。這時,掩蔽聲在掩蔽效應(yīng)發(fā)生期間一直起作用,是一種較強(qiáng)的掩蔽效應(yīng)。也就是說,如果在某一頻段出現(xiàn)了一個較強(qiáng)的信號,那么該頻段中低于某一門檻值的信號都將被強(qiáng)信號掩蔽掉,成為人耳不可聽聞的信號。

2.感知編碼原理

感知編碼首先分析輸入信號的頻率和振幅,然后將其與人的聽覺感知模型進(jìn)行比較。編碼器用這個模型去除音頻信號的不相關(guān)部分及統(tǒng)計冗余部分。盡管這個方法是有損的,但人耳通常感覺不到編碼信號質(zhì)量的下降。感知編碼器可以將一個聲道的比特速率從768kb/s降至128kb/s,將字長從16b/s減少至平均值2.67b/s,數(shù)據(jù)減少了約83%。

一般感知編碼器采用兩種比特分配方案:一種是前向自適應(yīng)分配方案,即所有的分配都在編碼器上進(jìn)行,這個編碼信息也包含在比特流中。前向自適應(yīng)編碼的一個突出優(yōu)點(diǎn)是在編碼器中采用了心理聲學(xué)模型,它利用編碼數(shù)據(jù)完全地重建信號。當(dāng)改進(jìn)了編碼器中的心理聲學(xué)模型后,可以利用現(xiàn)有的解碼器來重建信號。這種方法的一個缺點(diǎn)是需要占用一些比特位來傳遞分配信息。

另一種是后向自適應(yīng)分配方案,即比特分配信息可以直接從編碼的語音信號中推導(dǎo)出來,不需要編碼器中詳細(xì)的分配信息,分配信息也就不占用比特位。然而解碼器中的比特位分配信息是根據(jù)有限的信息推導(dǎo)出來的,從而降低了精度。另外,解碼器相應(yīng)地比較復(fù)雜,而且不能輕易地改變心理聲學(xué)模型。

由于感知編碼器是根據(jù)人耳的靈敏度來編碼的,它也可以輸出音效系統(tǒng)所要求的響應(yīng)。實(shí)況播送的音樂不需要通過放大器和揚(yáng)聲器而直接進(jìn)入人的耳朵,但是錄制的音樂必須通過放音系統(tǒng)。由于感知編碼器去除了不可聽的信號成分,從邏輯上講,加強(qiáng)了放音系統(tǒng)傳送可聽聲音的能力。簡言之,感知編碼器很適合對需要經(jīng)過音頻系統(tǒng)的音頻信號編碼。感知編碼器的原理框圖如圖4-6所示。

圖4-6感知編碼器的原理框圖

既然聲音的掩蔽作用和頻段有關(guān),所以有必要將輸入的聲音信號分成許多子帶以逼近人耳的臨界頻帶響應(yīng)。濾波器組子帶的劃分如圖4-7所示。圖4-7濾波器組子帶的劃分

3.感知編碼技術(shù)

1)子帶編碼

子帶編碼理論的基本思想是將信號分解為若干子頻帶內(nèi)的分量之和,然后對各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。

2)變換編碼

在變換編碼中,將時域音頻信號變換到頻域。編碼器中的變換方法可以采用離散傅里葉變換或改進(jìn)的離散余弦變換。變換能近似地對基膜沿其長度針對振動的頻率成分進(jìn)行分析。變換的系數(shù)根據(jù)心理聲學(xué)模型進(jìn)行量化。

圖4-8所示的是一個自適應(yīng)變換編碼的示例,即使用FFT和循環(huán)量化方法來達(dá)到最佳壓縮效果的自適應(yīng)變換編碼。信號經(jīng)過DCT(離散余弦變換)變換到頻率域,利用頻譜系數(shù)計算每個臨界頻段的信號能量,以決定每個臨界頻段的掩蔽閾值。用兩個重復(fù)的循環(huán)進(jìn)行量化,使用分析合成技術(shù)進(jìn)行編碼。計算對信號編碼需要的比特數(shù),如果超過了允許分配給這塊數(shù)據(jù)的比特數(shù),就取較大的量化臺階,重新計算所需的比特數(shù)。在重建信號中外循環(huán)計算可能出現(xiàn)量化誤差,如果誤差超出了掩蔽模型所允許的范圍,就適當(dāng)減小這個子帶的量化臺階。所有循環(huán)不斷地重復(fù),直至達(dá)到最佳編碼效果。這樣的編碼器可適用于低比特速率信號。

圖4-8使用FFT和循環(huán)量化方法來達(dá)到最佳壓縮效果的自適應(yīng)變換編碼

4.3MPEG音頻編碼標(biāo)準(zhǔn)

4.3.1MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-1標(biāo)準(zhǔn)的第三部分(ISO/IEC11172-3)稱為MPEG1Audio。MPEG-1Audio的壓縮編碼技術(shù)采用的是MUSICAM(掩蔽型通用子帶綜合編碼和復(fù)用)方案,它是基于兩種機(jī)理來減少音頻信號碼率的:一是利用統(tǒng)計相關(guān)性,去除音頻信號的冗余;二是利用人耳的心理聲學(xué)現(xiàn)象(如頻率掩蔽和時間掩蔽等)去除聽覺冗余。

MPEG1Audio按照壓縮編碼復(fù)雜程度規(guī)定了三個層次,即LayerⅠ、LayerⅡ和LayerⅢ,每個層次針對不同的應(yīng)用,但是三個層次的基本模型是相同的。每個后繼的層都有更高的壓縮比,但需要更復(fù)雜的編解碼器。三個層次的解碼器后向兼容,即LayerⅢ的解碼器可以對三個層次的碼流解碼,LayerⅡ

解碼器可以解碼LayerⅠ

和LayerⅡ,LayerⅠ解碼器只能解碼LayerⅠ。三個層次的分述如下:

(1)LayerⅠ是簡單型,通常目標(biāo)碼率為每通道192kb/s,立體聲碼率為384kb/s,壓縮比為1∶4。LayerⅠ被廣泛應(yīng)用在VCD的音頻壓縮方案中。

(2)LayerⅡ是以LayerⅠ為基礎(chǔ)的,但壓縮編碼的復(fù)雜度增加了。通常目標(biāo)碼率為每通道128kb/s,立體聲碼率為256kb/s,壓縮比為1∶6。LayerⅡ廣泛應(yīng)用于數(shù)字音頻廣播和數(shù)字電視演播室等數(shù)字音頻專業(yè)的制作、交流、存儲和傳送。

(3)LayerⅢ采用混合壓縮技術(shù),復(fù)雜度相對較高。LayerⅢ

通過使用非均勻量化、自適應(yīng)分割和量化后的熵編碼來提高編碼效率。目標(biāo)碼率為每通道64kb/s,立體聲碼率為128kb/s,壓縮比為1∶12。LayerⅢ在低碼率下有高品質(zhì)的音質(zhì),主要應(yīng)用于需要較低碼率的領(lǐng)域。

1.LayerⅠ

LayerⅠ音頻編碼器的原理框圖如圖4-9所示。圖4-9LayerⅠ音頻編碼器的原理框圖

1)多通道濾波器

輸入的數(shù)字音頻信號首先通過一個多通道濾波器組,變換成32個等寬頻帶子帶。這些濾波器組的輸出是臨界頻帶系數(shù)樣值,輸出樣值是經(jīng)過量化的,如果一個子帶覆蓋若干個臨界頻帶,就選擇具有最小噪聲掩蔽的臨界頻帶,并利用那個臨界頻帶來計算分配給子帶量化信號的比特數(shù)。

2)心理聲學(xué)模型

心理聲學(xué)模型決定各個子帶中允許的最大量化噪聲,小于它的量化噪聲都會被掩蔽。如果子帶內(nèi)的信號功率低于掩蔽閾值,不進(jìn)行編碼;否則,需要確定編碼的系數(shù)所需的比特數(shù),使量化引起的噪聲低于掩蔽效應(yīng)。MPEG音頻心理聲學(xué)模型主要實(shí)現(xiàn)步驟如下:

(1)用FFT將音頻樣值轉(zhuǎn)換到頻域。

(2)將得到的頻率組成臨界頻帶。

(3)在臨界頻帶的譜值中,將單音(似正弦)和非單音(似噪聲)分開。

(5)計算由臨界頻帶引起的每個子帶的掩蔽值。

(6)計算每個子帶的信號掩蔽比(SignaltoMaskRatio,SMR),即將子帶的信號能量除以子帶的最小掩蔽閾值。一組32個SMR(每個子帶含有1個)構(gòu)成模型的輸出。

(7)最后將該子帶的最大信號與掩蔽閾值的比值輸入量化器。

3)比特分配

比特分配過程決定分配給各個子帶的編碼比特數(shù),分配的依據(jù)是心理聲學(xué)模型的信息。LayerⅠ和LayerⅡ的比特分配過程是從計算掩蔽噪聲比開始的,即

式中,MNR為掩蔽噪聲比(MaskingtoNoiseRatio);SNR為信號噪聲比(SignaltoNoiseRatio);SMR為從心理聲學(xué)模型中得到的信號掩蔽比,所有的值都用dB表示。

4)比例因子

按輸入信號的大小來縮放量化步長,輸入信號小用較小的量化步長,輸入信號大用較大的量化步長。為此,在對信號量化時需要知道這個量化步長有多大,需要將碼字中的比特分為兩組,一組比特用來描述量化步長大小,這組比特代表幅度值的“比例因子”,其余的比特用來均勻量化與這些量化步長對應(yīng)的信號,這組比特代表幅度值的“尾數(shù)”。通常,SNR取決于尾數(shù)的比特數(shù)。

5)碼流格式化——幀形成

MPEG1音頻數(shù)據(jù)是分成幀(Frame)傳送的,LayerⅠ每幀由32個子帶,每個子帶12個樣值,共384個樣值的數(shù)據(jù)組成。LayerⅠ的幀結(jié)構(gòu)如圖4-10所示。圖4-10LayerⅠ的幀結(jié)構(gòu)

2.LayerⅡ

LayerⅡ和LayerⅠ編碼原理類似,其不同之處有以下幾點(diǎn):

(1)LayerⅡ的每個子帶不是均勻帶寬。

(2)LayerⅡ使用的FFT精度高一些,是1024點(diǎn)的FFT運(yùn)算方式,提高了頻率的分辨率,得到原信號更準(zhǔn)確的瞬間頻譜特性。

(3)LayerⅡ的幀長度碼流是LayerⅠ的3倍,每個子帶有三個連續(xù)的尺度因子,這就意味著帶內(nèi)在進(jìn)行動態(tài)比特分配時,增加了壓縮率。

(4)LayerⅡ和LayerⅠ幀結(jié)構(gòu)的不同之處在于描述比特分配的比特位數(shù)是不一樣的。LayerⅡ的幀包含1152個PCM的樣值,如果取樣頻率為48kHz,一幀相當(dāng)于1152/48=24ms的聲音樣值,則LayerⅡ的精確度為24ms。而對于LayerⅠ而言,精確度為8ms,如果用于編輯,則LayerⅠ更精確。

LayerⅡ音頻編碼器的原理框圖和幀碼流結(jié)構(gòu)分別如圖4-11和圖4-12所示。

圖4-11LayerⅡ音頻編碼器的原理框圖

圖4-12LayerⅡ音頻編碼器的幀碼流結(jié)構(gòu)

3.LayerⅢ

LayerⅢ(即MP3)采用了LayerⅠ和LayerⅡ未用到的技術(shù)。例如,使用比較好的臨界頻帶濾波器,多相/MDCT(改進(jìn)余弦變換)混合濾波器組,把聲音頻帶分成非等帶寬的子帶。心理聲學(xué)模型除了使用頻域掩蔽特性和時域掩蔽特性之外,還考慮了立體聲數(shù)據(jù)的冗余,并且使用了霍夫曼編碼等,因此提高了編碼效率,即以非常低的數(shù)據(jù)率得到高保真度的音質(zhì),使得MP3在市場上得到廣泛應(yīng)用。LayerⅢ音頻編碼器的原理框圖如圖4-13所示。

圖4-13LayerⅢ音頻編碼器的原理框圖

4.3.2MPEG-2音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-2標(biāo)準(zhǔn)委員會定義了兩種音頻壓縮編碼算法:一種稱為MPEG-2后向兼容多聲道音頻編碼標(biāo)準(zhǔn),簡稱為MPEG-2BC,它與MPEG-1音頻壓縮編碼算法是相互兼容的;另一種

稱為MPEG-2高級音頻編碼標(biāo)準(zhǔn),簡稱為MPEG-2-AAC,因?yàn)樗cMPEG-1音頻縮碼算法是不兼容的,所以也稱為MPEG-2NBC標(biāo)準(zhǔn)。

1.MPEG-2BC

MPEG-2BC即ISO/IEC13818-3,是一種多聲道環(huán)繞聲音頻壓縮編碼標(biāo)準(zhǔn)。

2.MPEG-2AAC

由于MPEG-2BC強(qiáng)調(diào)與MPEG-1的后向兼容性,不能以更低的數(shù)碼率實(shí)現(xiàn)高音質(zhì)。為了改進(jìn)這一不足,后來就產(chǎn)生了MPEG-2AAC,現(xiàn)已成為ISO/IEC13818-7國際標(biāo)準(zhǔn)。

圖4-14MPEG2AAC編碼器的原理框圖

以下對各個模塊進(jìn)行簡單的介紹。

(1)增益控制。增益控制模塊用在可分級采樣率類別中,它由多相正交濾波器、增益檢測器和增益調(diào)節(jié)器組成。

(2)分析濾波器組。分析濾波器組是MPEG-2AAC系統(tǒng)的基本模塊,它把輸入信號從時域變換到頻域。

(3)聽覺系統(tǒng)感知模型。聽覺系統(tǒng)感知模型即心理聲學(xué)模型,它是包括MEPG-2AAC在內(nèi)的所有感知音頻編碼的核心。MEPG-2AAC使用的心理聲學(xué)模型原理上與MP3所使用的模型相同,但在參數(shù)和具體計算的方面并不一樣。

(4)瞬時噪聲整形。在

中,瞬

形(TemporalNoiseShaping,TNS)模塊是用來控制量化噪聲的瞬時形狀的,解決掩蔽閾值和量化噪聲的錯誤匹配問題。

(5)聲強(qiáng)/耦合編碼和M/S編碼。聲強(qiáng)/耦合(Intensity/Coupling)編碼有多種名稱,有的稱為聲強(qiáng)立體聲編碼(IntensityStereoCoding),有的稱為聲道耦合編碼(ChannelCouplingCoding),它們探索的基本問題是聲道間的不相關(guān)性。

在立體聲編碼中,左右聲道具有相關(guān)性,利用“和”及“差”方法產(chǎn)生中間(Middle)和邊(Side)聲道替代原來的L/R聲道,M/S和L/R的關(guān)系很簡單,即

(6)預(yù)測。在信號較平穩(wěn)的情況下,利用時域預(yù)測可進(jìn)一步減小信號的冗余度。在MEPG2AAC編碼器中是利用前兩幀的頻譜來預(yù)測當(dāng)前幀的頻譜,在要求預(yù)測的殘差的基礎(chǔ)上,對殘差進(jìn)行量化和編碼。預(yù)測使用經(jīng)過量化后重建的頻譜信號。

(7)量化。真正的壓縮是在量化模塊中進(jìn)行的,前面的處理都是為量化做的預(yù)處理。量化模塊是根據(jù)心理聲學(xué)模型輸出的掩蔽閾值,把限定的比特位分配給輸入譜線,并盡量使量化所產(chǎn)生的量化噪聲低于掩蔽閾值,達(dá)到不可聞的目的。

(8)無損編碼。無損編碼實(shí)際上就是霍夫曼編碼,它對被量化的譜系數(shù)、比例因子和方向信息進(jìn)行編碼。

2)MPEG-2AAC的類

開發(fā)MPEG-2標(biāo)準(zhǔn)采用的方法與開發(fā)MPEG-2BC標(biāo)準(zhǔn)采用的方法不同。后者采用的方法是對整個系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化;而前者采用的方法是模塊化的方法,把整個MEPG-2AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的MEPG-2AAC工具模塊進(jìn)行定義。因此,在文獻(xiàn)中往往把“模塊(Modular)”和“工具(Tool)”等同對待。

MEPG-2AAC為在編解碼器的復(fù)雜程度與音質(zhì)之間得到折中,定義了以下三個種類:

(1)主類。

(2)低復(fù)雜度類。

(3)可擴(kuò)展采樣率類:編碼器首先對音頻數(shù)據(jù)進(jìn)行基本采樣率編碼,以提供基本的音頻質(zhì)量和兼容性。

4.3.3MPEG-4音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-4標(biāo)準(zhǔn)的目標(biāo)是提供未來的交互式多媒體應(yīng)用,它具有高度的靈活性和可擴(kuò)展性。與以前的音頻編碼標(biāo)準(zhǔn)相比,MPEG-4增加了許多新的關(guān)于合成內(nèi)容及場景描述等領(lǐng)域的工作,增加了可分級性、音調(diào)變化、可編輯性及延遲等新功能。MPEG-4將以前發(fā)展良好但相互獨(dú)立的高質(zhì)量音頻編碼結(jié)合,計算機(jī)音樂和語音等第一次合并在一起,在諸多領(lǐng)域內(nèi)有著高度的靈活性。

1.自然音頻編碼

對于自然音頻,為了使不同的AO滿足多方面的應(yīng)用并獲得最高的音頻質(zhì)量,在2~64kb/s的范圍內(nèi),MPEG4采用分級編碼的方法提供以下三種類型的編碼器或編碼工具。

1)參數(shù)編碼器

對于采樣頻率為8kHz的語音信號,參數(shù)編碼器的輸出數(shù)碼率為2~4kb/s;對于采樣頻率為8kHz或16kHz的語音或音頻信號,參數(shù)編碼器的輸出數(shù)碼率為4~16kb/s。

用諧波和隨機(jī)矢量來描述線性預(yù)測誤差是一個有效的編碼方案。當(dāng)線性預(yù)測誤差信號是濁音而原信號是清音時,則采用矢量激勵編碼,該算法就稱為諧波矢量激勵編碼。圖4-15給出了HVXC編碼器的原理框圖。

圖4-15HVXC編碼器的原理框圖

HVXC的解碼過程包括以下四個步驟:

(1)參數(shù)的逆量化。

(2)對聲音幀采用正弦合成產(chǎn)生激勵信號并且加上噪聲分量。

(3)對非聲音幀采用查找碼書產(chǎn)生激勵信號。

(4)線性預(yù)測編碼合成。

HILN編碼工具允許對音樂等非語言信號以8kHz或16kHz采樣,主要實(shí)現(xiàn)數(shù)碼率為4~16kHz/s的編碼。其編碼的基本原理是對輸入信號進(jìn)行分析,提取描述信號的參數(shù),并對其進(jìn)行編碼后組成一個復(fù)合碼流。解碼器根據(jù)這些參數(shù)合成輸出信號。圖4-16給出了HILN編碼器的原理框圖,它包括參數(shù)提取和參數(shù)編碼兩部分。

圖4-16HILN編碼器的原理框圖

HILN編碼需提取以下三類參數(shù):

(1)諧波線:用來描述音頻信號諧波部分的基頻頻率和幅值。

(2)特征線:用來描述每個特征線的頻率和幅值。

(3)噪聲:用來描述噪聲譜的形狀。

2)碼本激勵線性預(yù)測編碼器

對于采樣頻率為8kHz的窄帶語音信號或采樣頻率為16kHz的寬帶音頻信號,碼本激勵線性預(yù)測(CodeExcitedLinearPrediction,CELP)編碼器的輸出數(shù)碼率在6~24kb/s之間。

CELP編碼器主要由激勵源和合成濾波器組成,需要時再添加一個后置濾波器,如圖4-17所示。激勵源有兩種:一種是由自適應(yīng)碼本產(chǎn)生的周期分量;另一種是由一個或多個固定碼本產(chǎn)生的隨機(jī)分量。

圖4-17CELP編碼器的原理框圖

3)時間/頻率編碼器

對于16~64kb/s(采樣率高于8kHz)較高的數(shù)碼率,MPEG-4采用時/頻(T/F)編碼技術(shù)。對于更高的數(shù)碼率MPEG-4則直接采用MPEG-2的AAC標(biāo)準(zhǔn),提供通用的音頻壓縮方法。

當(dāng)數(shù)碼率為每聲道64kb/s時就是MPEG2AAC編碼標(biāo)準(zhǔn),此時可以獲得極好的音頻質(zhì)量。MPEG2AAC是MPEG-4時/頻編碼的核心。圖4-18給出了時/頻編碼器的原理框圖。

圖4-18時/頻編碼器的原理框圖

時/頻編碼器由以下五個部分組成:

(1)時域分析模塊用于提取音頻信號的增益信息,并且可以根據(jù)信號的特點(diǎn)來選擇音頻信號加窗長度和窗的形狀。

(2)濾波器組通過DCT變換將時域音頻信號轉(zhuǎn)換成不同頻率的頻域信號。

(3)心理聲學(xué)模型根據(jù)人的聽覺系統(tǒng)對不同頻率信號的聽辨靈敏度差異和掩蔽效應(yīng)的不同,來決定對不同頻段的頻域信號采取相應(yīng)的處理策略。

(4)頻域處理模塊根據(jù)心理聲學(xué)模型提供的參數(shù)處理各個頻段的信號。

(5)量化和編碼部分主要是對頻域信號進(jìn)行編碼。

總體來說,MPEG-4的自然音頻編碼不但提供了很大的數(shù)碼率范圍,更重要的是提供了在諸多系統(tǒng)系數(shù),比如信號帶寬、聲道數(shù)碼率、信號時間尺度重建、聲音音調(diào)和解碼器復(fù)雜度等方面的靈活性和可分級性??梢酝ㄟ^一系列的核心編碼器來實(shí)現(xiàn)上述的不同的可分級性。

2.合成音頻編碼

從MPEG-4標(biāo)準(zhǔn)制定開始,其焦點(diǎn)就已經(jīng)擴(kuò)展,它不僅包括傳統(tǒng)的編碼方法,其獨(dú)創(chuàng)之處在于提供了有關(guān)合成與自然內(nèi)容的同步、合成音視頻場景和時空聯(lián)合等方面的描述。一種新類型的音頻編碼工具“結(jié)構(gòu)化音頻(StructuredAudio)”隨之產(chǎn)生。結(jié)構(gòu)化音頻標(biāo)準(zhǔn)提供了關(guān)于合成音樂、聲音效果和交互式多媒體場景下合成聲音與自然聲音的同步等方

面有效的、靈活的描述。MPEG-4可以通過結(jié)構(gòu)化的輸入生成音頻,即合成音頻,這就使得數(shù)碼率進(jìn)一步得到壓縮。

結(jié)構(gòu)化音頻工具使用五種主要的元素成分,它們的描述方式與總體的解碼框架流程是統(tǒng)一的。

1)結(jié)構(gòu)化音頻交響樂語言(StructuredAudioOrchestraLanguage,SAOL)

SAOL是標(biāo)準(zhǔn)核心的合成描述語言。它是一種數(shù)字信號處理語言,可應(yīng)用于任意合成的傳輸描述及部分比特流效果算法的描述。

2)結(jié)構(gòu)化音頻樂譜語言(StructuredAudioScoreLanguage,SASL)

SASL是一種較簡單樂譜的控制語言。它用來描述在聲音合成產(chǎn)生過程中用SAOL語言傳輸聲音產(chǎn)生算法是如何運(yùn)作的。

3)結(jié)構(gòu)化音頻采樣值分組格式(StructuredAudioSampleBankFormat,SASBF)

SASBF允許傳輸在波表合成中使用的分組的音頻采樣值數(shù)據(jù),并描述它們使用的處理算法。

4)規(guī)范化程序表

規(guī)范化程序表描述了結(jié)構(gòu)化音頻解碼過程的運(yùn)行流程。它把用SASL或MIDI定義的結(jié)構(gòu)聲音控制映射為實(shí)時的事件來調(diào)度處理,這個過程用規(guī)范化聲音產(chǎn)生算法(用SAOL描述)來定義。

5)規(guī)范化參考

規(guī)范化參考用于MIDI標(biāo)準(zhǔn)。MIDI可在結(jié)構(gòu)控制中替代SASL語言。雖然MIDI在效果和靈活性上不如SASL,但MIDI對現(xiàn)存的一些內(nèi)容和編輯工具提供了后向兼容性的支持。同時對一些MIDI命令,MPEG-4也將其語義集成到結(jié)構(gòu)化音頻的工具中。

TTS(Text-To-Speech)是一種文本到語言的轉(zhuǎn)換系統(tǒng),即接收文本信息作為輸入,然后輸出合成語音。MPEG-4的功能如下:

(1)按照原語音的節(jié)奏及韻律進(jìn)行語音合成。

(2)能夠運(yùn)用面部動畫(FacialAnimation,F(xiàn)A)工具對同步語音進(jìn)行合成。

(3)運(yùn)用文本及口型信息對活動圖像進(jìn)行同步配音。

(4)在進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論