數(shù)字音視頻處理課件第4章音頻壓縮編碼

上傳人：h*** IP屬地：山東上傳時(shí)間：2025-05-15 格式：PPTX 頁(yè)數(shù)：88 大小：892.12KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩83頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章

音頻壓縮編碼4.1音頻壓縮概述4.2音頻編碼技術(shù)4.3MPEG音頻編碼標(biāo)準(zhǔn)4.4音頻壓縮編碼在前沿科技中的應(yīng)用4.5本章小結(jié)

4.1音頻壓縮概述

4.1.1音頻信號(hào)音頻信號(hào)(audiosignals)是表示機(jī)械波的信號(hào)，是機(jī)械波的波長(zhǎng)、強(qiáng)度變化的信息載體。根據(jù)機(jī)械波的特征，可分為規(guī)則信號(hào)和不規(guī)則信號(hào)，其中規(guī)則信號(hào)又可以分為語(yǔ)音、音樂(lè)和音效等。

數(shù)字音頻信號(hào)就是將模擬音頻信號(hào)進(jìn)行采樣、量化和編碼后所得到的信號(hào)。常見(jiàn)的數(shù)字音頻分類(lèi)如表4-1所示。

4.1.2音頻壓縮的必要性和可能性

1.必要性

音頻信息在人們的工作和生活中具有非常重要的作用，數(shù)字化音頻信息的數(shù)據(jù)量也相當(dāng)巨大，為更好地存儲(chǔ)、傳輸和使用數(shù)字化的音頻信息，需要對(duì)音頻信息進(jìn)行標(biāo)準(zhǔn)化的編碼壓縮。

2.可行性

既然音頻壓縮如此重要，那么我們是否可以對(duì)數(shù)字化后的音頻信號(hào)進(jìn)行壓縮呢?回答是肯定的。統(tǒng)計(jì)分析表明，無(wú)論是語(yǔ)音還是音樂(lè)信號(hào)，都存在著多種冗余，包括時(shí)域冗余、頻域冗余和聽(tīng)覺(jué)冗余。由此，數(shù)字音頻壓縮編碼主要基于兩種途徑：一種是去除聲音信號(hào)中的冗余部分；另一種是利用人耳的聽(tīng)覺(jué)特性，將聲音中與聽(tīng)覺(jué)無(wú)關(guān)的不相關(guān)部分去除。

聲音信號(hào)中的不相關(guān)部分是基于人耳的聽(tīng)覺(jué)特性，因?yàn)槿硕鷮?duì)信號(hào)幅度、頻率和時(shí)間的分辨能力是有限的。壓縮編碼就是要將那些人耳可感知的信息傳遞出去，而舍去那些感知不到的信息，在可接受的信號(hào)質(zhì)量下降的前提下，取得較低的比特率。為了達(dá)到這樣的目的，必須充分利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性。人耳聽(tīng)覺(jué)系統(tǒng)的特性有三個(gè)。第一個(gè)特性是人耳對(duì)各頻率的靈敏度是不同的。在2~5kHz頻段，很低的信號(hào)電平就能被人耳聽(tīng)到；在其他頻段時(shí)，相對(duì)要高一點(diǎn)的信號(hào)電平才能被聽(tīng)到。這樣可以將輸入信號(hào)與最小聽(tīng)覺(jué)閾值相比較，去除那些低于閾值的信號(hào)，從而可以壓縮數(shù)據(jù)。

第二個(gè)特性是頻率之間的掩蔽效應(yīng)(FrequencyMaskingEffect)。當(dāng)高電平的頻率點(diǎn)信號(hào)和低電平的不同頻率點(diǎn)信號(hào)同時(shí)出現(xiàn)時(shí)，將聽(tīng)不到電平低的頻率點(diǎn)的聲音，因而，可以不對(duì)低于掩蔽閾值的信號(hào)進(jìn)行編碼，對(duì)高于掩蔽閾值的信號(hào)重新分配量化比值。第三個(gè)特性是時(shí)域的掩蔽效應(yīng)(Temporal

MaskingEffect)。它是指在一個(gè)強(qiáng)信號(hào)之前或之后的弱信號(hào)如果被遮蔽掉，也可以不進(jìn)行編碼。

4.2音頻編碼技術(shù)

音頻壓縮技術(shù)是指對(duì)原始數(shù)字音頻信號(hào)流運(yùn)用一定的數(shù)字信號(hào)處理技術(shù)，在不降低有用信息量或者是降低的信息量可忽略的條件下，降低(壓縮)其碼率，也稱(chēng)為壓縮編碼。它的逆變換稱(chēng)為解壓縮或解碼。音頻信號(hào)在通過(guò)一個(gè)編解碼器后可能引入一定的失真和大量的噪聲。

對(duì)數(shù)字音頻信息的壓縮主要是依據(jù)音頻信息自身的相關(guān)性以及人耳對(duì)音頻信息的聽(tīng)覺(jué)冗余度。音頻信息在編碼技術(shù)中通常分成兩類(lèi)來(lái)處理：分別是語(yǔ)音和音樂(lè)，各自采用的技術(shù)有差異。現(xiàn)代聲碼器的一個(gè)重要的問(wèn)題是，如何把語(yǔ)音和音樂(lè)的編碼融合起來(lái)。語(yǔ)音編碼技術(shù)分為三類(lèi)：波形編碼、參數(shù)編碼以及混合編碼。音樂(lè)的編碼技術(shù)主要有心理聲學(xué)模型、自適應(yīng)變換編碼(頻域編碼)和霍夫曼(Huffman)編碼等技術(shù)。本節(jié)主要講述基于心理聲學(xué)模型的感知編碼。

4.2.1波形編碼

波形編碼是指直接對(duì)音頻信號(hào)時(shí)域或頻域波形采樣值進(jìn)行編碼。它主要利用音頻采樣值的幅度變化規(guī)律和相鄰采樣值間的相關(guān)性進(jìn)行編碼，目標(biāo)是使重建后的音頻信號(hào)的波形與原音頻信號(hào)波形保持一致。由于波形編碼保留了信號(hào)原始樣值的細(xì)節(jié)變換，從而保留了信號(hào)的各種過(guò)渡特征，因此適應(yīng)性強(qiáng)、算法復(fù)雜度低、編解碼延時(shí)短、重建音頻信號(hào)質(zhì)量一般較高，但其壓縮比不高。

1.脈沖編碼調(diào)制(PCM)

采用脈沖編碼調(diào)制的模擬信號(hào)數(shù)字傳輸系統(tǒng)如圖4-1所示。由圖4-1可知，模擬信號(hào)經(jīng)過(guò)抽樣量化以后，可以得到一系列輸出，它們共有Q個(gè)電平狀態(tài)。當(dāng)Q

比較大時(shí)，如果直接量化成Q

進(jìn)制信號(hào)，其抗噪聲性能將會(huì)很差，因此，通常在發(fā)射端通過(guò)編碼器將Q進(jìn)制信號(hào)變換為k

位二進(jìn)制數(shù)字信號(hào)。而在接收端將收到的二進(jìn)制碼元經(jīng)過(guò)譯碼器再還原為Q

進(jìn)制信號(hào)，這種系統(tǒng)就是脈沖編碼調(diào)制系統(tǒng)。

圖4-1采用脈沖編碼調(diào)制的模擬信號(hào)數(shù)字傳輸系統(tǒng)

2.差分脈沖編碼調(diào)制(DPCM)

差分脈沖編碼調(diào)制是利用樣本與樣本之間存在的信息冗余度來(lái)進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是：根據(jù)過(guò)去的樣本信號(hào)值去預(yù)測(cè)下一個(gè)樣本信號(hào)值，這個(gè)值稱(chēng)為預(yù)測(cè)信號(hào)，然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)信號(hào)值之差進(jìn)行量化編碼，從而減少了冗余度。它與PCM的不同之處在于，PCM是對(duì)采樣信號(hào)進(jìn)行量化編碼，而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)信號(hào)值之差進(jìn)行量化編碼。由于存儲(chǔ)或傳送的是信號(hào)差值而不是信號(hào)幅度絕對(duì)值，因此降低了傳送或存儲(chǔ)的數(shù)據(jù)量。此外，它還能適應(yīng)大范圍變化的輸入信號(hào)。

DPCM的原理框圖如圖4-2所示。圖4-2DPCM的原理框圖

3.自適應(yīng)差分編碼調(diào)制(ADPCM)

自適應(yīng)差分編碼調(diào)制(AdaptiveDifferencePulseCodeModulation，ADPCM)綜合了

自適應(yīng)脈沖編碼調(diào)制(AdaptivePulseCodeModulation，APCM)的自適應(yīng)特性和DPCM系統(tǒng)的差分特性，是一種性能比較好的波形編碼。它的核心思想是：

①

利用自適應(yīng)的特性改變量化階的大小，即用小的量化階(Step-size)來(lái)編碼小的差值，使用大的量化階來(lái)編碼大的差值；

②

使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，使實(shí)際樣本值和預(yù)測(cè)值的差達(dá)到最小。ADPCM的原理框圖如圖4-3所示。接收端的譯碼器使用與發(fā)送端相同的算法，利用傳送來(lái)的信號(hào)來(lái)確定量化器和逆量化器中的量化階大小，并且用它來(lái)預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值。

圖4-3ADPCM的原理框圖

4.2.2參數(shù)編碼

與波形編碼不同，參數(shù)編碼又稱(chēng)為聲源編碼。它是指在頻率域或其他正交變換域中對(duì)信源信號(hào)提取特征參數(shù)，并將它轉(zhuǎn)換成數(shù)字代碼進(jìn)行傳輸。其反過(guò)程為解碼，主要將收到的數(shù)字經(jīng)變換恢復(fù)特征參數(shù)，再根據(jù)所得的特征參數(shù)重建語(yǔ)音信號(hào)。

線(xiàn)性預(yù)測(cè)編碼(LPC)及其他各種改進(jìn)型編碼都屬于參數(shù)編碼。線(xiàn)性預(yù)測(cè)編碼是一種非常重要的編碼方法。

線(xiàn)性預(yù)測(cè)器是使用過(guò)去的P

個(gè)樣本值來(lái)預(yù)測(cè)當(dāng)前時(shí)刻的采樣值x(n)，其預(yù)測(cè)原理如圖4-4所示。預(yù)測(cè)值xpre可以用過(guò)去P

個(gè)樣本值的線(xiàn)性組合來(lái)表示，有

為方便起見(jiàn)，式(4-1)中采用負(fù)號(hào)。殘差誤差(ResidualError)即線(xiàn)性預(yù)測(cè)誤差為

圖4-4LPC的預(yù)測(cè)原理

4.2.3混合編碼

計(jì)算機(jī)的發(fā)展為語(yǔ)音編碼技術(shù)的研究提供了強(qiáng)有力的工具，而大規(guī)模、超大規(guī)模集成電路的出現(xiàn)，則為語(yǔ)音編碼的實(shí)現(xiàn)提供了基礎(chǔ)。

碼本激勵(lì)線(xiàn)性預(yù)測(cè)編碼采取分幀技術(shù)進(jìn)行編碼，其幀長(zhǎng)一般為20~30ms，每一語(yǔ)音幀再被分成2~5個(gè)子幀，在每個(gè)子幀內(nèi)搜索最佳的碼字矢量(簡(jiǎn)稱(chēng)碼矢量)作為激勵(lì)信號(hào)。CELP編碼流程圖如圖4-5所示。

圖4-5CELP編碼流程圖

4.2.4-感知編碼

1.理論基礎(chǔ)

1)心理聲學(xué)模型

心理聲學(xué)模型的核心思想是對(duì)信息量進(jìn)行壓縮，同時(shí)使失真盡可能不被覺(jué)察出來(lái)。利用人耳的掩蔽效應(yīng)就可以達(dá)到此目的，即較弱的聲音會(huì)被同時(shí)存在的較強(qiáng)的聲音所掩蓋，從而使得人耳無(wú)法聽(tīng)到。在音頻壓縮編碼技術(shù)中，利用掩蔽效應(yīng)就可以給不同頻率處的信號(hào)分量分配不同的量化比特?cái)?shù)，用這種方法來(lái)控制量化噪聲，使得噪聲的能量低于掩蔽閾值，從而使得人耳感覺(jué)不到量化過(guò)程的存在。

2)聞?dòng)蚝团R界頻段

音頻壓縮理論建立在心理聲學(xué)模型基礎(chǔ)上，是從研究人耳的聽(tīng)覺(jué)系統(tǒng)開(kāi)始的。人耳實(shí)際上可看成一個(gè)多頻段的聽(tīng)感分析器，在接收端的最后，它對(duì)瞬間的頻譜功率進(jìn)行了重新分配，這就為音頻的數(shù)據(jù)壓縮提供了依據(jù)。

3)掩蔽效應(yīng)

心理聲學(xué)模型中的一個(gè)基本概念就是聽(tīng)覺(jué)掩飾特性——掩蔽效應(yīng)，即一種頻率的聲音阻礙聽(tīng)覺(jué)系統(tǒng)感受另一種頻率的聲音的現(xiàn)象。前者稱(chēng)為掩蔽聲音(MaskingTone)，后者稱(chēng)為被掩蔽聲音(MaskedTone)。

掩蔽效應(yīng)的基礎(chǔ)是感知編碼(PerceptualCoding)中的一個(gè)重要概念——臨界頻段，即人耳對(duì)不同頻率段聲音信號(hào)的反應(yīng)靈敏程度有所差別。

掩蔽可分為頻域掩蔽和時(shí)域掩蔽。頻域掩蔽是指掩蔽聲與被掩蔽聲同時(shí)作用時(shí)發(fā)生掩蔽效應(yīng)，即較強(qiáng)的音頻信號(hào)可以掩蔽臨界頻段中同時(shí)發(fā)出的較弱的信號(hào)。這種特性被稱(chēng)為頻域掩蔽，也稱(chēng)為同時(shí)掩蔽(SimultaneousMasking)。這時(shí)，掩蔽聲在掩蔽效應(yīng)發(fā)生期間一直起作用，是一種較強(qiáng)的掩蔽效應(yīng)。也就是說(shuō)，如果在某一頻段出現(xiàn)了一個(gè)較強(qiáng)的信號(hào)，那么該頻段中低于某一門(mén)檻值的信號(hào)都將被強(qiáng)信號(hào)掩蔽掉，成為人耳不可聽(tīng)聞的信號(hào)。

2.感知編碼原理

感知編碼首先分析輸入信號(hào)的頻率和振幅，然后將其與人的聽(tīng)覺(jué)感知模型進(jìn)行比較。編碼器用這個(gè)模型去除音頻信號(hào)的不相關(guān)部分及統(tǒng)計(jì)冗余部分。盡管這個(gè)方法是有損的，但人耳通常感覺(jué)不到編碼信號(hào)質(zhì)量的下降。感知編碼器可以將一個(gè)聲道的比特速率從768kb/s降至128kb/s，將字長(zhǎng)從16b/s減少至平均值2.67b/s，數(shù)據(jù)減少了約83%。

一般感知編碼器采用兩種比特分配方案：一種是前向自適應(yīng)分配方案，即所有的分配都在編碼器上進(jìn)行，這個(gè)編碼信息也包含在比特流中。前向自適應(yīng)編碼的一個(gè)突出優(yōu)點(diǎn)是在編碼器中采用了心理聲學(xué)模型，它利用編碼數(shù)據(jù)完全地重建信號(hào)。當(dāng)改進(jìn)了編碼器中的心理聲學(xué)模型后，可以利用現(xiàn)有的解碼器來(lái)重建信號(hào)。這種方法的一個(gè)缺點(diǎn)是需要占用一些比特位來(lái)傳遞分配信息。

另一種是后向自適應(yīng)分配方案，即比特分配信息可以直接從編碼的語(yǔ)音信號(hào)中推導(dǎo)出來(lái)，不需要編碼器中詳細(xì)的分配信息，分配信息也就不占用比特位。然而解碼器中的比特位分配信息是根據(jù)有限的信息推導(dǎo)出來(lái)的，從而降低了精度。另外，解碼器相應(yīng)地比較復(fù)雜，而且不能輕易地改變心理聲學(xué)模型。

由于感知編碼器是根據(jù)人耳的靈敏度來(lái)編碼的，它也可以輸出音效系統(tǒng)所要求的響應(yīng)。實(shí)況播送的音樂(lè)不需要通過(guò)放大器和揚(yáng)聲器而直接進(jìn)入人的耳朵，但是錄制的音樂(lè)必須通過(guò)放音系統(tǒng)。由于感知編碼器去除了不可聽(tīng)的信號(hào)成分，從邏輯上講，加強(qiáng)了放音系統(tǒng)傳送可聽(tīng)聲音的能力。簡(jiǎn)言之，感知編碼器很適合對(duì)需要經(jīng)過(guò)音頻系統(tǒng)的音頻信號(hào)編碼。感知編碼器的原理框圖如圖4-6所示。

圖4-6感知編碼器的原理框圖

既然聲音的掩蔽作用和頻段有關(guān)，所以有必要將輸入的聲音信號(hào)分成許多子帶以逼近人耳的臨界頻帶響應(yīng)。濾波器組子帶的劃分如圖4-7所示。圖4-7濾波器組子帶的劃分

3.感知編碼技術(shù)

1)子帶編碼

子帶編碼理論的基本思想是將信號(hào)分解為若干子頻帶內(nèi)的分量之和，然后對(duì)各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。

2)變換編碼

在變換編碼中，將時(shí)域音頻信號(hào)變換到頻域。編碼器中的變換方法可以采用離散傅里葉變換或改進(jìn)的離散余弦變換。變換能近似地對(duì)基膜沿其長(zhǎng)度針對(duì)振動(dòng)的頻率成分進(jìn)行分析。變換的系數(shù)根據(jù)心理聲學(xué)模型進(jìn)行量化。

圖4-8所示的是一個(gè)自適應(yīng)變換編碼的示例，即使用FFT和循環(huán)量化方法來(lái)達(dá)到最佳壓縮效果的自適應(yīng)變換編碼。信號(hào)經(jīng)過(guò)DCT(離散余弦變換)變換到頻率域，利用頻譜系數(shù)計(jì)算每個(gè)臨界頻段的信號(hào)能量，以決定每個(gè)臨界頻段的掩蔽閾值。用兩個(gè)重復(fù)的循環(huán)進(jìn)行量化，使用分析合成技術(shù)進(jìn)行編碼。計(jì)算對(duì)信號(hào)編碼需要的比特?cái)?shù)，如果超過(guò)了允許分配給這塊數(shù)據(jù)的比特?cái)?shù)，就取較大的量化臺(tái)階，重新計(jì)算所需的比特?cái)?shù)。在重建信號(hào)中外循環(huán)計(jì)算可能出現(xiàn)量化誤差，如果誤差超出了掩蔽模型所允許的范圍，就適當(dāng)減小這個(gè)子帶的量化臺(tái)階。所有循環(huán)不斷地重復(fù)，直至達(dá)到最佳編碼效果。這樣的編碼器可適用于低比特速率信號(hào)。

圖4-8使用FFT和循環(huán)量化方法來(lái)達(dá)到最佳壓縮效果的自適應(yīng)變換編碼

4.3MPEG音頻編碼標(biāo)準(zhǔn)

4.3.1MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-1標(biāo)準(zhǔn)的第三部分(ISO/IEC11172-3)稱(chēng)為MPEG1Audio。MPEG-1Audio的壓縮編碼技術(shù)采用的是MUSICAM(掩蔽型通用子帶綜合編碼和復(fù)用)方案，它是基于兩種機(jī)理來(lái)減少音頻信號(hào)碼率的：一是利用統(tǒng)計(jì)相關(guān)性，去除音頻信號(hào)的冗余；二是利用人耳的心理聲學(xué)現(xiàn)象(如頻率掩蔽和時(shí)間掩蔽等)去除聽(tīng)覺(jué)冗余。

MPEG1Audio按照壓縮編碼復(fù)雜程度規(guī)定了三個(gè)層次，即LayerⅠ、LayerⅡ和LayerⅢ，每個(gè)層次針對(duì)不同的應(yīng)用，但是三個(gè)層次的基本模型是相同的。每個(gè)后繼的層都有更高的壓縮比，但需要更復(fù)雜的編解碼器。三個(gè)層次的解碼器后向兼容，即LayerⅢ的解碼器可以對(duì)三個(gè)層次的碼流解碼，LayerⅡ

解碼器可以解碼LayerⅠ

和LayerⅡ，LayerⅠ解碼器只能解碼LayerⅠ。三個(gè)層次的分述如下：

(1)LayerⅠ是簡(jiǎn)單型，通常目標(biāo)碼率為每通道192kb/s，立體聲碼率為384kb/s，壓縮比為1∶4。LayerⅠ被廣泛應(yīng)用在VCD的音頻壓縮方案中。

(2)LayerⅡ是以L(fǎng)ayerⅠ為基礎(chǔ)的，但壓縮編碼的復(fù)雜度增加了。通常目標(biāo)碼率為每通道128kb/s，立體聲碼率為256kb/s，壓縮比為1∶6。LayerⅡ廣泛應(yīng)用于數(shù)字音頻廣播和數(shù)字電視演播室等數(shù)字音頻專(zhuān)業(yè)的制作、交流、存儲(chǔ)和傳送。

(3)LayerⅢ采用混合壓縮技術(shù)，復(fù)雜度相對(duì)較高。LayerⅢ

通過(guò)使用非均勻量化、自適應(yīng)分割和量化后的熵編碼來(lái)提高編碼效率。目標(biāo)碼率為每通道64kb/s，立體聲碼率為128kb/s，壓縮比為1∶12。LayerⅢ在低碼率下有高品質(zhì)的音質(zhì)，主要應(yīng)用于需要較低碼率的領(lǐng)域。

1.LayerⅠ

LayerⅠ音頻編碼器的原理框圖如圖4-9所示。圖4-9LayerⅠ音頻編碼器的原理框圖

1)多通道濾波器

輸入的數(shù)字音頻信號(hào)首先通過(guò)一個(gè)多通道濾波器組，變換成32個(gè)等寬頻帶子帶。這些濾波器組的輸出是臨界頻帶系數(shù)樣值，輸出樣值是經(jīng)過(guò)量化的，如果一個(gè)子帶覆蓋若干個(gè)臨界頻帶，就選擇具有最小噪聲掩蔽的臨界頻帶，并利用那個(gè)臨界頻帶來(lái)計(jì)算分配給子帶量化信號(hào)的比特?cái)?shù)。

2)心理聲學(xué)模型

心理聲學(xué)模型決定各個(gè)子帶中允許的最大量化噪聲，小于它的量化噪聲都會(huì)被掩蔽。如果子帶內(nèi)的信號(hào)功率低于掩蔽閾值，不進(jìn)行編碼；否則，需要確定編碼的系數(shù)所需的比特?cái)?shù)，使量化引起的噪聲低于掩蔽效應(yīng)。MPEG音頻心理聲學(xué)模型主要實(shí)現(xiàn)步驟如下：

(1)用FFT將音頻樣值轉(zhuǎn)換到頻域。

(2)將得到的頻率組成臨界頻帶。

(3)在臨界頻帶的譜值中，將單音(似正弦)和非單音(似噪聲)分開(kāi)。

(5)計(jì)算由臨界頻帶引起的每個(gè)子帶的掩蔽值。

(6)計(jì)算每個(gè)子帶的信號(hào)掩蔽比(SignaltoMaskRatio，SMR)，即將子帶的信號(hào)能量除以子帶的最小掩蔽閾值。一組32個(gè)SMR(每個(gè)子帶含有1個(gè))構(gòu)成模型的輸出。

(7)最后將該子帶的最大信號(hào)與掩蔽閾值的比值輸入量化器。

3)比特分配

比特分配過(guò)程決定分配給各個(gè)子帶的編碼比特?cái)?shù)，分配的依據(jù)是心理聲學(xué)模型的信息。LayerⅠ和LayerⅡ的比特分配過(guò)程是從計(jì)算掩蔽噪聲比開(kāi)始的，即

式中，MNR為掩蔽噪聲比(MaskingtoNoiseRatio)；SNR為信號(hào)噪聲比(SignaltoNoiseRatio)；SMR為從心理聲學(xué)模型中得到的信號(hào)掩蔽比，所有的值都用dB表示。

4)比例因子

按輸入信號(hào)的大小來(lái)縮放量化步長(zhǎng)，輸入信號(hào)小用較小的量化步長(zhǎng)，輸入信號(hào)大用較大的量化步長(zhǎng)。為此，在對(duì)信號(hào)量化時(shí)需要知道這個(gè)量化步長(zhǎng)有多大，需要將碼字中的比特分為兩組，一組比特用來(lái)描述量化步長(zhǎng)大小，這組比特代表幅度值的“比例因子”，其余的比特用來(lái)均勻量化與這些量化步長(zhǎng)對(duì)應(yīng)的信號(hào)，這組比特代表幅度值的“尾數(shù)”。通常，SNR取決于尾數(shù)的比特?cái)?shù)。

5)碼流格式化——幀形成

MPEG1音頻數(shù)據(jù)是分成幀(Frame)傳送的，LayerⅠ每幀由32個(gè)子帶，每個(gè)子帶12個(gè)樣值，共384個(gè)樣值的數(shù)據(jù)組成。LayerⅠ的幀結(jié)構(gòu)如圖4-10所示。圖4-10LayerⅠ的幀結(jié)構(gòu)

2.LayerⅡ

LayerⅡ和LayerⅠ編碼原理類(lèi)似，其不同之處有以下幾點(diǎn)：

(1)LayerⅡ的每個(gè)子帶不是均勻帶寬。

(2)LayerⅡ使用的FFT精度高一些，是1024點(diǎn)的FFT運(yùn)算方式，提高了頻率的分辨率，得到原信號(hào)更準(zhǔn)確的瞬間頻譜特性。

(3)LayerⅡ的幀長(zhǎng)度碼流是LayerⅠ的3倍，每個(gè)子帶有三個(gè)連續(xù)的尺度因子，這就意味著帶內(nèi)在進(jìn)行動(dòng)態(tài)比特分配時(shí)，增加了壓縮率。

(4)LayerⅡ和LayerⅠ幀結(jié)構(gòu)的不同之處在于描述比特分配的比特位數(shù)是不一樣的。LayerⅡ的幀包含1152個(gè)PCM的樣值，如果取樣頻率為48kHz，一幀相當(dāng)于1152/48=24ms的聲音樣值，則LayerⅡ的精確度為24ms。而對(duì)于LayerⅠ而言，精確度為8ms，如果用于編輯，則LayerⅠ更精確。

LayerⅡ音頻編碼器的原理框圖和幀碼流結(jié)構(gòu)分別如圖4-11和圖4-12所示。

圖4-11LayerⅡ音頻編碼器的原理框圖

圖4-12LayerⅡ音頻編碼器的幀碼流結(jié)構(gòu)

3.LayerⅢ

LayerⅢ(即MP3)采用了LayerⅠ和LayerⅡ未用到的技術(shù)。例如，使用比較好的臨界頻帶濾波器，多相/MDCT(改進(jìn)余弦變換)混合濾波器組，把聲音頻帶分成非等帶寬的子帶。心理聲學(xué)模型除了使用頻域掩蔽特性和時(shí)域掩蔽特性之外，還考慮了立體聲數(shù)據(jù)的冗余，并且使用了霍夫曼編碼等，因此提高了編碼效率，即以非常低的數(shù)據(jù)率得到高保真度的音質(zhì)，使得MP3在市場(chǎng)上得到廣泛應(yīng)用。LayerⅢ音頻編碼器的原理框圖如圖4-13所示。

圖4-13LayerⅢ音頻編碼器的原理框圖

4.3.2MPEG-2音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-2標(biāo)準(zhǔn)委員會(huì)定義了兩種音頻壓縮編碼算法：一種稱(chēng)為MPEG-2后向兼容多聲道音頻編碼標(biāo)準(zhǔn)，簡(jiǎn)稱(chēng)為MPEG-2BC，它與MPEG-1音頻壓縮編碼算法是相互兼容的；另一種

稱(chēng)為MPEG-2高級(jí)音頻編碼標(biāo)準(zhǔn)，簡(jiǎn)稱(chēng)為MPEG-2-AAC，因?yàn)樗cMPEG-1音頻縮碼算法是不兼容的，所以也稱(chēng)為MPEG-2NBC標(biāo)準(zhǔn)。

1.MPEG-2BC

MPEG-2BC即ISO/IEC13818-3，是一種多聲道環(huán)繞聲音頻壓縮編碼標(biāo)準(zhǔn)。

2.MPEG-2AAC

由于MPEG-2BC強(qiáng)調(diào)與MPEG-1的后向兼容性，不能以更低的數(shù)碼率實(shí)現(xiàn)高音質(zhì)。為了改進(jìn)這一不足，后來(lái)就產(chǎn)生了MPEG-2AAC，現(xiàn)已成為ISO/IEC13818-7國(guó)際標(biāo)準(zhǔn)。

圖4-14MPEG2AAC編碼器的原理框圖

以下對(duì)各個(gè)模塊進(jìn)行簡(jiǎn)單的介紹。

(1)增益控制。增益控制模塊用在可分級(jí)采樣率類(lèi)別中，它由多相正交濾波器、增益檢測(cè)器和增益調(diào)節(jié)器組成。

(2)分析濾波器組。分析濾波器組是MPEG-2AAC系統(tǒng)的基本模塊，它把輸入信號(hào)從時(shí)域變換到頻域。

(3)聽(tīng)覺(jué)系統(tǒng)感知模型。聽(tīng)覺(jué)系統(tǒng)感知模型即心理聲學(xué)模型，它是包括MEPG-2AAC在內(nèi)的所有感知音頻編碼的核心。MEPG-2AAC使用的心理聲學(xué)模型原理上與MP3所使用的模型相同，但在參數(shù)和具體計(jì)算的方面并不一樣。

(4)瞬時(shí)噪聲整形。在

感

知

聲

音

編

碼

中，瞬

時(shí)

噪

聲

整

形(TemporalNoiseShaping，TNS)模塊是用來(lái)控制量化噪聲的瞬時(shí)形狀的，解決掩蔽閾值和量化噪聲的錯(cuò)誤匹配問(wèn)題。

(5)聲強(qiáng)/耦合編碼和M/S編碼。聲強(qiáng)/耦合(Intensity/Coupling)編碼有多種名稱(chēng)，有的稱(chēng)為聲強(qiáng)立體聲編碼(IntensityStereoCoding)，有的稱(chēng)為聲道耦合編碼(ChannelCouplingCoding)，它們探索的基本問(wèn)題是聲道間的不相關(guān)性。

在立體聲編碼中，左右聲道具有相關(guān)性，利用“和”及“差”方法產(chǎn)生中間(Middle)和邊(Side)聲道替代原來(lái)的L/R聲道，M/S和L/R的關(guān)系很簡(jiǎn)單，即

(6)預(yù)測(cè)。在信號(hào)較平穩(wěn)的情況下，利用時(shí)域預(yù)測(cè)可進(jìn)一步減小信號(hào)的冗余度。在MEPG2AAC編碼器中是利用前兩幀的頻譜來(lái)預(yù)測(cè)當(dāng)前幀的頻譜，在要求預(yù)測(cè)的殘差的基礎(chǔ)上，對(duì)殘差進(jìn)行量化和編碼。預(yù)測(cè)使用經(jīng)過(guò)量化后重建的頻譜信號(hào)。

(7)量化。真正的壓縮是在量化模塊中進(jìn)行的，前面的處理都是為量化做的預(yù)處理。量化模塊是根據(jù)心理聲學(xué)模型輸出的掩蔽閾值，把限定的比特位分配給輸入譜線(xiàn)，并盡量使量化所產(chǎn)生的量化噪聲低于掩蔽閾值，達(dá)到不可聞的目的。

(8)無(wú)損編碼。無(wú)損編碼實(shí)際上就是霍夫曼編碼，它對(duì)被量化的譜系數(shù)、比例因子和方向信息進(jìn)行編碼。

2)MPEG-2AAC的類(lèi)

開(kāi)發(fā)MPEG-2標(biāo)準(zhǔn)采用的方法與開(kāi)發(fā)MPEG-2BC標(biāo)準(zhǔn)采用的方法不同。后者采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化；而前者采用的方法是模塊化的方法，把整個(gè)MEPG-2AAC系統(tǒng)分解成一系列模塊，用標(biāo)準(zhǔn)化的MEPG-2AAC工具模塊進(jìn)行定義。因此，在文獻(xiàn)中往往把“模塊(Modular)”和“工具(Tool)”等同對(duì)待。

MEPG-2AAC為在編解碼器的復(fù)雜程度與音質(zhì)之間得到折中，定義了以下三個(gè)種類(lèi)：

(1)主類(lèi)。

(2)低復(fù)雜度類(lèi)。

(3)可擴(kuò)展采樣率類(lèi)：編碼器首先對(duì)音頻數(shù)據(jù)進(jìn)行基本采樣率編碼，以提供基本的音頻質(zhì)量和兼容性。

4.3.3MPEG-4音頻壓縮編碼標(biāo)準(zhǔn)

MPEG-4標(biāo)準(zhǔn)的目標(biāo)是提供未來(lái)的交互式多媒體應(yīng)用，它具有高度的靈活性和可擴(kuò)展性。與以前的音頻編碼標(biāo)準(zhǔn)相比，MPEG-4增加了許多新的關(guān)于合成內(nèi)容及場(chǎng)景描述等領(lǐng)域的工作，增加了可分級(jí)性、音調(diào)變化、可編輯性及延遲等新功能。MPEG-4將以前發(fā)展良好但相互獨(dú)立的高質(zhì)量音頻編碼結(jié)合，計(jì)算機(jī)音樂(lè)和語(yǔ)音等第一次合并在一起，在諸多領(lǐng)域內(nèi)有著高度的靈活性。

1.自然音頻編碼

對(duì)于自然音頻，為了使不同的AO滿(mǎn)足多方面的應(yīng)用并獲得最高的音頻質(zhì)量，在2~64kb/s的范圍內(nèi)，MPEG4采用分級(jí)編碼的方法提供以下三種類(lèi)型的編碼器或編碼工具。

1)參數(shù)編碼器

對(duì)于采樣頻率為8kHz的語(yǔ)音信號(hào)，參數(shù)編碼器的輸出數(shù)碼率為2~4kb/s；對(duì)于采樣頻率為8kHz或16kHz的語(yǔ)音或音頻信號(hào)，參數(shù)編碼器的輸出數(shù)碼率為4~16kb/s。

用諧波和隨機(jī)矢量來(lái)描述線(xiàn)性預(yù)測(cè)誤差是一個(gè)有效的編碼方案。當(dāng)線(xiàn)性預(yù)測(cè)誤差信號(hào)是濁音而原信號(hào)是清音時(shí)，則采用矢量激勵(lì)編碼，該算法就稱(chēng)為諧波矢量激勵(lì)編碼。圖4-15給出了HVXC編碼器的原理框圖。

圖4-15HVXC編碼器的原理框圖

HVXC的解碼過(guò)程包括以下四個(gè)步驟：

(1)參數(shù)的逆量化。

(2)對(duì)聲音幀采用正弦合成產(chǎn)生激勵(lì)信號(hào)并且加上噪聲分量。

(3)對(duì)非聲音幀采用查找碼書(shū)產(chǎn)生激勵(lì)信號(hào)。

(4)線(xiàn)性預(yù)測(cè)編碼合成。

HILN編碼工具允許對(duì)音樂(lè)等非語(yǔ)言信號(hào)以8kHz或16kHz采樣，主要實(shí)現(xiàn)數(shù)碼率為4~16kHz/s的編碼。其編碼的基本原理是對(duì)輸入信號(hào)進(jìn)行分析，提取描述信號(hào)的參數(shù)，并對(duì)其進(jìn)行編碼后組成一個(gè)復(fù)合碼流。解碼器根據(jù)這些參數(shù)合成輸出信號(hào)。圖4-16給出了HILN編碼器的原理框圖，它包括參數(shù)提取和參數(shù)編碼兩部分。

圖4-16HILN編碼器的原理框圖

HILN編碼需提取以下三類(lèi)參數(shù)：

(1)諧波線(xiàn)：用來(lái)描述音頻信號(hào)諧波部分的基頻頻率和幅值。

(2)特征線(xiàn)：用來(lái)描述每個(gè)特征線(xiàn)的頻率和幅值。

(3)噪聲：用來(lái)描述噪聲譜的形狀。

2)碼本激勵(lì)線(xiàn)性預(yù)測(cè)編碼器

對(duì)于采樣頻率為8kHz的窄帶語(yǔ)音信號(hào)或采樣頻率為16kHz的寬帶音頻信號(hào)，碼本激勵(lì)線(xiàn)性預(yù)測(cè)(CodeExcitedLinearPrediction，CELP)編碼器的輸出數(shù)碼率在6~24kb/s之間。

CELP編碼器主要由激勵(lì)源和合成濾波器組成，需要時(shí)再添加一個(gè)后置濾波器，如圖4-17所示。激勵(lì)源有兩種：一種是由自適應(yīng)碼本產(chǎn)生的周期分量；另一種是由一個(gè)或多個(gè)固定碼本產(chǎn)生的隨機(jī)分量。

圖4-17CELP編碼器的原理框圖

3)時(shí)間/頻率編碼器

對(duì)于16~64kb/s(采樣率高于8kHz)較高的數(shù)碼率，MPEG-4采用時(shí)/頻(T/F)編碼技術(shù)。對(duì)于更高的數(shù)碼率MPEG-4則直接采用MPEG-2的AAC標(biāo)準(zhǔn)，提供通用的音頻壓縮方法。

當(dāng)數(shù)碼率為每聲道64kb/s時(shí)就是MPEG2AAC編碼標(biāo)準(zhǔn)，此時(shí)可以獲得極好的音頻質(zhì)量。MPEG2AAC是MPEG-4時(shí)/頻編碼的核心。圖4-18給出了時(shí)/頻編碼器的原理框圖。

圖4-18時(shí)/頻編碼器的原理框圖

時(shí)/頻編碼器由以下五個(gè)部分組成：

(1)時(shí)域分析模塊用于提取音頻信號(hào)的增益信息，并且可以根據(jù)信號(hào)的特點(diǎn)來(lái)選擇音頻信號(hào)加窗長(zhǎng)度和窗的形狀。

(2)濾波器組通過(guò)DCT變換將時(shí)域音頻信號(hào)轉(zhuǎn)換成不同頻率的頻域信號(hào)。

(3)心理聲學(xué)模型根據(jù)人的聽(tīng)覺(jué)系統(tǒng)對(duì)不同頻率信號(hào)的聽(tīng)辨靈敏度差異和掩蔽效應(yīng)的不同，來(lái)決定對(duì)不同頻段的頻域信號(hào)采取相應(yīng)的處理策略。

(4)頻域處理模塊根據(jù)心理聲學(xué)模型提供的參數(shù)處理各個(gè)頻段的信號(hào)。

(5)量化和編碼部分主要是對(duì)頻域信號(hào)進(jìn)行編碼。

總體來(lái)說(shuō)，MPEG-4的自然音頻編碼不但提供了很大的數(shù)碼率范圍，更重要的是提供了在諸多系統(tǒng)系數(shù)，比如信號(hào)帶寬、聲道數(shù)碼率、信號(hào)時(shí)間尺度重建、聲音音調(diào)和解碼器復(fù)雜度等方面的靈活性和可分級(jí)性?？梢酝ㄟ^(guò)一系列的核心編碼器來(lái)實(shí)現(xiàn)上述的不同的可分級(jí)性。

2.合成音頻編碼

從MPEG-4標(biāo)準(zhǔn)制定開(kāi)始，其焦點(diǎn)就已經(jīng)擴(kuò)展，它不僅包括傳統(tǒng)的編碼方法，其獨(dú)創(chuàng)之處在于提供了有關(guān)合成與自然內(nèi)容的同步、合成音視頻場(chǎng)景和時(shí)空聯(lián)合等方面的描述。一種新類(lèi)型的音頻編碼工具“結(jié)構(gòu)化音頻(StructuredAudio)”隨之產(chǎn)生。結(jié)構(gòu)化音頻標(biāo)準(zhǔn)提供了關(guān)于合成音樂(lè)、聲音效果和交互式多媒體場(chǎng)景下合成聲音與自然聲音的同步等方

面有效的、靈活的描述。MPEG-4可以通過(guò)結(jié)構(gòu)化的輸入生成音頻，即合成音頻，這就使得數(shù)碼率進(jìn)一步得到壓縮。

結(jié)構(gòu)化音頻工具使用五種主要的元素成分，它們的描述方式與總體的解碼框架流程是統(tǒng)一的。

1)結(jié)構(gòu)化音頻交響樂(lè)語(yǔ)言(StructuredAudioOrchestraLanguage，SAOL)

SAOL是標(biāo)準(zhǔn)核心的合成描述語(yǔ)言。它是一種數(shù)字信號(hào)處理語(yǔ)言，可應(yīng)用于任意合成的傳輸描述及部分比特流效果算法的描述。

2)結(jié)構(gòu)化音頻樂(lè)譜語(yǔ)言(StructuredAudioScoreLanguage，SASL)

SASL是一種較簡(jiǎn)單樂(lè)譜的控制語(yǔ)言。它用來(lái)描述在聲音合成產(chǎn)生過(guò)程中用SAOL語(yǔ)言傳輸聲音產(chǎn)生算法是如何運(yùn)作的。

3)結(jié)構(gòu)化音頻采樣值分組格式(StructuredAudioSampleBankFormat，SASBF)

SASBF允許傳輸在波表合成中使用的分組的音頻采樣值數(shù)據(jù)，并描述它們使用的處理算法。

4)規(guī)范化程序表

規(guī)范化程序表描述了結(jié)構(gòu)化音頻解碼過(guò)程的運(yùn)行流程。它把用SASL或MIDI定義的結(jié)構(gòu)聲音控制映射為實(shí)時(shí)的事件來(lái)調(diào)度處理，這個(gè)過(guò)程用規(guī)范化聲音產(chǎn)生算法(用SAOL描述)來(lái)定義。

5)規(guī)范化參考

規(guī)范化參考用于MIDI標(biāo)準(zhǔn)。MIDI可在結(jié)構(gòu)控制中替代SASL語(yǔ)言。雖然MIDI在效果和靈活性上不如SASL，但MIDI對(duì)現(xiàn)存的一些內(nèi)容和編輯工具提供了后向兼容性的支持。同時(shí)對(duì)一些MIDI命令，MPEG-4也將其語(yǔ)義集成到結(jié)構(gòu)化音頻的工具中。

TTS(Text-To-Speech)是一種文本到語(yǔ)言的轉(zhuǎn)換系統(tǒng)，即接收文本信息作為輸入，然后輸出合成語(yǔ)音。MPEG-4的功能如下：

(1)按照原語(yǔ)音的節(jié)奏及韻律進(jìn)行語(yǔ)音合成。

(2)能夠運(yùn)用面部動(dòng)畫(huà)(FacialAnimation，F(xiàn)A)工具對(duì)同步語(yǔ)音進(jìn)行合成。

(3)運(yùn)用文本及口型信息對(duì)活動(dòng)圖像進(jìn)行同步配音。

(4)在進(jìn)行

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)字音視頻處理課件第4章音頻壓縮編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)字音視頻處理 課件 第4章 音頻壓縮編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

數(shù)字音視頻處理課件第4章音頻壓縮編碼