音頻基礎(chǔ)知識(shí)及編碼原理_第1頁(yè)
音頻基礎(chǔ)知識(shí)及編碼原理_第2頁(yè)
音頻基礎(chǔ)知識(shí)及編碼原理_第3頁(yè)
音頻基礎(chǔ)知識(shí)及編碼原理_第4頁(yè)
音頻基礎(chǔ)知識(shí)及編碼原理_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、基本概念1 比特率:表示經(jīng)過(guò)編碼(壓縮)后的音頻數(shù)據(jù)每秒鐘需要用多少個(gè)比特來(lái)表示,單位常為kbps。2 響度和強(qiáng)度:聲音的主觀屬性響度表示的是一個(gè)聲音聽來(lái)有多響的程度。響度主要隨聲音的強(qiáng)度而變化,但也受頻率的影響??偟恼f(shuō),中頻純音聽來(lái)比低頻和高頻純音響一些。3 采樣和采樣率:采樣是把連續(xù)的時(shí)間信號(hào),變成離散的數(shù)字信號(hào)。采樣率是指每秒鐘采集多少個(gè)樣本。Nyquist采樣定律:采樣率大于或等于連續(xù)信號(hào)最高頻率分量的2倍時(shí),采樣信號(hào)可以用來(lái)完美重構(gòu)原始連續(xù)信號(hào)。二、常見音頻格式1. WAV格式,是微軟公司開發(fā)的一種聲音文件格式,也叫波形聲音文件,是最早的數(shù)字音頻格式,被Windows平臺(tái)及其應(yīng)用

2、程序廣泛支持,壓縮率低。2. MIDI是Musical Instrument Digital Interface的縮寫,又稱作樂(lè)器數(shù)字接口,是數(shù)字音樂(lè)/電子合成樂(lè)器的統(tǒng)一國(guó)際標(biāo)準(zhǔn)。它定義了計(jì)算機(jī)音樂(lè)程序、數(shù)字合成器及其它電子設(shè)備交換音樂(lè)信號(hào)的方式,規(guī)定了不同廠家的電子樂(lè)器與計(jì)算機(jī)連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可以模擬多種樂(lè)器的聲音。MIDI文件就是MIDI格式的文件,在MIDI文件中存儲(chǔ)的是一些指令。把這些指令發(fā)送給聲卡,由聲卡按照指令將聲音合成出來(lái)。3. MP3全稱是MPEG-1 Audio Layer 3,它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質(zhì)、低采樣率對(duì)數(shù)字音頻

3、文件進(jìn)行壓縮。應(yīng)用最普遍。4. MP3Pro是由瑞典Coding科技公司開發(fā)的,其中包含了兩大技術(shù):一是來(lái)自于Coding科技公司所特有的解碼技術(shù),二是由MP3的專利持有者法國(guó)湯姆森多媒體公司和德國(guó)Fraunhofer集成電路協(xié)會(huì)共同研究的一項(xiàng)譯碼技術(shù)。MP3Pro可以在基本不改變文件大小的情況下改善原先的MP3音樂(lè)音質(zhì)。它能夠在用較低的比特率壓縮音頻文件的情況下,最大程度地保持壓縮前的音質(zhì)。5. MP3Pro是由瑞典Coding科技公司開發(fā)的,其中包含了兩大技術(shù):一是來(lái)自于Coding科技公司所特有的解碼技術(shù),二是由MP3的專利持有者法國(guó)湯姆森多媒體公司和德國(guó)Fraunhofer集成電路協(xié)會(huì)

4、共同研究的一項(xiàng)譯碼技術(shù)。MP3Pro可以在基本不改變文件大小的情況下改善原先的MP3音樂(lè)音質(zhì)。它能夠在用較低的比特率壓縮音頻文件的情況下,最大程度地保持壓縮前的音質(zhì)。6. WMA (Windows Media Audio)是微軟在互聯(lián)網(wǎng)音頻、視頻領(lǐng)域的力作。WMA格式是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來(lái)達(dá)到更高的壓縮率目的,其壓縮率一般可以達(dá)到1:18。此外,WMA還可以通過(guò)DRM(Digital Rights Management)保護(hù)版權(quán)。7. RealAudio是由Real Networks公司推出的一種文件格式,最大的特點(diǎn)就是可以實(shí)時(shí)傳輸音頻信息,尤其是在網(wǎng)速較慢的情況下,仍然可以較為流

5、暢地傳送數(shù)據(jù),因此RealAudio主要適用于網(wǎng)絡(luò)上的在線播放?,F(xiàn)在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured)等三種,這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量,在保證大多數(shù)人聽到流暢聲音的前提下,令帶寬較寬敞的聽眾獲得較好的音質(zhì)。8. Audible擁有四種不同的格式:Audible1、2、3、4。A網(wǎng)站主要是在互聯(lián)網(wǎng)上販賣有聲書籍,并對(duì)它們所銷售商品、文件通過(guò)四種A 專用音頻格式中的一種提供保護(hù)。每一種格式主要考慮音頻源以及所使用的收聽的設(shè)備。格式1、2和 3采

6、用不同級(jí)別的語(yǔ)音壓縮,而格式4采用更低的采樣率和MP3相同的解碼方式,所得到語(yǔ)音吐辭更清楚,而且可以更有效地從網(wǎng)上進(jìn)行下載。Audible 所采用的是他們自己的桌面播放工具,這就是Audible Manager,使用這種播放器就可以播放存放在PC或者是傳輸?shù)奖銛y式播放器上的Audible格式文件9AAC實(shí)際上是高級(jí)音頻編碼的縮寫。AAC是由Fraunhofer IIS-A、杜比和AT&T共同開發(fā)的一種音頻格式,它是MPEG-2規(guī)范的一部分。AAC所采用的運(yùn)算法則與MP3的運(yùn)算法則有所不同,AAC通過(guò)結(jié)合其他的功能 來(lái)提高編碼效率。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過(guò)了以前的一些壓縮算法(比如M

7、P3等)。它還同時(shí)支持多達(dá)48個(gè)音軌、15個(gè)低頻音軌、更多種采樣率和比特率、多種語(yǔ)言的兼容能力、更高的解碼效率??傊?,AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。10. Ogg Vorbis 是一種新的音頻壓縮格式,類似于MP3等現(xiàn)有的音樂(lè)格式。但有一點(diǎn)不同的是,它是完全免費(fèi)、開放和沒(méi)有專利限制的。Vorbis 是這種音頻壓縮機(jī)制的名字,而Ogg則是一個(gè)計(jì)劃的名字,該計(jì)劃意圖設(shè)計(jì)一個(gè)完全開放性的多媒體系統(tǒng)。VORBIS也是有損壓縮,但通過(guò)使用更加先進(jìn)的聲學(xué)模型去減少損失,因此,同樣位速率(Bit Rate)編碼的OGG與MP3相比聽起來(lái)更好一些。11. APE是一種無(wú)損壓縮音頻格

8、式,在音質(zhì)不降低的前提下,大小壓縮到傳統(tǒng)無(wú)損格式 WAV 文件的一半.12 .FLAC即是Free Lossless Audio Codec的縮寫,是一套著名的自由音頻無(wú)損壓縮編碼,其特點(diǎn)是無(wú)損壓縮。三、音頻編碼基本原理語(yǔ)音編碼致力于:降低傳輸所需要的信道帶寬,同時(shí)保持輸入語(yǔ)音的高質(zhì)量。語(yǔ)音編碼的目標(biāo)在于:設(shè)計(jì)低復(fù)雜度的編碼器以盡可能低的比特率實(shí)現(xiàn)高品質(zhì)數(shù)據(jù)傳輸。1 靜音閾值曲線:只在安靜環(huán)境下,人耳在各個(gè)頻率能聽到聲音的閾值。2 臨界頻帶由于人耳對(duì)不同頻率的解析度不同,MPEG1/Audio將22khz內(nèi)可感知的頻率范圍,依不同編碼層,不同取樣頻率,劃分成2326個(gè)臨界頻帶。下圖列出理想臨界

9、頻帶的中心頻率與頻寬。圖中可看到,人耳對(duì)低頻的解析度較好。 圖53 頻域上的掩蔽效應(yīng):幅值較大的信號(hào)會(huì)掩蔽頻率相近的幅值較小的信號(hào),如下圖:4 時(shí)域上的遮蔽效應(yīng):在一個(gè)很短的時(shí)間內(nèi),若出現(xiàn)了2個(gè)聲音,SPL(sound pressure level)較大的聲音會(huì)掩蔽SPL較小的聲音。時(shí)域掩蔽效應(yīng)分前向掩蔽(pre-masking)和后向掩蔽(post-masking),其中post-masking的時(shí)間會(huì)比較長(zhǎng),約是pre-masking的10倍。時(shí)域遮蔽效應(yīng)有助于消除前回音。四、編碼基本手段1 量化和量化器量化和量化器:量化是把離散時(shí)間上的連續(xù)信號(hào),轉(zhuǎn)化成離散時(shí)間上的離散信號(hào)。常見的量化器有

10、:均勻量化器,對(duì)數(shù)量化器,非均勻量化器。量化過(guò)程追求的目標(biāo)是:最小化量化誤差,并盡量減低量化器的復(fù)雜度(這2者本身就是一個(gè)矛盾)。(a)均勻量化器:最簡(jiǎn)單,性能最差,僅適應(yīng)于電話語(yǔ)音。(b)對(duì)數(shù)量化器:比均勻量化器復(fù)雜,也容易實(shí)現(xiàn),性能比均勻量化器好。(c)Non-uniform量化器:根據(jù)信號(hào)的分布情況,來(lái)設(shè)計(jì)量化器。信號(hào)密集的地方進(jìn)行細(xì)致的量化,稀疏的地方進(jìn)行粗略量化。2 語(yǔ)音編碼器語(yǔ)音編碼器分為三種類形:(a)波形編器;(b)聲碼器;(c)混合編碼器。波形編碼器以構(gòu)造出背景噪單在內(nèi)的模擬波形為目標(biāo)。作用于所有輸入信號(hào),因此會(huì)產(chǎn)生高質(zhì)量的樣值并且耗費(fèi)較高的比特率。 而聲碼器(vocoder

11、)不會(huì)再生原始波形。這組編碼器會(huì)提取一組參數(shù),這組參數(shù)被送到接收端,用來(lái)導(dǎo)出語(yǔ)音產(chǎn)生模形。聲碼器語(yǔ)音質(zhì)量不夠好?;旌暇幋a器,它融入了波形編碼器和聲器的長(zhǎng)處。2.1 波形編碼器波形編碼器的設(shè)計(jì)常獨(dú)立于信號(hào)。所以適應(yīng)于各種信號(hào)的編碼而不限于語(yǔ)音。1 時(shí)域編碼a)PCM:pulse code modulation,是最簡(jiǎn)單的編碼方式。僅僅是對(duì)信號(hào)的離散和量化,常采用對(duì)數(shù)量化。b)DPCM:differential pulse code modulation,差分脈沖編碼,只對(duì)樣本之間的差異進(jìn)行編碼。前一個(gè)或多個(gè)樣本用來(lái)預(yù)測(cè)當(dāng)前樣本值。用來(lái)做預(yù)測(cè)的樣本越多,預(yù)測(cè)值越精確。真實(shí)值和預(yù)測(cè)值之間的差值叫殘差

12、,是編碼的對(duì)象。c)ADPCM:adaptive differential pulse code modulation,自適應(yīng)差分脈沖編碼。即在DPCM的基礎(chǔ)上,根據(jù)信號(hào)的變化,適當(dāng)調(diào)整量化器和預(yù)測(cè)器,使預(yù)測(cè)值更接近真實(shí)信號(hào),殘差更小,壓縮效率更高。(2)頻域編碼頻域編碼是把信號(hào)分解成一系列不同頻率的元素,并進(jìn)行獨(dú)立編碼。a)sub-band coding:子帶編碼是最簡(jiǎn)單的頻域編碼技術(shù)。是將原始信號(hào)由時(shí)間域轉(zhuǎn)變?yōu)轭l率域,然后將其分割為若干個(gè)子頻帶,并對(duì)其分別進(jìn)行數(shù)字編碼的技術(shù)。它是利用帶通濾波器(BPF)組把原始信號(hào)分割為若干(例如m個(gè))子頻帶(簡(jiǎn)稱子帶)。將各子帶通過(guò)等效于單邊帶調(diào)幅的調(diào)制

13、特性,將各子帶搬移到零頻率附近,分別經(jīng)過(guò)BPF(共m個(gè))之后,再以規(guī)定的速率(奈奎斯特速率)對(duì)各子帶輸出信號(hào)進(jìn)行取樣,并對(duì)取樣數(shù)值進(jìn)行通常的數(shù)字編碼,其設(shè)置m路數(shù)字編碼器。將各路數(shù)字編碼信號(hào)送到多路復(fù)用器,最后輸出子帶編碼數(shù)據(jù)流。對(duì)不同的子帶可以根據(jù)人耳感知模型,采用不同量化方式以及對(duì)子帶分配不同的比特?cái)?shù)。b)transform coding:DCT編碼。6 聲碼器channel vocoder:利用人耳對(duì)相位的不敏感。homomorphic vocoder:能有效地處理合成信號(hào)。formant vocoder:以用語(yǔ)音信號(hào)的絕大部分信息都位于共振峰的位置與帶寬上。linear predictive vocoder:最常用的聲碼器。7 混合編碼器波形編碼器試圖保留被編碼信號(hào)的波形,能以中等比特率(32kbps)提供高品質(zhì)語(yǔ)音,但無(wú)法應(yīng)用在低比特率場(chǎng)合。聲碼器試圖產(chǎn)生在聽覺(jué)上與被編碼信號(hào)相似的信號(hào),能以低比特率提供可以理解的語(yǔ)音,但是所形成的語(yǔ)音聽起來(lái)不自然。混合編碼器結(jié)合了2者的優(yōu)點(diǎn)。RELP:在線性預(yù)測(cè)的基礎(chǔ)上,對(duì)殘差進(jìn)行編碼。機(jī)制為:只傳輸小部分殘差,在接受

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論