




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于機(jī)器學(xué)習(xí)的數(shù)字音頻分類方法研究摘要:讓計(jì)算機(jī)能聽(tīng)懂人類的語(yǔ)言,是人類自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。隨著經(jīng)濟(jì)的開展,人們?cè)絹?lái)越迫切要求擺脫鍵盤的束縛而代之以語(yǔ)音輸入這樣便于使用的、自然的、人性化的輸入方式。這就使語(yǔ)音信號(hào)分析成為社會(huì)生活中越來(lái)越重要的一局部。其中語(yǔ)音識(shí)別是語(yǔ)音信號(hào)分析的重要領(lǐng)域,而語(yǔ)音特征信號(hào)識(shí)別又是語(yǔ)音識(shí)別研究領(lǐng)域的一個(gè)重要方面。語(yǔ)音特征信號(hào)識(shí)別一般采用模式匹配的方法解。首先通過(guò)預(yù)處理提取語(yǔ)音特征,作為該語(yǔ)音片段的模型。將該模型與的參考模型相比擬,獲得最正確匹配的參考模式作為識(shí)別結(jié)果,在論文中研究的是基于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)的音頻分類與SVM技術(shù)音頻分類的仿真實(shí)驗(yàn)結(jié)果進(jìn)行比擬,比照兩者各自優(yōu)缺點(diǎn),從而熟悉這兩種技術(shù)的根本工作原理和算法。通過(guò)實(shí)驗(yàn)對(duì)其性能進(jìn)行了主觀評(píng)價(jià)和客觀數(shù)據(jù)分析,對(duì)于所選語(yǔ)音信號(hào)BP網(wǎng)絡(luò)具有較快的訓(xùn)練速度,但是SVM技術(shù)具有較高的識(shí)別率。BP網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性。也就是說(shuō),如果增加了學(xué)習(xí)樣本,訓(xùn)練好的網(wǎng)絡(luò)就需要從頭開始訓(xùn)練,對(duì)于以前的權(quán)值和閾值是沒(méi)有記憶的。但是可以將預(yù)測(cè)、分類或聚類做的比擬好的權(quán)值保存。關(guān)鍵詞:語(yǔ)音識(shí)別,特征提取,梅爾倒譜系數(shù),BP網(wǎng)絡(luò),SVM〔支持向量機(jī)〕Researchondigitalaudioclassificationbaseonmachine-learningAbstract:Sincethebirthofthecomputerpeoplewanttoletthecomputercanunderstandhuman'slanguage.Peoplearebecomingmoreandmoreurgenttogetridofkeyboardandreplaceitbyvoiceinputthatispersonalized、convenientandnaturaltobeused.SothatAnalysisofspeechsignalbecomeamoreandmoreimportantpartinsociallife.ThespeechrecognitionisanimportantpartofAnalysisofspeechsignal,andthevoicesignalrecognitionisoneofthemostimportantaspectsofspeechrecognition.Speechfeaturesignalsrecognitionusetousepatternmatchingmethod.Firstly,throughpretreatmentofphoneticfeatureextractionmakeasthemodel.Themodeliscomparedwithknownreferencemodel,getthebestmatchesthereferencepatternasaresultofrecognition.InthispaperresearchisbasedonthetraditionalBPneuralnetworkaudioclassificationandtechnologyofSupportvectormachineaudioclassificationtheexperimentalresultswerecomparedtofindeachofadvantagesanddisadvantages,sotounderstandwiththetwotechnicalbasicprincipleandalgorithm.Throughtheexperimentsontheperformanceofthesubjectiveevaluationandobjectivedataanalysis,forselectedspeechsignalBPnetworkhasfastertrainingspeed,buttheSVMtechnologyhashigherrecognitionrate.BPnetworklearningandmemoryhaveinstability.Thatistosaythatiftheincreaseoflearningsamples,thetrainednetworkisneededtostarttraining,forthepreviousweightsandthresholdsisnomemory.Butitcankeepthesebetterweightthatdowellinpredict,classificationorclustering.KEYWORDS:SpeechrecognitionfeatureextractionMelfrequencycepstrumcoefficientBPnetworksSVM(supportvectormachine)目錄TOC\o"1-3"\h\u14441第一章緒論5109011.1語(yǔ)音信號(hào)處理開展前景5167771.2語(yǔ)音識(shí)別技術(shù)概述5265541.2.1語(yǔ)音識(shí)別技術(shù)的開展歷史回憶6229571.2.2音頻識(shí)別系統(tǒng)的根本原理695181.2.3語(yǔ)音識(shí)別的意義7127481.3工程的主要研究?jī)?nèi)容712841.4本文的主要章節(jié)安排73282第二章信號(hào)的預(yù)處理8273842.1信號(hào)的預(yù)加重8169052.2音頻信號(hào)的加窗分幀9127292.3音頻信號(hào)的端點(diǎn)檢測(cè)10265382.3.1音頻信號(hào)的短時(shí)能量分析10193992.3.2音頻信號(hào)的短時(shí)過(guò)零率分析1137982.3.3基于短時(shí)平均能量和短時(shí)平均過(guò)零率的雙門限端點(diǎn)檢測(cè)1213291第三章音頻信號(hào)的特征矢量提取1311693.1信號(hào)的倒譜分析13294033.2梅爾倒譜參數(shù)1426493第四章基于BP神經(jīng)網(wǎng)絡(luò)的音頻信號(hào)數(shù)據(jù)分類19272684.1BP神經(jīng)網(wǎng)絡(luò)概述1982834.1.1BP神經(jīng)網(wǎng)絡(luò)19238164.1.2語(yǔ)音特征信號(hào)分類20316424.2BP網(wǎng)絡(luò)的MATLAB實(shí)現(xiàn)2152544.2.1歸一化方法及MATLAB實(shí)現(xiàn)21216424.2.2數(shù)據(jù)選擇選擇和歸一化21312524.2.4仿真結(jié)果分析227575第五章利用SVM建立分類器來(lái)對(duì)語(yǔ)音特征信號(hào)進(jìn)行分類預(yù)測(cè)25168365.1svm技術(shù)簡(jiǎn)述25320975.1.1SVM的原理和優(yōu)點(diǎn)25284925.1.2SVM技術(shù)在本案例中的應(yīng)用2650525.1.3實(shí)驗(yàn)的仿真結(jié)果與分析2616005第六章總結(jié)與展望298651致謝302373畢業(yè)設(shè)計(jì)小結(jié)3110853參考文獻(xiàn)3224082附錄3325812附錄1:相關(guān)文獻(xiàn)的翻譯33第一章緒論通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和方便的交換信息的形式。語(yǔ)音是人類特有的功能,聲音是人類最常用的工具,是相互傳遞信息的最主要的手段。因此,語(yǔ)音信號(hào)是人們構(gòu)成思想溝通和感情交流的途徑。1.1語(yǔ)音信號(hào)處理開展前景讓計(jì)算機(jī)能聽(tīng)懂人類的語(yǔ)言,是人類自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。隨著計(jì)算機(jī)越來(lái)越向便攜化方向開展,以及計(jì)算環(huán)境的日趨復(fù)雜化,人們?cè)絹?lái)越迫切要求擺脫鍵盤的束縛而代之以語(yǔ)音輸入這樣便于使用的、自然的、人性化的輸入方式。尤其是漢語(yǔ),它的漢字輸入一直是計(jì)算機(jī)應(yīng)用普及的障礙,因此利用漢語(yǔ)語(yǔ)音進(jìn)行人機(jī)交換是一個(gè)極其重要的研究課題。作為高科技應(yīng)用領(lǐng)域的研究熱點(diǎn),語(yǔ)音信號(hào)處理技術(shù)從理論的研究到產(chǎn)品的開發(fā)已經(jīng)走過(guò)了幾十個(gè)春秋平且取得了長(zhǎng)足的進(jìn)步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游的行業(yè)的語(yǔ)音咨詢與管理,工業(yè)生產(chǎn)部門的語(yǔ)音控制,-電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活志愿系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面??梢?jiàn),語(yǔ)音信號(hào)處理技術(shù)的研究將是一項(xiàng)極具市場(chǎng)價(jià)值和挑戰(zhàn)性的生活。我們今天進(jìn)行這一領(lǐng)域的研究與開拓就是要讓語(yǔ)音信號(hào)處理技術(shù)走入人們的日常生活當(dāng)中,并不斷朝向更高目標(biāo)而努力。語(yǔ)音信號(hào)處理這門學(xué)科之所以能夠長(zhǎng)期地、深深地吸引廣闊科學(xué)工作者不斷地對(duì)其進(jìn)行研究和探討,除了它的實(shí)用性之外,另一個(gè)重要原因是,它始終與當(dāng)時(shí)信息科學(xué)中最活潑的前沿學(xué)科保持密切的聯(lián)系,并且一起開展。語(yǔ)音信號(hào)處理是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為根底而形成的一門涉及面很廣的綜合性學(xué)科都有著非常密切的關(guān)系。對(duì)語(yǔ)音信號(hào)處理的研究一直是數(shù)字信號(hào)處理技術(shù)開展的重要推動(dòng)力量。因?yàn)樵S多的處理的新方法的提出,首先是在語(yǔ)音處理中獲得成功,然后在推廣到其他領(lǐng)域的[2]。1.2語(yǔ)音識(shí)別技術(shù)概述語(yǔ)音識(shí)別是指機(jī)器對(duì)人類說(shuō)話的語(yǔ)句或命令進(jìn)行識(shí)別和理解并做出相應(yīng)的反響。它是涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、生理學(xué)等諸多領(lǐng)域的一門交叉學(xué)科。隨著計(jì)算機(jī)軟硬件和信息技術(shù)的飛速開展,以語(yǔ)音識(shí)別技術(shù)開發(fā)出的產(chǎn)品也廣泛地應(yīng)用于聲控交換、信息網(wǎng)絡(luò)查詢、醫(yī)療效勞、銀行效勞、工業(yè)控制等社會(huì)和人們生活的每個(gè)方面。語(yǔ)音識(shí)別技術(shù)的開展歷史回憶對(duì)語(yǔ)音識(shí)別技術(shù)的研究距今已有半個(gè)多世紀(jì)的歷史。1952年,AT&Tbell實(shí)驗(yàn)室的Davis等人成功研制的Audry系統(tǒng)標(biāo)志著語(yǔ)音識(shí)別研究工作的開始。它是世界上第一個(gè)能識(shí)別十個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。進(jìn)入20世紀(jì)60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的開展。在這一時(shí)期產(chǎn)生了動(dòng)態(tài)規(guī)劃(DP,DynamicProgramming)和線性預(yù)測(cè)分析技術(shù)(LP,LinearPrediction)兩大重要理論,較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別的開展產(chǎn)生了深遠(yuǎn)影響。70年代,語(yǔ)音識(shí)別領(lǐng)域取得了較大的突破。動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)根本成熟,有效地解決了語(yǔ)音信號(hào)特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題,同時(shí)還提出了矢量量化(VQ),隱馬爾可夫模型(HMM)理論。80年代語(yǔ)音識(shí)別研究進(jìn)一步走向深入,各種連接詞語(yǔ)音識(shí)別算法被開發(fā),并從模板匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù),特別是在實(shí)踐開發(fā)中成功應(yīng)用了HMM模型和人工神經(jīng)網(wǎng)絡(luò)〔ANN〕。1988年Kai-FuLee等用VQ/HMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX,這是世界上第一個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。進(jìn)入90年代后,語(yǔ)音識(shí)別技術(shù)開始向市場(chǎng)提供產(chǎn)品。具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系統(tǒng),這些語(yǔ)音識(shí)別系統(tǒng)具有說(shuō)話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識(shí)別率。進(jìn)入21世紀(jì),語(yǔ)音識(shí)別的研究重點(diǎn)包括即興口語(yǔ)的識(shí)別和理解,自然口語(yǔ)對(duì)話,以及多語(yǔ)種的語(yǔ)音同聲翻譯。而基于語(yǔ)音識(shí)別芯片的嵌入式產(chǎn)品也越來(lái)越多,如Infineon公司的Unispeech和Unilite語(yǔ)音芯片等。我國(guó)對(duì)語(yǔ)音識(shí)別的研究也較早。20世紀(jì)50年代后期,中科院聲學(xué)所用頻譜分析的方法研究了漢語(yǔ)10個(gè)元音的語(yǔ)音識(shí)別;20世紀(jì)70年代后期,構(gòu)建了基于模板匹配的孤立詞語(yǔ)音識(shí)別系統(tǒng);20世紀(jì)80年代后期,研究了八五期間中科院人機(jī)語(yǔ)音對(duì)話研究工程。目前我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)根本上與國(guó)際相當(dāng)。如以中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室為依托的中科模識(shí),其漢語(yǔ)連續(xù)語(yǔ)音、非特定人聽(tīng)寫機(jī)系統(tǒng)的普通話系統(tǒng)的錯(cuò)誤率可以控制在10%以內(nèi)。音頻識(shí)別系統(tǒng)的根本原理語(yǔ)音識(shí)別屬于模式識(shí)別的范疇。根據(jù)模式識(shí)別的原理,未知語(yǔ)音的模式與己知語(yǔ)音的參考模式逐一進(jìn)行比擬,最正確匹配的參考模式被作為識(shí)別結(jié)果。語(yǔ)音識(shí)別系統(tǒng)的工作過(guò)程可以描述如下:待識(shí)別語(yǔ)音經(jīng)過(guò)話筒變換成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先經(jīng)過(guò)預(yù)處理,包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)從而將語(yǔ)音信號(hào)的特征被提取出來(lái)。常用的特征包括:短時(shí)平均能量或幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、倒譜、共振峰等。根據(jù)實(shí)際需要選擇語(yǔ)音特征參數(shù),這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語(yǔ)音的模式,將其與己經(jīng)存儲(chǔ)在計(jì)算機(jī)內(nèi)的參考模式逐一進(jìn)行比擬,獲得最正確匹配的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來(lái)的,為此,要輸入一系列語(yǔ)音信號(hào),提取它們的特征作為參考模式,這一過(guò)程稱為訓(xùn)練過(guò)程。1.2.3語(yǔ)音識(shí)別的意義語(yǔ)音識(shí)別〔SpeechRecognition〕主要指讓機(jī)器聽(tīng)懂人說(shuō)的話,即在各種情況下,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。它是一門涉及很廣的交叉學(xué)科,與計(jì)算機(jī)、通信、語(yǔ)音語(yǔ)音學(xué)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、神經(jīng)生理學(xué)、神經(jīng)心理學(xué)和人工智能等學(xué)科都有著密切的關(guān)系。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)及聲學(xué)技術(shù)等的開展,使得能滿足各種需要的語(yǔ)音識(shí)別的實(shí)現(xiàn)成為可能。近二三十年來(lái),語(yǔ)音識(shí)別在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域中有著廣泛的引用。當(dāng)今,語(yǔ)音識(shí)別在人機(jī)交換應(yīng)用中,已經(jīng)占到了越來(lái)越大的比例。主要是有下面的例子:語(yǔ)音打印機(jī)、數(shù)據(jù)庫(kù)檢索。特定的環(huán)境所需的語(yǔ)音命令。目前在語(yǔ)音識(shí)別中,如何充分借鑒和利用人在語(yǔ)音識(shí)別和理解時(shí)所利用的方法和原理的一個(gè)重要課題[1]。1.3工程的主要研究?jī)?nèi)容通過(guò)本次畢業(yè)設(shè)計(jì)應(yīng)能夠熟練掌握數(shù)字信號(hào)處理、信息論、語(yǔ)音信號(hào)處理、模式識(shí)別等課程的相關(guān)理論知識(shí),并將其運(yùn)用到實(shí)際的工程設(shè)計(jì)中。掌握科學(xué)研究的一般方法,提高查閱文獻(xiàn)和算法設(shè)計(jì)的能力,為今后的科學(xué)研究和工程設(shè)計(jì)打下根底。語(yǔ)音特征信號(hào)識(shí)別是語(yǔ)音識(shí)別研究領(lǐng)域的一個(gè)重要方面,一般采用模式匹配的方法解決。首先通過(guò)預(yù)處理提取語(yǔ)音特征,作為該語(yǔ)音片段的模型。將該模型與的參考模型相比擬,獲得最正確匹配的參考模式作為識(shí)別結(jié)果。要求基于神經(jīng)網(wǎng)絡(luò)相關(guān)理論,編程實(shí)現(xiàn)對(duì)不同類型音頻信號(hào)的通用分類算法。1.4本文的主要章節(jié)安排緒論:語(yǔ)音信號(hào)的簡(jiǎn)介、語(yǔ)音識(shí)別簡(jiǎn)介、課題安排、章節(jié)設(shè)置語(yǔ)音識(shí)別技術(shù)綜述:語(yǔ)音識(shí)別的系統(tǒng)簡(jiǎn)介和模型設(shè)計(jì)、對(duì)目前主流的語(yǔ)音識(shí)別技術(shù)介紹信號(hào)的預(yù)處理:介紹音頻信號(hào)的預(yù)處理技術(shù),包括預(yù)加重,加窗分幀,端點(diǎn)檢測(cè)等。音頻信號(hào)的特征矢量提?。河懻撘纛l信號(hào)的MFCC特征矢量提取方法,并給出適合本工程的MFCC矢量特征提取方案。第五章基于BP神經(jīng)網(wǎng)絡(luò)的音頻信號(hào)數(shù)據(jù)分類:建立BP網(wǎng)絡(luò)對(duì)語(yǔ)音特征數(shù)據(jù)進(jìn)行分類、對(duì)仿真結(jié)果進(jìn)行分析第六章利用SVM建立分類器來(lái)對(duì)語(yǔ)音特征信號(hào)進(jìn)行分類預(yù)測(cè):利用SVM建立分類器對(duì)特征型號(hào)進(jìn)行、并對(duì)仿真結(jié)果進(jìn)行分類第七章總結(jié)與展望:對(duì)兩個(gè)方法進(jìn)行比擬、總結(jié)本工程的主要工作,給出結(jié)論及進(jìn)一步的工作設(shè)想。第二章信號(hào)的預(yù)處理在對(duì)音頻信號(hào)進(jìn)行分析和處理之前,必須要對(duì)所采集的語(yǔ)音信號(hào)進(jìn)行預(yù)處理。信號(hào)的預(yù)處理包括預(yù)加重,加窗分幀,短時(shí)能量,短時(shí)過(guò)零率計(jì)算以及在此根底上進(jìn)行的端點(diǎn)檢測(cè)。2.1信號(hào)的預(yù)加重對(duì)音頻信號(hào)進(jìn)行分析之前,一般要對(duì)信號(hào)加以提升(預(yù)加重)。預(yù)加重的目的是濾除低頻干擾,尤其是50Hz或者60Hz的工頻干擾,提升對(duì)音頻識(shí)別有用的高頻局部,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。語(yǔ)音信號(hào)的預(yù)加重一般在模/數(shù)轉(zhuǎn)化后進(jìn)行,利用6db/倍頻的一階數(shù)字預(yù)加重濾波器實(shí)現(xiàn)。其函數(shù)為:(2-1)、時(shí)域表達(dá)式為:(2-2)其中,的取值范圍是0.95~0.97。圖2-1預(yù)加重時(shí)域效果圖2-2預(yù)加重頻域效果對(duì)一幀信號(hào)的預(yù)加重時(shí)域效果如圖2-1,頻域效果如圖2-2,從頻域比照可以看出,信號(hào)經(jīng)過(guò)預(yù)加重之后頻譜相對(duì)平坦了一些,信號(hào)的高頻分量得到了提升。2.2音頻信號(hào)的加窗分幀由于音頻信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間變化的。但是可假定在10~30ms這樣的時(shí)間段內(nèi),音頻信號(hào)是平穩(wěn)信號(hào),其頻譜特性和某些物理特征參量可近似地看作不變。目前,幾乎所有的音頻信號(hào)處理方法都是基于這個(gè)假定——將語(yǔ)音信號(hào)分成假設(shè)干個(gè)短段,每一短段稱為一個(gè)分析幀。對(duì)該分析幀進(jìn)行處理就相當(dāng)于對(duì)固定特性的持續(xù)語(yǔ)音進(jìn)行處理。分析幀可以是連續(xù)的,也可以采用交疊分幀的方法。經(jīng)過(guò)處理后將從原始語(yǔ)音序列產(chǎn)生一個(gè)新的依賴于時(shí)間的序列,用于描述語(yǔ)音信號(hào)的特征[2]。同時(shí)分幀也是整個(gè)識(shí)別流程的前提——后面的MFCC特征矢量提取,矢量量化等都是以一幀信號(hào)為單位進(jìn)行計(jì)算。為了減小音頻數(shù)據(jù)幀的截?cái)嘈?yīng),降低幀兩端的坡度,使音頻幀的兩端不引起急劇變化而平滑過(guò)渡到0,就要讓音頻幀乘以一個(gè)窗函數(shù)。理想窗函數(shù)的頻率響應(yīng)要求主瓣無(wú)限狹窄且沒(méi)有旁瓣(即無(wú)頻譜泄漏),但這種窗函數(shù)在實(shí)際工程中是無(wú)法實(shí)現(xiàn)的。窗函數(shù)越寬,對(duì)信號(hào)的平滑作用越顯著,窗函數(shù)過(guò)窄,對(duì)信號(hào)平滑作用越不明顯。一般需要窗函數(shù)具有以下的性質(zhì):(l)頻率分辨率高,主瓣狹窄、鋒利;(2)頻譜泄漏少,旁瓣衰減速度快。這里使用目前常用的Hamming窗:(2-3)其中N為每幀的采樣點(diǎn)數(shù)。設(shè)長(zhǎng)度為N的一幀信號(hào)為,那么加窗后的幀信號(hào)為:(2-4)2.3音頻信號(hào)的端點(diǎn)檢測(cè)語(yǔ)音的端點(diǎn)檢測(cè)在語(yǔ)音的編碼、語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、說(shuō)話人識(shí)別中起著非常重要的作用,直接影響著后續(xù)工作的正確率。在本工程中要依靠端點(diǎn)檢測(cè)確定出一個(gè)廣告音頻信號(hào)處理分析的開始點(diǎn)。目前常用的端點(diǎn)檢測(cè)方法有如下幾種:基于短時(shí)能量的、基于短時(shí)過(guò)零率的、基于倒譜特征的、基于信息熵的端點(diǎn)檢測(cè)的方法等[5]??紤]到所處理的廣告音頻信號(hào)是從電視機(jī)里直接引出的音頻信號(hào),一般情況下可以有可靠的信噪比〔目前數(shù)字電視的音頻輸出信噪比可以到達(dá)80dB以上〕,這里采用比擬簡(jiǎn)單的基于短時(shí)能量和短時(shí)過(guò)零率的端點(diǎn)檢測(cè)[13]。音頻信號(hào)的短時(shí)能量分析語(yǔ)音信號(hào)的能量分析是基于語(yǔ)音信號(hào)能量隨時(shí)間有相當(dāng)大的變化,特別是清音段的能量一般比濁音段的能量小得多。能量分析包括能量和幅度兩個(gè)方面。n時(shí)刻某音頻信號(hào)的短時(shí)平均能量定義為:(2-5)其中為上述分幀加窗所用的窗函數(shù)[2]。實(shí)際操作時(shí)計(jì)算一幀信號(hào)的短時(shí)平均能量作為端點(diǎn)檢測(cè)的依據(jù)。一幀信號(hào)的短時(shí)平均能量可以用加窗分幀之后的信號(hào)這樣描述:(2-6)短時(shí)能量可用來(lái)區(qū)分清音段和濁音段。En值大的對(duì)應(yīng)于濁音段,而En值小的對(duì)應(yīng)于清音段。對(duì)于高信噪比的語(yǔ)音信號(hào),無(wú)語(yǔ)音信號(hào)的噪聲能量En很小,而有語(yǔ)音信號(hào)的能量En顯著增大到某一數(shù)值,由此可以區(qū)分語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)。以短時(shí)平均能量為特征的起止點(diǎn)算法:根據(jù)發(fā)音剛開始前己知為“靜〞態(tài)的連續(xù)10幀內(nèi)的數(shù)據(jù),計(jì)算每幀的短時(shí)平均能量,最大值稱之為IMX,最小值為IMN,那么計(jì)算低能量閥值ITL及高能量閥值RTU的經(jīng)驗(yàn)公式如下。(3-7)(3-8)(3-9)(3-10)由此可以進(jìn)行起止點(diǎn)判斷,做起點(diǎn)判別時(shí):先根據(jù)ITL算得一初始起點(diǎn)N1,把它定為最先升到低能量閥值的幀號(hào),但是隨著時(shí)間的后移,幀平均能量在升到ITU之前又下降到ITL之下,那么原N1不作為初始起點(diǎn),而改稱下一個(gè)再升到ITL的點(diǎn)為N1,以此類推,在找到第一個(gè)平均能量超過(guò)ITU的幀時(shí)停止比擬。音頻信號(hào)的短時(shí)過(guò)零率分析短時(shí)過(guò)零率表示一幀語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)。對(duì)于連續(xù)語(yǔ)音信號(hào),過(guò)零即意味著時(shí)域波形通過(guò)時(shí)間軸,而對(duì)于離散信號(hào),如果相鄰的取樣值具有不同的代數(shù)符號(hào)就稱為發(fā)生了過(guò)零。一段時(shí)間內(nèi)(在本工程中是一幀信號(hào)時(shí)間長(zhǎng)度)的過(guò)零率稱作平均過(guò)零率。窄帶信號(hào)的過(guò)零率反映了該信號(hào)的頻率。當(dāng)信號(hào)為單一正弦波時(shí),過(guò)零率是信號(hào)頻率的兩倍。對(duì)于寬帶信號(hào),因?yàn)檫^(guò)零率是隨時(shí)間變化的,所以不能采用長(zhǎng)時(shí)平均過(guò)零率,而必須采用短時(shí)平均過(guò)零率。廣告音頻信號(hào)不僅僅是寬帶信號(hào),而且還是時(shí)變信號(hào),它的頻譜特性是隨時(shí)間變化的,故短時(shí)平均過(guò)零率實(shí)際上是描述時(shí)變頻譜的一種最簡(jiǎn)單的方法。過(guò)零率的計(jì)算主要是將相鄰兩取樣值的符號(hào)進(jìn)行比擬,假設(shè)考慮噪聲的存在,就必須規(guī)定一個(gè)噪聲門限,超過(guò)這一門限正值的取樣值認(rèn)為是正,低于該門限負(fù)值的取樣值被認(rèn)為是負(fù),界于該門限正負(fù)值之間的取樣被認(rèn)為是零。顯然,為了能夠準(zhǔn)確判定各取樣值的符號(hào),應(yīng)要求信號(hào)中不含有直流偏移,噪聲和電源干擾應(yīng)盡可能小以及選擇適宜大小的正負(fù)門限值。以短時(shí)平均過(guò)零率為特征的起止點(diǎn)算法:根據(jù)發(fā)音剛開始前為“靜〞態(tài)的連續(xù)10幀內(nèi)的數(shù)據(jù),計(jì)算出過(guò)零率的閥值IZCT:(2-11)其中,為根據(jù)所取樣值算得的均值及標(biāo)準(zhǔn)差的估值,IF為固定值,一般取為25。由此可以進(jìn)行起止點(diǎn)判斷:根據(jù)IZCT算得一個(gè)初始起點(diǎn)N1,把它規(guī)定為最先升到平均過(guò)零率閥值的幀號(hào),隨著時(shí)間的后移,過(guò)零率下降到IZCT之下,那么這時(shí)的幀號(hào)N2點(diǎn)作為終點(diǎn)?;诙虝r(shí)平均能量和短時(shí)平均過(guò)零率的雙門限端點(diǎn)檢測(cè)語(yǔ)音端點(diǎn)檢測(cè)方法可采用測(cè)試信號(hào)的短時(shí)能量或短時(shí)對(duì)數(shù)能量聯(lián)合過(guò)零率等特征參數(shù),并采用雙門限判定法來(lái)檢測(cè)音頻信號(hào)端點(diǎn)。首先為短時(shí)能量和過(guò)零率分別確定兩個(gè)門限,一個(gè)是較低的門限數(shù)值較小,對(duì)信號(hào)的變化比擬敏感,很容易超過(guò);另一個(gè)是比擬高的門限,數(shù)值較大。低門限被超過(guò)未必是語(yǔ)音的開始,有可能是很短的噪聲引起的,高門限被超過(guò)并且接下來(lái)的自定義時(shí)間段內(nèi)的語(yǔ)音超過(guò)低門限,意味著信號(hào)開始。具體方法為:先使用短時(shí)能量判別法確定一個(gè)高過(guò)高能量閾值ITU的開始幀號(hào)N1,當(dāng)N1確定后,從N1幀向前N1-25幀搜索,依次比擬各幀的過(guò)零率,假設(shè)有3幀以上的過(guò)零率大于或等于過(guò)零率門限,那么將起點(diǎn)N1定為滿足過(guò)零率大于等于過(guò)零率門限的最前幀的幀號(hào),否那么即以原N1為起點(diǎn)。這種起點(diǎn)檢測(cè)法也稱雙門限前端檢測(cè)算法。檢測(cè)效果如圖2-3所示。圖2-3雙門限端點(diǎn)檢測(cè)效果第三章音頻信號(hào)的特征矢量提取音頻信號(hào)的的特征提取是為了從信號(hào)中提取能表示音頻特征的信息。在現(xiàn)有的語(yǔ)音識(shí)別中主要有三類:時(shí)域、頻域、倒頻域。音頻信號(hào)的時(shí)域分析就是分析和提取語(yǔ)音信號(hào)的時(shí)域參數(shù)。進(jìn)行音頻信號(hào)分析時(shí),最先接觸到并且也是最直觀的是它的時(shí)域波形。音頻信號(hào)本身就是時(shí)域信號(hào),因而時(shí)域分析是最早使用,也是應(yīng)用最廣泛的一種分析方法,這種方法直接利用語(yǔ)音信號(hào)的時(shí)域波形。音頻信號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。音頻信號(hào)的頻域分析就是分析信號(hào)的頻域特征、從廣義上講,音頻信號(hào)的頻域分析包括語(yǔ)音信號(hào)的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法,線性預(yù)測(cè)法等幾種。,音頻信號(hào)的倒譜分析就是求取信號(hào)倒譜特征參數(shù)的過(guò)程,它可以通過(guò)同態(tài)處理來(lái)實(shí)現(xiàn)。同態(tài)信號(hào)處理也稱為同態(tài)濾波,它實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的別離處理,即解卷。對(duì)語(yǔ)音信號(hào)進(jìn)行解卷卷,可將信號(hào)的聲門鼓勵(lì)信息及聲道響應(yīng)信息別離開來(lái),從而求得聲道共振特征和基音周期。其中音頻信號(hào)特征參數(shù)的開展也主要是從時(shí)域到頻域,再到倒頻域的過(guò)程。廣告音頻信號(hào)是一種冗余度很高的隨機(jī)信號(hào),在進(jìn)行信號(hào)處理的時(shí)候,必須經(jīng)過(guò)特征提取才能有效的降低信號(hào)冗余度。所以特征提取實(shí)際上是對(duì)音頻信號(hào)進(jìn)行大幅度壓縮的過(guò)程。廣告音頻信號(hào)雖然是時(shí)變信號(hào),但是假設(shè)把它分成10ms至30ms之間這樣的音頻段,那么音頻段是相對(duì)平穩(wěn)的,這就是所謂的短時(shí)平穩(wěn)性。因此可以把短時(shí)音頻段的特征提取出來(lái)。這里介紹的特征矢量是梅爾倒頻譜系數(shù)MFCC[6]。3.1信號(hào)的倒譜分析數(shù)字化的音頻信號(hào)是聲道頻率特性和鼓勵(lì)信號(hào)源二者的共同結(jié)果,后者對(duì)于某幀而言常帶有一定的隨機(jī)性。音頻的個(gè)性特征很大程度上表達(dá)在信號(hào)聲道變化上,即聲道頻率特性。因此有必要采用一定的方法將這兩者有效的分開,這個(gè)方法就是同態(tài)濾波。濾波的過(guò)程是將卷積處理化為乘積,然后作對(duì)數(shù)處理,使之化為可別離的相加成分,結(jié)果就形成了倒譜c(n)=h(n)+i(n)。因h(n)描述了信號(hào)的聲道分量,故是非常有效的信號(hào)特征參數(shù)。倒譜定義為時(shí)間序列的z變換的模的對(duì)數(shù)的逆變換,具體說(shuō),序列x(n)的倒譜c(n)定義為:(3-1)倒譜的計(jì)算過(guò)程如下列圖所示:傅里葉反變換對(duì)數(shù)變換傅里葉變換語(yǔ)音信號(hào)倒譜傅里葉反變換對(duì)數(shù)變換傅里葉變換圖3-1倒譜計(jì)算過(guò)程在具體實(shí)現(xiàn)時(shí),用DFT來(lái)代替傅立葉變換,這樣得到的倒譜將是真實(shí)倒譜的混疊形式,它是真正倒譜的逼近。對(duì)倒譜推導(dǎo)過(guò)程進(jìn)行分析,可以得知語(yǔ)音信號(hào)的倒譜具有如下性質(zhì):(1)倒譜的低時(shí)局部對(duì)應(yīng)信號(hào)的聲道分量,且按1/n的趨勢(shì)隨n的增加而衰減,故用維數(shù)不多的倒譜向量足以表征信號(hào)的聲道分量。(2)倒譜的高時(shí)局部對(duì)應(yīng)于音頻信號(hào)的音源鼓勵(lì)分量。由此可見(jiàn),由于聲道和音源鼓勵(lì)所處的倒譜時(shí)段不同,通過(guò)信號(hào)倒譜的低時(shí)和高時(shí)段可以將它們別離,彼此根本互不干擾,尤其是可以防止聲道分量受到具有隨機(jī)變換的音源鼓勵(lì)分量的干擾。由于倒譜的低時(shí)局部描述了信號(hào)的聲道特性,所以常常作為廣告音頻識(shí)別的個(gè)性特征參數(shù)。3.2梅爾倒譜參數(shù)前面4.1節(jié)己講了語(yǔ)音的倒譜,MFCC特征參數(shù)就是在上述的過(guò)程中參加了Mel帶通濾波器組,即在圖4-1所示的倒譜計(jì)算過(guò)程中不直接對(duì)信號(hào)的對(duì)數(shù)譜進(jìn)行逆DFT,而是先經(jīng)過(guò)Mel頻率坐標(biāo)的尺度彎折,然后才進(jìn)行逆DFT。人耳對(duì)不同頻率的聲音具有不同的感知能力,有實(shí)驗(yàn)說(shuō)明在1000Hz以下,感知能力與頻率成線性關(guān)系,在1000Hz以上,感知能力與頻率成對(duì)數(shù)關(guān)系。即在低頻局部,人耳對(duì)聲音的感受比擬敏銳;在高頻局部,人耳對(duì)聲音的感受會(huì)越來(lái)越粗糙。為了模擬人耳對(duì)不同頻率語(yǔ)音的感知特性,于是產(chǎn)生了Mel頻率的概念。Mel頻率和線性頻率的關(guān)系如下:(3-2)或(3-3)在本文中采用4-2式,得到的Mel頻率和線性頻率的對(duì)應(yīng)關(guān)系如圖3-2:圖3-2Mel頻率與一般頻率關(guān)系曲線MFCC參數(shù)計(jì)算過(guò)程如圖4-3:圖3-3MFCC特征矢量計(jì)算流程(1)原始音頻信號(hào)S(n)經(jīng)過(guò)預(yù)加重、分幀、加窗等處理,得到每個(gè)信號(hào)幀的時(shí)域信號(hào)x(n)。然后將時(shí)域信號(hào)經(jīng)過(guò)離散傅立葉變換(DFT)后得到線性頻譜X(k)。設(shè)一幀信號(hào)的DFT為:(3-4)式中x(n)為輸入的幀信號(hào),N表示傅立葉變換的點(diǎn)數(shù),實(shí)際計(jì)算時(shí)采用FFT計(jì)算,以減少計(jì)算量,提高程序的運(yùn)行效率。(2)求線性頻譜X(k)幅度的平方,即能量譜:(3-5)(3)計(jì)算Mel濾波器組:Mel頻率濾波器組是在音頻信號(hào)的頻譜范圍內(nèi)設(shè)置的假設(shè)干個(gè)帶通濾波器,其中心頻率為,(m=1,2,…M,為濾波器序號(hào)),M為濾波器的個(gè)數(shù),通常取為24~40之間。每一個(gè)三角形濾波器的中心頻率在Mel頻率軸上等間隔分配。設(shè),和分別是第m個(gè)三角形濾波器的下限、中心和上限頻率,那么相鄰三角形濾波器之間的下限、中心和上限頻率有下式的關(guān)系:(3-6)每個(gè)濾波器具有三角形濾波特性,m值小時(shí)相鄰f(m)之間的間隔也小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個(gè)帶通濾波器的傳遞函數(shù)為:(3-7)式中中心頻率定義如下:(3-8)其中為DFT/FFT的窗寬,為信號(hào)的采樣率,、為濾波器的頻率應(yīng)用范圍的下限頻率和上限頻率,為Mel濾波器的個(gè)數(shù),即式4-2的反函數(shù)。根據(jù)上述算法使用Matlab仿真得到的Mel濾波器組如圖3-4:圖3-424個(gè)Mel濾波器的頻域響應(yīng)(4)為了使結(jié)果對(duì)噪聲和譜估計(jì)誤差有更好的魯棒性,一般將經(jīng)Mel濾波器組得到Mel頻譜取對(duì)數(shù)能量。因此,得到的對(duì)數(shù)頻譜總傳遞函數(shù)為:(3-9)此過(guò)程即是通過(guò)三角帶通濾波器濾波的過(guò)程。使用三角帶通濾波器濾波有兩個(gè)主要目的:一是對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,凸顯原先語(yǔ)音的共振峰;再者可以降低資料量。(5)經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):將上述通過(guò)帶通濾波器組的對(duì)數(shù)能量帶入離散余弦變換DCT變換到倒譜頻域,求出滿階的MFCC特征參數(shù):(3-10)其中(3-11)圖3-5一段語(yǔ)音信號(hào)的MFCC系數(shù)有實(shí)驗(yàn)說(shuō)明最前假設(shè)干維以及最后假設(shè)干維的MFCC系數(shù)對(duì)語(yǔ)音區(qū)分性能影響較大,MFCC系數(shù)個(gè)數(shù)通常取最低的12~16階。MFCC系數(shù)的第一維的值的能量很大,故在一般的識(shí)別系統(tǒng)中,將稱為能量系數(shù),不作為倒譜系數(shù)中的一員。在本工程中取作12維的MFCC特征矢量。圖3-5是對(duì)一段語(yǔ)音信號(hào)提取的MFCC系數(shù)??梢钥闯?,低階的MFCC系數(shù)類似于原信號(hào)的一種包絡(luò),以其作為信號(hào)的特征矢量參數(shù)是有效的。第四章基于BP神經(jīng)網(wǎng)絡(luò)的音頻信號(hào)數(shù)據(jù)分類4.1BP神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,簡(jiǎn)稱為NN)是近年來(lái)開展起來(lái)的模擬人腦生物過(guò)程的人工智能技術(shù).它由大量簡(jiǎn)單的神經(jīng)元廣泛互連形成的復(fù)雜的非線性系統(tǒng),它不需要任何先驗(yàn)公式,就能從已有數(shù)據(jù)中自動(dòng)地歸納規(guī)那么,獲得這些數(shù)據(jù)的內(nèi)在規(guī)律,具有很強(qiáng)的非線性映射能力,特別適合于因果關(guān)系復(fù)雜的非確性推理、判斷、識(shí)別和分類等問(wèn)題.基于誤差反向傳播(Backpropagation)算法的多層前饋網(wǎng)絡(luò)(Multiple—layerfeedforwardnet.work,簡(jiǎn)記為BP網(wǎng)絡(luò)),是目前應(yīng)用最多也是最成功的網(wǎng)絡(luò)之一,構(gòu)造一個(gè)BP網(wǎng)絡(luò)需要確定其處理單元——神經(jīng)元的特性和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。在案例中選用的音頻信號(hào)為流行、古箏、搖滾和民歌四類不同音樂(lè)的特征信號(hào),新測(cè)試類我選用是橫笛的特征信號(hào)[7]。4.1.1BP神經(jīng)網(wǎng)絡(luò)概述基于誤差反向傳播(BackPropagation)算法的多層前饋網(wǎng)絡(luò)(Multiple-layerfeedforwardnetwork),簡(jiǎn)記為BP網(wǎng)絡(luò)[4],又稱誤差信號(hào)反響網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)的一個(gè)分支,也是目前神經(jīng)網(wǎng)絡(luò)中應(yīng)用最多也是最成功的網(wǎng)絡(luò)之一。它是一種有教師的學(xué)習(xí)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)從N維到M維的非線性映射,一般采用梯度下降法實(shí)現(xiàn)快速收斂。而構(gòu)造一個(gè)BP網(wǎng)絡(luò)需要確定其處理單元,即神經(jīng)元的特性和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。BP網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是指神經(jīng)元之間的互連結(jié)構(gòu)。BP神經(jīng)網(wǎng)絡(luò)采用的是并行網(wǎng)格結(jié)構(gòu),包括輸入層、隱含層和輸出層,經(jīng)作用函數(shù)后,再把隱節(jié)點(diǎn)的輸出信號(hào)傳遞到輸出節(jié)點(diǎn),最后給出輸出結(jié)果。由圖2可見(jiàn)各層次的神經(jīng)元之間形成全互連連接,各層次內(nèi)的神經(jīng)元之間沒(méi)有連接。這種結(jié)構(gòu)使多層前饋網(wǎng)絡(luò)可在輸入和輸出間建立適宜的線性或非線性關(guān)系,又不致使網(wǎng)絡(luò)輸出限制在-1和1間。圖4-1是一個(gè)三層的BP網(wǎng)絡(luò)結(jié)構(gòu)。圖4-1三層的BP網(wǎng)絡(luò)結(jié)構(gòu)算法分為兩個(gè)階段:第一階段〔正向過(guò)程〕輸入信息,從輸入層經(jīng)隱層逐層計(jì)算各單元的輸出值;根據(jù)下式計(jì)算每層的輸出值:(4-1)〔4-2〕第二階段〔反向傳播過(guò)程〕輸出誤差,逐層向前算出隱層各個(gè)單元的誤差,并用此誤差修正前層的值。在BP算法中常采用梯度法修正權(quán)值,為此要求輸出函數(shù)可微,通常采用Sigmoid函數(shù)作為輸出函數(shù)。誤差計(jì)算:〔4-3〕按照梯方向計(jì)算各層權(quán)重的修正值:〔4-4〕其中δ的計(jì)算公式:〔4-5〕修正層權(quán)重:〔4-6〕重復(fù)上述的步驟,知道誤差值小于給定的閾值。4.1.2語(yǔ)音特征信號(hào)分類語(yǔ)音識(shí)別系統(tǒng)的典型識(shí)別方案如圖4-2所示。這是一個(gè)基于模式匹配原理的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)方框圖,也是目前大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都采用的設(shè)計(jì)原理[5]。根據(jù)這個(gè)原理,未知語(yǔ)音的模式要與語(yǔ)音的參考模式逐一進(jìn)行比擬,選出最正確匹配的參考模式作為識(shí)別結(jié)果。圖4-2語(yǔ)音識(shí)別系統(tǒng)的典型識(shí)別方案圖4-2中,待識(shí)別語(yǔ)音先經(jīng)話筒變換成語(yǔ)音信號(hào),或直接從wav文件中讀取,然后從識(shí)別系統(tǒng)前端輸入,再進(jìn)行預(yù)處理。這時(shí)前端輸入的語(yǔ)音信號(hào)還只是模擬信號(hào),必須經(jīng)過(guò)預(yù)處理,轉(zhuǎn)化為數(shù)字語(yǔ)音信號(hào)。預(yù)處理包括預(yù)濾波、采樣和量化、分幀加窗、端點(diǎn)檢測(cè)、預(yù)加重等,有時(shí)還包括模數(shù)轉(zhuǎn)換器。特征提取局部用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),常用的特征有短時(shí)平均能量或幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、清音/濁音標(biāo)志、基音頻率、短時(shí)傅立葉變換、倒譜、共振峰等。訓(xùn)練在識(shí)別之前進(jìn)行,是通過(guò)屢次重復(fù)語(yǔ)音的方式從原始語(yǔ)音樣本中去除冗余信息,保存關(guān)鍵數(shù)據(jù),再按一定規(guī)那么對(duì)數(shù)據(jù)加以聚類,形成模式庫(kù)。模式匹配是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心,是根據(jù)一定的準(zhǔn)那么以及專家知識(shí)〔如構(gòu)詞規(guī)那么、語(yǔ)法規(guī)那么、語(yǔ)義規(guī)那么等〕,計(jì)算輸入特征與庫(kù)存模式之間的相似度,選擇最相似度作為識(shí)別結(jié)果,從而判斷出輸入語(yǔ)音的語(yǔ)意信息。4.2BP網(wǎng)絡(luò)的MATLAB實(shí)現(xiàn)BP網(wǎng)絡(luò)的訓(xùn)練所采用的算法是反向傳播法,可以以任意精度逼近任意的連續(xù)函數(shù),近年來(lái),為了解決BP網(wǎng)絡(luò)收斂速度慢,訓(xùn)練時(shí)間長(zhǎng)等缺乏,技術(shù)人員又提出了許多改良算法.在應(yīng)用BP網(wǎng)絡(luò)解決實(shí)際問(wèn)題的過(guò)程中,選擇多少層網(wǎng)絡(luò)、每層多少個(gè)神經(jīng)元節(jié)點(diǎn)、選擇何種傳遞函數(shù)、何種訓(xùn)練算法等,均無(wú)可行的理論指導(dǎo),只能通過(guò)大量的實(shí)驗(yàn)計(jì)算獲得.這無(wú)形增加了研究工作量和編程計(jì)算工作量.MATLAB軟件提供了一個(gè)現(xiàn)成的神經(jīng)網(wǎng)絡(luò)工具箱(NeuralNetworkToolbox,簡(jiǎn)稱NNbox),為解決這個(gè)矛盾提供了便利條件.下面針對(duì)BP網(wǎng)絡(luò)的建立、傳遞函數(shù)的選擇、網(wǎng)的訓(xùn)練等,在介紹NNbox相關(guān)函數(shù)的根底上,給出利用這些函數(shù)編程的方法.根據(jù)BP神經(jīng)網(wǎng)路理論,在MATLAB軟件中編程實(shí)現(xiàn)基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音特征信號(hào)分類算法[10]。4.2.1歸一化方法及MATLAB實(shí)現(xiàn)數(shù)據(jù)歸一化方法是神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)前對(duì)數(shù)據(jù)長(zhǎng)做的一種處理方法。數(shù)據(jù)歸一化處理把所有數(shù)據(jù)都轉(zhuǎn)化為[0,1]之間的數(shù),其目的是取消各維數(shù)據(jù)間數(shù)量級(jí)差異,防止以為輸入輸出數(shù)據(jù)數(shù)量級(jí)差異較大而造成網(wǎng)絡(luò)預(yù)測(cè)誤差較大。數(shù)據(jù)歸一化的方法有兩種最大最小法。函數(shù)形式如下:=〔-〕/〔-〕式子中為數(shù)據(jù)序列中的最小數(shù);為序列中的最大數(shù)。平均數(shù)方差法,函數(shù)形式如下:=〔-〕/其中為數(shù)據(jù)序列的均值;為數(shù)據(jù)的方差。設(shè)計(jì)中采用第一種數(shù)據(jù)歸一化方法,歸一化函數(shù)采用MATLAB自帶函數(shù)4.2.2數(shù)據(jù)選擇選擇和歸一化首先根據(jù)倒譜系數(shù)提取四類音樂(lè)語(yǔ)音特征信號(hào),不同的語(yǔ)音信號(hào)分別用1,2,3,4標(biāo)識(shí),提取出信號(hào)分別儲(chǔ)存于data1.mat,data2.mat,data3.mat,data4.mat數(shù)據(jù)庫(kù)文件中,每組數(shù)據(jù)為25維,第1維為類別標(biāo)識(shí),后24維為語(yǔ)音特征信號(hào)。把四類語(yǔ)音特征信號(hào)合為一組,從中隨機(jī)選取1500組數(shù)據(jù)座位訓(xùn)練數(shù)據(jù),其余500維數(shù)據(jù)作為測(cè)試數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。根據(jù)語(yǔ)音類別標(biāo)識(shí)設(shè)定每組語(yǔ)音信號(hào)的期望輸出值,如標(biāo)識(shí)類為1時(shí),期望輸出向量為[1000]。仿真結(jié)果分析用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)分類語(yǔ)音特征信號(hào)測(cè)試數(shù)據(jù),BP神經(jīng)網(wǎng)絡(luò)分類誤差圖如下。BP網(wǎng)絡(luò)分類誤差:圖4-3BP網(wǎng)絡(luò)分類誤差實(shí)際語(yǔ)音和預(yù)計(jì)語(yǔ)音比擬圖:圖4-4實(shí)際語(yǔ)音與預(yù)測(cè)語(yǔ)音的比擬BP神經(jīng)網(wǎng)絡(luò)分類正確率如下表第一次訓(xùn)練:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.68911.00000.96300.8785第二次訓(xùn)練:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.56671.00000.96420.8712第三次訓(xùn)練:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.91671.00000.58130.8462從BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果可以看出,基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音信號(hào)分類具有一定的準(zhǔn)確性,能夠識(shí)別出語(yǔ)音信號(hào)的所屬歸類,但是對(duì)于現(xiàn)在這樣要求高精度的識(shí)別率,這樣的結(jié)果還是讓感到十分的不滿意,這里經(jīng)過(guò)網(wǎng)上理論知識(shí)的補(bǔ)充,找到了另一種有較高識(shí)別率的技術(shù)——SVM。仍然隨機(jī)選取1500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),但是其余500維數(shù)據(jù)作為測(cè)試數(shù)據(jù)的數(shù)據(jù)使用原始的數(shù)據(jù)分別進(jìn)行識(shí)別觀察實(shí)驗(yàn)結(jié)果。然后在隨便一個(gè)音頻作為測(cè)試類信號(hào)提取其特征值獲得其特征參數(shù),然后作為測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn),觀察結(jié)果。實(shí)驗(yàn)結(jié)果觀察如下:第一類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.832700.13010.0372第二類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率01.000000第三類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.200100.70320.0967第四類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.061900.50530.8828測(cè)試類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率0.27980.00530.18210.5328第五章利用SVM建立分類器來(lái)對(duì)語(yǔ)音特征信號(hào)進(jìn)行分類預(yù)測(cè)5.1支持向量機(jī)技術(shù)簡(jiǎn)述支持向量機(jī)〔SVM,SupportVectorMachine〕是由Vapnik首先提出的,像多層感知器網(wǎng)絡(luò)和徑向基函數(shù)網(wǎng)絡(luò)一樣,可用于模式識(shí)別和非線性回歸。支持向量機(jī)的主要思想是建立一個(gè)分類超平面作為決策曲面,使得正比例和反比例之間的隔離邊緣被最大化。支持向量機(jī)的理論根底是統(tǒng)計(jì)學(xué)習(xí)理論,更精確地說(shuō),支持向量機(jī)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的近似實(shí)現(xiàn)[11]。SVM的原理SVM理論原理是基于這樣的事實(shí):學(xué)習(xí)機(jī)器在測(cè)試數(shù)據(jù)上的誤差率〔即泛化誤差率〕以訓(xùn)練誤差率和一個(gè)依賴于維數(shù)VC〔Vapnik-Chervonenkisdimension〕的項(xiàng)的和為界,在可分模式情況下,支持向量機(jī)對(duì)于前一項(xiàng)的值為零,并且使第二項(xiàng)最小化。因此,盡管它不利用問(wèn)題的領(lǐng)域內(nèi)部問(wèn)題,但在模式分類問(wèn)題上支持向量機(jī)能提供好的泛化性能,這個(gè)屬性是支持向量機(jī)帶有的。支持向量機(jī)具有以下的有點(diǎn):通用性:能夠在很廣的各種函數(shù)集中構(gòu)造函數(shù);魯棒性:不需要微調(diào);有效性:在解決實(shí)際問(wèn)題中總是屬于最好的方法之一;計(jì)算簡(jiǎn)單:方法的實(shí)現(xiàn)只需要利用簡(jiǎn)單的優(yōu)化技術(shù);理論上完善:基于VC推廣性理論的框架。在支持向量x〔i〕和輸入空間抽取的向量x之間的內(nèi)積核這一個(gè)概念是構(gòu)造支持向量機(jī)學(xué)校算法的關(guān)鍵。支持向量機(jī)是由算法從訓(xùn)練數(shù)據(jù)中抽取的小的子集構(gòu)成。支持向量機(jī)的體系結(jié)構(gòu)如下列圖5-1。圖5-1支持向量機(jī)的體系結(jié)構(gòu)其中K為核函數(shù),其種類主要有:線性核函數(shù):K〔x,〕=;多項(xiàng)式核函數(shù):K〔x,〕=〔r+r,r>0;徑向基核函數(shù):K〔x,〕=exp〔-r||x|〕,r>0;兩層感知器核函數(shù):K〔x,〕=tanh〔r+r〕?;赟VM的數(shù)字音頻分類對(duì)于經(jīng)過(guò)mfcc提取后的四組數(shù)據(jù)進(jìn)行試驗(yàn),為了和BP的分類效果進(jìn)行比擬,此處數(shù)據(jù)的分組和原來(lái)保持一樣,i.e.:共有2000組語(yǔ)音特征信號(hào),從中隨機(jī)選擇1500組數(shù)據(jù)做為訓(xùn)練數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),500組數(shù)據(jù)作為測(cè)試數(shù)據(jù)測(cè)試網(wǎng)絡(luò)分類能力。
由于是從中隨機(jī)選擇1500組數(shù)據(jù)做為訓(xùn)練數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),500組數(shù)據(jù)作為測(cè)試數(shù)據(jù)測(cè)試網(wǎng)絡(luò)分類能力這里使用的是LIBSVM工具包是臺(tái)灣大學(xué)林智仁(LinChih-Jen)副教授等開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包。實(shí)驗(yàn)的仿真結(jié)果與分析SVM網(wǎng)絡(luò)分類正確率是語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率86.1587%100.00%88.6179%100.00%第一次分類:第二次分類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率82.2103%100.00%87.2359%100.00%第三次分類:語(yǔ)音信號(hào)類別第一類第二類第三類第四類識(shí)別正確率80.9524%100.00%84.507%99.9999%實(shí)驗(yàn)仿真試圖:對(duì)使用的信號(hào)的進(jìn)行降維處理后的結(jié)果:圖5-1降維處理后的結(jié)果SVM參數(shù)選擇的結(jié)果:圖5-1SVM參數(shù)選擇的結(jié)果由實(shí)驗(yàn)不難看錯(cuò)SVM分類的正確率要明顯高于使用BP神經(jīng)網(wǎng)絡(luò)的正確率,但是在這里要指出的是SVM的訓(xùn)練時(shí)間卻比BP網(wǎng)絡(luò)訓(xùn)練的時(shí)間長(zhǎng)了很多。那么要如何選擇這兩種分類方法呢?當(dāng)每次都有新的模板樣本要被訓(xùn)練,且要求的訓(xùn)練精度相對(duì)不那么嚴(yán)格時(shí)可以使用BP網(wǎng)絡(luò),而只需建立一次樣本訓(xùn)練,之后都只要使用這個(gè)訓(xùn)練的結(jié)果或者是精度的要求高時(shí),都需要使用SVM進(jìn)行分類。第六章總結(jié)與展望本實(shí)驗(yàn)通過(guò)使用兩種不同分類方法理解兩類方法的根本知識(shí)。通過(guò)學(xué)習(xí)知道BP神經(jīng)網(wǎng)絡(luò)和SVM都是機(jī)器學(xué)習(xí)的經(jīng)典方法,都有著學(xué)習(xí)方法的最最根本的特征。人工神經(jīng)網(wǎng)絡(luò)〔ArtificialNeuralNetworks〕它是一種模范動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而到達(dá)處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)和自適應(yīng)的能力,可以通過(guò)預(yù)先提供的一批相互對(duì)應(yīng)的輸入-輸出數(shù)據(jù),分析掌握兩者之間潛在的規(guī)律,最終根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)來(lái)推算輸出結(jié)果,這種學(xué)習(xí)分的過(guò)程被稱為“訓(xùn)練〞。SVM的主要思想可以概括為兩點(diǎn):(1)它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全svm系列產(chǎn)品局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。假設(shè)是以后可以從事語(yǔ)音信號(hào)處理方面。本論文基于音頻識(shí)別的模式識(shí)別技術(shù),根據(jù)倒譜理論,對(duì)給定的音頻信號(hào)的識(shí)別技術(shù)做了初步的探索,為實(shí)際工程應(yīng)用建立了初步的根底。但由于時(shí)間和水平的限制,要實(shí)現(xiàn)工程實(shí)際應(yīng)用,還要做很多工作。本文采用的方法比擬單一,沒(méi)有采用更多的方法以便比擬。而且音頻識(shí)別的準(zhǔn)確率在信號(hào)相似的情況下也不理想,有待提高。未來(lái)系統(tǒng)可以結(jié)合java編程技術(shù)編寫出更好的用戶界面。致謝本文是在林曉丹老師的悉心指導(dǎo)下完成的。林老師嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和專業(yè)的知識(shí)使我受益匪淺。使我不僅在學(xué)習(xí)動(dòng)手能力上有了很大的起色,而且在對(duì)待工作的態(tài)度上有了新的認(rèn)識(shí)。在此對(duì)林老師表示最誠(chéng)摯的謝意。此外在本文的完成過(guò)程中,得到了ilovematlab論壇上很多技術(shù)人員的幫助,和他們相處的這段時(shí)間我學(xué)到了很多東西。在此對(duì)他們也表示我最誠(chéng)摯的謝意!最后,要特別感謝我的同學(xué)對(duì)我的關(guān)心和支持。畢業(yè)設(shè)計(jì)小結(jié)畢業(yè)設(shè)計(jì)是每個(gè)畢業(yè)生完成大學(xué)學(xué)習(xí)任務(wù)后的最后一項(xiàng)重要作業(yè),通過(guò)一個(gè)學(xué)期的學(xué)習(xí)和工作,我深刻體會(huì)到了畢業(yè)設(shè)計(jì)這個(gè)環(huán)節(jié)在整個(gè)大學(xué)學(xué)習(xí)環(huán)節(jié)中的重要性和必要性。首先,畢業(yè)設(shè)計(jì)是一項(xiàng)綜合性的大任務(wù),是我們從理論學(xué)習(xí)到實(shí)踐的必要過(guò)度階段。是對(duì)整個(gè)大學(xué)學(xué)習(xí)的全方位檢驗(yàn),需要我們把學(xué)習(xí)的各方面的知識(shí)聯(lián)系起來(lái)并加以應(yīng)用。畢業(yè)設(shè)計(jì)同時(shí)也對(duì)所學(xué)知識(shí)起到了加深穩(wěn)固的作用。為了進(jìn)行本課題研究,我先后看了《模式識(shí)別》、《神經(jīng)網(wǎng)絡(luò)與matlab》、《語(yǔ)音信號(hào)數(shù)值處理》等個(gè)種數(shù)據(jù),拓寬了我的知識(shí)面,也穩(wěn)固了我的大學(xué)知識(shí)。通過(guò)這次畢業(yè)設(shè)計(jì),我也學(xué)到了一些新的知識(shí),了解了音頻(語(yǔ)音)信號(hào)識(shí)別的全過(guò)程,從翻閱各種技術(shù)資料到系統(tǒng)的Matlab仿真,再到DSP編程實(shí)現(xiàn),這里面涉及的知識(shí)都是平常學(xué)習(xí)中沒(méi)有接觸過(guò)的,對(duì)自己的動(dòng)手能力和學(xué)習(xí)能力有很大的提高作用。另外,論文的撰寫過(guò)程那么考察了我們對(duì)自己思想和觀點(diǎn)的表達(dá)能力以及對(duì)科學(xué)研究的謹(jǐn)慎態(tài)度。它為我們綜合組織個(gè)方面的信息到一個(gè)完整的清晰的整體提供了一個(gè)平臺(tái)??傊?,畢業(yè)設(shè)計(jì)讓我在大學(xué)最后的一學(xué)期學(xué)到了很多的東西。在以后的學(xué)習(xí)和工作中,我會(huì)牢記在母校教我的點(diǎn)點(diǎn)滴滴,繼續(xù)發(fā)揚(yáng)華僑大學(xué)治學(xué)嚴(yán)謹(jǐn)?shù)男oL(fēng),不斷學(xué)習(xí)和自我提升,為社會(huì)創(chuàng)造更多的價(jià)值。參考文獻(xiàn)[1]邊肇祺,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2003.[2]周志華,曹存根.神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[M].北京:清華大學(xué)出版社,2004.[3]S.Haykin,“NeuralNetworks:acomprehensivefoundation〞,MacmillanCollegePublishingCompany,NewYork,[4]K.El-Maleh,M.Klein,G.Petrucci,P.Kabal,Speech/MusicDiscriminationforMultimediaApplications[C].InIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,Vol.6,2000,pp.2445—2448[5]LieLu,Hong-JiangZhang,StanZ.Li,Content-basedAudioClassificationandSegmentationbyUsingSupportVectorMachines叨.MultimediaSystems,V01.8,No.6,2003,pp.482-492[6]語(yǔ)音信號(hào)處理.趙力編著.第2版.北京:機(jī)械工業(yè)出版社,2023.[7]《MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析_MATLAB中文論壇》李洋著2023.[8]《神經(jīng)網(wǎng)絡(luò)模型及matlab仿真程序設(shè)計(jì)》周開立著2005[9]Ilovematlab上《基于SVM技術(shù)的語(yǔ)音特征分類》[10]Ilovematlab上《bp網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)》[11]《語(yǔ)音信號(hào)處理》胡航2023[12]《數(shù)字語(yǔ)音處理》張雪英2023[13]《神經(jīng)網(wǎng)絡(luò)模型及matlab仿真程序設(shè)計(jì)》周開利2004[14]《BPNeuralNetworkprincipleandMATLABSimulation》,XiongXin/NieMingxin2006附錄附錄1:相關(guān)文獻(xiàn)的翻譯BPNeuralNetworkprincipleandMATLABSimulationXiongXin/NieMingxinSchoolofWuhansense1559@163niemx@sohuAbstractThispaperintroducestheprevalentBPalgorithminneuralnetwork,anddiscussesthegoodness、problemandtrainingprocessofBPneuralnetwork,aswellasusingMATLABsoftwaretosimulatethenumbersonthebasisofit.Atlast,severalimprovedBPtrainingalgorithmshavebeencomparedinthepaper.Keywords:BPneuralnetwork;numberrecognition;MATLAB1IntroductionThedevelopmentofneuralnetworkisrapidsincethefirstneuralnetworkmodel——MPmodelcameupin1943[1].Hopfieldneuralnetworkproposedin1982andoppositephasebroadcastalgorithmproposedbyRumelhartin1985maketheneuralnetworkofHopfieldmodelandmultilayerfeedforwardmodeltobetheprevalentneuralnetworkmodel.Theyareeffectiveinmanyapplicationsoffieldssuchasspeechrecognition,moderecognition,imageprocessingandindustrycontrolling.Neuralnetworkisantheorywhichisimitativeofthebiologicalprocessingmodeltogetthefunctionofinformationintelligentprocessing.Ittreatswiththepatterninformationwhichishardtobeexpressedincertainlanguagebythemethodfrombottomtotopandparalleldistributionwayformedbyself-study,self-organizationandnon-lineardynamics.Neuralnetworkisaparallelanddistributedinformationprocessingnetworkarchitecture.Itisgenerallycomposedbymassiveneurons,eachofwhichhasonlyoneoutputthatcanconnectmanyotherneurons.Thereciprocitybetweenneuronsisembodiedbytheirconnectedweighs.Theoutputofneuronsisitsinputfunction.Thetypesoffunctionsincommonusehavelinearfunction,Sigmoidfunctionandvaluefunction.TherearetwophasesofpositivetransmittingprocessinganderrorreversetransmittingprocessinginthestudyprocessingofBPneuralnetwork[2].Thesignalinputtedfromoutsidespreadstotheoutputlayerandgivestheresultthroughprocessinglayerforlayerofneuronsininputlayerandhiddenlayer.Iftheexpectedoutputcan’tbeobtainedinoutputlayer,itshiftstotheconversedspreadingprocessingandthetruevalueandtheerroroutputtedbynetworkwillreturnalongthecoupledaccessformerly.Theerrorisreducedbymodifyingcontactedweightvalueofneuronsineverylayerandthenitshiftstothepositivespreadingprocessingandrevolvesiterationuntiltheerrorissmallerthegivenvalue.Takeathreelayernetworkforexample,thenetworkiscomposedofNinputneurons,KhiddenneuronsandMoutputneurons(asshowedinfig.1).O2pmandO1pkaretheoutputvalueofoutputlayerandhiddenlayerrespectively.w2kmandw1nkaretheconnectedweightvaluefromthehiddenlayertotheoutputlayerandfromtheinputlayertothehiddenlayerrespectively.SupposetheinputstudyingsampleisXpn,soitscorrespondingexpectedoutputvalueistpm.Fig.1BPneuralnetworkconfiguration2BPNeuralNetwork2.1theDiscussionabouttheAdvantagesandDisadvantagesofBPNeuralNetworkBPneuralnetworkisakindofneuralnetworkformswhichhasmostapplicationscurrently[3],butitisn’tveryperfect.Inordertounderstandhowtoapplytheneuralnetworktoresolveproblems,wecarryonthediscussionaboutitsadvantagesanddisadvantageshere.TheadvantagesofBPneuralnetwork:①Networkrealizesthemappedfunctionfrominputtooutputandmathematicaltheoryhasprovedthatithasthefunctiontoachieveanycomplexnon-linearmapping;②Networkcanextractthe“l(fā)ogical〞solutionrulesautomaticallythroughstudyingtheexampleswithcorrectresults.Ithastheabilityofself-study;③Networkhasthedefiniteabilitiesofpromotionandgeneralization.ThedisadvantagesofBPneuralnetwork:①ThestudyspeedofBPalgorithmisveryslow.Themaincausationsofitare:a.BecauseBPalgorithmisgradsdecliningmethodessentiallyandtheaimfunctionoptimizedbyitisverycomplex,the“sawtooth-shapedphenomenon〞isboundtoappearwhichmakestheBPalgorithminefficiency;b.Thetorpidphenomenonexists.Becausetheoptimizedaimfunctionisverycomplex,itcanappearsomeflatareasinthecaseoftheoutputofneuronsapproach0or1.Intheseareas,theerrorofweightvaluechangesverylittle,whichcanhardlymakethetrainingprocessingbreakdown;c.InordertoexecutetheBPalgorithminthenetwork,wecan’tusethetraditionalone-dimensionalsearchmethodtosolvetheinterativesteplengtheverytime.Weshouldputthenetworktheupdatedrulesofsteplengthinadvance.Theformeralgorithmwillmakethealgorithminefficiency.②thenetworktrainingismuchmorelikelytofail,thereasonsasbelow:a.Fromtheperspectiveofmathematics,BPalgorithmasakindoflocalsearchingoptimizedmethod,itisusedtosolvetheoverallextremumofcomplexnon-linearfunction,sothealgorithmislikelytobegottenintothelocalextremumandmakethetrainingfail;b.Theapproachingandpromotingabilitiesarecloselylinkedwiththerepresentativeofstudyingsample.Itisahardproblemtochoosethetrainingcollectioncomposedofthetypicalsamplingexamples.③Thecontradictionbetweenthescaleofexamplesandnetworkishardtosolve,whichreferstotherelationshipofpossibilityandfeasibilityofnetworkcapacity,viz.theproblemofstudyingcomplexity;④Thechoiceofnetworkconfigurationhasstillnoauniformandintegrateacademicguidanceanditcanbeselectedbyexperience.Thereforesomepeoplecallthestructurechoiceofneuralnetworkisakindofart.Thenetworkstructureinfectstheapproachingabilityandpromotingcharacterdirectly.Sohowtochooseanappropriatenetworkstructureisanimportantproblem;⑤Newsamplescaninfectthenetworkwhichstudiessuccessfullyandthenumberthatdescribesthecharacterofeveryinputsampleshouldbeequal;⑥Thereiscontradictionbetweenthepredictiveabilityofnetwork(alsocalledgeneralizationabilityorpromotingability)andtrainingability(alsocalledapproachingabilityorstudyability).Usuallywhenthetrainingabilityispoor,thepredictiveabilitywillbepoorandinacertainextent,withtheimprovementoftrainingabilitythepredictiveabilityisalsoimproved.However,thistrendhasalimit.Whenachievingthislimit,withtheimprovementofthetrainingabilitythepredictiveabilitywillbedeclineonthecontrary,whichisalsocalledtheoverfittingphenomenon.Andnowthenetworkstudiestoomuchdetailofsamplesandcan’treflecttheembeddedlawsofsamples.2.2BPNetworkalgorithmThetrainingprocessofBPnetworkisasbelow[4].(1)Initialization.Endoweveryconnectedweightvalueandthresholdvaluewithalesserrandomvalue.(2)InputthecorrespondingneuronsininputlayerwithancomponentofaeigenvectorXpk=(Xpk1,Xpk2Xpk3,…,Xpkn).(3)UsetheeigenvectorofinputsamplestocalculatethecorrespondingoutputvalueO1pk=f(Xpkn)ofneuronsinhiddenlayer.(4)UseeachunitoutputO1pkinhiddenlayertocalculatetheinputvalueineachoutputlayerandthenfurthercalculatethecorres
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 材料力學(xué)與智能材料性能評(píng)估重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 材料疲勞斷裂機(jī)理誤差分析重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 火災(zāi)風(fēng)險(xiǎn)應(yīng)急預(yù)案演練記錄(3篇)
- 行政法學(xué)的現(xiàn)實(shí)意義探討試題及答案
- 風(fēng)險(xiǎn)管理在項(xiàng)目中的應(yīng)用試題及答案
- 戰(zhàn)略管理中的團(tuán)隊(duì)合作試題及答案
- 行政法學(xué)學(xué)術(shù)研究試題與答案分享
- 2025年軟件水平考試試題及答案的更新
- 2025年編程與科技的融合發(fā)展趨勢(shì)試題及答案
- 系統(tǒng)架構(gòu)設(shè)計(jì)評(píng)估試題及答案
- 第18課《井岡翠竹》課件-2024-2025學(xué)年統(tǒng)編版語(yǔ)文七年級(jí)下冊(cè)
- 【MOOC】《思想道德與法治》(東南大學(xué))章節(jié)中國(guó)大學(xué)慕課答案
- 【MOOC】以案說(shuō)法-中南財(cái)經(jīng)政法大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 卜算子-送鮑浩然之浙東課件
- 上海市社區(qū)工作者管理辦法
- 顱腦損傷患者護(hù)理查房課件
- 口腔疾病與全身系統(tǒng)性疾病的關(guān)系課件
- 年產(chǎn)16萬(wàn)噸焦油焦油車間蒸餾工段工藝初步設(shè)計(jì) 畢業(yè)設(shè)計(jì)
- 霍亂弧菌實(shí)驗(yàn)室檢測(cè)PPT
- 五年級(jí)下學(xué)期信息技術(shù)3Done三維制作蘿卜課件
- DB51∕T 2858-2021 農(nóng)業(yè)科技成果效益計(jì)算方法及規(guī)程
評(píng)論
0/150
提交評(píng)論