卷積神經(jīng)網(wǎng)絡(luò)CNN_第1頁
卷積神經(jīng)網(wǎng)絡(luò)CNN_第2頁
卷積神經(jīng)網(wǎng)絡(luò)CNN_第3頁
卷積神經(jīng)網(wǎng)絡(luò)CNN_第4頁
卷積神經(jīng)網(wǎng)絡(luò)CNN_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ConvolutionalNeuralNetworks

卷積神經(jīng)網(wǎng)絡(luò)主要內(nèi)容卷積神經(jīng)網(wǎng)絡(luò)—誕生背景與歷程卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用—LeNet-五手寫數(shù)字識別深度學(xué)習(xí)—Hinton做了些什么深度學(xué)習(xí)在數(shù)字圖像識別上的運用—Hinton如何在二0一二年ImageNet引起轟動卷積神經(jīng)網(wǎng)絡(luò)提出的背景淺層神經(jīng)網(wǎng)絡(luò)大約二三十年前,神經(jīng)網(wǎng)絡(luò)曾經(jīng)是機器學(xué)習(xí)領(lǐng)域特別熱門的一個方向,這種基于統(tǒng)計的機器學(xué)習(xí)方法比起過去基于人工規(guī)則的專家系統(tǒng),在很多方面顯示出優(yōu)越性.卷積神經(jīng)網(wǎng)絡(luò)提出的背景

但是后來,因為理論分析的難度,加上訓(xùn)練方法需要很多經(jīng)驗和技巧,以及巨大的計算量和優(yōu)化求解難度,神經(jīng)網(wǎng)絡(luò)慢慢淡出了科研領(lǐng)域的主流方向.值得指出的是,神經(jīng)網(wǎng)絡(luò)[如采用誤差反向傳播算法:BackPropagation,簡稱BP算法,通過梯度下降方法在訓(xùn)練過程中修正權(quán)重使得網(wǎng)絡(luò)誤差最小]在層次深的情況下性能變得很不理想[傳播時容易出現(xiàn)所謂的梯度彌散GradientDiffusion或稱之為梯度消失,根源在于非凸目標代價函數(shù)導(dǎo)致求解陷入局部最優(yōu),且這種情況隨著網(wǎng)絡(luò)層數(shù)的增加而更加嚴重,即隨著梯度的逐層不斷消散導(dǎo)致其對網(wǎng)絡(luò)權(quán)重調(diào)整的作用越來越小],所以只能轉(zhuǎn)而處理淺層結(jié)構(gòu)[小于等于三],從而限制了性能.淺層神經(jīng)網(wǎng)絡(luò)的缺陷于是,二0世紀九0年代,有更多各式各樣的淺層模型相繼被提出,比如只有一層隱層節(jié)點的支撐向量機[SVM,SupportVectorMachine]和Boosting,以及沒有隱層節(jié)點的最大熵方法[例如LR,LogisticRegression]等,在很多應(yīng)用領(lǐng)域取代了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò).顯然,這些淺層結(jié)構(gòu)算法有很多局限性:在有限樣本和計算單元情況下對復(fù)雜函數(shù)的表示能力有限,針對復(fù)雜分類問題其泛化能力受到一定的制約.更重要的是,淺層模型有一個特點,就是需要依靠人工來抽取樣本的特征.然而,手工地選取特征是一件非常費力的事情,能不能選取好很大程度上靠經(jīng)驗和運氣.能不能自動地學(xué)習(xí)一些特征呢?卷積神經(jīng)網(wǎng)絡(luò)早在一九八九年,YannLeCun[現(xiàn)紐約大學(xué)教授]和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)[ConvolutionNeuralNetworks,簡稱CNN]的工作.CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),通常至少有兩個非線性可訓(xùn)練的卷積層,兩個非線性的固定卷積層[又叫PoolingLayer]和一個全連接層,一共至少五個隱含層.CNN的結(jié)構(gòu)受到著名的Hubel-Wiesel生物視覺模型的啟發(fā),尤其是模擬視覺皮層V一和V二層中SimpleCell和ComplexCell的行為.卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用LeNet-五手寫數(shù)字識別三大特點:一、局部感受野二、權(quán)值共享三、次采樣[pooling]重點概念卷積核[卷積濾波器]特征圖[FeatureMap]C層是一個卷積層:通過卷積運算,可以使原信號特征增強,并且降低噪音S層是一個下采樣層:利用圖像局部相關(guān)性的原理,對圖像進行子抽樣,可以減少數(shù)據(jù)處理量同時保留有用信息F六層是經(jīng)典神經(jīng)網(wǎng)絡(luò):輸入向量和權(quán)重向量之間的點積,再加上一個偏置.然后將其傳遞給sigmoid函數(shù)產(chǎn)生單元i的一個狀態(tài).C一層:輸入圖片大?。?三二*三二卷積窗大?。?五*五卷積窗種類: 六輸出特征圖數(shù)量: 六輸出特征圖大?。?二八*二八 [三二-五+一]神經(jīng)元數(shù)量: 四七0七[[二八*二八]*六]]連接數(shù): 一二三0四[[五*五+一]*六]*[二八*二八]可訓(xùn)練參數(shù): 一五六 [[五*五+一]*六]S二層:輸入圖片大?。?[二八*二八]*六卷積窗大?。?二*二卷積窗種類: 六輸出下采樣圖數(shù)量:六輸出下采樣圖大?。篬一四*一四]*六神經(jīng)元數(shù)量: 一一七六 [一四*一四]*六連接數(shù): 五八八0 [二*二+一]*[一四*一四]*六可訓(xùn)練參數(shù): 一二 [六*[一+一]] 卷積和子采樣過程:

卷積過程包括:用一個可訓(xùn)練的濾波器fx去卷積一個輸入的圖像[第一階段是輸入的圖像,后面的階段就是卷積特征map了],然后加一個偏置bx,得到卷積層Cx.

子采樣過程包括:每鄰域四個像素求和變?yōu)橐粋€像素,然后通過標量Wx+一加權(quán),再增加偏置bx+一,然后通過一個sigmoid激活函數(shù),產(chǎn)生一個大概縮小四倍的特征映射圖Sx+一.C三層輸入圖片大小:[一四*一四]*六卷積窗大?。何?五卷積窗種類:一五輸出特征圖數(shù)量:一六輸出特征圖大?。阂?*一0[一四-五+一]神經(jīng)元數(shù)量:一六00[[一0*一0]*一六]]連接數(shù): 一五一六00[六0+一六]*[一0*一0]*二五[部分連接]可訓(xùn)練參數(shù):一五一六 [[六0+一六]*二五][C三中的每個特征map是連接到S二中的所有六個或者幾個特征map的,表示本層的特征map是上一層提取到的特征map的不同組合[這個做法也并不是唯一的]]連接數(shù)計算:

一五一六00=[[六0+一六]*二五]*[一0*一0] 六0=三*六+九*四+六;一六是因為每種神經(jīng)元都有一個常數(shù)連接S四層:輸入圖片大?。?[一0*一0]*一六卷積窗大?。?二*二卷積窗種類: 一六輸出下采樣圖數(shù)量:一六輸出下采樣圖大小:[五*五]*一六神經(jīng)元數(shù)量: 四00 [五*五]*一六連接數(shù): 二000 [二*二+一]*[五*五]*一六可訓(xùn)練參數(shù): 三二 [一六*[一+一]] C五層:輸入圖片大小: [五*五]*一六卷積窗大?。?五*五卷積窗種類: 一二0輸出特征圖數(shù)量: 一二0輸出特征圖大?。?一*一 [五-五+一]神經(jīng)元數(shù)量: 一二0 [一*一二0]連接數(shù): 四八一二0[一六*[五*五]+一]*一*一二0[全連接]可訓(xùn)練參數(shù): 四八一二0[一六*[五*五]+一]*一*一二0F六層:輸入圖片大?。?[一*一]*一二0卷積窗大?。?一*一卷積窗種類: 八四輸出特征圖數(shù)量: 八四輸出特征圖大小: 一 神經(jīng)元數(shù)量: 八四 連接數(shù): 一0一六四一二0*八四[全連接]可訓(xùn)練參數(shù): 一0一六四一二0*八四OUTPUT層:輸入圖片大?。?一*八四輸出特征圖數(shù)量: 一*一0最后,輸出層有一0個神經(jīng)元,是由徑向基函數(shù)單元[RBF]組成,輸出層的每個神經(jīng)元對應(yīng)一個字符類別.RBF單元的輸出,是由公式:

卷積神經(jīng)網(wǎng)絡(luò)的衰落在很長時間里,CNN雖然在小規(guī)模的問題上,如手寫數(shù)字,取得過當(dāng)時世界最好結(jié)果,但一直沒有取得巨大成功.這主要原因是,CNN在大規(guī)模圖像上效果不好,比如像素很多的自然圖片內(nèi)容理解,所以沒有得到計算機視覺領(lǐng)域的足夠重視.深度學(xué)習(xí)的崛起二0一二年一0月,GeoffreyHinton和他的兩個學(xué)生在著名的ImageNet問題上用更深的CNN取得世界最好結(jié)果,使得圖像識別大踏步前進.在Hinton的模型里,輸入就是圖像的像素,沒有用到任何的人工特征.深度學(xué)習(xí)在圖像識別中的應(yīng)用二0一二年六月,《紐約時報》披露了GoogleBrain項目,吸引了公眾的廣泛關(guān)注.這個項目是由著名的斯坦福大學(xué)的機器學(xué)習(xí)教授AndrewNg和在大規(guī)模計算機系統(tǒng)方面的世界頂尖專家JeffDean共同主導(dǎo),用一六,000個CPUCore的并行計算平臺去訓(xùn)練含有一0億個節(jié)點的深度神經(jīng)網(wǎng)絡(luò)[DNN,DeepNeuralNetworks],使其能夠自我訓(xùn)練,對二萬個不同物體的一,四00萬張圖片進行辨識.在開始分析數(shù)據(jù)前,并不需要向系統(tǒng)手工輸入任何諸如“臉、肢體、貓的長相是什么樣子”這類特征.JeffDean說:“我們在訓(xùn)練的時候從來不會告訴機器:‘這是一只貓’[即無標注樣本].系統(tǒng)其實是自己發(fā)明或領(lǐng)悟了‘貓’的概念.”二0一四年三月,同樣也是基于深度學(xué)習(xí)方法,Facebook的

DeepFace

項目使得人臉識別技術(shù)的識別率已經(jīng)達到了

九七.二五%,只比人類識別

九七.五%

的正確率略低那么一點點,準確率幾乎可媲美人類.該項目利用了

層的神經(jīng)網(wǎng)絡(luò)來獲得臉部表征,神經(jīng)網(wǎng)絡(luò)處理的參數(shù)高達

一.二億.這個驚人的結(jié)果為什么在之前沒有發(fā)生?原因當(dāng)然包括算法的提升,比如dropout等防止過擬合技術(shù),但最重要的是,GPU帶來的計算能力提升和更多的訓(xùn)練數(shù)據(jù).百度在二0一二年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識別和人臉識別等問題,并推出相應(yīng)的桌面和移動搜索產(chǎn)品,二0一三年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解.從百度的經(jīng)驗來看,深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率.可以很有把握地說,從現(xiàn)在開始,深度學(xué)習(xí)將取代“人工特征+機器學(xué)習(xí)”的方法而逐漸成為主流圖像識別方法.總結(jié)ANN[人工神經(jīng)網(wǎng)絡(luò)]又被稱為淺層神經(jīng)網(wǎng)絡(luò)[shallowneuralnetwork,也可能使用了CNN的方法.CNN[卷積神經(jīng)網(wǎng)絡(luò)]其實是已經(jīng)很早提出來的理論,也得到了在字母識別數(shù)字識別上的好的運用,letnet-五.DNN[深度神經(jīng)網(wǎng)絡(luò)]可近似為深度卷積神經(jīng)網(wǎng)絡(luò)[CNNs],將卷積神經(jīng)網(wǎng)絡(luò)的深度大大加深.總結(jié)當(dāng)下研究的熱門是用更深層次的卷積神經(jīng)網(wǎng)絡(luò)模型用于圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論