卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用_第1頁
卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用_第2頁
卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用_第3頁
卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用_第4頁
卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

卷積神經(jīng)網(wǎng)絡(luò)及應(yīng)用ContentsProblemSource:圖像分類所面臨的問題BasicTheory:卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)VideoDemo:DeepVisualizationToolBasicTool:深度學(xué)習(xí)框架Caffe和TensorflowApplication1:基于卷積神經(jīng)網(wǎng)絡(luò)的圖像匹配-白天黑夜的匹配?Application2:基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測-Kaggle魚檢測Application3:深度增強(qiáng)學(xué)習(xí)-FlappyBird圖像分類所面臨的普遍問題ProblemSource問題:電腦為何連貓貓狗狗都識別不了?不是世界象棋冠軍早就你被打敗了嗎?坐著看躺著看我們是來看戲的。。。隨便看站著看到底誰的責(zé)任?那么可以不負(fù)責(zé)地把鍋甩給那幫牛逼的數(shù)學(xué)家們他們發(fā)明了好多分類器線性分類器SVM分類器決策樹隨機(jī)森林普通神經(jīng)網(wǎng)絡(luò)。。。然而它們都有共同的困難:無法從直接用像素值組成的一維向量中獲得高效的分類信息傳統(tǒng)解決辦法:手動設(shè)計(jì)可用的圖像分類特征卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)BasicTheory神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本層卷積CONV激活層RELU池化層POOL全連接層FC什么是卷積?待卷積的圖像卷積核圖像的一部分和卷積核相點(diǎn)乘從左至右,從上到下滑動卷積核得到響應(yīng)圖使用多個卷積核為什么引入卷積?卷積的重要作用:提取特征只允許一部分的計(jì)算結(jié)果通過神經(jīng)元,讓一部分的神經(jīng)元的作用更加突出避免最突出的響應(yīng)被淹沒在小輸出的噪聲中激活函數(shù)池化層池化層:顯著降低尺度,增強(qiáng)了特征的不變性全連接層全連接層:神經(jīng)元接收上一層每一個輸出,并且作加權(quán)和,作用只是普通分類器卷積神經(jīng)網(wǎng)絡(luò)有效性直觀分析位置關(guān)系信息保留:卷積、激活層、池化層不改變二維位置關(guān)系,并在該二維關(guān)系中提取特征全連接層使用穩(wěn)定的全局統(tǒng)計(jì)特征進(jìn)行分類盲點(diǎn):為何通過訓(xùn)練能到產(chǎn)生有用的全局統(tǒng)計(jì)特征以及這些統(tǒng)計(jì)特征的具體含義DEMOVIDEO-DeepVisualizationTool數(shù)據(jù)集Dataset-CIFAR10簡單的機(jī)器學(xué)習(xí)模型——線性分類器簡單的機(jī)器學(xué)習(xí)模型——線性分類器1.在統(tǒng)計(jì)意義上衡量分類結(jié)果的正確性——損失函數(shù)lossfunction2.找到一個有效的方法來找到能夠最小化損失函數(shù)的參數(shù)——優(yōu)化Optimization綜上完成一個復(fù)雜的圖像分類任務(wù)需要:標(biāo)記的數(shù)據(jù)集模型學(xué)習(xí)過程損失函數(shù)優(yōu)化SGD,ADAM深度學(xué)習(xí)框架Caffe和TensorflowBasicTool深度學(xué)習(xí)框架存在的目的Basic定義復(fù)雜的運(yùn)算,一般是一個計(jì)算流程,這個運(yùn)算要反復(fù)進(jìn)行,要接收同一規(guī)格的輸入具有深度學(xué)習(xí)所需的固定計(jì)算元素,而且效率必須要高,比如卷積、RELU、梯度計(jì)算、反向傳播權(quán)值更新??紤]效率要求,一般都要能兼容現(xiàn)有的并行計(jì)算框架,如CUDA要能夠并行運(yùn)行計(jì)算任務(wù),具備在多臺機(jī)器上分布的能力PLUS能夠可視化網(wǎng)絡(luò)計(jì)算,可視化運(yùn)算過程和結(jié)果具有一定的靈活性,可以對網(wǎng)絡(luò)架構(gòu)進(jìn)行調(diào)整現(xiàn)有的主流深度學(xué)習(xí)框架Caffe是賈揚(yáng)清在伯克利讀博期間的工作,后由伯克利圖像處理組進(jìn)行維護(hù)Tensorflow是Google力推的深度學(xué)習(xí)框架,2015年底發(fā)布Caffe使用步驟

Step1:轉(zhuǎn)換數(shù)據(jù)需要將圖片數(shù)據(jù)轉(zhuǎn)換為LMDB格式Step2:編寫網(wǎng)絡(luò)定義文件-prototxt定義網(wǎng)絡(luò)結(jié)構(gòu)(.prototxt)定義優(yōu)化方法(totxt)Step3:訓(xùn)練網(wǎng)絡(luò)進(jìn)行前向和反向傳播需要的文件模型定義文件:totxt優(yōu)化定義文件:totxt模型權(quán)值文件:pretrained_weights.caffemodelsolver_80k110k_lr1_3.prototxttrain_totxtCaffe特點(diǎn)

PROsCONs大部分應(yīng)用不需要寫代碼具有Python和MATLAB的借口,底層用C++寫成,通俗易懂非常便于訪問各個步驟的數(shù)據(jù),可以隨時提出特征、響應(yīng)等特別好做模型遷移和細(xì)調(diào)(只需要重新定義一些層,舊層會直接沿用之前的參數(shù))不要python也可以部署通過prototxt來調(diào)用現(xiàn)有的網(wǎng)絡(luò)實(shí)現(xiàn),如果有新種類的層就需要重寫底層代碼,部分還涉及到GPU并行代碼(大部分研究都不需要,而且也可以參考別的)對于循環(huán)神經(jīng)網(wǎng)絡(luò)不太好用文檔比較少(可以通過閱讀代碼解決)在定義一些大網(wǎng)絡(luò)結(jié)構(gòu),不能形成一個層級式的架構(gòu),很多重用的元素如差分結(jié)構(gòu)、inception結(jié)構(gòu)等都要反復(fù)按組成元素定義Tensorflow的核心——運(yùn)算圖ComputationalGraphs運(yùn)算圖:用程序化語句表示計(jì)算流程,其中的變量是容器,運(yùn)算前,對變量進(jìn)行初始化,tensorflow底層自動對流程進(jìn)行識別,進(jìn)行前向和反向運(yùn)算。1.建立變量容器2.前向運(yùn)算定義(注意沒有實(shí)際的運(yùn)算)3.根據(jù)loss計(jì)算w1,w2的梯度(注意沒有實(shí)際的運(yùn)算)4.以上完成了運(yùn)算圖的建立現(xiàn)在進(jìn)入運(yùn)算的過程with:Python用于保證資源回收的機(jī)制填容器調(diào)用運(yùn)算圖進(jìn)行運(yùn)算輸出損失函數(shù)、梯度值5.訓(xùn)練網(wǎng)絡(luò):將圖反復(fù)運(yùn)行,獲得梯度,并更新權(quán)值上述的訓(xùn)練代碼還可以進(jìn)行優(yōu)化用tf.layers函數(shù)自動生成權(quán)值W和偏移b調(diào)用xavier算法生成初始化值調(diào)用自帶的損失函數(shù)計(jì)算函數(shù)利用自帶的權(quán)值更新計(jì)算方法-lr在變,多步梯度的疊加注意這一步只是個示例,這里xy應(yīng)該是和實(shí)際應(yīng)用有關(guān)的值,而不是隨機(jī)值loss牽涉到y(tǒng)_pred和y,y_pred牽涉到W,b,xupdates牽涉到優(yōu)化過程,即權(quán)值的更新過程Tensorflow特點(diǎn)

PROsCONs通過定義運(yùn)算圖的方式,實(shí)現(xiàn)運(yùn)行中可變的網(wǎng)絡(luò)結(jié)構(gòu),可以從底層實(shí)現(xiàn)一些層次,加上python應(yīng)用廣泛,可以迅速實(shí)現(xiàn)新的設(shè)計(jì),因此廣泛用于循環(huán)神經(jīng)網(wǎng)絡(luò)、深度增強(qiáng)學(xué)習(xí)、可變結(jié)構(gòu)網(wǎng)絡(luò)等比較好的并行、分布式計(jì)算支持安裝簡單需要一定技巧不好調(diào)試迭代太快,很多新函數(shù),也有很多舊函數(shù)被啟用,導(dǎo)致兼容問題基于卷積神經(jīng)網(wǎng)絡(luò)的圖像匹配Application1圖像匹配問題特征提?。⊿URF、ORB…)特征匹配圖像拼接場景重建SLAM基于CNN特征的圖像匹配最直觀的方法:用神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行匹配BiologicallyinspiredPlaceRecognitionwithNeuralNetworks–ZetaoCHEN給定地圖上一系列地點(diǎn)的參考圖片,然后給定一張待定位圖片,找出這張帶定位照片在地圖上的位置。難點(diǎn)季節(jié)光照白天-黑夜基于CNN特征的圖像匹配作者使用的是Overfeat網(wǎng)絡(luò)CNN特征提?。?0幀/秒特征匹配(4789個訓(xùn)練圖像):64899uint16×2×4789=6.22×10^8CNN網(wǎng)絡(luò)可以使用一些其他預(yù)訓(xùn)練的網(wǎng)絡(luò),即使其他的數(shù)據(jù)集上使用的也可以,如CaffeNet,選取其中一個層的輸出,也可以達(dá)到相同的效果問題:訓(xùn)練圖像集不能選的太大,計(jì)算量大,特征選取不具備特異性?(沒有閉環(huán)學(xué)習(xí))SLAM-同步地圖建立與定位目前廣泛使用的ORB-SLAM的結(jié)構(gòu)圖提取ORB特征從上一幀或重定位初始化姿態(tài)估計(jì)根據(jù)估計(jì)的相機(jī)位置重新映射圖(一系列關(guān)鍵幀),與當(dāng)前幀進(jìn)行匹配,校正估計(jì)的相機(jī)位置決策是否為新關(guān)鍵幀建立與其他關(guān)鍵幀的連接樹計(jì)算關(guān)鍵幀的BoW關(guān)鍵點(diǎn)篩選:圖中的關(guān)鍵點(diǎn),必須在建立后3幀滿足條件才可以保留關(guān)鍵點(diǎn)生成:根據(jù)三角關(guān)系,計(jì)算圖點(diǎn)對當(dāng)前關(guān)鍵幀和與之相連的關(guān)鍵幀做局部BA對重合較多的關(guān)鍵幀進(jìn)行濾除利用BoW計(jì)算相似性,進(jìn)行備選對象選擇利用RANSAC計(jì)算關(guān)鍵幀三維點(diǎn)對應(yīng)回環(huán)融合:當(dāng)前幀根據(jù)相似關(guān)系進(jìn)行校正,然后向其相鄰幀進(jìn)行傳遞,所有這些幀中能夠看到的地圖點(diǎn)被重新映射到當(dāng)前幀,并且找尋當(dāng)前幀中符合回環(huán)檢測中對應(yīng)的點(diǎn),并進(jìn)行位置更新,進(jìn)而更新關(guān)鍵幀之間的關(guān)系將LC的誤差均勻分布到整個圖中ORB-SLAMSLAM-同步地圖建立與定位LSD-SLAMSLAM-同步地圖建立與定位-backupLSD-SLAMSLAM-同步地圖建立與定位-backupLSD-SLAM基于CNN的深度估計(jì)訓(xùn)練CNN只通過一幅圖片預(yù)測深度信息,然后與SLAM結(jié)合起來,就是CNN-SLAM單目視覺SLAM存在尺度精度上的問題,而如果有深度信息的話,可以改善其精度。IroLaina,ChristianRupprecht,etc.DeeperDepthPredictionwithFullyConvolutionalResidualNetworks單張圖片預(yù)測深度的網(wǎng)絡(luò)結(jié)構(gòu)基于ResNet50+反卷積55ms/frame預(yù)測結(jié)果對比SLAM-同步地圖建立與定位CNN-SLAMLSD-SLAM對于純旋轉(zhuǎn)的場景表現(xiàn)不佳,由于深度信息的引入,CNN-SLAM可以實(shí)現(xiàn)較好的效果結(jié)合SLAM,可以改善CNN深度估計(jì)的精度將關(guān)鍵幀使用CNN進(jìn)行深度預(yù)測,并與LSD-SLAM計(jì)算的結(jié)果進(jìn)行融合基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測Application2Kaggle比賽Google旗下公司,為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的競賽網(wǎng)站。一般由公司、NGO、政府研究機(jī)構(gòu)等提出項(xiàng)目需求,給出數(shù)據(jù)集,采取多階段(一般是2個階段)的比賽方式,排名前列一般有幾萬美元左右的獎金。鯨魚識別2015.12-2016.1本次競賽的目標(biāo)是在航拍的照片中識別單個露脊鯨。數(shù)據(jù)集中含有447頭不同的露脊鯨。難度:照片質(zhì)量參差不齊:清晰度不一致、鯨在照片中所占的比例不一致樣本分布不均勻:部分鯨有很多張照片(十幾張),部分只有1張Deepsense.io的四步方案-頭部定位頭部定位頭部對正花紋對比結(jié)果處理手動標(biāo)記訓(xùn)練集,給出頭部所在的框訓(xùn)練CNN,輸入:縮放到256X256的圖片,輸出:頭部位置用了5個不同的網(wǎng)絡(luò),其結(jié)構(gòu)大致相同,不同的是定位離散化的大小不同頭部定位所用的CNN結(jié)構(gòu)Deepsense.io的四步方案-對正頭部定位頭部對正花紋對比結(jié)果處理從前一步給出的圖片框中選取的部分提取鼻尖(紅)和氣孔(藍(lán))的位置2.根據(jù)這兩個位置進(jìn)行圖像的旋轉(zhuǎn)和縮放保證所有的截圖都能夠有相同的角度和兩點(diǎn)間距頭部對正所用的CNN結(jié)構(gòu)Deepsense.io的四步方案-前兩步后的結(jié)果Deepsense.io的四步方案-花紋分類Almostallofourmodelsworkedon256×256imagesandsharedthesamearchitecture.Allconvolutionallayershad3×3filtersanddidnotchangethesizeoftheimage,allpoolinglayerswere3×3with2stride(theyhalvedthesize).InadditionallconvolutionallayerswerefollowedbybatchnormalizationandReLUnonlinearity圖像增強(qiáng)的手段(訓(xùn)練,測試)–translation:randomupto4pixels,

–rotation:upto8°,

–rescaling:randomratiobetween1.0and1.3,

–randomflip,

–colourperturbationwithscale0.01.魚的分類2017.2-2017.4本次競賽的目標(biāo)是從漁船的監(jiān)控截圖中找出圖中含有哪幾種右側(cè)所示的魚。如果是其他種類,則識別為others難度:較多照片在夜晚拍攝,人眼都很難分辨魚的種類ALB和BET兩種金槍魚區(qū)分不明顯SHARK的樣本過少,導(dǎo)致識別率不高深度增強(qiáng)學(xué)習(xí)-FlappyBirdApplication3FlappyBird簡介FlappyBird中的小鳥有一個恒定的向前速度,操作只有兩種:點(diǎn)擊屏幕:小鳥向上移

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論