完整版目標(biāo)檢測(cè)綜述_第1頁(yè)
完整版目標(biāo)檢測(cè)綜述_第2頁(yè)
完整版目標(biāo)檢測(cè)綜述_第3頁(yè)
完整版目標(biāo)檢測(cè)綜述_第4頁(yè)
完整版目標(biāo)檢測(cè)綜述_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、傳統(tǒng)目標(biāo)檢測(cè)方法首先在給定的圖像上傳統(tǒng)Ll標(biāo)檢測(cè)的方法一般分為三個(gè)階段:如上圖所示,最后 使用訓(xùn)練的分類器進(jìn)行分然后對(duì)這些區(qū)域提取特征,選擇一些候選的區(qū)域, 類。下面我們對(duì)這三個(gè)階段分別進(jìn)行介紹。山于IJ標(biāo)可能出現(xiàn)在這一步是為了對(duì) 目標(biāo)的位置進(jìn)行定位。區(qū)域選擇(1)所以最初采用滑動(dòng)窗口而且Ll標(biāo)的大小、長(zhǎng)寬比例也不確定,圖像的任何位置, 這種窮而且需要設(shè)置不同的尺度,不同的長(zhǎng)寬比。的策略對(duì)整幅圖像進(jìn)行遍歷, 時(shí)間舉的策略雖然包含了 Ll標(biāo)所有可能出現(xiàn)的位置,但是缺點(diǎn)也是顯而易見的: 這也嚴(yán)重影響后續(xù)特征提取和分類的速度和性復(fù)雜度太高,產(chǎn)生冗余窗口太多,(實(shí)際上山于受到時(shí)間復(fù)雜度的問(wèn)題,滑動(dòng)

2、窗口的長(zhǎng)寬比一般都是固定的設(shè)能。 即便是滑動(dòng)窗口遍歷也不所以對(duì)于長(zhǎng)寬比浮動(dòng)較大的多類別IJ標(biāo)檢測(cè),置兒個(gè), 能得到很好的區(qū)域)山于IJ標(biāo)的形態(tài)多樣性,光照變化多樣性,背景多樣性等因特征提?。?)然而提取特征的好壞直接影響到分素使得設(shè)訃一個(gè)魯棒的特征并不是那么容易。HOG等)(這個(gè)階段常用的特征有類的準(zhǔn)確性。SIFT、 等。 主要有SVM, AdabOOSt 分類器(3)總結(jié):傳統(tǒng)IJ標(biāo)檢測(cè)存在的兩個(gè)主要問(wèn)題:一是基于滑動(dòng)窗口的區(qū)域選擇策略 沒(méi)有針對(duì)性,時(shí)間復(fù)雜度髙,窗口冗余;二是手工設(shè)計(jì)的特征對(duì)于多樣性的變 化并沒(méi)有很好的魯棒性。的深度學(xué)習(xí)目標(biāo)檢測(cè)算法二、基于RegiOnPrOPOSal對(duì)于傳

3、統(tǒng)目標(biāo)檢測(cè)任務(wù)存在的兩個(gè)主要問(wèn)題,我們?cè)撊绾谓鉀Q呢? region提供了很好的解決方案。PrOPOSalregiOn對(duì)于滑動(dòng)窗口存在的問(wèn)題,PrOPOSaK候選區(qū)域)是預(yù)先找出圖中IJ標(biāo)可能出現(xiàn)的位置。但山于region PrOPOSal 利用了圖像中的紋理、邊緣、顏色等信息,可以保證在選取較少窗口(兒千個(gè)甚 至兒白個(gè))的情況下保持較高的召回率。這大大降低了后續(xù)操作的時(shí)間復(fù)雜度, 并且獲取的候選窗口要比滑動(dòng)窗口的質(zhì)量更高(滑動(dòng)窗口固定長(zhǎng)寬比)。比較常 用的 region PrOPOSal 算法有 SeleCtiVe SearCh 和 edge Boxes,如果想具體 了解 region PrO

4、POSal 可以看一下 PAMI2015 的 44 What makes for effective detection proposals? ”有了候選區(qū)域,剩下的工作實(shí)際就是對(duì)候選區(qū)域進(jìn)行圖像分類的工作(特征提取 +分類)。對(duì)于圖像分類,不得不提的是2012年ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVRC)上,機(jī)器學(xué)習(xí)泰斗GeOffrey HintOn教授帶領(lǐng)學(xué)生KriZheVSky使用卷積 神經(jīng)網(wǎng)絡(luò)將ILSVRC分類任務(wù)的Top-5 error降低到了 15.3%,而使用傳統(tǒng)方法的第二名top-5 error高達(dá)26.2%o此后,卷積神經(jīng)網(wǎng)絡(luò)占據(jù)了圖像分類任務(wù)的絕對(duì)統(tǒng) 治地位,微軟最

5、新的ReSNet和谷歌的InCePtiOn V4模型的top-5 error降到了 4% 以內(nèi)多,這已經(jīng)超越人在這個(gè)特定任務(wù)上的能力。所以IJ標(biāo)檢測(cè)得到候選區(qū)域后 使用CNN對(duì)其進(jìn)行圖像分類是一個(gè)不錯(cuò)的選擇。2014年,RBG ( RoSS B.GirShiCk)大神使用region PrOPOSaI+CNN代替?zhèn)鹘y(tǒng)Ll標(biāo)檢測(cè)使用的滑動(dòng)窗I 工 設(shè)計(jì)特征,設(shè)計(jì)了 RCNN框架,使得IJ標(biāo)檢測(cè)取得巨大突破,并開啟了基于深 度學(xué)習(xí)目標(biāo)檢測(cè)的熱潮。1. R-CNN (CVPR2014, TPAMl2015)(RegiOn-based COnVOIUtiOnNetWOrkS for ACCUrate

6、ObjeCt detection and SegmentatiOn)R-CNN: RegiOn-based COnVOlUtiOnal NetWOrkWarPe<1 regionJcroplaiwu n*pcr>vn: vcs.IVnialIIOr9 no.1. InPUt 2. EXIraCtI region 3. COmPUte 4. CIaSSify image PrOPOSaIS (2k) CNN IeaIUreS regions上面的框架圖清晰的給岀了 R-CNN的Ll標(biāo)檢測(cè)流程:(1) 輸入測(cè)試圖像(2) 利用SeleCtiVe SearCh算法在圖像中提取2000個(gè)左

7、右的region PrOPOSalo將每個(gè)region PrOPOSal縮放(WarP)成227x227的大小并輸入到CNN ,將CNN 的fc7層的輸出作為特征。將每個(gè)region PrOPOSal提取到的CNN特征輸入到SVM進(jìn)行分類。上面的框架圖是測(cè)試的流程圖,要進(jìn)行測(cè)試我們首先要訓(xùn)練好提取特征的CNN 模型,以及用于分類的SVM:使用在ImageNet上預(yù)訓(xùn)練的模型(AIeXNet/VGG16) 進(jìn)行微調(diào)得到用于特征提取的CNN模型,然后利用CNN模型對(duì)訓(xùn)練集提特征訓(xùn) 練 SVMo對(duì)每個(gè)region PrOPOSal縮放到同一尺度是因?yàn)镃NN全連接層輸入需要保證維度 固定。上圖少畫了一

8、個(gè)過(guò)程對(duì)于SVM分好類的region PrOPOSal做邊框回歸(bounding-box regression)邊框回歸是對(duì)region PrOPOSal進(jìn)行糾正的線性回歸 算法,為了讓region PrOPOSal 取到的窗口跟目標(biāo)真實(shí)窗口更吻合。因?yàn)閞egion PrOPOSal提取到的窗口不可能跟人手工標(biāo)記那么準(zhǔn),如果region PrOPOSal跟Ll標(biāo) 位置偏移較大,即便是分類正確了,但是山于IOU(region PrOPOSal與GrOUnd TrUth 的窗口的交集比并集的比值)低于0.5,那么相當(dāng)于Ll標(biāo)還是沒(méi)有檢測(cè)到。小結(jié):R-CNN在PASCAL VOC2007上的檢測(cè)結(jié)

9、果從DPM HSC的34.3%直接提升到 Y 66%(mAP)o如此大的提升使我們看到了 region PrOPOSaI+CNN的巨大優(yōu)勢(shì)。 但是R-CNN框架也存在著很多問(wèn)題:(1) 訓(xùn)練分為多個(gè)階段,步驟繁瑣:微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練邊框回歸器(2) 訓(xùn)練耗時(shí),占用磁盤空間大:5000張圖像產(chǎn)生兒百G的特征文件 速度慢:使用GPU, VGG16模型處理一張圖像需要47s。針對(duì)速度慢的這個(gè)問(wèn)題,SPP-NET給出了很好的解決方案。2. SPP-NET (ECCV2014, TPAMI2015)(SPatial PyramiCi POOIingin DeeP COnVOIUtiOnal Ne

10、tWOrkS for Visual ReCOgnitiOn)先看一下R-CNN為什么檢測(cè)速度這么慢,一張圖都需要47s !仔細(xì)看下R-CNN框 架發(fā)現(xiàn),對(duì)圖像提完region PrOPOSal (2000個(gè)左右)之后將每個(gè)PrOPOSal當(dāng)成一 張圖像進(jìn)行后續(xù)處理(CNN提特征+SVM分類),實(shí)際上對(duì)一張圖像進(jìn)行了 2000次 提特征和分類的過(guò)程! 有沒(méi)有方法提速呢?好像是有的,這2000個(gè)region PrOPOSal不都是圖像的一部分嗎,那么我們完全可以對(duì)圖像提一次卷積層特征, 然后只需要將region PrOPOSal在原圖的位置映射到卷積層特征圖上,這樣對(duì)于一 張圖像我們只需要提一次卷

11、積層特征,然后將每個(gè)region PrOPOSal的卷積層特征 輸入到全連接層做后續(xù)操作。(對(duì)于CNN來(lái)說(shuō),大部分運(yùn)算都耗在卷積操作上, 這樣做可以節(jié)省大量時(shí)間)?,F(xiàn)在的問(wèn)題是每個(gè)region PrOPOSal的尺度不一樣, 直接這樣輸入全連接層肯定是不行的,因?yàn)槿B接層輸入必須是固定的長(zhǎng)度。 SPP-NET恰好可以解決這個(gè)問(wèn)題:.經(jīng)過(guò)CNN, -NET的網(wǎng)絡(luò)結(jié)構(gòu)圖,任意給一張圖像輸入到上圖對(duì)應(yīng)的就是SPP共 產(chǎn)生,VGG16最后的卷積層為conv5,3卷積操作我們可以得到卷積特征(比如對(duì) 應(yīng)到特征圖的region PrOPOSaIWindOW張?zhí)卣鲌D)。圖中的是就是原圖一個(gè)512的 特征映射

12、到同樣的維度,將其作為全連區(qū)域,只需要將這些不同大小WindOW使 用了空間金字塔NET-SPP接的輸入,就能保證只對(duì)圖像提取一次卷積層特征。.釆樣(SPatial Pyramid pooling):將每個(gè) WindOW 劃分為 4*4, 2*2, 1*1 的塊,然后 每個(gè)塊使用max-pooling下釆樣,這樣對(duì)于每個(gè)WindOW經(jīng)過(guò)SPP層之后都得到 了一個(gè)長(zhǎng)度為(4*4+2*2÷l)*512維度的特征向量,將這個(gè)作為全連接層的輸入進(jìn) 行后續(xù)操作。小結(jié):使用SPP-NET相比于R-CNN可以大大加快Ij標(biāo)檢測(cè)的速度,但是依然存在著很多問(wèn)題:(1) 訓(xùn)練分為多個(gè)階段,步驟繁瑣:微調(diào)

13、網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練訓(xùn)練邊框回歸器(2) SPP-NET在微調(diào)網(wǎng)絡(luò)的時(shí)候固定了卷積層,只對(duì)全連接層進(jìn)行微調(diào),而對(duì)于一個(gè)新的任務(wù),有必要對(duì)卷積層也進(jìn)行微調(diào)。(分類的模型提取的特征更注重高層 語(yǔ)義,而標(biāo)檢測(cè)任務(wù)除了語(yǔ)義信息還需要Ll標(biāo)的位置信息)針對(duì)這兩個(gè)問(wèn)題,RBG 乂提出FaSt R-CNN, 一個(gè)精簡(jiǎn)而快速的Ll標(biāo)檢測(cè)框架。3. FaSt R-CNN(ICCV2015)有了前邊R-CNN和SPP-NET的介紹,我們直接看FaSt R-CNN的框架圖:IulIV-Conncted IayerS <tce. lc7)Hxecl-Ieny;Ih reprvseiikition框架圖對(duì)比,可

14、以發(fā)現(xiàn)主要有兩處不同:一是最后一個(gè)卷積層后CNNR-與,-task IOSS),加了一個(gè)ROl POOling layer二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi網(wǎng) 絡(luò)中訓(xùn)練。將邊框回歸直接加入到CNN對(duì)每個(gè)NET的一個(gè)精簡(jiǎn)版,SPP-NETSPPlayerROl (1) PoOling實(shí)際上是-只需要下采 樣到一IayerpooIingROI使用了不同大小的金字塔映射,而PrOPOSal 個(gè)7x7的特征圖。對(duì)于VGG16網(wǎng)絡(luò)COnV5_3有512個(gè)特征圖,這樣所有region PrOPOSal對(duì)應(yīng)了一個(gè)7*7*512維度的特征向量作為全連接層的輸入。R-CNN訓(xùn)練過(guò)程分為了三個(gè)階段,而F

15、aSt R-CNN直接使用SOftmaX替代SVM 分類,同時(shí)利用多任務(wù)損失函數(shù)邊框回歸也加入到了網(wǎng)絡(luò)中,這樣整個(gè)的訓(xùn)練過(guò) 程是端到端的(除去region PrOPOSal提取階段)。FaSt R-CNN在網(wǎng)絡(luò)微調(diào)的過(guò)程中,將部分卷積層也進(jìn)行了微調(diào),取得了更好 的檢測(cè)效果。小結(jié):FaSt R-CNN融合了 RCNN和SPP-NET的精髓,并且引入多任務(wù)損失函數(shù), 使整個(gè)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試變得十分方便。在PaSCal VOC2007訓(xùn)練集上訓(xùn)練,在 VOC2007測(cè)試的結(jié)果為66.9%(mAP),如果使用VOC2007+2012訓(xùn)練集訓(xùn)練,在 VOC2007 ±測(cè)試結(jié)果為70% (數(shù)據(jù)集

16、的擴(kuò)充能大幅提高Ll標(biāo)檢測(cè)性能)。使用 VGG16每張圖像總共需要3s左右。缺點(diǎn):region PrOPOSal的提取使用SeleCtiVe search, Ll標(biāo)檢測(cè)時(shí)間大多消耗在這 上面(提region PrOPOSal 23s,而提特征分類只需0.32s),無(wú)法滿足實(shí)時(shí)應(yīng)用, 而且并沒(méi)有實(shí)現(xiàn)真正意義上的端到端訓(xùn)練測(cè)試(region PrOPOSal使用SeleCtiVe SearCh先提取處來(lái))。那么有沒(méi)有可能直接使用CNN直接產(chǎn)生region PrOPOSal并 對(duì)其分類? FaSter R-CNN框架就是符合這樣需要的U標(biāo)檢測(cè)框架。4. FaSter R-CNN(NIPS2015)(

17、FaSter R-CNN: TOWardSReaI-TimeObjeCt DeteCtiOn With RegiOn PrOPOSal NetWOrkS)在region PrOPOSal + CNN分類的這種Ll標(biāo)檢測(cè)框架中,region PrOPOSal質(zhì)量好壞 直接影響到Ll標(biāo)檢測(cè)任務(wù)的精度。如果找到一種方法只提取兒白個(gè)或者更少的高 質(zhì)量的預(yù)選窗口,而且召回率很高,這不但能加快IJ標(biāo)檢測(cè)速度,還能提高口標(biāo) 檢測(cè)的性能(假陽(yáng)例少)。RPN(RegiOn PrOPOSal NetWOrkS)網(wǎng)絡(luò)應(yīng)運(yùn)而生。 RPN 的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生region proposal,使用的方法本

18、質(zhì)上就 是滑動(dòng)窗口CRPN的設(shè)計(jì)比較巧妙,RPN只需在最后的卷積層上滑動(dòng)一遍,因?yàn)椤?region PrOPOSal機(jī)制和邊框回歸可以得到多尺度多長(zhǎng)寬比的anchor,給定輸入圖像(假設(shè)分模型)網(wǎng)絡(luò)結(jié)構(gòu)圖(使用了 ZF我們直接看上邊的RPNO)(大小約為40*60辨率為600*1000),經(jīng)過(guò)卷積操作得到最后一層的卷積特征圖 最后一層卷與特征圖進(jìn)行卷積,的卷積核(滑動(dòng)窗口)在這個(gè)特征圖上使用3怡 維2563*3的區(qū)域卷積后可以獲得一個(gè)個(gè)feature map,那么這個(gè)積層共有 256CNNFaSt R-和reg layer分別用于分類和邊框回歸(跟后邊接的特征向量,CIS Iayer滑窗對(duì)應(yīng)的

19、每個(gè)特征。3*3類似,只不過(guò)這里的類別只有Ll標(biāo)和背景兩個(gè)類 別)region )的種長(zhǎng)寬比(2:1,1:2,2:1 (區(qū)域同時(shí)預(yù)測(cè)輸入圖像3種尺度 128,256,512), 3,總 feature map 的 anchor。所以對(duì)于這個(gè) 40*60PrOPOSah 這種 映射的機(jī)制稱為這樣個(gè)region PrOPOSaIo共有約20000(40*60*9)個(gè)anchor,也就是預(yù)測(cè)20000滑動(dòng)窗口操作是但是:設(shè)計(jì)的好處是什么呢?雖然現(xiàn)在也是用 的滑動(dòng)窗口策略,次416*16倍(中間經(jīng)過(guò)了在卷積層特征圖上進(jìn)行的,維度較 原始圖像降低了對(duì)應(yīng)了三種尺度和三種長(zhǎng)寬比種anchor操作);多尺度采

20、用 Y 9pooling2*2的外的窗口也能得到一個(gè)跟U種anchor加上后邊接了邊框回歸, 所以即便是這9使用的檢測(cè)框架-CNNNlPS2015版本的FaSter Ro標(biāo)比較接近的 regiOn PrOPOSal 一樣,CNN整體流程跟FaSt R-RPN網(wǎng)絡(luò)+Fast R-CNN網(wǎng)絡(luò)分離進(jìn)行的U標(biāo)檢測(cè), 是。SearCh) RPNPrOPOSal現(xiàn)在是用網(wǎng)絡(luò)提取的(代替原來(lái)的SeleCtiVe只是region RPN訓(xùn)練-CNN網(wǎng)絡(luò)實(shí)現(xiàn)卷積層的權(quán)值共享,的網(wǎng)絡(luò)和同時(shí)作者為了讓RPNFaSt R :4CNN的時(shí)候用了階段的訓(xùn)練方法FaStR和 網(wǎng)絡(luò);RPN上預(yù)訓(xùn)練的 模型初始化網(wǎng)絡(luò)參數(shù),微調(diào)

21、ImageNet使用在(1).(2)使用中RPN網(wǎng)絡(luò)提取region PrOPOSal訓(xùn)練FaSt R-CNN網(wǎng)絡(luò); 使用的FaSt R-CNN網(wǎng)絡(luò)重新初始化RPNz固定卷積層進(jìn)行微調(diào): 固定(2)中FaSt R-CNN的卷積層,使用中RPN提取的region PrOPOSal微調(diào)網(wǎng) 絡(luò)。權(quán)值共享后的RPN和FaSt R-CNN用于IJ標(biāo)檢測(cè)精度會(huì)提高一些。使用訓(xùn)練好的RPN網(wǎng)絡(luò),給定測(cè)試圖像,可以直接得到邊緣回歸后的region PrOPOSaL根據(jù)region PrOPOSal的類別得分對(duì)RPN網(wǎng)絡(luò)進(jìn)行排序,并選取前300 個(gè)窗口作為FaSt R-CNN的輸入進(jìn)行目標(biāo)檢測(cè),使用VOeO7+

22、12訓(xùn)練集訓(xùn)練, VOC2007 測(cè)試集測(cè)試 mAP 達(dá)到 73.2% (SeIeCtiVe SearCh + FaSt R-CNN 是 70%),目 標(biāo)檢測(cè)的速度可以達(dá)到每秒5幀(SeIeCtiVe SearCh+Fast R-CNN是23s 一張)。 需要注意的是,最新的版本已經(jīng)將RPN網(wǎng)絡(luò)和FaSt R-CNN網(wǎng)絡(luò)結(jié)合到了一起一 將RPN獲取到的PrOPOSal直接連到ROl POOling層,這才是一個(gè)真正意義上的 使用一個(gè)CNN網(wǎng)絡(luò)實(shí)現(xiàn)端到端目標(biāo)檢測(cè)的框架。小結(jié):FaSter R-CNN將一直以來(lái)分離的region PrOPOSal和CNN分類融合到了一起, 使用端到端的網(wǎng)絡(luò)進(jìn)行Ll

23、標(biāo)檢測(cè),無(wú)論在速度上還是精度上都得到了不錯(cuò)的提高。 然而FaSter R-CNN還是達(dá)不到實(shí)時(shí)的目標(biāo)檢測(cè),預(yù)先獲取region proposal,然后 在對(duì)每個(gè)PrOPOSal分類計(jì)算量還是比較大。比較幸運(yùn)的是YOLO這類標(biāo)檢測(cè)方 法的出現(xiàn)讓實(shí)時(shí)性也變的成為可能。總的來(lái)說(shuō),從R-CNN, SPP-NET, FaStR-CNN, FaSter R-CNN 一路走來(lái),基于深度學(xué)習(xí)IJ標(biāo)檢測(cè)的流程變得越來(lái)越精簡(jiǎn),精度越來(lái)越高,速度也越來(lái)越快??梢哉f(shuō)基于region ProPoSal的R-CNN系列LJ標(biāo) 檢測(cè)方法是當(dāng)前目標(biāo)最主要的一個(gè)分支。三、基于回歸方法的深度學(xué)習(xí)目標(biāo)檢測(cè)算法FaSter R-CN

24、N的方法LJ前是主流的H標(biāo)檢測(cè)方法,但是速度上并不能滿足實(shí)時(shí)的 要求。YoLO 類的方法慢慢顯現(xiàn)出其重要性,這類方法使用了回歸的思想,既 給定輸入圖像,直接在圖像的多個(gè)位置上回歸出這個(gè)位置的LI標(biāo)邊框以及Ll標(biāo)類 別。UnifiedJOnce: LOOk OnIy (YOUOraI)(CVPR2016, YOLO 1.Real-Time ObjeCt DeteCtiOn)YOLO的H標(biāo)檢測(cè)的流程圖:我們直接看上面的網(wǎng)格7*7(1)給個(gè)一個(gè)輸入圖像,首先將圖像劃分成個(gè)邊框(包括每個(gè)邊框是H標(biāo)的置信度以2(2) 對(duì)于每個(gè)網(wǎng)格,我們都預(yù)測(cè)及每個(gè)邊框區(qū)域在多個(gè)類別上的概率)個(gè)IJ標(biāo)窗口,然后根據(jù)閾值去

25、除可能性比7*7*2根據(jù)上一步可以預(yù)測(cè)出(3)NMS較低的H標(biāo)窗口,最后去除冗余窗口即可。在找口標(biāo),直接region PrOPOSal可以看到整個(gè)過(guò)程非常簡(jiǎn)單,不需要中間的回歸便完成了位置和類別 的判 定。4Jc corii HAtcCh IayerLntCmICdIaK IayCIreg IAyeI那么如何才能做到直接在不同位置的網(wǎng)格上回歸出IJ標(biāo)的位置和類別信息呢? 的模型比較類似,主GOOgLeNet ±面是YoLO的網(wǎng)絡(luò)結(jié)構(gòu)圖,前邊的網(wǎng)絡(luò)結(jié)構(gòu)跟 維的全連接層,然后后邊乂 4096要的是最后兩層的結(jié)構(gòu),卷積層之后接了一個(gè) 就是劃分的網(wǎng)格數(shù),現(xiàn)在要在嚴(yán)7全連接到一個(gè)7*7*30維

26、的張量上。實(shí)際上這 也就是每個(gè)網(wǎng)格上預(yù)測(cè)Ll標(biāo)兩個(gè)可能的位置以及這個(gè)位置的IJ標(biāo)置信度和類別, 1,長(zhǎng)寬)4維坐標(biāo)信息(中心點(diǎn)坐標(biāo)+每個(gè)網(wǎng)格預(yù)測(cè)兩個(gè)D標(biāo),每個(gè)Izl標(biāo)的信息有 (4+1)*2+20 = 30,總共就是202O(VOC上個(gè)類別)個(gè)是Ll標(biāo)的置信度,還有類別數(shù) 維的全圖特征直接在每個(gè)網(wǎng)格上回歸出IJ標(biāo)維的向量。這樣可以利用前邊4096 檢測(cè)需要的信息(邊框信息加類別)。大大加快了檢測(cè)的速度,YOLO將IJ標(biāo)檢測(cè) 任務(wù)轉(zhuǎn)換成一個(gè)回歸問(wèn)題,小結(jié):張圖像。而且山于每個(gè)網(wǎng)絡(luò)預(yù)測(cè)IJ標(biāo)窗口時(shí)使 用的45使得YOLO可以每秒處理YOLOo但是是全圖信息,使得false POSitiVe比 例大

27、幅降低(充分的上下文信息)的網(wǎng)格回歸會(huì)使得Ll標(biāo)不只使用機(jī)制,7穴7也 存在問(wèn)題:沒(méi)有了 region PrOPOSalYoLo的檢測(cè)精度并不是很高。能非常精準(zhǔn)的定位,這也導(dǎo)致了(SSD: SingIeShOtMUItiBOXDeteCtor) 2.SSD的粗糙網(wǎng)格內(nèi)回歸對(duì)IJ 7*7上面分析了 YOLO存在的問(wèn)題,使用整圖特征在 的思想實(shí)現(xiàn)精準(zhǔn)一些那是不是可以結(jié)合region PrOPOSal標(biāo)的定位并不是很精準(zhǔn)。 機(jī)制做到了這點(diǎn)OanChor的CNN-FaSterR的回歸思想以及YOLO結(jié)合SSD的定位?-YOLOSSD獲取IJ標(biāo)位置和類別的方法跟 上圖是SSD的一個(gè)框架圖,首先 預(yù)測(cè)某S

28、SDvOLO預(yù)測(cè)某個(gè)位置使用的是全圖的特征,樣,都是使用回歸,但是。 那么如何建立某個(gè)位個(gè)位置使用的是這個(gè)位置周圉的特征(感覺(jué)更合理一些)機(jī) 的anchorFaster R-CNN置和其特征的對(duì)應(yīng)關(guān)系呢?可能你已經(jīng)想到了,使用 3*38*8,那么就使用(圖b)大小是制。如SSD的框架圖所示,假如某一層特征圖 然后這個(gè)特征回歸得到Ll標(biāo)的坐標(biāo)信息和類別信息的滑窗提取每個(gè)位置的特征, C)O (圖上,這樣可以利用feature map,這個(gè)anchor是在多個(gè)CNN不同于FaSter R-滑窗感受野不3*3多層的特征并且自然的達(dá)到多尺度(不同層的feature mapO同)機(jī)制,使anchorCNN中的結(jié)合了 SSDYOLO中的回歸思想和FaSter R- 小結(jié):速度快的特性,也YoLo用全圖各個(gè)位置的多尺度區(qū)域特征進(jìn)行回歸,既 保持了可以上mAP 一樣比較精準(zhǔn)。SSD在VOC2007CNN保證了窗口預(yù)測(cè)的跟 FaSter R的提出給U標(biāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論