




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、2018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-曠視科技目標檢測概述:Beyond RetinaNet and Mask R-曠視科技已認證的278 人贊了該文章帳號R Talk 是一個深度學習專欄,將通過不定期的推送展示曠視科技的學術(shù)及階段性技術(shù)成果。R是 Research 的縮寫,也是曠視視的 Researcher。R Talk 旨在通過一場場的內(nèi)部代號;而所有的Talk都是來自曠紛呈的深度學習,拋磚引玉,推新,推動中國乃至全球領域深度學習技術(shù)的大發(fā)展。近日,曠視科技 Research Leader、Detection 組博
2、士應邀在將門做了一次 Online。曠視科技把這次 Talk 內(nèi)容以文請見文末。Talk 分為 3 個環(huán)節(jié):Talk,主題為 Beyond RetinaNet and Mask R-字形式梳理出來并作為R Talk 開篇給大家,原Introduction:什么是目標檢測,其技術(shù)現(xiàn)狀是什么;Challenges:目前目標檢測領域的五個點及曠視分別給出的技術(shù)解決方案;:物體檢測技術(shù)的任務遠未完成,the devil is in the detail。物體檢測本質(zhì)上面認為是在同時做分類跟兩個任務。在傳統(tǒng)方法,往往是把兩個任務割裂開來,先做(枚舉所有候選框),然后做分類。從深度學習,分類跟被耦合在網(wǎng)絡
3、中,彼此互相影響。深度神經(jīng)網(wǎng)絡的這幾年的發(fā)展非常迅速,但是目前的網(wǎng)絡設計對于分類跟這兩個任務很難得到熊掌兼得,希望物體檢測在未來的技術(shù)的推動下能有的發(fā)展,同時解決分類跟兩個難題。Introduction1/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-目標檢測技術(shù)是計算機視覺諸多應用的一個基本組件,(實時地)實現(xiàn)對不同類別物體又快又準的框定,準表現(xiàn)在兩個方面,準和分類準。通過手持拍攝的通用目標檢測中,曠視科技COCO 2017 目標檢測冠軍算法跑在從上圖中算法橫向比較來講很不錯,包括可以檢測出如只檢測出一堆玉米棒中的一個。
4、的一些,展現(xiàn)了當前最佳的水平。雖然反光上的人像,但依然有不少的 miss,比又比如汽車駕駛場景下的目標檢測,鼠標所指的小物體(汽車)并不是可以一直檢到,時有時無; 甚至還會出現(xiàn)一些錯誤的檢測結(jié)果??梢姡壳暗哪繕藱z測技術(shù)確實做了不少的東西,出了很多的成果,但是細節(jié)上還是存在很多有待完善的問題。目標檢測算法成為了人工智能公司的大多數(shù)研發(fā)2/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-的標配,包括曠視科技,很多在很大程度上取決于檢測到多少物體。如果往更遠處看,目標檢測技術(shù)將會進一步應用到自動駕駛和醫(yī)療圖像診斷之中。現(xiàn)代目標檢
5、測傳統(tǒng)的目標檢測技術(shù)在接受深度學習洗禮之前多是基于 sliding window 來做的,遍歷一片上的所有 window,據(jù)其提取 hand-crafted 特征,其 pipeline 主要是“特征+分類器”;兩者最大的一個區(qū)別是基于深度學習的現(xiàn)代目標檢測技術(shù)特征是基于深度神經(jīng)網(wǎng)絡,傳統(tǒng)的目標檢測技術(shù)需要手動設計特征,比如 Haar、HOG、LBP、ACF 等;后面再加上一個分類器,分類器主要有SVM、Boosting 和隨機森林。3/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-深度學習出來之后,改變了整套框架。現(xiàn)代目標
6、檢測技術(shù)的 pipeline 為輸入(圖像)-> Backone(主干網(wǎng)絡) -> Head(出口) -> NMS(后處理),可以說目前所有的深度學習檢測器都是基于這套框架來做的;RetinaNet 和 Mask R-是 2017 年出現(xiàn)的兩個非常有代表性的成果, 兩者分別是 one-stage 和 two-stage 的,共同奠定了目標檢測框架的基調(diào)。在 RetinaNet 中,第 1-5 層的特征作為 backbone,第 3-7 層分別接 4 個卷積作為 head;Mask R-本質(zhì)上等價于 FPN+ ROIAlign,其第 1-5 層的特征作為 backbone,并在
7、 3-6 層的 head 上接 2 個全連接層作為輸出。 one-stage 和 two-stage 檢測器之間的本質(zhì)區(qū)別在于檢出率(recall)與(localization)之間的權(quán)衡(tradeoff)。Recall 是指如果一像上有 100個物體,檢測到 99 個,那么 recall 為 99%;Localization 則是指邊界框框住物體的空間上的精度。一般來講,one-stage 檢測器的 recall 較高,但是 localization 會有所折衷;相反, two-stage檢測器的能力則較強,但是 recall 較低,主要是第二個 stage 可以 refine 框的精度,
8、但是也會誤殺一些正樣本。但是大家普遍會覺得 one-stage 檢測器往往更快,比如 YOLO、SSD;two-stage 檢測器往往更準,比如 Faster R- 詳述。、FPN,但這個事情事實上并不成立,后文會有RetinaNet4/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-RetinaNet 出自 ICCV 2017 最佳學術(shù)Focal Loss for Dense Object Detection,本質(zhì)上它與 Mask R-非常相似。RetinaNet 結(jié)構(gòu)上主要基于 FPN,只是在輸出上做了一個非常重要的操作
9、Focal Loss,本質(zhì)上是一個 online hard negative data mining 的過程。RetinaNet 最大的一個亮點是在相同速度下性能優(yōu)于之前大多數(shù)算法;在相同性能下速度快于之前大多數(shù)算法,兼得速度與精度,徹底改變了大家從前關于 one-stage 快、two-stage 準的固有想法。參考:Focal Loss for Dense Object Detection:/abs/1708.0200Mask R-5/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-2017 年何愷明組
10、又做了另外一個工作,叫作 Mask R-,獲得了 ICCV 2017 最佳獎。如果拆來,Mask R-的結(jié)構(gòu)也非常簡單,本質(zhì)上是 FPN+ROIAlign,后者解決的是ROIPool 的對齊問題,它對于檢測可能意義不大,但是對于分割卻意義。由上圖可知,加上 ROIAlign 可以帶來 1+ 的漲點,達到 37.3,再加上 Mask 監(jiān)督信號則漲點更多,換上更大的 backbone (ResNeXt) 最高可達到 39.8。可以說這篇文章的最大貢獻是 ROIPool變換成 ROIAlign 從而解決了對問題。微軟亞洲資深研究員曾做過類似工作Deformable Pool,它本質(zhì)上等于 ROIAl
11、ign+Offset,所以邏輯上來講 Deformable Pool 也有對作用。通過上述分析可以看到,物體檢測技術(shù)發(fā)展到目前 pipeline 似乎已經(jīng)趨近成熟,進入瓶頸期,但是在當前錢最優(yōu)的技術(shù)水平與實際的體檢測。如何去填補這一差距呢?級別的實戰(zhàn)要求之間依然存在巨大的鴻溝,尤其是通用物參考:Mask R-:/abs/1703.0687Challenges6/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-我們認為,the devil is in the detail,本文將從五個細節(jié)點著手去填補這一差距
12、!通過從這些細節(jié)點出發(fā),不斷優(yōu)化這項技術(shù),才能推動其從 challenges 的角度講,我們再次回到現(xiàn)代目標檢測的基本框架輸入(圖像)-> Backone(主干網(wǎng)絡) -> Head(出口) -> NMS(后處理),這其中暴漏了五個潛在的難題:Backbone,目前主要使用的是 ImageNet Pretrained m DenseNet 等;s,比如 VGG-16、ResNet、Head,傳統(tǒng)的 two-stage 網(wǎng)絡慢的主要快;在于 head 太厚,可以對其進行,變得更薄、更Scale,比如圖像中人像的變化很大,大到 2k x 2k,小到 10 x 10,如何使神經(jīng)網(wǎng)絡
13、算法更好地處理物體的變化是一個非常有趣的話題;Batch Size,傳統(tǒng)目標檢測器的 batch size 非常小,為什么不嘗試使用更大的 batch size 呢? Crowd,無論是傳統(tǒng)還是現(xiàn)代目標檢測器,都會使用到一個叫做 NMS 后處理步驟,但是目前現(xiàn)有的 Benchmark 對 NMS 的優(yōu)化并不敏感。以上五個點相當于拋磚引玉,雖然 RetinaNet 和 Mask R-出來之后成績很好,但是一些細節(jié)之處依然有待提升,曠視分別就這五個點給出了的嘗試。Backbone第一個細節(jié)點是 Backbone。很多主干網(wǎng)絡基于 ImageNet 預訓練,從而是分類任務進行設計的。分類網(wǎng)絡訓練到最
14、后會丟棄所有的空間分辨率信息,再做一個輸出;它只需要把全局信息、context 以及更大的感受野組合在一起,得到一個圖像分類層面的信息。7/262018/8/20但是這對于檢測、分割和R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-關鍵點等需要精確每個像素的計算機視覺任務來講并不友好。因為對檢測任務來講,不僅需要感受野的信息,還需要空間分辨率的信息。這是之前用 ImageNet 預訓練模型做檢測的一個非常大的誤區(qū)。另外一個誤區(qū)是包括 RetinaNet 和 Mask R-這兩個工作在內(nèi),其第 1-5 層是預訓練的,但是第 6 層 (或者有些算法的
15、第 7 層)則是隨機初始化的,這不一定很科學,所以如何把 f6、f7 放進 ImageNet 進行預訓練是一個很有意思的話題。DetNet 是曠視專門目標檢測打造的 backbone 網(wǎng)絡,代碼稍后會開源。DetNet 雖然也是針對分類問題進行訓練,但會考慮到始化權(quán)重更為科學。問題的需求;另外就是在 ImageNet 預訓練 P6 層,使得初相較于 FPN 和分類網(wǎng)絡 backbone,DetNet backbone 的改動相對簡單,但是效果非常明顯, 即在后面幾層不做下采樣,而是增加 dilation,從而保留了一定空間分辨率的特征圖;同時也不能做太過,比如 8x,否則計算量會非常大。另外,
16、還會把 P6 加進去一直訓練。參考:DetNet: A Backbone network for Object Detection:/abs/1804.06218/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-這是 DetNet 的框架。上圖略掉了前 3 層,從第 4 層的輸入開始,每層之后會做一個 16x 的下采樣;做 ImageNet 預訓練時會接一個 14x14 GAP 和一個 FC-1000,訓練完之后再把這兩部分去掉??梢钥闯?DetNet 結(jié)構(gòu)上來講和 FPN 一模一樣,只不過是把 ResNe
17、t-50 替換為 DetNet,想法直觀而簡單。DetNet(D)和 ResNet (R) 的結(jié)果對比,自依次是 ImageNet、COCO minival 和COCO test-dev 上的競賽結(jié)果??梢钥闯龇诸惤Y(jié)果上 D-59(23.5)比 R-50(24.1)要優(yōu),當然這可能是由于計算量大的,因此我們又設計了計算量相當?shù)?R-62,D-59 在結(jié)果上依然略9/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-優(yōu);但是在 COCO minival 和 COCO test-dev 檢測結(jié)果上,D-59 要比 R-62 和 R
18、-50 高出很多。這里要說明的一點是,我們復現(xiàn)的 baseline 要普遍高于上的 baseline。在 D-101 和 R-101 的對比中,結(jié)果也是一致的。接著,對 DetNet 的漲點做一些更細致的拆分,主要表現(xiàn)為,對于大物體來講,DetNet 增加了網(wǎng)絡的能力,比如從 AP_85 從 34.5 漲點至 40.0;對于小物體來講,則增加了其 recall 能力,比如 AP_50 從 60.0 漲點至 66.4。10/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-這里是 DetNet 作為 backbone 與當前最佳
19、模型的對比結(jié)果,上圖中的上半部分表示檢測的對比結(jié)果,下半部分是分割的對比結(jié)果;可以看出以 DetNet-59 作為 backbone 的模型 FPN 和Mask R-在 mAP 等多項指標上漲點還是很明顯的,雖然其中有復現(xiàn) baseline 的,但還是無法掩蓋漲點的事實。你會發(fā)現(xiàn),只是簡單改變 backbone 的結(jié)構(gòu),就帶來很大的漲點,所以DetNet 的工作意義非常大。最后總結(jié)一下:backbone 作為神經(jīng)網(wǎng)絡的重要模塊之一,提供了基礎的特征表示,但是非常耗費計算量,通過實驗我們發(fā)現(xiàn),對于一些 single-stage 網(wǎng)絡,backbone 的計算量占比最高可達 90%;backone
20、 通常是分類任務而設計的,對于檢測任務并不友好,DetNet 最有價值的一點在出一種新思路,在設計 base m時更加注重其泛化能力,使其適用于檢測、分割或者關鍵點等不同任務,而不僅僅局限于分類任務,DetNet 希望做一種拋磚引玉的工作;DetNet 是第一個力。檢測任務而設計的骨干網(wǎng)絡,并朝著兼得感受野和空間分辨率的努Head第二個細節(jié)點是 Head。Head 是一個神經(jīng)網(wǎng)絡的“頭部”。two-stage 檢測器長久以來的一個問題是速度的提升,從R-到 Fast R-到 Faster R-再到 R-FCN,本質(zhì)上就做一件事情。從框架的角度講,R的速度非常慢,慢到讓人無法想象,檢測一需要很多
21、秒,從角度講這是不可思議的;迭代到 R-FCN 時,1 秒鐘最多可以檢測 5,這和 one-stage 檢測器YOLO 和 SSD 相比依然沒有競爭力。那么,如何設計一個 two-stage 檢測器,使其既有 YOLO 這樣的速度,同時又保證性能?11/262018/8/20我們可以從網(wǎng)絡兩個最R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-的東西(backbone 和 head)著手,把 backbone 變的更小、更合理;把 head 變輕,則是曠視的另一項成果 Light Head R的工作。Light Head R Light Head
22、R 時,F(xiàn)aster R-的代碼已開源。常見的 two-stage 方法有兩個: Faster R-和 R-FCN,實際上是這兩種方法的一個結(jié)合體。由于 proposal 不可復用,當其不斷增多網(wǎng)絡的計算量會陡增;R-FCN 正是為此而生,它解決了復用的問題,但是空間分辨率卻丟失很多,因此通過增加大量的通道(channel)彌補這一損失,導致通道過多(4000+ 維),特征圖層很厚。Light Head R所做工作就是去除這些過多的通道,發(fā)現(xiàn)對速度影響很明顯,對結(jié)果幾乎沒有影響,不掉點;前面會接一個 large separable convolution,它起到類似于 large kernel
23、 的作用,可以縮小特征圖層。另外一個和 R-FCN 的區(qū)別是,Light Head R的 head 部分是一個全連接層(連接到 PS ROIpool/Align),這非常本質(zhì),影響非常大。因此,Light Head R本質(zhì)的改進主要有兩點:一是 head 可以做到非常薄;二是很多計算量可復用,從而大大提高了速度。參考:Light-Head R-: In Defense of Two-Stage Object Detector:/abs/1711.0726代碼:.com/zengarden/li12/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond R
24、etinaNet and Mask R-這里是 Light Head R的一些結(jié)果。有兩個 baseline:Faster R-和 R-FCN。可以發(fā),則又漲點至現(xiàn),如果加 Large Kernel,mAP 則漲點至 35.9;再加上 Light Head R-37.7,效果很明顯;這只是漲,如果再加上 PS ROI Align,更改 NMS 閾值,大概還可以再漲兩個點。如果對比上述的兩個優(yōu)秀工作 RetinaNet 和 Mask-R-顯。以上是從大模型的角度講,性能要好于市面上的其他同等模型。,可以看到漲點依然非常明我們想強調(diào)的一點是,即使從小模型的角度講,速度的提升依然非常亮眼。這主要是因
25、為通過把head 做大大加快了網(wǎng)絡的速度。Light Head R以 Xception-145 (145 表示 145 MFLOPs)作為 backbone,速度可以實現(xiàn)很大的提升,同時性能保持在較高水平。13/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-通過與市面上主流的小模型相對比,同等速度下比性能,同等性能下比速度,Light Head R都是領先的。當然由于設備、硬件平臺不一樣,其中可能會有一些別。,但是造成本質(zhì)的差參考:Xception: Deep Learning with Depthwise Separab
26、le Convolutions: /abs/1610.0235同時,Light Head R版的工作也在進行之中,提前預告一下。這可能是第一個把 two-stage 檢測器在上運行起來,同時性能又比較合理有意義的一個算法??偨Y(jié)一下,Light Head R的初衷是做,并在性能和速度之間實現(xiàn)了一個很好的權(quán)衡,具體細節(jié)做法通過使用 Large Kernel 和更小更薄的特征圖,把全連接層接在 ROI pool 之后。最后要強調(diào)的一點是 Light Head R還可以做成端的。Scale14/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaN
27、et and Mask R-第三個細節(jié)點是 Scale。在很多的目標檢測場景之下,Scale 的變化會非常大,一像上經(jīng)常會出現(xiàn)不同 scale 的物體?;?Anchor 的做法問題在于預設性,預設處理。之內(nèi)的物體檢測做的比較好,之外的則不能很好地先前的工作比如 SSD 和 FPN 等是一類方法,采取分而治之的策略,缺點是 scale variation 比較受限;CVPR 2018 有篇 oralSNIP(Scale Normalization for Image Pyramids),它代表了另一類工作,但是最大的問題在于推斷速度較慢。那么如何在變化與推斷速度之間實現(xiàn)一個很好的權(quán)衡呢?參考:
28、An Analysis of Scale Invariance in Object Detection - SNIP:/abs/1711.081815/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-SFace 是曠視最近的一個工作,本質(zhì)上是做人臉檢測。目前的很多方法是基于 Anchor 的,好處是可以對 anchor 覆蓋的尺度進行較好的,壞處是難以所有尺度的人臉。同時還有很多方法不使用 anchor,比如 DenseBox,優(yōu)點是可以覆蓋不同尺度的人臉,缺點是SFace 的想法也很簡單,就是吸收整合了上
29、述兩種方法的長處。能力較差。所以參考:SFace: An Efficient Network for Face Detection in Large Scale Variations: /abs/1804.065516/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-SFace 采用 FPN 結(jié)ackbone 是 Xception-39(39 表示 39 M FLOPs),然后 head 有兩個分支,一個是 anchor-based,另一個是 anchor-free。實驗發(fā)現(xiàn)這兩個分支的評分(score)不
30、是很一致,不在同一個范圍之內(nèi),因此加入 IOU 進行 rescore,保證最后得到的 scale 差別不 大。這里是 SFace 的一些結(jié)果。圖的上半部分是 WiderFace 數(shù)據(jù)集上 SFace 與一些當前最優(yōu)模型的對比,可以看出還是非常有優(yōu)勢的,特別是下半部分,在不同輸入大小的情況下,SFace定的精度,同時速度又非??臁T诓辉龊?,這一工作還是非常有價值的。度 overhead 的情況下,同時又把 scale 這個問題解17/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-總結(jié)一下,SFace 的主要工作即是通過整合
31、anchor-based 和 anchor-free 兩種方法來解決 scale 問題;其次,在這項工作中還引入了一個叫做 4K Face 的數(shù)據(jù)集,專門用來解決人臉檢測中的變化問題。Batch Size第四個細節(jié)點是 Batch Size。在一般的目標檢測框架中,batch size 往往很小,比如 R-和 Faster R的為 2;在一些最新的工作比如 RetinaNet 和 Mask R中,batch size 也僅為 16;相比之下,在ImageNet 中分類模型的 batch size 一般設為 256??梢钥吹絻烧叩?gap 非常大。我們因此假設,把目標檢測的 batch size
32、 調(diào)大會有什么效果呢?或者反過來講,batch size 很小存在哪些問題?主要有三個潛在的問題。一是訓練時間較長,二是 BN 統(tǒng)計確,三是正負樣本比例失衡。之前也有工作試圖解決這些問題,即質(zhì)上是在通道上做一些歸一化的操作。的Group Normalization,它本參考:Group Normalization:/abs/1803.084918/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-同樣這些問題,曠 視有一項新工作叫 MegDet。下面直接介紹一下結(jié)果,細節(jié)請見論文。上圖中橫軸為訓練時間軸,縱軸
33、為 COCO 結(jié)果。假設把 batch size 調(diào)到 256,它會很早收斂,如果 batch size 是 16,則收斂時間非常長。同時最有意義的一點是收斂點的精度更好。這是batch size 大的一個潛在好處。參考:MegDet: A Large Mini-Batch Object Detector:/abs/1711.072419/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-MegDet 的實現(xiàn)并不難,主要是學習率 warmup 策略和跨卡批歸一化(CGBN)的工程實現(xiàn)。曠視據(jù)此拿下了 COCO
34、 2017 物體檢測的冠軍,這是目前市面上可以找到的最高結(jié)果。開頭的實例就是拿 MegDet 跑的,雖然這個結(jié)果已經(jīng)非常之高,但實際上仍然存在很多可做優(yōu)化的潛在問題。Crowd第五個細節(jié)點是 Crowd。目標檢測領域中想做,做的不多并且一直不 solid 的一個場景就是 crowd。目前,無論是傳統(tǒng)或者現(xiàn)代物體檢測技術(shù),一個 NMS(Nonum Suppression) 操作來去除多余的候選框,它作為一個后處理步驟加在算法的最后。一般來講,NMS 在通用物體檢測數(shù)據(jù)集比如COCO 和 VOC 上是沒問題的,這些數(shù)據(jù)集本質(zhì)上并不 crowd。真實場景中 crowd 情況非常多,但是由于缺乏相應的
35、數(shù)據(jù)集,導致這一問題并沒有在學術(shù)圈重視起來。為解決這一問題,曠視引入了一個新數(shù)據(jù)集CrowdHuman,希望學術(shù)界引起對這件事情的重視,希望大家一起協(xié)力優(yōu)化這一方向,希望共同努力在 crowd 場景下把目標檢測做的更好、。20/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-這一方向上已有兩個相關工作在嘗試。ICCV 2017 有一個叫做 Soft-NMS 的工作,通過一行代碼改進 NMS;微軟資深研究員有一個 CVPR 2018 的工作Relation Networks,嘗試用端到端方式去學習 NMS,邏輯上講還是非??茖W
36、的。但是上述兩個工作并沒有涉及最本質(zhì)的問題benchmark,從而缺乏了一個科學的衡量標準。參考:Soft-NMS - Improving Object Detection With One Line of Code: /abs/1704.0450Relation Networks for Object Detection:/abs/1711.115721/262018/8/20R Ta k | 曠視科技目標檢測概述:Beyond RetinaNet and Mask R-因此,曠視推出了 CrowdHuman,并已開源。這個 benchmark 的特點是主要做行人檢測,一方面,數(shù)據(jù)標注涵蓋頭部位置,的可見框和完整框,并且人框與頭框之間有綁定關系;另一方面,通過實驗我們發(fā)現(xiàn)該數(shù)據(jù)集有一定的泛化能力,經(jīng)過 CrowdHuman 預訓練之后,在頭部/行人等其他數(shù)據(jù)集上一定程度的漲點。最重要的一點是,這個數(shù)據(jù)集非常 Crowd!參考:CrowdHuman: A Benchmark for Detecting Human in a Crowd: /abs/1805.0012:22/262018/8/20R Ta k | 曠視
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工燒烤工會活動方案
- 商業(yè)會務活動方案
- 困難群眾募捐活動方案
- 四月份商場活動方案
- 國慶中秋減肥活動方案
- 品牌家具活動策劃方案
- 團隊攝影套餐活動方案
- 國慶宣傳活動快閃活動方案
- 園所植樹節(jié)活動方案
- 周末活動親子活動方案
- FZ/T 10025-2022本色布技術(shù)要求規(guī)范
- GB/T 5097-2005無損檢測滲透檢測和磁粉檢測觀察條件
- GB/T 27770-2011病媒生物密度控制水平鼠類
- GB/T 1041-2008塑料壓縮性能的測定
- GA/T 527.1-2015道路交通信號控制方式第1部分:通用技術(shù)條件
- 社區(qū)社群團長招募書經(jīng)典案例干貨課件
- 物理必修一第一章章末檢測卷(一)
- 蘇教版六年級科學下冊單元測試卷及答案(全冊)
- 如何審議預算及其報告新演示文稿
- 融資并購項目財務顧問協(xié)議賣方大股東為個人模版
- 北京市朝陽區(qū)2020-2021學年五年級下學期期末考試語文試卷(含答案解析)
評論
0/150
提交評論