

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于級聯特征和圖卷積的三維手部姿態(tài)估計算法姿態(tài)估計是計算機視覺中的熱門研究領域,是對人體姿態(tài)的位置估計。姿態(tài)估計一般可以分為單人姿態(tài)估計(如Open Pose1)、多人姿態(tài)估計(如AlphaPose2)、人體姿態(tài)跟蹤、三維人體姿態(tài)估計。在姿態(tài)估計的研究中,基于手部的姿態(tài)估計研究備受青睞。在人所有的姿態(tài)中,手勢占據了90%,是最主要的人機交互姿態(tài)。未來的生活場景朝著越來越智能化的方向發(fā)展,智能家居、自動駕駛、智慧醫(yī)療及第一視角沉浸式交互等應用場景,都離不開手勢交互的身影。近年來,隨著深度學習的發(fā)展,針對手部的三維姿態(tài)估計研究突飛猛進。Cai等人3提出了一種弱監(jiān)督網絡,使用深度正則化器,將從彩色圖
2、像估計的三維手勢轉換成深度圖,將三維坐標估計損失轉化為深度圖損失,有效地解決了三維關鍵點標記獲取困難這一問題。Ge等人4將手部表面網格估計加入到網絡中,將彩色圖像估計的二維手部的熱度圖通過圖形卷積網絡估計手表面網格,再通過手表面網格回歸三維手勢。該方法識別精度較高,但是手表面網格真實標記缺乏,制作合成數據也較為困難,數據獲取代價較大。對于RGB圖像的三維手部姿態(tài)估計任務,手部獨有的嚴重的自遮擋性和自相似性以及復雜的背景處理,在缺少深度信息的任務里并不容易。無約束的自然場景往往包含復雜的背景和多變的光照條件,要準確地從第一視角RGB 圖像中檢測出指尖的位置依然是一個具有挑戰(zhàn)性的問題。本文在Min
3、imal-Hand5的基礎上結合圖卷積神經網絡6來解決這種天然的遮擋問題,通過級聯的卷積網絡從粗到細優(yōu)化關鍵點位置從而解決不自然的骨架估計。2 網絡結構2.1整體網絡框架在姿態(tài)估計中,常見的手部模型有21關鍵點、16關鍵點、36關鍵點。本文采用Open Pose1提出的標準手部21關鍵點模型。其中編號為0的關鍵點是手腕,其余每根手指分別有4個關鍵點:指關節(jié)、近端指關節(jié)、遠端指關節(jié)、指尖。本文所有對二維和三維的關鍵點估計都是建立在該手部模型之上。用深度學習的方法進行手部姿態(tài)估計,一般是分階段進行的。本文提出的網絡框架按照處理目的分為4個部分:手部的識別、手部二維關鍵點的檢測、手部三維關鍵點的檢測
4、、 手部三維關鍵點的精細化調整。手部的識別采用輕量級網絡回歸手部邊框(Bounding Box)作為后續(xù)主體網絡的預處理操作,使得后續(xù)關鍵點的定位更加準確,同時處理后圖片像素的減少也使得后續(xù)計算量減小。手部二維和三維關鍵點的檢測通過搭建卷積神經網絡提取圖像特征,依據區(qū)域或者特征的重要程度對權重進行調配,引導級聯特征提取模塊獲取更加豐富的基礎提取特征,監(jiān)督網絡主動輸出越來越精確的熱度置信圖。手部三維關鍵點的精細化調整是將三維關鍵點粗結果基于圖卷積神經網絡算法進行優(yōu)化后處理,擬合出更加精確的手部三維關鍵點坐標。2.2基于YOLOv3的手部識別預處理網絡常見的手部預處理方法分為基于數字圖像處理方法和
5、基于深度學習方法兩大類。前者一般采取分割算法得到手部掩模定位手部區(qū)域,例如將RGB圖像轉化為灰度圖像再轉換成二值圖像并選取二值圖像的前景部分作為手勢提取區(qū)域7。本文采取基于深度學習方法的手部預處理網絡,如圖1所示。在進入主體網絡流程前,先采用基于YOLOv38的預處理網絡用于將輸入圖片中的手部和混雜的背景剝離。YOLIOv3相比其他深度學習檢測網絡的優(yōu)勢在于引入Darknet-53作為骨干網絡,采用K-means聚類法5回歸出9種大小不同的先驗框,并且根據金字塔特征圖思想,小尺寸的先驗框用于耦合大尺寸的特征圖,大尺寸的先驗框用于耦合小尺寸的特征圖,可以很好地整合不同尺度的感受野的特征,識別輸入
6、圖片中不同占比的手部。我們將自然場景下的圖片輸入預處理網絡,通過調整Darknet-53網絡內卷積核大小可以控制輸出的特征圖大小,因此對任意尺寸的輸入數據經過這個預處理網絡都可以輸出固定2562563尺寸的、剝離背景單獨手部的手部邊框圖片傳輸給接下來的網絡。圖1網絡流程圖Fig.1Network flow chart2.3基于級聯特征提取的手部關鍵點檢測網絡如圖1所示,二維特征提取模塊使用經典的ResNet509網絡,輸入2562563的RGB圖像輸出3232256的二維特征圖。相比于直接回歸關節(jié)點坐標,基于熱度圖的方法具有漸變連續(xù)可微分的特點,可以提高坐標估計的精細程度10,因此我們在二維和
7、三維檢測模塊融合多特征熱度圖。二維檢測模塊是一個兩層的全連接卷積層。輸入3232256的二維特征圖,輸出二維熱度圖(Heat Maps)。二維熱度圖包含21個手部關鍵點的關節(jié)預測置信圖,通過二維高斯函數編碼每個像素點被每個關鍵點覆蓋的置信度,其公式如式(1)所示:Hl(x,y)=122e(xu)2+(yv)2)22(1)其中l(wèi)代表第l個關鍵點,為函數的寬度參數,(x,y)代表該點像素坐標,(u,v)是中心點坐標,即該關鍵點二維真值(Ground truth)坐標。三維檢測模塊從多熱度圖和特征圖回歸三維手部姿態(tài)。如圖1所示,將二維特征圖和二維熱度圖(2D Heat Maps)進行層級串聯,得到二
8、維聯合特征圖,對二維聯合特征圖進行卷積操作,得到三維偏移熱度圖(3D Delta Maps)。三維偏移熱度圖是子節(jié)點相對于根節(jié)點的三維方向向量,可以很好地反應父子節(jié)點之間的位置關系,將三維偏移熱度圖作為中間熱度圖為三維檢測模塊預測結果添加運動學約束,使網絡架構嵌入類似手部結構的物理限制。將二維聯合特征圖和三維偏移熱度圖進行層級串聯和卷積層操作,分別從XYZ坐標軸表示的圖中選擇置信度最大的點所對應的值為坐標軸的數值,對XYZ軸都執(zhí)行以上操作,將得到的值保存為三維坐標點11,就得到了三維位置熱度圖(3D Location Maps)。三維位置熱度圖和二維熱度圖一樣,反映了每個像素被每個手部關鍵點的
9、三維坐標覆蓋的預測置信度。特征提取網絡具體級聯結構如圖2所示,為了能更好地預測三維位置偏移量,我們先預測一個二維熱度圖,將其作為三維熱度圖的一個條件來提升對三維位置預測的準確性。之后我們再將二維熱度圖和三維偏移圖作為共同條件和特征結合在一起去預測最后的三維位置,通過這樣多層級聯的條件來得到更加準確魯棒的位置信息。圖2級聯特征提取網絡結構Fig.2Cascade feature extraction network structure2.4基于GCN特征增強的手部骨架回歸網絡對于手部骨架而言,它本身是一個天然的圖結構。因此我們很自然地想到基于圖卷積神經網絡(Graph Convolutional
10、 Network, GCN)方法來獲取它內部的隱式關系12。GCN的計算過程與信號處理過程相同,先將卷積核和圖數據通過傅里葉變換轉換到頻域空間,再對頻域空間的系數進行數值運算,最后進行逆傅里葉變換得到卷積后的結果。利用上述模塊生成熱圖后,采用積分回歸方法13將熱圖表示轉化為坐標表示,作為GCN特征增加網絡的初始輸入姿態(tài)。對熱度圖的初始化姿態(tài)進行softed-argmax操作,將熱圖傳播到Softmax層中,該層將熱度圖像素值標準化為似然值(01)之后,再對似然圖層進行積分運算求和操作,從而估算關節(jié)位置:Jki=pApHk(p)(2)其中,Jki表示第k個關節(jié)的位置估計,A表示似然區(qū)域,Hk(p
11、)表示p點上的似然值。因此,每個熱圖矩陣都包含生成初始姿勢的信息。熱圖模塊和坐標轉換相互耦合,使得GCN特征增強網絡可以獲得更準確的初始化姿態(tài),有助于在進行校正之前獲得更精確的局部上下文理解。此外,由于尺寸的限制,基于熱圖的表示在一定程度上導致了關鍵點的量化誤差,轉化為坐標后可以解決這個問題。由于手部姿態(tài)估計涉及的節(jié)點數量較多,我們使用切比雪夫多項式進行逼近。當有n個節(jié)點時,得到GCN層與層之間傳播公式如式(3)所示:Z=D12AD12XW(3)其中,D=D+I,A=A+I,I是單位矩陣,A是代表各個節(jié)點之間位置關系的nn維的鄰接矩陣(Adjacency matrix),D是A的度矩陣(Deg
12、ree matrix)。X是輸入層的特征,Z是輸出層的特征,XRn*m,m是特征向量的維度,W是網絡需要學習的權重,WRm*d,d是輸出向量的維度??紤]到特征圖之間感受野的由粗到細,我們在模塊中設計了一種從粗到精的學習過程,用于增強局部特征學習,糾正部分遮擋的手部關鍵點的坐標。由于基于坐標的模塊缺少圖像的上下文信息,我們?yōu)槊總€關節(jié)位置挖掘了相關的圖像特征,并融合到模塊中。如圖1所示,通過雙線性插值采點,將從圖像特征中挖掘出的初始關鍵點坐標(x,y)上的節(jié)點特征輸入到漸進圖卷積層中來改善姿態(tài)估計結果。漸進GCN特征增強模塊網絡結構如圖3所示,對抽取的每個圖卷積的節(jié)點特征,我們用3個密集連接的GC
13、N模塊來抽取特征,并通過層級1、2的預測在每個層級中進行監(jiān)督,在最后一層輸出預測的三維手部關鍵點坐標。該機制建立了漸進的GCN架構,并通過逐步融合多尺度圖像特征來優(yōu)化關鍵點輸出。圖3漸進GCN特征增強網絡結構Fig.3Progressive GCN feature enhancement network structure2.5損失函數整體網絡是基于端到端的學習,通過多任務學習的策略使得網絡結果更好地收斂。損失函數的定義如式(4)所示:Lall=1(Lheat+Ldelta+Lloc)+LGCN(4)其中Lheat為二維熱度圖損失函數,表示為Lheat=HGTH2,這里HGT為熱度圖的真值,H
14、為網絡估計的熱度圖;Ldeltat為三維偏移熱度圖損失函數,表示為Ldelta=HGTDGTD2,這里HGT作為掩模,DGT為熱度圖的真值,D為網絡估計的熱度圖,表示的是逐像素積。同理,三維位置熱度圖損失函數Lloc=HGTLGTL2。LGCN是圖卷積神經網絡的損失函數,其定義如式(5)所示:LGCN=inj=1j(PijPGTi)M(5)其中為目標點集,對于我們的手部重建的目標關鍵點其個數為21個;j表示的是第j層圖卷積網絡的輸出結果。通過這種多層級的三維骨架估計監(jiān)督可以讓網絡表現出更好的結果。M是一維度的向量表示關鍵點掩模,如果關鍵點存在標注數據,Mi=1,否則為0。3 實驗結果3.1實驗
15、指標對于手部的骨架姿態(tài)估計而言,其本質是一個回歸問題,回歸問題的指標很難通過上述二分類的指標來進行度量。為了驗證模型的優(yōu)越性,這里使用3D 平均準確性(Percentage of Correct Keypoint,PCK)和2D 的關節(jié)點相識性(Object keypoint similarity,OKS)進行評價。3D PCK的計算公式如式(6)所示:PCK=i(didT)il(6)其中i表示關節(jié)點的編號,di表示第i個關節(jié)點的預測值和表達的歐氏距離。d為人體骨架的尺度因子,T為關鍵點的閾值。在本次實驗中d為手掌中心島中指末端的歐式距離,T的閾值設為0.1。同理2D OKS的度量公式如式(7
16、)所示:OKS=iexpd2i/2s22i(vi0)i(vi0)(7)其中s通常指人體骨架的尺度因子,本次實驗設置為手部最小外接框的面積的根;i是一個歸一化因子,與關鍵點標注的難易有關,這主要是根據數據集的標注分布決定的;vi表達的是某些關鍵點i是否存在標答(數據集中該關鍵點是否標注了真值)。對于3D的PCK值,由于需要設定一定的閾值,因此在數值結果受到了閾值T的影響。在機器學習中通常使用一種度量方式來計算這類數字的分數,我們稱之為曲線下面積值的平均(Area Under Curve,AUC)。AUC曲線的計算公式如式(8)所示:AUC=iPCK(Ti)il(8)這里我們設Ti=aid,ai設
17、為2050 mm,中間取10個間隔。3.2實驗數據集本文在以下5個數據集上展開模型的訓練和測試,多維度驗證我們設計的人體手部姿態(tài)估計器的性能。CMU Hand Keypoints Detection Dataset14是由卡內基梅隆大學發(fā)布的手部骨架估計的數據集。Rendered Handpose Dataset(RHD)15是由弗萊堡大學在2022發(fā)布的手部姿態(tài)渲染數據集。Dexter+Object16是2022年由德國的馬普所發(fā)布的手部重建和手部對象跟蹤的數據集。Ego Dexter datasets17是由MPI于2022年發(fā)布于ICCV2022的數據集。GANeratedDataset
18、18是由MPI在CVPR2022年推出的數據集,該數據集主要是由GAN生產的合成數據集。實驗所用數據的分布如表1所示,記錄了數據集所含有的標注及被本次實驗用作訓練集和測試集的數據量。此外,原始的Dexter16數據集有1 912訓練集和846驗證集,但是考慮到更加充分的驗證算法,我們將1 912個訓練集也作為本次實驗的測試集。表1實驗所用數據分布Tab.1Distribution of data used in the experiment手部2D標注手部3D標注訓練集測試集CMU14-16 720-RHD1541 2582 728Dexter+Object16-3 145EgoDexter1
19、7-3 190GANeratedDataset18-331 499-合計-389 4779 0633.3結果與分析實驗過程中的數值曲線如圖4所示,其中圖4(a)是訓練過程中的損失曲線,lossH是二維熱度圖損失值,lossD是三維偏移熱度圖的損失值,lossL是在經過漸進GCN模塊后的三維關鍵點損失值。從圖4(a)可以看出,輸出的粗結果在經過多熱度圖耦合的三維關鍵點檢測器和漸進的GCN模塊的精細化調整后可以收斂出更低的損失值。圖4(b)、(c)、(d)分別表示在RHD15、DO16、ED17測試集下每個訓練周期下的AUC值。圖4網絡訓練時的損失函數曲線和在驗證集下的AUC精度曲線Fig.4Lo
20、ss function curves during network training and AUC accuracy curves under the validation set本次實驗主要和Xiong Zhang等人提出的Mesh2HAND19、Donglai Xiang等人提出的Mon-Cap20、Adnane Boukhayma等人提出的3D pose in the wild21以及Y X Zhou等人提出的Minimal-hand5進行對比。定量的實驗結果與上述4種方法比較對照如表2所示,其中20 mm和30 mm分別指當閾值取相應值時的PCK值,AUC是當閾值取2050 mm時的
21、PCK曲線面積值。由表2可見,我們所改進的方法在3D骨架回歸任務上的結果在各個數據集上的AUC曲線都優(yōu)于其他方法。具體來說,我們所提出的方法相較于Minimal-hand5在DO數據集上AUC大約高了0.8%,在ED17數據集上比Minimal-hand5 AUC大約高了0.7%。對于RHD15數據集,我們所設計的方法比Mesh2Hand19 AUC高了大約3%。就單純的PCK值而言,我們所提出的方法更加接近于真實值,在閾值設為20 mm處,我們提出的方法在DO16數據集上比最好的方法高了0.9%,在RHD15數據集上比最好的方法高了0.8%。雖然在ED17數據集上略低于最好的方法,但是在閾值
22、30 mm處,我們提出的方法遠高于最好的方法(相較于Minimal-hand5高了大約3.7%)。表2本文方法與其他方法實驗結果對比Tab.2Comparison of experimental results between this method and other methods方法數據Dexter+Object16EgoDexter17RHD1520 mm30 mmAUC20 mm30 mmAUC20 mm30 mmAUCMesh2HAND190.7320.8560.8250.7170.7440.7460.8000.9150.901Mon-Cap200.7950.9330.9120.7
23、320.8110.7790.8160.9230.911Adane210.6530.8190.7630.6360.7010.6740.7980.9020.887Minimal-hand50.8210.9530.9230.8380.9170.9140.7990.8830.856本文方法0.8300.9670.931 30.8210.9540.921 30.8240.9610.934 9本次實驗的操作系統為Ubantu18.04,CPU核為i5-6500,GPU的配置為GTX-2080 11 GB。在圖像分辨率為256256的情況下,對算法處理時間和所需功耗進行分析。如表3所示,算法所需的推理時間為
24、52 ms,算法所需的每秒浮點計算量(FLOPs)為9.3108次。結合算法對照實驗分析可知,我們提出的算法在處理時間上和模型復雜度上處于較優(yōu)水平,不僅推理時間和計算量近似于Minimal-hand5,而且姿態(tài)估計精度在多個數據集上都超過了Minimal-hand5的效果。表3推理速度與浮點計算量比較Tab.3Comparison of the time of inference and FLOPs推理時間/ms計算量(FLOPs)Mesh2Hand191 17311.3E10Mon-Cap205647.9E9Adanet216428.5E9Minimal-hand5498E8本文方法529.
25、3E8該結果表明在不影響算法速度的情況下,我們提出的算法在效率上得到了較大的提升,識別推理的幀率(Frames Per Second,FPS)達到了19.23,因此該算法可以使用在視頻流的實時手部骨架檢測中。與此同時,較小的計算量滿足了對模型低功耗、輕量化的需求。我們選擇在上述定量分析中4個對照方法中精度指標表現最好的Minimal-hand5作為定性分析對象。定性的可視化結果如圖5所示(在RHD15測試集上的檢測結果)。從圖中高亮部分的細節(jié)可以看出,本文算法在測試集上的結果明顯優(yōu)于Minimal-hand5算法。在引入漸進GCN模塊后,手部骨架耦合了圖結構的約束,使得其在一些自遮擋比較嚴重的場景下,也能夠檢測出合理的結果。圖5可視化實驗結果對比Fig.5Comparison of visualization experimental results在自然場景下,涉及手物交互時骨架回歸結果如圖6所示。由于人手在抓取物體過程中出現了大面積的遮擋,導致骨架回歸結果在尺度的還原上有些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 甘肅省隴南民康骨科醫(yī)院招聘考試真題2024
- 2025年客戶服務部工作總結與提升計劃
- 物流公司出納職責與費用報銷崗位職責
- 表演藝術教育實習總結范文
- 航空器保修期內維修流程
- 幼兒園教學輔助設備管理培訓計劃
- 2025年田園綜合體建設項目可行性研究報告
- 校際合作的建議與心得體會
- 2025年度婦產科患者滿意度提升計劃
- 兒科慢性病管理工作計劃
- 鉻(六價)方法驗證方法證實報告
- 陜西省西安市蓮湖區(qū)2023-2024學年六年級下學期期末英語試題
- 企業(yè)錄用通知書offer模板
- 人際溝通與禮儀智慧樹知到課后章節(jié)答案2023年下河北工業(yè)職業(yè)技術學院
- 臨床藥理學(完整課件)
- 田徑運動會競賽團體總分記錄表
- 《中小學綜合實踐活動課程指導綱要》
- 公共資源交易中心政府采購業(yè)務流程圖
- 建筑施工單位職業(yè)危害歸類表
- 重慶市醫(yī)療服務價格-重慶市《醫(yī)療服務價格手冊-》
- 《融媒體實務》教學課件(全)
評論
0/150
提交評論