動(dòng)作識(shí)別與行為理解綜述_第1頁(yè)
動(dòng)作識(shí)別與行為理解綜述_第2頁(yè)
動(dòng)作識(shí)別與行為理解綜述_第3頁(yè)
動(dòng)作識(shí)別與行為理解綜述_第4頁(yè)
動(dòng)作識(shí)別與行為理解綜述_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、動(dòng)作識(shí)別與行為理解綜述徐光祐曹媛媛普適計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系北京,100084)摘要隨著“以人為中心計(jì)算”的興起和生活中不斷涌現(xiàn)的新應(yīng)用,動(dòng)作識(shí)別和行為理解逐漸成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。本文主要從視覺處理的角度分析了動(dòng)作識(shí)別和行為理解的研究現(xiàn)狀,從行為的定義和表示、運(yùn)動(dòng)特征的提取和動(dòng)作表示以及行為理解的推理方法三個(gè)方面對(duì)目前的工作做了分析和比較。并且指出了目前這些工作面臨的難題和今后的研究方向。關(guān)鍵詞以人為中心動(dòng)作識(shí)別行為理解中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:AActionRecognitionandActivityUnderstanding:AReviewXUG

2、uangyou,CAOYuanyuan(KeyLabofPervasiveComputing,MinistryofEducation,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)AbstractAstheHuman-centeredcomputingisgettingmoreandmorepopularandnovelapplicationsarecomingup,actionrecognitionandactivityunderstandingareattractingrese

3、archersJattentioninthefieldofcomputervision.Inthispaper,wegiveareviewofthestateinartofworkonactionandactivityanalysis,butfocusonthreeparts:Definitionofactivity,low-levelmotionfeaturesextractionandactionrepresentation,andreasoningmethodforactivityunderstanding.Furthermore,openproblemsforfutureresearc

4、handpotentialdirectionsarediscussed.Keywordshuman-centeredcomputing,actionrecognition,activityunderstanding引言計(jì)算正滲透和影響到人們生活的各個(gè)方面,根據(jù)傳感器數(shù)據(jù)來識(shí)別和理解人的動(dòng)作和行為就成為未來“以人為中心的計(jì)算”(Human-centeredcomputing)中的關(guān)鍵1。其中基于視覺的動(dòng)作識(shí)別和行為理解尤為重要。因?yàn)樵谌酥g的人際(interpersonal)交互過程中,視覺是最重要的信息。視覺可以幫助人們迅速獲得一些關(guān)鍵特征和事實(shí),如對(duì)方的表情、手勢(shì)、體態(tài)和關(guān)注點(diǎn)等,這些視覺線

5、索綜合起來反映了對(duì)方的態(tài)度,潛在意圖和情緒等信息。未來人機(jī)交互和監(jiān)控中,機(jī)器要感知人的意圖很大程度上就需要依靠視覺系統(tǒng)。此外,視覺傳感器體積小、被動(dòng)性和非接觸式的特點(diǎn),使得視覺傳感器和視覺信息系統(tǒng)具備了無所不在的前提。近年來,在對(duì)計(jì)算機(jī)視覺提出的層出不窮的新要求中,行為理解是一個(gè)具有挑戰(zhàn)性的新課題,在諸如智能家居,老年人看護(hù),智能會(huì)議室等應(yīng)用中都起著至關(guān)重要的作用。它要解決的問題是根據(jù)來自傳感器(攝像機(jī))的原始圖像(包括圖像序列)數(shù)據(jù),通過視覺信息的處理和分析,識(shí)別人體的動(dòng)作,并在上下鏡(context)信息的指導(dǎo)下,理解人體動(dòng)作的目的、所傳遞的語義信息。行為理解作為近幾年開始興起的研究,正在

6、逐漸獲得越來越多的關(guān)注?;痦?xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(60673189)收稿日期:2008-11-28改回日期:2008-12-03第一作者簡(jiǎn)介:1940.現(xiàn)為普適計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所教授,博士生導(dǎo)師。目前他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺,人機(jī)交互,普適計(jì)算計(jì)算技術(shù)。IEEE高級(jí)會(huì)員,CCF會(huì)員。人體檢測(cè)、定位以及人體的重要部分(頭部,手等)的檢測(cè),識(shí)別和跟蹤是人體行為理解的基礎(chǔ),在解決這些基本問題的基礎(chǔ)上,更重要也更困難的問題就是動(dòng)作識(shí)別和行為理解。對(duì)動(dòng)作識(shí)別的研究可以追溯到90年代,在2002年,相關(guān)研究的論文數(shù)量經(jīng)歷了一個(gè)飛躍式的增長(zhǎng),這些研究

7、大多假設(shè)是在結(jié)構(gòu)化(structured)環(huán)境和孤立動(dòng)作條件下。所謂的結(jié)構(gòu)化環(huán)境就是預(yù)先設(shè)定和可人為控制的環(huán)境,例如,用于計(jì)算機(jī)輸入的手勢(shì)識(shí)別等,這時(shí)視覺數(shù)據(jù)采集的光照,視角,距離等因素都是固定或已知的。這就為改善視覺處理的脆弱性提供了有利條件。但與此同時(shí),也帶來了很大的局限性。例如,基于生理特征的生物特征識(shí)別,目前的方法只適合于愿意在規(guī)定環(huán)境下給予系統(tǒng)配合的合作對(duì)象。與此相對(duì),能在自然環(huán)境下,基于行為特征的生物特征識(shí)別就更為困難,但具有容易被對(duì)象接受,或不易被察覺的優(yōu)點(diǎn)。對(duì)于各種目的的視覺監(jiān)控來說,能工作在自然環(huán)境下,更是至關(guān)重要。例如,為幫助老人延長(zhǎng)獨(dú)立生活或改善生活質(zhì)量的視覺監(jiān)控和提示。

8、都需要能在老人生活的日常環(huán)境提供相應(yīng)的服務(wù)。近年來,對(duì)日常生活和工作中動(dòng)作和行為的理解正成為熱點(diǎn)。這是所謂的“日常活動(dòng)”(Activitiesofdailyliving,ADL)的分析和理解。由于人們?cè)谌粘I瞽h(huán)境中的動(dòng)作是自然和連續(xù)的,而且與環(huán)境有密切的聯(lián)系,因此給識(shí)別和理解帶來一系列具有挑戰(zhàn)性的難題。1)分布式視覺信息處理方法和系統(tǒng)。通過多攝像機(jī)信息的融合來克服由于視角,距離,遮擋,光照等多種環(huán)境因素帶來的干擾和不確定性是有效但也是富有挑戰(zhàn)性的課題;2)自然連續(xù)動(dòng)作和行為的分割及多層次模型。人類的日?;顒?dòng)和行為是人體自然和連續(xù)的動(dòng)作,其中包含了多種類型的運(yùn)動(dòng)和動(dòng)作:無意識(shí)的人體移動(dòng),為了操

9、作物體的動(dòng)作,以及為了進(jìn)行相互交流,例如打招呼的,動(dòng)作和姿態(tài)。此外復(fù)雜的人類活動(dòng)和行為是由一系列動(dòng)作或操作組成的。系統(tǒng)必在一個(gè)多層次的模型指導(dǎo)下對(duì)人體動(dòng)作進(jìn)行分割和分類。而分割和分類又需要有來自對(duì)動(dòng)作和行為理解的高層模型指導(dǎo);3)基于上下境(contextbased)的行為理解。對(duì)動(dòng)作和行為的理解需要了解當(dāng)時(shí)視覺環(huán)境以及應(yīng)用的情境。這也就是所謂的要具有“覺察上下境“(contextaware)或基于上下境(contextbased)視覺處理和分析方法。因?yàn)?,相同的?dòng)作在不同的情境下傳遞不同語義。上下境的指導(dǎo)作用體現(xiàn)在以下二方面:1)在現(xiàn)實(shí)的視場(chǎng)中可能需要處理的視覺對(duì)象和任務(wù)非常多,而計(jì)算資源是

10、有限的。此外還有實(shí)時(shí)處理的要求。這時(shí)必須根據(jù)上下境來確定視覺處理的關(guān)注點(diǎn)(focusofattention);2)在上下境的指導(dǎo)下對(duì)動(dòng)作傳遞的語義進(jìn)行推理。行為理解的研究包含著從底層到高層的多層處理。底層處理中的人體檢測(cè)和跟蹤、動(dòng)作識(shí)別、手勢(shì)識(shí)別和軌跡分析等已經(jīng)有了較多的研究和綜述。而高層的處理方法,如對(duì)行為的建模、上下境在行為推理中的指導(dǎo)等研究還在起步階段。本篇綜述將重點(diǎn)討論行為理解中的高層推理的研究現(xiàn)狀。2行為理解的研究現(xiàn)狀如引言中所述,行為理解包含了從底層處理到高層推理的全過程,涉及底層運(yùn)動(dòng)特征的提取和表示、行為的表示方法、以及高層行為語義的推理模型。下面的綜述首先從行為的定義開始,然后

11、討論特征提取和表示,最后分析常見的幾種行為推理模型。2.1 行為表示的模型目前對(duì)于行為的表示還沒有一個(gè)通用的模型,大部分的研究都是針對(duì)特定的應(yīng)用采用某種行為表示模型,最常見的分層結(jié)構(gòu)模型,而各個(gè)層次表示的內(nèi)容取決于應(yīng)用的需要。人體的行為就其目的而言可大致分為:1)與環(huán)境交互,例如對(duì)物體的操作;Moeslund2提出了action/motorprimitives,actions,andactivities的分層模型。在Park3駕駛員動(dòng)作的表示模型中,底層為身體某個(gè)部位的運(yùn)動(dòng),如頭轉(zhuǎn)動(dòng),軀干前移,伸胳膊等。中間層是由底層各部位的運(yùn)動(dòng)組合而成的一個(gè)復(fù)雜動(dòng)作。最高層為人與周圍設(shè)備的交互動(dòng)作,即駕駛員

12、對(duì)汽車部件的操作動(dòng)作,如向左車t動(dòng)方向盤。2)人際交互。Aggarwal和Park4在2人交互的分析中,把交互行為分為3個(gè)層次。最高層是交互行為;中間層為單個(gè)人體的動(dòng)作;最底層是對(duì)身體某個(gè)部分運(yùn)動(dòng)的檢測(cè)和識(shí)別。群體交互(groupinteraction),例如會(huì)議室場(chǎng)景更是需要多層次的表示5。關(guān)于行為的分層表示方法還可參考2,3,4,6,7,8,9,10o其中特別需要注意的是Gonzalez7在動(dòng)作-行為的層次表示中增加了情境(situation)。情境可認(rèn)為是最高層的上下境,它用于解決行為理解的歧義問題。比如揮手這個(gè)動(dòng)作在“足球賽”和“地鐵站”這二種情境中顯然是有不同的含義。綜上所述,分層模

13、型已經(jīng)成為研究者們公認(rèn)的一種行為的表示方法,只是在不同的研究背景和任務(wù)下,層次的數(shù)量和每個(gè)層次的定義各不相同。得到較多認(rèn)可的表示模型大致包括如下幾個(gè)層次:運(yùn)動(dòng)(movement),動(dòng)作(action),活動(dòng)(activity)或操作(operation),行為(behavior)。這些層次大致是按照時(shí)間的尺度來進(jìn)行分割的。但這樣的分層方法在復(fù)雜的情況下,有時(shí)顯得無能為力。更為實(shí)用的是按照任務(wù)過程進(jìn)行分解。例如,老人在廚房中的做飯活動(dòng),它可分為:取食品,處理食材,烹飪,上菜等過程。其中每個(gè)步驟,又可進(jìn)一步分解,例如,烹飪又可按菜譜分為若干步驟。這樣的分解是應(yīng)用導(dǎo)向的。作為一個(gè)表示模型除了定義各層

14、表示的含義以外還需要定義它們之間的關(guān)系和運(yùn)行機(jī)制。Crowley11提出了情境網(wǎng)絡(luò)(networkofsituation)的運(yùn)行框架。我們提出了一個(gè)基于多層次“上下境-事件”的模型5。認(rèn)為行為的層次結(jié)構(gòu)中,上層的行為,就是下層動(dòng)作定義的環(huán)境,所以就是上下境。它定義了什么是下層中發(fā)生的有意義的動(dòng)作,即事件。相鄰層次之間的“上下境-事件”關(guān)系可遞歸地延伸到所有的層次。所以這個(gè)模型具有通用性。2.2 運(yùn)動(dòng)特征的提取和動(dòng)作表示視覺或者其他底層運(yùn)動(dòng)特征的提取和表示是進(jìn)行高層行為理解的推理所必需的基礎(chǔ)工作。較早開始的對(duì)動(dòng)作行為分析的工作很多是采用主動(dòng)傳感器來獲得人體某個(gè)部位的運(yùn)動(dòng)信息口2/“14”,16。

15、這類工作主要是通過人體的四肢或軀干佩戴的各種傳感器來獲取該部位的運(yùn)動(dòng)特征,然后動(dòng)作行為進(jìn)行分析,由于當(dāng)前以人為中心的計(jì)算強(qiáng)調(diào)用戶感覺自然,嵌入式的傳感器破壞了用戶的感受,給用戶的行動(dòng)造成不便,因此,目前越來越多的研究開始轉(zhuǎn)向用視覺這種非嵌入式被動(dòng)的傳感器獲取人體的動(dòng)作特征?;谝曈X的動(dòng)作表示按特征的性質(zhì)大致可以分為兩類,一類是基吁二三維特征,另一類是二維圖像特征?;谌S特征具有視角不變性,適用于分布式視覺系統(tǒng)下的動(dòng)作體態(tài)表示。Campbell17等人提出的基于立體視覺數(shù)據(jù)的三維手勢(shì)識(shí)別系統(tǒng)。Jin18建立了基于三維模型的動(dòng)作識(shí)別系統(tǒng)。三維模型通常參數(shù)多,訓(xùn)練復(fù)雜,計(jì)算量大。如果是基于立體視覺

16、的原理還可能要遇到匹配中的對(duì)應(yīng)性(correspondence)困難。相比之下,基于二維圖像特征的表示計(jì)算相對(duì)簡(jiǎn)單,適用于視角相對(duì)固定的情況。下面具體介紹一些基于二維特征的動(dòng)作表示。Liu19只對(duì)坐,站,躺幾個(gè)日常生活中最基本的動(dòng)作做了分析。他計(jì)算了前景區(qū)域每個(gè)像素的距離投影(distanceprojection)MMDP=(Hi-Hc)2?(Vi-Vc)2)iHW其中,Hi和Vi表示前景像素在水平和豎直方向上的坐標(biāo),Hc和Vc表示前景中點(diǎn)的坐標(biāo),M是前景像素點(diǎn)的個(gè)數(shù)。每一個(gè)動(dòng)作都用距離投影的高斯分布來表示。這種特征抽取方法是視角相關(guān)的,文中使用了與人體朝向成90。的固定視角。這個(gè)視角上最容易

17、抽取出區(qū)分度大的人體形狀特征。Niebles20把每個(gè)動(dòng)作的一系列視頻幀都看做是一組特征描述詞的集合,特征描述詞通過提取時(shí)空興趣點(diǎn)得到。文中定義響應(yīng)函數(shù)如下R=(I*g*hev)2+(I*g*hod)2(2)其中,g(x,y,。)是二維高斯平滑核函數(shù),應(yīng)用在空間維度上,hev和h0d都是一維Gabor濾波器,X2,2分別定義為hev(t;t,s)=-cox(2tm)e三和.2,2hod(t;q。)=sin(2n憤)e三并運(yùn)用在時(shí)間維度上。一般情況下,復(fù)雜動(dòng)作發(fā)生的區(qū)域會(huì)產(chǎn)生較大的響應(yīng),局部響應(yīng)最大的點(diǎn)作為興趣點(diǎn)。并用梯度或者光流來描述。Park3用多高斯混合模型表示人體5個(gè)主要部分(頭、臉、胳

18、膊、軀干和下身)的顏色分布,并用橢圓擬合,Kalman濾波器隨時(shí)對(duì)參數(shù)進(jìn)行更新。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)被用來檢測(cè)動(dòng)作和姿態(tài),駕駛員行為被用一個(gè)表達(dá)式表示,表達(dá)式組成如下:agent-motion-target,其中agent表示動(dòng)作實(shí)施者,如頭、手等;motion表示動(dòng)作;target表示駕駛室的操作儀器。Chung21用水平和豎直方向上的一對(duì)投影來表示當(dāng)前的體態(tài);Robertson22采用了基于光流的動(dòng)作描述子來描述動(dòng)作,繼而與樣本集中樣本逐個(gè)匹配來識(shí)別動(dòng)彳類型;TuragW23也是提取光流作為每一幀中動(dòng)作的特征;Ryoo24用人體外框的長(zhǎng)、寬和中心點(diǎn)的坐標(biāo)被作為特征。Wang25在辦公室異常行為識(shí)

19、別的研究中對(duì)提取出的人體區(qū)域采用R變換26,提取動(dòng)作形狀,R變換具有尺寸和旋轉(zhuǎn)不變性,可以應(yīng)對(duì)人離攝像機(jī)距離不同造成的尺寸變化。以上這些工作都是在固定視角下用二維運(yùn)動(dòng)特征表示動(dòng)作。這時(shí)可在最有利的視角觀測(cè)動(dòng)作,但也限制了對(duì)象的活動(dòng)范圍,使它難以適應(yīng)實(shí)際應(yīng)用的環(huán)境。因?yàn)楝F(xiàn)實(shí)生活中,觀測(cè)對(duì)象活動(dòng)范圍較廣,位置變化大,導(dǎo)致視角多變;同時(shí)由于生活環(huán)境中的家具等也會(huì)對(duì)人體造成遮擋。因此需要分布式視覺系統(tǒng)的支持,通過多攝像機(jī)信息的融合來克服由于視角多變,活動(dòng)范圍廣以及遮擋帶來的各種問題。這是富有挑戰(zhàn)性的難題。基于人體特征例如人頭或四肢的運(yùn)動(dòng)特征將可簡(jiǎn)化信息融合和動(dòng)作分析。Kim26是在分布式環(huán)境下檢測(cè)人體

20、的躺,站,坐等簡(jiǎn)單動(dòng)作,通過自適應(yīng)的背景相減得到前景區(qū)域,然后用橢圓擬合和omega曲線頭肩部檢測(cè)算法檢測(cè)頭部,在任何時(shí)刻,所有的攝像機(jī)都會(huì)進(jìn)行全部的底層處理,得到人體的高度,人體位置,頭部位置,人體長(zhǎng)寬比和手部的位置,一個(gè)專門的模塊將負(fù)責(zé)從每個(gè)攝像機(jī)處理的結(jié)果進(jìn)行人的匹配,并選出沒有遮擋的處理結(jié)果作為行為理解的觀測(cè)向量。再如Park13在分布式視覺系統(tǒng)下研究?jī)扇私换サ男袨椋闹锌紤]到了視角對(duì)動(dòng)作特征抽取帶來的影響,因此首先討論了攝像機(jī)選擇的問題。他根據(jù)不同攝像機(jī)得到的前景區(qū)域的離散度選擇最佳視角,可以理解為選擇像平面中兩人距離最大的視角,因此避免了遮擋問題。將分割出的人體區(qū)域在水平方向投影,

21、計(jì)算得到人體的中軸,然后人體被按照一個(gè)指定參數(shù)分割為頭,上身和下身三個(gè)部分。用HSV顏色空間表示每個(gè)像素點(diǎn),用混合高斯模型表示身體的三個(gè)部分。可以同時(shí)分析上身和腿部的動(dòng)作。而在不同視角下檢測(cè)人體特征本身也是一個(gè)困難的問題,這是這種方法需要付出的代價(jià)。除了上述由于成像環(huán)境限制造成的困難以外,現(xiàn)實(shí)生活中的很多動(dòng)作,例如廚房中的烹飪操作,很細(xì)微,難以單獨(dú)依靠視覺來檢測(cè)和識(shí)別。而動(dòng)作所使用的工具或接觸的物體將可提供關(guān)于動(dòng)作明確的線索。因此有學(xué)者提出了根據(jù)使用的物品(object-use)來協(xié)助識(shí)別對(duì)象動(dòng)作。如果我們知道裝面包的容器被使用了,這往往比識(shí)別到人伸手拿東西這個(gè)動(dòng)作蘊(yùn)含更多的語義。Wu27將水

22、壺、電話、果汁等33個(gè)物品貼上電子標(biāo)簽(RFID,并在用戶的手腕上帶上接收器。當(dāng)用戶使用某個(gè)物品時(shí),接收器就會(huì)接收到該物品上電子標(biāo)簽發(fā)出的ID信號(hào),通過對(duì)使用物品的分析能夠識(shí)別出燒水,打電話,喝果汁等16種行為。Wang28也類似地充分利用了關(guān)于“所使用物品”的“常識(shí)”對(duì)行為理解的指導(dǎo)意義,通過在物品上貼RFID,手腕上帶接收器來獲得物品使用信息。另外有一些工作29,30,31認(rèn)為人的軌跡甚至人在某個(gè)功能物體(如冰箱、沙發(fā)等)附近停留的時(shí)間可以用來解釋人的行為,這樣的假設(shè)就完全避開了復(fù)雜困難的動(dòng)作分析以及傳感器對(duì)人體造成的不便,在這類工作中,環(huán)境上下境信息和場(chǎng)景知識(shí)受到極大重視,成為進(jìn)行行為理

23、解推理所依賴的重要線索。2.3 行為理解的推理方法行為理解的推理中廣泛采用了基于圖模型的推理方法,如隱馬爾科夫模型(HMM),動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN),條件隨機(jī)場(chǎng)(CRH等;也有的研究采用其他的推理方法,如14使用基于規(guī)則的決策樹來對(duì)一系列表示動(dòng)作及對(duì)象的三元表達(dá)式進(jìn)行分類。32,33采用模板匹配的方法,將檢測(cè)到的運(yùn)動(dòng)特征與訓(xùn)練好的樣本逐個(gè)匹配,匹配的結(jié)果即為對(duì)行為識(shí)另用結(jié)果。31使用了有限狀態(tài)自動(dòng)機(jī),每個(gè)狀態(tài)表示當(dāng)前人體的位置,來對(duì)人的軌跡進(jìn)行分類,識(shí)別異常事件。在目前的行為分析領(lǐng)域中,隱馬爾科夫模型(HMM)是較常使用的一種推理模型34,35。HMM是一種有效的時(shí)變信號(hào)處理方法,它隱含了對(duì)

24、時(shí)間的校正,并提供了學(xué)習(xí)機(jī)制和識(shí)別能力。根據(jù)不同應(yīng)用環(huán)境下行為的特性,很多研究對(duì)HMM進(jìn)行了適應(yīng)性擴(kuò)展,比如HierarchicalHMM,CoupledHMMs36,Parameterized-HMMs37等。大部分的模型采用了分層的結(jié)構(gòu)來對(duì)應(yīng)行為的分層特性。38在群體交互動(dòng)作識(shí)別中采用兩層HMM模型,下層模型對(duì)群體中的個(gè)體進(jìn)行動(dòng)作識(shí)別,識(shí)別結(jié)果作為上層群體行為識(shí)別模型的觀測(cè)。39也采用了分層的模型分析行為,由三層在不同時(shí)間粒度上依次增加的HMM組成。HMM雖然是對(duì)時(shí)間序列建模的一種簡(jiǎn)單而有效的模型,但是當(dāng)行為變得復(fù)雜或者在長(zhǎng)時(shí)間尺度上存在相關(guān)性,就不滿足馬爾可夫假設(shè),27同時(shí)考慮了行為的分

25、層結(jié)構(gòu)和狀態(tài)的持續(xù)時(shí)間,提出了SwitchingHiddenSemi-MarkovModel(S-HSMM),是HSMM模型的兩層擴(kuò)展,底層表示了自動(dòng)作及其持續(xù)時(shí)間,高層表示了一系列由底層自動(dòng)作組成的行為。文中給出的實(shí)驗(yàn)結(jié)果證明了比HSMM和HMM對(duì)行為具有更強(qiáng)的模型表示能力。也有研究將動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)引入到行為理解中404142。由于HMM在一個(gè)時(shí)間片斷上只有一個(gè)隱藏節(jié)點(diǎn)和一個(gè)觀測(cè)節(jié)點(diǎn),在一個(gè)時(shí)刻需要將所有的特征壓縮到一個(gè)節(jié)點(diǎn)中,那么所需要的訓(xùn)練樣本將是巨大的(相當(dāng)于聯(lián)合概率密度函數(shù));而DBN在一個(gè)時(shí)間段上是任意結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò),可以包含有多個(gè)因果關(guān)系的節(jié)點(diǎn),即用條件概率來形成聯(lián)合

26、概率,訓(xùn)練相對(duì)要簡(jiǎn)單,也給模型的設(shè)計(jì)提供了更大的靈活性,能夠更準(zhǔn)確的表達(dá)狀態(tài)之間以及狀態(tài)和觀測(cè)之間真實(shí)的關(guān)系,但是設(shè)計(jì)起來要比HMM要復(fù)雜。43對(duì)DBN和分層的HMM做了詳細(xì)的比較并且給出了模型選擇和表示時(shí)需要考慮的幾個(gè)因素:1)可用于訓(xùn)練和測(cè)試的數(shù)據(jù);2)變量被觀測(cè)到的可能性;3)數(shù)據(jù)之間的內(nèi)在關(guān)系;4)應(yīng)用的復(fù)雜度。也有些研究放棄了產(chǎn)生式模型而采用區(qū)分式模型來分析行為。44首先采用采用了條件隨機(jī)場(chǎng)模型(CRF用于行為識(shí)別,考慮到HMM最大的缺點(diǎn)就是輸出獨(dú)立性假設(shè),導(dǎo)致不能考慮上下境的特征,限制了特征的選擇。但是實(shí)際情況是,行為的當(dāng)前狀態(tài)往往與一個(gè)長(zhǎng)的時(shí)間尺度上的觀測(cè)存在相互的依賴,并且觀測(cè)

27、之間很可能不是相互獨(dú)立的。CRF不需要對(duì)觀測(cè)進(jìn)行建模,因此避免了獨(dú)立性假設(shè),并且可以滿足狀態(tài)與觀測(cè)之間在長(zhǎng)時(shí)間尺度上的交互。結(jié)合產(chǎn)生式模型和區(qū)分式模型的優(yōu)勢(shì)對(duì)行為理解進(jìn)行推理將成為未來的研究方向。3總結(jié)和展望以上對(duì)動(dòng)作識(shí)別和行為理解的現(xiàn)狀做了簡(jiǎn)要的綜述,但就建立能在復(fù)雜的現(xiàn)實(shí)世界中提供有效服務(wù)的計(jì)算機(jī)視覺系統(tǒng)而言,還缺少了二個(gè)關(guān)鍵的部分,這就是:1)如何從復(fù)雜的現(xiàn)場(chǎng)背景下快速,可靠地檢測(cè)和識(shí)別人體(物體)。物體在現(xiàn)實(shí)世界中的位置和光照情況多種多樣甚至還有遮擋,但人類還是能在混亂的場(chǎng)景中快速地檢測(cè)和識(shí)別各種物體。這是目前的機(jī)器視覺遠(yuǎn)未達(dá)到的能力。視覺認(rèn)知,計(jì)算機(jī)視覺和認(rèn)知神經(jīng)科學(xué)的文獻(xiàn)中有很多證

28、據(jù)說明上下境(context)信息極大地影響搜索和識(shí)別物體的效率45,46。上下境的影響是多層次的,其中包括:語義層(例如,桌子與椅子經(jīng)常出現(xiàn)在同一圖像中);空間構(gòu)造層(例如,鍵盤一般是在顯示器的下方);姿態(tài)層(例如,椅子通常是朝向桌子;汽車一般是沿著道路方向??浚┑?。研究還證明空間上下境可為場(chǎng)景預(yù)測(cè)中可能發(fā)生的動(dòng)作提供有用的線索47??傊?,基于上下境的視覺關(guān)注機(jī)制(attention)是解決上述困難的關(guān)鍵;2)上下境指導(dǎo)下的行為理解。生活中人體動(dòng)作的語義不僅取決與本身的狀態(tài)而且取決于場(chǎng)景中其他人和物體的當(dāng)前和歷史的狀態(tài),也就是取決于上下境。相同的動(dòng)作在不同的上下境中代表著不同的語義,這在會(huì)議

29、這樣的群體交互場(chǎng)景下尤為突出5。例如,“舉手”的動(dòng)作,在“大會(huì)報(bào)告”的場(chǎng)景下,表示“希望提問”;在“會(huì)議表決”時(shí)表示決定的取向等。以上二個(gè)關(guān)鍵問題都涉及如何在視覺計(jì)算感知和利用中上下境信息。這也就是當(dāng)前所謂的基于上下境的視覺(contextbasedvision)和覺察上下境的視覺(contextawarevision)方法。從視覺處理的策略來說,目前大多數(shù)都是采用自底向上的,從局部到整體的方式,而基于上下境的視覺處理是采用自頂向下,從整體到局部的方式。這在一定程度上反映了人類視覺系統(tǒng)的處理方式。因此,這是重要的值得注意的研究方向。由于篇幅限制對(duì)這個(gè)問題只能在此做簡(jiǎn)要的介紹。參考文獻(xiàn)(Refe

30、rences)1 AlejandroJ,DanielGP,NicuS,etal,Human-centeredcomputing:towardahumanrevolutionJ.Computer,2007,40(5):30-342 MoeslundTB,HiltonA,Kr?gerV.Asurveyofadvancesinvision-basedhumanmotioncaptureandanalysisJ.ComputerVisionandImageUnderstanding.2006,104(3):90-126.3 ParkS,TrivediM.Driveractivityanalysisfo

31、rintelligentvehicles:issuesanddevelopmentframeworkA,In:ProceedingsofIEEEIntelligentVehiclesSymposiumC,LasVegas,Nevada,USA,2005:644-649.4 AggarwalJK,ParkS.,Humanmotion:modelingandrecognitionofactionsandinteractionsA,In:ProceedingsofSecondInternationalSymposiumon3DDataProcessing,VisualizationandTransm

32、issionC,Thessaloniki,Greece,2004:640-6475 DaiPeng,TaoLin-mi,XuGuang-you.Audio-visualfusedonlinecontextanalysistowardsmartmeetingroomA,In:ProceedingsofInternationalConferenceonUbiquitousIntelligenceandComputingC,HongKong,China,2007:11-13,6 BobickA,Movement,activity,andaction:theroleofknowledgeinthepe

33、rceptionofmotionA,PhilosophicalTransactionsoftheRoyalSocietyofLondon,1997,352(1358):1257-1265.7 GonzalezJ,VaronaJ,RocaFX,etal.aSpaces:actionspacesforrecognitionandsynthesisofhumanactionsA,In:ProceedingsofInternationalWorkshoponArticulatedMotionandDeformableObjectsC,PalmadeMallorca,Spain,2002:21-23,.

34、8 JenkinsOC,MataricM.DerivingactionandbehaviorprimitivesfromhumanmotioncapturedataA.In:ProceedingsofInternationalConferenceonRoboticsandAutomationC,WashingtonDC,USA,2002:2551-25569 NagelHH.,FromimagesequencestowardsconceptualdescriptionsJ.ImageandVisionComputing1988,6(2):59-74.10 MoriT,KamisuwaY,Miz

35、oguchiH,etal.ActionrecognitionsystembasedonhumanfinderandhumantrackerA.In:Proceedingsofthe1997IEEE/RSJInternationalConferenceonIntelligentRobotsandSystemsC,Beijing,China1997:1334-134111 CrowleyJL,CoutazJ.Contextawareobservationofhumanactivity,multimediaandexpoA.In:ProceedingsofIEEEInternationalConfe

36、renceonICME02C,Lausanne,Switzerland,2002:90991212 ParkS,KautzH.Hierarchicalrecognitionofactivitiesindailylivingusingmulti-scale,multi-perspectivevisionandRFID,A,In:Proceedingsof4thInternationalConferenceonIntelligentEnvironmentsC,Seattle,OR,USA,2008:1-413WardJA,LukowiczP,TrosterG,etal.Activityrecogn

37、itionofassemblytasksusingbody-wornmicrophonesandaccelerometersJ,IEEETransactionsonPatternAnalysisandMachineIntelligence,2006,28(10):1553-156714YinJ,YangQ,PanJJ.Sensor-basedabnormalhuman-activitydetectionJ,IEEETransactionsonKnowledgeandDataEngineering,200820(8):1082-109015YangSI,ChoSB.Recognizinghuma

38、nactivitiesfromaccelerometerandphysiologicalsensorsA.In:ProceedingsofIEEEInternationalConferenceonMulti-sensorFusionandIntegrationforIntelligentSystemsC,Seoul,Korea,2008:100-10516PurwarA,JeongDU,ChungWY.Activitymonitoringfromreal-timetri-axialaccelerometerdatausingSensornetworkA.In:ProceedingsofInte

39、rnationalConferenceonControl,AutomationandSystemsC,Seoul,Korea,2007:2402-240617CampbellLW,BeckerDA,.AzarbayejaniA,etal.Invariantfeaturesfor3DgesturerecognitionA.In:ProceedingsofInternationalConferenceonAutomaticFaceandGestureRecognitionC,Killington,Vermont,USA1996:157-162.18JinN,MokhtarianF.,Image-b

40、asedshapemodelforview-invarianthumanmotionrecognitionJ,IEEEConferenceonAdvancedVideoandSignalBasedSurveillance,London,UK,2007,:336-34119 LiuCD,ChuugPC,ChungYN.HumanhomebehaviorinterpretationfromvideostreamsA.In:Proceedingsofthe2004IEEEInternationalConferenceonNetworking,Sensing&ControlC,Taipei,Taiwa

41、n,China,2004:192-19720 NieblesJC,WangHC,LiFF.Unsupervisedlearningofhumanactioncategoriesusingspatial-temporalwordsJ.InternationalJournalofComputerVision,2008,79(3),:299-31821 ChungPC,LiuCD.AdailybehaviorenabledhiddenMarkovmodelforhumanbehaviorunderstandingJ.PatternRecognition,2008,41(5)1572-158022 R

42、obertsonN,ReidI.Behaviorunderstandinginvideo:acombinedmethodA.In:ProceedingsofIEEEInternationalConferenceonComputerVisionC,Beijing,China,2005:808-81523 TuragaPK,VeeraraghavanA,ChellappaR.Fromvideostoverbs:miningvideosforactivitiesusingacascadeofdynamicalsystemsC.ComputerVisionandPatternRecognition,M

43、inneapolis,Minnesota,USA,2007:1-824 TabboneS,WendlingL,SalmonJP.AnewshapedescriptordefinedontheRadontransformJ.ComputerVisionandImageUnderstanding,2006,102(1-2):42-5125 WangY,HuangK,TanTN.AbnormalactivityrecognitioninofficebasedonRtransformA,In:ProceedingsofIEEEConferenceonImageProcessingC,SanAntoni

44、o,TX,USA,2007:I-341-I-34426 KimK,MedioniGG,DistributedvisualprocessingforahomevisualsensornetworkA.In:ProceedingsofIEEEWorkshoponApplicationsofComputerVisionCCopperMountain,Colorado,USA,2008:1-627WuJX,OsuntogunA,ChoudhuryT,etal.AscalableapproachtoactivityrecognitionbasedonobjectuseA.In:Proceedingsof

45、IEEEInternationalConferenceonComputerVision,Beijing,China,2007:1-828WangS,PentneyW,ChoudhuryT.CommonSensebasedjointtrainingofhumanactivityrecognizersA.In:Proceedingsofthe20thInternationalJointConferenceonArtificialIntelligenceC,Hyderabad,India,2007:2237-224229DuongTV,BuiHH,PhungDQ,etal.Activityrecog

46、nitionandabnormalitydetectionwiththeswitchinghiddensemi-MarkovmodelA.In:ProceedingsofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognitionC,SanDiego,CA,USA,2005:838-84530NguyenNT,PhungDQ,VenkateshS.Learninganddetectingactivitiesfrommovementtrajectoriesusingthehierarchicalhiddenmarkovmod

47、elA.In:ProceedingsofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognitionC,Perth,WA,Australia;2005:955-96031 MahajanD,KwatraN,JainS,etal.AframeworkforactivityrecognitionanddetectionofunusualactivitiesA.In:ProceedingsofIndianConferenceonComputerVision,Graphics,ImageProcessingCKolkata,Ind

48、ia,2004:37-4232DollarP,RabaudV,CottrellG,etal.Behaviorrecognitionviasparsespatio-temporalfeaturesA.In:Proceedingsof2ndJointIEEEInternationalWorkshoponVisualSurveillanceandPerformanceEvaluationofTrackingandSurveillanceC,Beijing,China,2005:65-7233 LiuCD,ChuugPC,ChungYN.Humanhomebehaviorinterpretationf

49、romvideostreamsA.In:ProceedingsofIEEEInternationalConferenceonNetworking,Sensing&ControlC,Taipei,China,2004:192-19734 XuG,MaYF,ZhangHJ,etal.MotionbasedeventrecognitionusingHMMA.In:ProceedingsofIEEEInternationalConferenceonPatternRecognitionC,Quebec,Canada,2002:831-83435 SunXD,ChenCW,ManjunathBS.Prob

50、abilisticmotionparametermodelsforhumanactivityrecognitionA.In:ProceedingsofInternationalConferenceonPatternRecognitionC,Quebec,Canada,2002:443-44636 BrandM,OliverN,PentlandA.CoupledhiddenMarkovmodelsforcomplexactionrecognitionA.In:ProceedingsofInternationalConferenceonComputerVisionandPatternRecognition,PuertoRico,1997:994-99937 W

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論