數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術

上傳人：h*** IP屬地：山東上傳時間：2025-05-14 格式：PPTX 頁數(shù)：141 大?。?.26MB 積分：15 舉報 版權申訴

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術_第2頁

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術_第3頁

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術_第4頁

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術_第5頁

已閱讀5頁，還剩136頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

第8章

基于內(nèi)容的音頻、圖像、

視頻檢索技術8.1多媒體信息檢索概述8.2基于內(nèi)容的音頻檢索8.3基于內(nèi)容的圖像檢索技術8.4基于內(nèi)容的視頻檢索技術8.5本章小結(jié)

8.1多媒體信息檢索概述

8.1.1信息檢索信息檢索泛指用戶從包含各種信息的文檔集中查找所需要的信息或知識的過程。信息檢索從手工建立關鍵字索引的檢索，發(fā)展到計算機自動索引的全文信息檢索，直到現(xiàn)今的基于各種特征描述的，甚至是多種模態(tài)(如圖像、視頻和音頻等)下的信息檢索。檢索方法也從簡單地查找關鍵詞發(fā)展到現(xiàn)在各種復雜的檢索算法并存的局面。信息檢索包括對信息的表示、存儲、組織和訪問等各個環(huán)節(jié)。

不同于以往的數(shù)據(jù)檢索，信息檢索既不具有明確的條件定義(如正則表達式等)，也不具有良好的結(jié)構性和非歧義性；相反，它具有一定的容錯性和基于任務的導向性。信息檢索的基本處理框架如圖8-1所示。

圖8-1信息檢索的基本處理框架

8.1.2多媒體信息檢索

多媒體信息檢索是指從各種不同種類的復雜媒體資源中尋找所需要的信息或知識的過程，它是信息檢索中非常重要的組成部分。與傳統(tǒng)的信息檢索相比，多媒體信息檢索主要有兩方面的不同。

首先，多媒體資源的結(jié)構比起以往典型的文本數(shù)據(jù)而言更為復雜，需要對大量高維數(shù)據(jù)進行處理，因此這就需要“多媒體數(shù)據(jù)處理系統(tǒng)”來表示、存儲和訪問它們。

其次，多媒體資源的檢索是基于相似度比較的，因此它的輸入、輸出方式都是多模態(tài)的，不再是以往純文本的輸入、輸出方式，這就需要對查詢需求等提出更高的要求，如MPEG-7就提出了非常詳盡的多媒體描述方法。多媒體信息檢索的基本框架如圖8-2所示。它包括多種媒體資源，常見的如圖像、音樂、影視和動畫等。

圖8-2多媒體信息檢索的基本處理框架

最為流行的檢索就是基于內(nèi)容的檢索，基于內(nèi)容的檢索主要有以下類型。

1)文本檢索

文本檢索通過關鍵詞進行標引，并采用傳統(tǒng)的數(shù)據(jù)庫技術來實現(xiàn)管理和檢索。然而，關鍵詞標引工作量大，而且標引同用戶的檢索概念不一致，導致查準率和查全率較低。因此，就需要直接對文本進行任意詞和字的檢索。根據(jù)實現(xiàn)方法的不同，其檢索技術可分為串搜索、串匹配和全文檢索，它們以字、詞及其邏輯組合為條件進行查詢。

2)音頻檢索

音頻檢索利用聲學和主觀的特性來進行查詢。聲音的一些感知特性，如音調(diào)、響度和音色等，與音頻信號的測量屬性非常接近，因此，可在音頻數(shù)據(jù)庫中記錄這些特征，并利用這些特征進行示例和特定特征值查詢。

3)圖像檢索

圖像檢索主要依據(jù)圖像的顏色、紋理、形狀特征以及圖像中子圖像的特征進行檢索。其中包括：顏色查詢幫助用戶查到與用戶所選擇的顏色相似的圖像；紋理查詢則幫助用戶查到含有相似紋理的圖像；使用形狀查詢的用戶選擇某一形狀或勾勒一幅草圖，利用形狀特征(如區(qū)域、主軸方向、矩、偏心率、圓形率和正切角等)或匹配主要邊界進行檢索；圖像對象查詢是對圖像中所包含的靜態(tài)子對象進行查詢。

4)視頻檢索

視頻可用場景、鏡頭、幀來描述。幀是一幅靜態(tài)的圖像，是組成視頻的最小單元。鏡頭是由一系列幀組成的一段視頻，它描繪同一場景，表示的是一個攝像機操作、一個事件或連續(xù)的動作，而一個鏡頭則是由一個或多個關鍵幀表示的。場景包含多個鏡頭，針對同一批對象，拍攝的角度不同，表達的含義也不同。基于關鍵幀的檢索對代表視頻鏡頭的關鍵幀進行檢索。關鍵幀的獲取可以采用與圖像檢索相似的方法。一旦檢索到目標關鍵幀，就可以播放這些關鍵幀來觀看它所代表的視頻片段了。

8.2基于內(nèi)容的音頻檢索

音頻信息按內(nèi)容可以分成語音類和非語音類，非語音類又包括音樂、音效、非規(guī)則聲音等。語音是人類發(fā)出的含語義內(nèi)容的聲音，含有字、詞、語法等語素，是一種高度抽象的概念交流媒體；而音樂是人聲和(或)樂器聲響等配合所構成的一種聲音，具有節(jié)奏、旋律或和聲等語義要素。按照存在的形式，音頻信息還可以分為靜態(tài)音頻信息和動態(tài)音頻信息。

靜態(tài)音頻信息是指那些以某種格式保存在文件或數(shù)據(jù)庫中，且可一次性全部獲取的音頻數(shù)據(jù)，如以WAV格式保存的語音數(shù)據(jù)、以MP3格式保存的歌曲等。

動態(tài)音頻信息是指以數(shù)據(jù)流的形式出現(xiàn)的、不可預知的音頻信息，即實時音頻流信息，如廣播、電視節(jié)目伴音、通信會話中的語音以及網(wǎng)絡流媒體中的音頻流等。

不同類型的音頻具有不同的音頻內(nèi)容。從整體來看，音頻內(nèi)容可分為四個級別：最底層的物理樣本級、中間層的聲學特征級、感知特征級和最高層的語義級，如圖8-3所示。

圖8-3音頻內(nèi)容的級別

8.2.1國內(nèi)外研究現(xiàn)狀

國內(nèi)的一些研究單位已相繼開展了基于內(nèi)容的音頻檢索研究，并開發(fā)了一些實驗系統(tǒng)。主要有浙江大學人工智能研究所對基于內(nèi)容的音頻檢索、廣播新聞分割等領域進行了深入的研究。中科院聲學所信利語音實驗室在語音的分類和檢索、哼唱檢索方面也進行了較為深入的研究，并開發(fā)出了相關產(chǎn)品。清華大學計算機科學與語音實驗室在語音方面開展了相關研究工作。

從目前的研究狀況來看，基于內(nèi)容的音頻檢索，一般分為音頻特征提取、音頻識別分類和檢索三個過程。在提取音頻特征之前，一般還需要對音頻數(shù)據(jù)進行預處理，預處理主要包括預加重和加窗，預加重提高音頻高頻部分抗干擾能力，加窗使音頻數(shù)據(jù)形成音頻幀。預處理是音頻檢索的基礎。特征提取是提取音頻的物理、聽覺或語義特征，是以音頻幀為單位或者以若干個幀組成的音頻片段為單位來進行。音頻識別和分類是對音頻進行歸類劃分，分類本身可以是一種檢索方式，也可以作為檢索的一個輔助手段。

一般來說，分類越精確，檢索就越準確。檢索的過程是一個匹配的過程，根據(jù)音頻特征間的相似度給出檢索結(jié)果。檢索系統(tǒng)一般分為兩部分：一部分是生成數(shù)據(jù)庫，即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫；另一部分是查詢數(shù)據(jù)庫，即用戶通過輸入音頻或特征字符串在數(shù)據(jù)庫中查找所需要的音頻?；趦?nèi)容的音頻檢索系統(tǒng)的基本結(jié)構如圖8-4所示。

圖8-4基于內(nèi)容的音頻檢索系統(tǒng)的基本結(jié)構

下面以三種類型的音頻檢索為例對國內(nèi)外的部分研究工作進行介紹。

1.音頻分類及相似類別的檢索

音頻分類是根據(jù)音頻的相關特征將不同內(nèi)容的音頻劃分為若干個類別，類別相同的音頻即為相似音頻。分類方法也是一種檢索方法。

Liu將音頻數(shù)據(jù)分割成不同的片段，使用高斯混合模型(GaussianMixtureModel，GMM)對片段的MFCC特征的數(shù)值分布進行參數(shù)估計，這些參數(shù)構成片段的特征向量，然后對特征向量進行聚類。查詢時，采用同樣的方式對查詢音頻分段建立高斯模型，并根據(jù)查詢音頻與數(shù)據(jù)庫中各聚類中心的距離，在數(shù)據(jù)庫中檢索相似音頻數(shù)據(jù)。

2.基于聲學特征描述的相同內(nèi)容檢索

相同內(nèi)容的音頻在聽覺特性上往往具有相似性。這種類型的檢索稱為音頻例子檢索。柏野(Kashino)和史密斯(Smith)研究了基于特征直方圖的音頻例子檢索。拉維亞(Lavia)采用過零率(ZeroCrossingRate，ZCR)及其一階、二階差分作為特征，提出了一種稱為活動搜索的直方圖快速搜索方法。

克里斯汀(Christian)等人開發(fā)了音頻檢索系統(tǒng)Soundspotter。Soundspotter系統(tǒng)采用MFCC特征，對五種匹配搜索方法進行了比較研究：

①

直接使用MFCC特征進行軌跡匹配；

②

用MFCC特征經(jīng)自組織映射后形成的軌跡進行匹配；

③

直接使用MFCC特征和動態(tài)時間規(guī)正(DynamicTimeWarping，DTW)算法進行匹配；

④

將MFCC特征經(jīng)聚類后進行字符串匹配；

⑤MFCC特征經(jīng)聚類后用直方圖進行匹配。

3.基于語義級描述的樂曲語音檢索

1)樂曲檢索

在檢索方式上，樂曲檢索可以采用哼唱檢索(QueryByHumming，QBH)、節(jié)拍拍打檢索(QueryByTapping，QBT)、演奏輸入檢索(如使用MIDI鍵盤等)和樂譜錄入檢索(如直接輸入音符序列)等多種方式。

2)語音檢索

語音檢索(SpeechRetrieval)是文檔庫為語音文件的一種信息檢索方式，目的是從大量語音文件中找到與查詢相關的一系列語音文件，并且會根據(jù)文件與查詢的相關度大小進行排序。文本形式的信息檢索技術已趨于成熟，然而語音文件形式的信息檢索才剛剛起步。與文本形式的信息檢索不同的是，語音文件無法直接與查詢詞進行對比，語音文件必須通過語音識別轉(zhuǎn)換成內(nèi)容特征，如關鍵詞、音節(jié)串和文字等。

統(tǒng)計語言建模(StatisticalLanguageModeling，SLM)技術是指基于概率的模型并利用統(tǒng)計學和概率論的知識對自然語言進行建模，從而捕獲自然語言中的規(guī)律和特性，以解決語言信息處理中的特定問題。

對于中文語音文件建立索引的特征，一般來說有三種：以詞為基礎(Word-based)、以字為基礎(Character-based)和以音節(jié)為基礎(Syllable-based)。根據(jù)之前的研究，對于西方語言如英文，通常以詞為基礎的索引特征會比其他兩者有較好的索引率；而對于中文而言，以音節(jié)為基礎的索引特征會有比較好的效果。以詞為基礎的索引特征會提供較多的語義信息，而以音節(jié)為索引特征，在處理語音識別時更具有魯棒性，因此，近幾年來有學者提出將這兩種檢索特征相結(jié)合。

語音文件檢索中語音文件的表示形式通常有三種：

One.best、WCN(混

淆

網(wǎng)

絡)和Lattice(網(wǎng)格)。One.best是語音文件經(jīng)語音識別系統(tǒng)處理過后的最優(yōu)譯本，形式上類似于傳統(tǒng)的文本文件；WCN為Lattice的一種特殊結(jié)構；語音識別結(jié)果中間結(jié)構——Lattice，是一種有向無環(huán)圖，在網(wǎng)格中可能存在多個潛在路徑，這種多候選特性可以在一定程度上補償由于模型不匹配等帶來的語音識別錯誤，提高系統(tǒng)的穩(wěn)健性。

語音文件的表示形式均采用的是One.best。對于One.best輸出，索引單位是詞與音節(jié)的結(jié)合方法主要有三種：

①

分別檢索以詞為單位和以音節(jié)為單位的識別結(jié)果，然后將檢索結(jié)果相加；

②

對于屬于字典的查詢詞，搜索以詞為識別結(jié)果的索引，對于詞表外的查詢詞，搜索以音節(jié)為識別結(jié)果的索引；

③

搜索詞的索引，如果沒有結(jié)果返回，則搜索音節(jié)的索引。

從目前總體研究和應用現(xiàn)狀來看，基于內(nèi)容的音頻檢索研究有著良好的發(fā)展趨勢，各種新的研究方法和手段不斷被提出，階段性成果明顯。但該領域的發(fā)展離技術成熟還有一段距離，較高水平的自動化和智能化的要求還沒有達到。另外，針對海量數(shù)據(jù)的特點如何快速地進行音頻的檢索，以及如何引入相關性反饋更好地滿足用戶的檢索需求的問題還需要解決。

8.2.2基于內(nèi)容的音頻檢索的總體框架

基于內(nèi)容的音頻檢索系統(tǒng)的應用可以分為許多不同的場合，這里討論的是基于哼唱的音樂檢索技術。歌曲庫中共20首歌，均為附帶人聲的中文歌曲，在實際檢索時，需要人通過哼唱來進行檢索。圖8-5是基于內(nèi)容的音頻檢索的總體框圖。由圖可以看出整個系統(tǒng)主要可以分為三大部分：音頻數(shù)據(jù)獲取、音頻內(nèi)容描述(語音與樂音特征提取)和特征相似度匹配。

圖8-5基于內(nèi)容的音頻檢索的總體框圖

音頻內(nèi)容描述是整個基于內(nèi)容的音頻檢索的核心技術。音頻內(nèi)容可以分為語音內(nèi)容和樂音內(nèi)容兩部分。音頻內(nèi)容描述是在音頻內(nèi)容獲取的基礎之上進行的，同時是進一步進行音頻特征相似度匹配的必要前提。音頻內(nèi)容描述主要是指旋律包絡曲線，這是因為一般來說，人在哼唱歌曲時，可以根據(jù)所哼唱的歌曲的旋律信息判斷其哼唱的歌曲名字，而旋律信息以旋律包絡曲線表示，主要包含兩個重要的參數(shù)序列：一是音調(diào)變化信息；二是節(jié)奏信息。這兩種音頻內(nèi)容描述與音調(diào)持續(xù)時間長短及音調(diào)間的高低變化有關。

8.2.3基于內(nèi)容的音頻檢索的難點

音頻檢索是指從音頻資源中找出滿足用戶需求的音頻的過程。音頻本身具有的特點如下：

(1)音頻信號是帶有語音、音樂和音效的有規(guī)律的聲波的頻率、幅度變化信息載體，它也是一種時間依賴的連續(xù)媒體。

(2)人接收聲音有兩個通道(左耳、右耳)，計算機模擬接收自然聲音也有兩個聲道。

(3)語音或樂音信號不僅僅是聲音的載體，同時還攜帶了情感和意向，故對音頻信號的處理不僅是信號處理，還要抽取語義等其他信息。

由于音頻具有以上特點，基于人工輸入的屬性和描述來進行音頻檢索有其固有的缺陷，勢必要尋找一種新的途徑來進行音頻檢索。然而，盡管國內(nèi)外研究者就音頻信息檢索技術開展了大量的研究工作，音頻檢索技術在應用領域仍面臨著重重困境。在理論研究方面，與文本信息檢索及圖像和視頻信息檢索技術相比，音頻檢索技術仍然是一個未成熟的、具有極大潛力的研究領域，還存在以下一些問題需要解決：

(1)有效音頻特征提取問題。

(2)動態(tài)音頻檢索問題。

(3)噪聲魯棒的靜態(tài)音頻檢索與索引問題。

8.2.4現(xiàn)有的音頻檢索系統(tǒng)

音頻信息可以劃分為語音、音樂和波形聲音三種類型，相應的檢索處理方法也分為以下三種。

1.語音檢索

語音檢索指以語音為中心，通過語音輸入進行信息檢索的技術。它允許用戶使用口語或語音指令來提出查詢并獲取相關的搜索結(jié)果。

。圖8-6為使用Google語音檢索獲取天氣信息的示例。

圖8-6Google語音檢索天氣示例

另一個常見的語音檢索網(wǎng)站是Amazon的Alexa。Alexa是一款智能助手設備，支持語音命令和查詢。用戶可以使用Alexa執(zhí)行各種任務，如播放音樂、設定鬧鐘、控制智能家居設備等。通過語音交互，Alexa能夠理解用戶的指令并提供相應的反饋和執(zhí)行操作。圖8-7為AmazonAlexa控制智能家居設備示例。

圖8-7AmazonAlexa控制智能家居設備示例

在這個領域中，Houndify是一個令人印象深刻的語音檢索平臺。Houndify不僅具備優(yōu)秀的語音識別能力，還提供了強大的語義理解功能。例如，用戶可以通過簡單的語音指令向Houndify詢問天氣情況，Houndify能夠理解用戶的意圖并提供準確的天氣預報。此外，Houndify還能夠回答關于股票行情、音樂、新聞、交通和地理位置等方面的查詢。圖8-8-為Houndify的應用程序開發(fā)界面。

圖8-8-Houndify的應用程序開發(fā)界面

2.音樂檢索

音樂檢索是一種查找和獲取音樂資源的過程。這種檢索可以基于各種音樂特性，如歌手、歌曲名、專輯名、流派、節(jié)奏、聲調(diào)、情感等關鍵詞進行。它為用戶提供了便捷的方式，讓他們能夠快速地找到自己喜歡的音樂作品或了解更多關于特定歌曲、歌手或樂隊的信息。

圖8-9為千千音樂的分類檢索界面，界面中給出了語種、流派、主題、情感和場景等多種檢索方式。圖8-10為QQ音樂的分類檢索界面，可以看出其檢索方式還包括熱門、主題、場景和心情等。

圖8-9千千音樂的分類檢索界面

圖8-10QQ音樂的分類檢索界面

3.音頻檢索

音頻檢索是一種基于波形聲音的檢索方法，它允許用戶通過音頻內(nèi)容來查找相關的信息或資源。這種技術利用了聲音的唯一特征和波形形狀，以實現(xiàn)準確的匹配和識別。

Shazam是一款廣受歡迎的音頻識別應用程序，它能夠迅速識別和標識幾乎任何播放中的歌曲。Shazam音頻識別界面如圖8-11(a)所示。

QQ音樂的音樂識別功能允許用戶通過錄制或上傳一段音頻來識別該音頻所對應的歌曲信息，如圖8-11(b)所示。

圖8-11Shazam與QQ音樂的聽歌識曲功能

8.3基于內(nèi)容的圖像檢索技術

圖像數(shù)據(jù)的爆炸性增長使得對圖像的管理和檢索越來越受到關注。傳統(tǒng)的圖像檢索方法從本質(zhì)上來說是一種基于文本的圖像檢索技術，它的歷史可以追溯到20世紀70年代末期，當時流行的圖像檢索技術是將圖像作為數(shù)據(jù)庫中存儲的一個對象，用關鍵字或自由文本對其進行描述，查詢操作是基于該圖像的文本描述進行精確匹配或概率匹配。然而，傳統(tǒng)的圖像檢索方法具有以下難以克服的缺點：

(1)每一幅圖像都需要人工進行注釋，因此標注較大的圖像數(shù)據(jù)庫需要大量的人工勞動。

(2)人工注釋具有很強的主觀性，即使對于同一幅圖像，不同的人有著不同的看法，而且，一旦人工注釋完成就很難更新和改變。

(3)一幅圖像所包含的意義非常豐富，“一幅圖像勝過千言萬語”，人工注釋的少量文字很難充分表達圖像的內(nèi)涵。

(4)不同國家、不同民族很難用同一種語言對圖像加注標識，而且對圖像語義理解的差異也很大，不可能形成一種統(tǒng)一的檢索方法。

8.3.1基于內(nèi)容的圖像檢索系統(tǒng)的檢索過程和關鍵技術

圖8-12給出了一個典型CBIR系統(tǒng)的基本結(jié)構框圖。從圖中可以看出，系統(tǒng)主要由圖像查詢子系統(tǒng)和圖像庫建立子系統(tǒng)兩部分組成。圖像庫建立子系統(tǒng)的主要功能是建立和維護整個圖像庫及相關文件，其核心是特征提取技術。特征提取技術對圖像庫中的圖像提取特定的特征，生成特征矢量，并與圖像一起存儲在圖像庫中，從而形成基于內(nèi)容的圖像數(shù)據(jù)庫。

圖8-12典型CBIR系統(tǒng)的基本結(jié)構框圖

根據(jù)上述對CBIR系統(tǒng)基本功能的描述，下面我們著重介紹基于內(nèi)容的圖像檢索系統(tǒng)中的關鍵技術。

1.特征提取

圖像特征的提取與表達描述是圖像檢索技術的基礎。圖像的內(nèi)容特征可以分為兩類：低層視覺特征和高層語義特征。低層視覺特征主要包括顏色、紋理、形狀和空間關系等，可以通過特征提取獲得。高層語義特征則包含圖像對應的語義信息，需要對圖像中目標進行檢測、識別和解釋，往往要借助人類的知識推理，依靠人機交互的方式獲得。

1)低層視覺特征

(1)顏色特征提取。顏色被認為是CBIR系統(tǒng)中最主要的視覺特征，最早在基于內(nèi)容的圖像索引中得到應用。每個物體都有其特有的顏色特征，同一類事物往往有著相似或相同的顏色特征，因此可以利用顏色特征來區(qū)分不同物體。對圖像檢索比較有效的顏色特征的表達方法有顏色直方圖、顏色相關圖、顏色矩和顏色一致性矢量等。顏色包含兩個概念：一個對應全局顏色分布；一個對應局部顏色信息。

基于全局顏色特征的檢索方法中，目前采用最多的是色彩直方圖的方法，它的主要思想是：根據(jù)色彩直方圖統(tǒng)計每種色彩在圖像中出現(xiàn)的概率，然后采用色彩直方圖的交集來度量兩幅圖像色彩的相似性。該方法優(yōu)點在于簡單有效，而且對圖像旋轉(zhuǎn)、伸縮變換不敏感，缺點是忽略了色彩的空間分布信息。在此基礎上，又出現(xiàn)了累積直方圖、模糊直方圖和合并直方圖等改進方法。

局部顏色信息是指局部相似的顏色區(qū)域，它考慮了顏色的分布與一些初級的幾何特征。局部區(qū)域中的顏色信息可以表示為平均色彩、主色彩、色彩直方圖和二進制色彩集。Xu等人試圖結(jié)合圖像的色彩信息和圖像色彩的部分空間信息對顏色直方圖進行檢索。Chang等人采用色彩的自動分割方法，形成一個二進制的色彩索引集，在圖像匹配中，比較這些圖像色彩集的距離和色彩區(qū)域的空間信息。

(2)紋理特征提取。紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征，它是圖像中既重要而又難以描述的特征，反映的是圖像像素灰度級空間分布的屬性。紋理是與物體表面材質(zhì)相關的視覺特性，可以視為某些近似形狀的重復分布。從人類的感知經(jīng)驗出發(fā)，紋理特征的基本特征大致包括粗糙度、對比度、方向度、線像度、規(guī)整度和粗略度，其中最重要的特征是粗糙度、對比度和方向度。這些紋理特征集很好地對應人類視覺感知特性，也是用于檢索的主要特征。紋理分析的方法大致可以分為兩類：統(tǒng)計方法和結(jié)構方法。另外，近年來小波理論和分形理論的發(fā)展，為紋理分析提供了新的工具。

統(tǒng)計方法是最簡單的，它借助于灰度直方圖的矩來描述紋理。紋理統(tǒng)計特征分析方法主要有共生矩陣分析法、馬爾可夫分析法、多尺度自回歸模型以及遺傳算法等?；诙A灰度統(tǒng)計特征的統(tǒng)計方法通常在頻率域和空間域上進行。在頻率域上，主要采用傅里葉變換和小波分析方法。圖像在傅里葉變換后，其能量譜在一定程度上反映了圖像的粗糙度和方向性。用Gabor小波模型表示紋理也是紋理分析的一大方向。

結(jié)構方法是根據(jù)紋理基元及其排列規(guī)則來描述紋理的結(jié)構、特征以及特征與參數(shù)之間的關系。結(jié)構方法的紋理描述包括圖像的對比度、粗細度、方向性、重復性和復雜性等。這種描述方法通常將計算特征與語義聯(lián)系起來，有利于高層語義的獲取。

(3)形狀特征提取。物體或區(qū)域的形狀是圖像表達和圖像檢索中的另一重要特征。許多物體具有不同的顏色，但其形狀總是類似的。形狀常與目標聯(lián)系在一起，有一定的語義含義，因而形狀特征可以看成比顏色或紋理更高層一些的特征。

形狀特征的表達必須以對圖像中物體或區(qū)域的劃分為基礎。形狀可用面積、周長、連通性、離心率、拐點數(shù)、圓形度、偏心率、主軸方向形狀矩、曲率、分形維等全局和局部特征來表示。

一般來說，形狀特征有兩種表示方法：一種是輪廓特征；另一種是區(qū)域特征。圖像的輪廓特征主要針對物體的外邊界，而圖像的區(qū)域特征則關系到整個形狀區(qū)域。這兩類形狀特征提取的最典型方法是傅里葉形狀描述符(FourierShapeDescriptor)和

形

狀

無

關

矩(MomentInvariant)。傅里葉形狀描述符是用物體邊界的傅里葉變換作為其形狀描述的。形狀無關矩是基于區(qū)域的物體形狀表示方法。

(4)圖像空間關系特征提取。顏色、紋理和形狀等多種特征反映的都是圖像的整體特征，而無法體現(xiàn)圖像中所包含的對象或目標。事實上，圖像中對象所在的位置和對象之間的空間關系同樣是圖像檢索中非常重要的特征?？臻g關系是指空間對象之間的空間特性關系，主要包括拓撲、方向、度量這三大類關系。

提取圖像空間關系特征的方法可分為兩類。

一類是基于圖像分割的方法。對圖像進行自動分割，劃分出其中所含的對象或顏色區(qū)域，然后根據(jù)這些區(qū)域進行圖像索引。

另一類是基于圖像子塊的方法。簡單地將圖像均勻劃分成若干規(guī)則子塊，然后提取每個圖像子塊特征并建立索引。

2)高層語義特征

在CBIR系統(tǒng)中，存在一個低層視覺特征和高層語義特征理解之間的差異，也就是著名的語義鴻溝(SemanticGap)。語義鴻溝存在的主要原因是低層視覺特征不能完全反映或者匹配用戶的檢索意圖。彌補這個鴻溝的技術手段主要有相關反饋、圖像分割、建立復雜的分類模型以及完善圖像語義抽取規(guī)則知識庫等，這些圖像檢索技術都有需要完善的地方。

提取圖像的語義特征依據(jù)的是圖像的視覺特征，這與基于文本的圖像檢索有本質(zhì)區(qū)別。過去的基于文本的圖像檢索只是簡單機械地進行字符串匹配，而現(xiàn)在提出的語義特征提取概念則是在文字與圖像之間建立起映射關系。這種映射關系不是一對一的，相同的文字在不同的圖像內(nèi)容中可以代表不同的含義，不同的文字也可以表示相似或是相同內(nèi)容的圖像。

基于語義的圖像檢索主要致力于兩個方面的技術研究：景物分析與分類技術和目標識別與檢索技術。景物分析與分類技術對于基于語義的圖像檢索是非常重要的，因為其不僅可作為檢索時一個重要的過濾器，還可以識別特殊物體。目標識別與檢索技術主要是利用數(shù)據(jù)庫檢索技術來識別和分類目標，它包括全自動目標識別和基于用戶的相關反饋學習這兩種技術。

2.索引技術

在Internet上存儲的圖像數(shù)據(jù)一般都是海量數(shù)據(jù)，必須建立合適的高維索引方法對特征空間進行索引，使得在檢索時，不必比較數(shù)據(jù)庫中的每一幅圖像，而是通過索引直接找到相似圖像。美國匹茲堡大學的張系國教授在研究圖像信息系統(tǒng)時指出，對于圖像數(shù)據(jù)其索引應從三個方面(索引的表示、索引的組織和索引的提取)進行研究，并用一個三維坐標來表示。

3.相似性匹配

圖像檢索的效果很大程度上取決于相似度匹配算法的優(yōu)劣，即如何以一定的計量或測量方法來判斷圖像內(nèi)容是否相關。在模式識別技術中，特征的相似度測量一般采用距離

法，即特征的相似程度用特征向量的空間距離來表示，常用的有歐氏距離、馬氏距離等。在基于內(nèi)容的圖像檢索中，兩幅圖像是否相似是指它們的視覺特征是否相似。通常將圖像的特征看成坐標空間(即特征空間)中的點，兩個點的接近程度通常用它們之間的距離表示，即它們之間的不相似程度。距離度量函數(shù)的定義通常要滿足距離公理的自相似性、最小性、對稱性和三角不等性等條件。

8.3.2現(xiàn)有的圖像檢索系統(tǒng)

1.QBIC

QBIC(QuerybyImageContent)系統(tǒng)是由IBM提出的、在基于內(nèi)容的圖像檢索領域應用最早的商用產(chǎn)品。圖8-13為QBIC系統(tǒng)界面。QBIC系統(tǒng)提供了多種查詢方式，包括支持用戶使用例子(系統(tǒng)自身提供)查詢、用戶素描草圖查詢、掃描輸入圖像查詢、指定特征(紋理、顏色等)查詢方式、用戶輸入動態(tài)影像片段和前景中運動的對象等查詢方式。在此系統(tǒng)中，顏色主要使用在RGB、YIQ和Lab等顏色空間直方圖。紋理特征主要基于文獻的紋理描述方法。

圖8-13QBIC系統(tǒng)界面

2.Virage

Virage是由Virage公司開發(fā)研制的基于內(nèi)容的圖像搜索引擎。Virage的特點包括：提供了完善的用戶開發(fā)功能，例如用于用戶開發(fā)界面的工具包；提出Primitive概念，用于支持用戶定義新的圖像視覺特征(包括該特征的類型、計算和相似性度量方法)；支持五種抽象數(shù)據(jù)結(jié)構，便于圖像特征的描述；提供用戶相關反饋檢索機制。該系統(tǒng)比較適合用來進行特定應用領域圖像數(shù)據(jù)庫的二次開發(fā)。Virage已經(jīng)和多種商業(yè)數(shù)據(jù)庫進行了集成。

3.VisualSEEK和WebSEEK

VisualSEEK和WebSEEK是由美國哥倫比亞大學開發(fā)的姊妹系統(tǒng)。它們的主要特點是利用圖像區(qū)域空間關系進行查詢和從壓縮域提取視覺特征來進行檢索。系統(tǒng)中主要使用的特征是顏色特征和基于小波變換的紋理特征，并且使用基于Quad-Tree和R-Tree的索引結(jié)構以提高檢索速度。VisualSEEK和WebSEEK支持基于視覺特征及其相互之間空間關系的檢索。WebSEEK主要是面向Web的搜索引擎，它包括三個模塊：圖像/視頻收集，分類、索引和搜索，瀏覽和檢索。VisualSEEK和WebSEEK支持關鍵詞檢索，并使用用戶相關反饋技術來改善檢索結(jié)果。

4.AuroraEye

極光是唯一能夠用肉眼看見的反映極區(qū)特征的地球物理現(xiàn)象，對其形態(tài)和演變的觀測可以獲得大量有關磁層和日地空間電磁活動的信息。隨著全天空數(shù)字成像系統(tǒng)的出現(xiàn)，每年數(shù)以百萬計的極光圖像被采集存儲，為研究極光現(xiàn)象提供了極為重要的數(shù)據(jù)來源。如果沒有高效準確的檢索工具，人們很難從海量極光數(shù)據(jù)中搜索到自己所需的圖像。

基于內(nèi)容的極光影像序列檢索系統(tǒng)AuroraEye的總體結(jié)構框圖如圖8-14所示。

圖8-14基于內(nèi)容的極光影像序列檢索系統(tǒng)AuroraEye的總體結(jié)構框

圖8-15給出了基于內(nèi)容的全天空極光圖像檢索示例。該示例為基于LBP表征的圖像匹配結(jié)果。每組的左圖為輸入圖像，右圖為使用LBP表征和最近鄰匹配器檢索到的與左圖最相似的圖像。由圖中可以看出，該系統(tǒng)檢索到的兩幅全天空極光圖像非常相似。其中，每幅極光圖像下方標示了該圖像拍攝的時間。

圖8-15基于內(nèi)容的全天空極光圖像檢索示例

5.MARS

MARS是伊利諾伊大學厄巴納－香檳分校開發(fā)的支持圖像底層特征的復合檢索的圖像檢索系統(tǒng)。其特點是使用比較全面的圖像底層特征，提供基于樹結(jié)構的多特征組合檢索。在圖像特征方面：使用HSV顏色空間的HS上的色彩直方圖來描述圖像的顏色；抽取圖像紋理的粗糙程度和方向性以及對比度等特征來描述紋理；采用圖像的規(guī)劃分割方法對圖像特征的空間分布進行描述；根據(jù)紋理對圖像進行分割來實現(xiàn)圖像中對象的描述；對分割后的對象區(qū)域按照敏感性進行分組；使用傅里葉描述子對圖像中對象的形狀進行描述。

檢索時對上述特征分別采用相應的相似性度量方法，最后給出綜合排序。由于采用多方面的圖像特征描述和相應的相似度度量方法，因此該系統(tǒng)可以提供比較復雜的檢索功能。這個系統(tǒng)的突出特點在于引入了相關反饋機制，能夠根據(jù)用戶的交互動態(tài)地組織和優(yōu)化查詢，從而提高檢索效率。

8.3.3圖像檢索系統(tǒng)的發(fā)展趨勢

目前，CBIR技術的研究熱點主要集中在以下幾個方面：

(1)基于全局特征的圖像檢索。

(2)基于區(qū)域的圖像檢索(Region-basedImageRetrieval)。

(3)基于圖像語義的研究。

(4)高維特征索引技術。

(5)相關反饋技術(RelevanceFeedback，RF)。

(6)相關反饋與機器學習相結(jié)合。

8.4基于內(nèi)容的視頻檢索技術

8.4.1概述多媒體技術與網(wǎng)絡技術的發(fā)展，信息豐富的多媒體數(shù)據(jù)逐漸成為信息處理與傳輸?shù)闹饕獙ο?，尤其是視頻數(shù)據(jù)。視頻是一種較特殊的媒體，有時也稱為圖像序列、連續(xù)圖像和運動圖像等，具有數(shù)據(jù)量大、蘊涵信息豐富的特點，已經(jīng)成為多媒體信息的一種主要表達形式。

信息社會的特點不僅僅在于信息數(shù)據(jù)的爆炸性增長，更在于信息的有效利用。但是，視頻本身是一種無結(jié)構的、時間依賴的數(shù)據(jù)流，難以組織與索引。要尋找感興趣的視頻信息，通常的做法是要從頭至尾觀看整個視頻，這是非常耗時且令人厭煩的。第一代視頻檢索系統(tǒng)基本上基于文本方式，所使用的信息主要有兩種：內(nèi)容無關的元數(shù)據(jù)與人工標注的內(nèi)容相關的關鍵詞或自由文本。這種方式的不足之處是：①

需要大量的人力對視頻數(shù)據(jù)進行注釋；②

視頻蘊涵的信息非常豐富，而人的感知是主觀的，不同的人對同樣的視頻內(nèi)容有不同的感知，這種主觀性和注釋的不準確性會導致視頻檢索的失配。

視頻中包含的內(nèi)容可以分為視覺內(nèi)容與語義內(nèi)容兩個部分：視覺內(nèi)容是客觀的，如顏色、紋理、形狀、空間關系和運動信息等；語義內(nèi)容卻常常具有一定的主觀性，是人類的一種感知，與觀察者密切相關，如事件、情節(jié)等。即使視覺內(nèi)容是客觀的，但要用文字進行準確描述與標注，也是一件非常困難的事情，如一幅紋理圖像，用文字描述有時是不可能的。語義內(nèi)容受觀察者、環(huán)境的影響更大，其標注往往因人而異，難以準確和客觀。

基于內(nèi)容的視頻檢索指的是對視頻數(shù)據(jù)中蘊涵的視覺和語義內(nèi)容進行計算機處理、分析與理解并根據(jù)內(nèi)容進行檢索，其本質(zhì)是對無序的視頻數(shù)據(jù)結(jié)構化，提取視覺與語義信息，保證視頻內(nèi)容能被快速檢索?；趦?nèi)容的視頻檢索與以往基于整個視頻文件的檢索相對應，是基于視頻數(shù)據(jù)局部且與內(nèi)容相關的檢索。基于內(nèi)容的視頻檢索不需要人工注釋文本關鍵詞，是由計算機自動完成的。目前基于內(nèi)容的視頻檢索的研究主要集中在基于視覺特征的檢索方式上，還不能很好地實現(xiàn)基于語義特征的檢索。

另一方面，隨著網(wǎng)絡技術與視頻壓縮技術的發(fā)展，視頻已成為網(wǎng)絡傳輸中一種主要的數(shù)據(jù)形式。但是，相對于視頻的大數(shù)據(jù)量來說，現(xiàn)有硬件的計算、存儲和網(wǎng)絡傳輸能力仍然面臨嚴峻的考驗，難以滿足服務要求。相對于視頻用戶的需求來說，網(wǎng)絡中傳輸?shù)囊曨l是相當冗余的，有許多是無用的。因為沒有有效的視頻檢索技術，用戶往往需要將視頻下載到本地來瀏覽，這樣有可能存在兩種情況：

一是下載的視頻是無用的；

二是在一段相當長的視頻中只有極少的一部分是滿足用戶需求的。

8.4.2基于內(nèi)容的視頻檢索及關鍵技術

1.CBVR的組成與特點

從數(shù)據(jù)庫管理系統(tǒng)的角度來分析基于內(nèi)容的視頻檢索系統(tǒng)，CBVR系統(tǒng)的組成結(jié)構如圖8-16所示。

圖8-16CBVR系統(tǒng)的組成結(jié)構

CBVR系統(tǒng)主要包括以下五個部分。

1)視頻數(shù)據(jù)庫(VideoDatabase)

視頻數(shù)據(jù)庫是視頻數(shù)據(jù)的物理存儲，主要存放各種類型與格式的視頻。它可以是抽象的，也可以是具體的。抽象是指視頻數(shù)據(jù)庫與具體的視頻媒體類型、存儲形式等無關，可以是壓縮視頻，也可以是未壓縮視頻，可以是傳統(tǒng)的模擬視頻如存儲在錄像帶中的視頻，也可以是數(shù)字視頻，如存儲在存儲器中的視頻文件，甚至還可以指分布在整個因特網(wǎng)中的視頻。具體而言，通常是特指存儲在本地的視頻數(shù)據(jù)，一般是壓縮的數(shù)字視頻。

2)特征數(shù)據(jù)庫(FeatureDatabase)

特征數(shù)據(jù)庫用來存放視頻數(shù)據(jù)管理的目標模式，用這些目標模式可以把視頻數(shù)據(jù)的邏輯位置與物理位置聯(lián)系起來。在基于內(nèi)容的視頻檢索系統(tǒng)中，目標模式通常是用視頻數(shù)據(jù)的內(nèi)容特征來表示的。在這里，特征既可以是文本形式的元數(shù)據(jù)，也可以是視覺特征(如顏色、形狀、紋理和運動信息等)。特征數(shù)據(jù)庫是在視頻歸檔時建立的，其關鍵作用是建立視頻數(shù)據(jù)與邏輯表達之間的聯(lián)系。特征數(shù)據(jù)庫實質(zhì)是視頻數(shù)據(jù)庫的索引，因此特征數(shù)據(jù)庫中目標模式以什么樣的方式來組織與存儲，對CBVR系統(tǒng)的性能有著非常重要的影響。

3)視頻查詢

視頻查詢的作用是將用戶提交的不同類型的查詢轉(zhuǎn)換為上述特征數(shù)據(jù)庫中一致的目標模式，并將目標模式與特征數(shù)據(jù)庫中存儲的目標模式進行相似匹配，以實現(xiàn)所查詢視頻的物理定位?；趦?nèi)容的視頻查詢有兩種含義：①

查詢與視頻內(nèi)容相關的概念，這種查詢比較抽象，最簡單的概念表達方式是基于文字的，一般常使用自由文本或關鍵詞；②

查詢視頻中目標的運動、紋理和顏色等特征，這種查詢比較具體，如關鍵幀的顏色、紋理、形狀和運動信息等。

4)視頻歸檔

視頻歸檔的作用是將原始視頻數(shù)據(jù)加入視頻數(shù)據(jù)庫中，其主要功能是對視頻數(shù)據(jù)進行結(jié)構與內(nèi)容分析，將提取的目標模式存儲在特征數(shù)據(jù)庫中。目標模式以手工、半自動、全自動的方式抽取，其實質(zhì)是提取表達目標模式所需的各種特征。在基于內(nèi)容的視頻檢索中，實現(xiàn)目標模式的半自動或全自動提取，盡量減少人工操作，是CBVR系

統(tǒng)

的

根

本目標。

5)用戶接口

用戶接口的作用是接受用戶的查詢請求，并將查詢結(jié)果以直觀可視的方式表現(xiàn)出來。用戶接口應是用戶友好的，支持用戶的多種查詢方式，支持個性化查詢。由于基于內(nèi)容的視頻檢索是一種相似檢索，因此還應具有相關反饋機制。

從系統(tǒng)使用的角度來分析，可以將基于內(nèi)容的視頻檢索系統(tǒng)分為兩個子系統(tǒng)：視頻歸檔與視頻檢索，其流程如圖8-17所示。

圖8-17視頻歸檔與視頻檢索系統(tǒng)流程

基于內(nèi)容的視頻檢索一般是根據(jù)查詢(如例子幀或例子視頻段)提取的特征向量與特征數(shù)據(jù)庫進行相似性匹配，這就存在一些問題：

①

視頻的描述具有主觀性，用一組確定的特征不一定能表達用戶的主觀意圖；

②

低層視覺特征與高層語義特征存在著目前難以克服的語義鴻溝；

③

采用的相似性測度不一定與用戶的主觀評價一致；

④

用戶不一定開始就明確知道或能明確表達其查詢要求。

因此，期望通過一次搜索就找到所需的視頻單元在具體應用中通常是不現(xiàn)實的，基于內(nèi)容的視頻檢索技術需要隨應用和用戶的不同而調(diào)整，采用的技術就是相關反饋技術，使用戶可以動態(tài)地、交互地調(diào)整其查詢，將用戶的特殊要求反饋給系統(tǒng)，使檢索更有效且更接近用戶的需求?；趦?nèi)容的視頻檢索應該是一個漸進的處理過程，并且應該能實現(xiàn)個性化查詢，如圖8-18所示。

圖8-18-用戶查詢處理過程

由于視頻數(shù)據(jù)通常是一種無結(jié)構的碼流，從以上基于內(nèi)容的視頻檢索系統(tǒng)的分析可知，要實現(xiàn)基于內(nèi)容的視頻檢索，關鍵就是怎樣根據(jù)內(nèi)容對視頻數(shù)據(jù)進行組織，使之支持基于內(nèi)容的視頻檢索。因此，一個理想的基于內(nèi)容的視頻檢索系統(tǒng)，有幾個關鍵問題需要解決：

①

將無結(jié)構的視頻流結(jié)構化，組織成不同層次的視頻單元，以支持不同粒度的視頻檢索，即通常所說的狹義的視頻結(jié)構分析；

②

對視頻進行內(nèi)容分析，確定能夠充分描述視頻內(nèi)容的特征，包括視覺與語義特征等，即通常所說的視頻內(nèi)容分析；

③

要有有效的特征提取方法及相應的特征降維與約簡方法；

④

對于大型的視頻數(shù)據(jù)庫，要有有效且快速的組織與索引技術，即要有一種快速的訪問機制；

⑤

要有準確的特征匹配算法，支持視頻的相似性檢索；

⑥

要有有效的顯示與交互技術，支持用戶瀏覽、相關反饋等。

2.視頻檢索關鍵技術

1)視頻數(shù)據(jù)模型

從上面的討論可知，要實現(xiàn)基于內(nèi)容的視頻檢索，就必須對無結(jié)構的視頻數(shù)據(jù)流進行有效的組織。要對視頻數(shù)據(jù)進行有效的組織，就要有合適的視頻數(shù)據(jù)模型。在視頻數(shù)據(jù)模型實例化的過程中，有兩個關鍵問題需要解決：①

時域分割，即將視頻數(shù)據(jù)重新組織為不同層次的視頻單元，以實現(xiàn)視頻檢索的局部化；②

內(nèi)容分析，即確定能刻畫視頻單元的區(qū)域、目標、運動等屬性，提取特征向量，建立索引，以實現(xiàn)基于內(nèi)容的檢索。從廣義上說，視頻結(jié)構化應該包括分析視頻內(nèi)容、提取特征、對內(nèi)容進行描述，以獲得視頻結(jié)構化的表達。

視頻數(shù)據(jù)模型的設計應遵循以下原則：首先，它應反映不同層次的視頻單元中所蘊含的各種特征，這些特征作為特征數(shù)據(jù)庫中的目標模式把視頻數(shù)據(jù)的邏輯信息與物理信息聯(lián)系起來，以實現(xiàn)基于內(nèi)容的視頻檢索；其次，視頻數(shù)據(jù)模型應該能支持一定的視頻操作；最后，視頻數(shù)據(jù)模型應該能夠應用MPEG-7標準建立統(tǒng)一的視頻內(nèi)容描述。

以下是幾種常用的視頻數(shù)據(jù)模型：

(1)時間類描述模型。

(2)基于應用及生成的視頻數(shù)據(jù)模型。

(3)代數(shù)視頻數(shù)據(jù)模型。

它引入了視頻段

之間的層次關系及視頻代數(shù)操作，具有的特點是：①

模型支持嵌套視頻結(jié)構單元，如鏡頭、場景及視頻序列等；②

模型可表示視頻段的時間組成；③

模型定義了視頻段的表現(xiàn)特征；④

模型提供了與邏輯視頻段相關的內(nèi)容信息；⑤

模型提供了基于內(nèi)容、結(jié)構及空間信息的存取。

(4)通用視頻數(shù)據(jù)框架模型。通用視頻數(shù)據(jù)框架模型是借助傳統(tǒng)數(shù)據(jù)庫模型的表達方式建立起來的，它具有以下特征：①

模型借助E-R(Entity-Relationship)圖建立一個概念模型，模型中提供了核心概念及模塊，在應用中可以使用其核心概念或是其子集，所以該模型具有較強的靈活性，適合不同需要，具有通用性；②

模型采用視頻分段的方法定義視頻文檔結(jié)構，有良好的層次抽象結(jié)構，支持鏡頭、場景、序列及復合單元等多級抽象；③

模型采用了面向?qū)ο蟮募夹g，每個視頻對象都有唯一的標識符，并可具有復雜的屬性；④

模型中引入了視頻數(shù)據(jù)上下文的概念，借助于上下文可把原始視頻合成為新視頻流，并由此可能產(chǎn)生新的語義；⑤

模型中定義了視頻查詢代數(shù)，可對視頻數(shù)據(jù)進行方便的操作。

(5)面向?qū)ο蟮囊曨l數(shù)據(jù)模型。面向?qū)ο蟮囊曨l數(shù)據(jù)模型是基于面向?qū)ο蟮母拍钐岢龅?。在視頻數(shù)據(jù)模型中引入面向?qū)ο蟮母拍?，具有一定的?yōu)點：①

借助于面向?qū)ο蠹夹g中的復合及泛化聯(lián)系的概念可表達視頻數(shù)據(jù)對象之間的復雜關系，有助于視頻數(shù)據(jù)的表達和管理；②

借助于面向?qū)ο蠹夹g中數(shù)據(jù)及相關方法的封裝概念，可減少視頻數(shù)據(jù)之間類型及描述的差異為構造模型增加的難度；③

借助于基于類層的屬性結(jié)構及方法的繼承性，可解決視頻數(shù)據(jù)的表達及擴充的問題。在視頻數(shù)據(jù)模型中引入面向?qū)ο蟮母拍?，與MPEG系列標準的發(fā)展方向是一致的。

2)視頻時域分割

要做到基于內(nèi)容的視頻檢索，就必須按照視頻數(shù)據(jù)模型對視頻數(shù)據(jù)進行結(jié)構分析，例如將視頻流中的連續(xù)幀序列分割成若干“有意義”的不同層次的視頻單元(如鏡頭、場景等)，建立層次結(jié)構，以支持不同粒度的視頻檢索。視頻數(shù)據(jù)一般都是分層組織的，但是，將視頻數(shù)據(jù)按多少個層次進行組織以及不同層次的劃分標準等問題存在較大的分歧。目前，比較一致的看法是將視頻數(shù)據(jù)按“幀(Frame)—鏡

頭(Shot)—場

景(Scene)—視

頻(Video)”的層次形式進行組織。視頻的分層組織結(jié)構如圖8-19所示。

圖8-19視頻的分層組織結(jié)構

視頻數(shù)據(jù)結(jié)構化一般有兩種方法：

一種是人工方法，非常煩瑣且無法保證視頻分析的效果；

另一種是計算機自動分割，受目前相關技術的限制，該方法只能在較低的層次上實現(xiàn)，還無法在高層語義上實現(xiàn)視頻流的自動分割，因此計算機自動視頻流分割是未來的發(fā)展方向。

3)視頻內(nèi)容分析

視頻內(nèi)容分析指視頻時域分割后，確定能刻畫視頻單元的屬性，并提取相應的特征，對內(nèi)容進行描述與表達。在基于內(nèi)容的視頻檢索中，使用的信息大體上可以分為三類：①

內(nèi)容無關的元數(shù)據(jù)，指與視頻內(nèi)容不直接相關但有某種聯(lián)系的數(shù)據(jù)，如視頻格式、作者、日期、所有權等；②

內(nèi)容相關的元數(shù)據(jù)，如顏色、紋理、形狀、空間關系、運動等低層或中層的數(shù)據(jù)，通常這些元數(shù)據(jù)與視覺感知相聯(lián)系；③

內(nèi)容描述元數(shù)據(jù)，如高層語義內(nèi)容數(shù)據(jù)，一般以文字形式描述，它關心視頻實體與客觀世界實體的關系，或者與視覺符號和場景相聯(lián)系的時間事件、感受和意圖的聯(lián)系。

根據(jù)人類視覺感知特點，內(nèi)容處理、分析或建模通常在三個層次上進行，下面簡單介紹這三個層次。第一個層次是低層內(nèi)容建模，即原始視頻數(shù)據(jù)建模，采用的技術是傳統(tǒng)的圖像處理與視頻處理技術，提取顏色、紋理、形狀、空間關系和運動軌跡等視覺特征，能實現(xiàn)諸如“上邊是紅色，下邊是藍色的鏡頭查詢”“目標從左下角運動到右下角的鏡頭查詢”等，典型的系統(tǒng)是IBM開發(fā)的QBIC系統(tǒng)。

第二個層次是中層內(nèi)容建模，即派生或邏輯特征表示，采

用的技術是計算機視覺技術，使用邏輯與統(tǒng)計推理，提取對象及其相互關系等特征，也就是通常所說的高層特征，如車、人、塔等，能實現(xiàn)諸如“包含塔的鏡頭查詢”“包含車的鏡頭查詢”等，典型的系統(tǒng)是哥倫比亞大學開發(fā)的VideoQ系統(tǒng)。中層內(nèi)容分析提取的對象可以說是介于低層視覺特征與高層語義內(nèi)容之間，描述對象的特征既包括視覺特征，如對象的顏色、紋理和形狀等，又包括語義特征，如車、人等概念，是實現(xiàn)低層視覺特征向高層語義特征映射的關鍵步驟。

第三個層次是高層內(nèi)容建模，即語義層摘要，相關的技術包括人工智能、認知科學和哲學等。高層內(nèi)容建模使用智能多媒體推理、知識庫等產(chǎn)生對象或場景意義或目的等語義摘要，能實現(xiàn)“包含表情痛苦的人的鏡頭查詢”等，典型的系統(tǒng)是IBM與哥倫比亞大學聯(lián)合開發(fā)的MediaNet系統(tǒng)。進行語義內(nèi)容分析和采用多模態(tài)方法，即融合場景文字、字幕、音頻和視頻等信息進行多媒體推理是一種有效的手段。

4)視頻特征提取與索引

視頻索引是與視頻數(shù)據(jù)模型緊密相關的一個概念，用視頻數(shù)據(jù)實例化視頻數(shù)據(jù)模型的過程就稱之為視頻索引。視頻索引與傳統(tǒng)數(shù)據(jù)庫的索引有很大的不同，視頻索引不僅僅是一種索引結(jié)構，還在于它要能提供一種抽象數(shù)據(jù)類型，用來封裝視頻數(shù)據(jù)的視覺特征和語義特征，以支持基于內(nèi)容的視頻檢索。

提高多維數(shù)據(jù)索引的效率可以從兩個途徑考慮：一是特征降維；二是采用空間訪問方法(SpatialAccessMethod，SAM)。

8.4.3現(xiàn)有的基于內(nèi)容的視頻檢索系統(tǒng)

本節(jié)主要介紹以下幾種常見的基于內(nèi)容的視頻檢索系統(tǒng)：

(1)SVS(SportsVideoSummarization)：一個僅使用音頻特征進行體育視頻精彩內(nèi)容提取的系統(tǒng)。該系統(tǒng)在視頻的壓縮域使用視頻的顏色和運動量兩個最底層的特征來檢測精彩片段，通過減少音頻類型(興奮的語音、音樂、掌聲、歡呼聲、正常的語音)的數(shù)量以及高斯混合模型的復雜度來提高系統(tǒng)的效率。實驗證明該系統(tǒng)也可以用于音樂的分類。由于系統(tǒng)構建簡單，因此很容易集成到其他的系統(tǒng)中去。

(2)SVSS(SmartVideoSurveillanceSystem)：一個專門針對航空領域開發(fā)的系統(tǒng)。該系統(tǒng)綜合使用人臉識別算法(FaceRecognitionAlgorithms，F(xiàn)RA)、主成分分析方法(PrincipleComponentAnalysis，PCA)、線性判別分析(LinearDiscriminationAnalysis，LDA)等技術對異常事件進行檢測并報警。

(3)VideoZapper：一個能夠基于音視頻內(nèi)容的屬性(元數(shù)據(jù))以及其他用戶對內(nèi)容的使用情況將音視頻內(nèi)容進行個性化的選擇與傳輸?shù)南到y(tǒng)。每一個用戶使用音視頻內(nèi)容的信息都被存儲在與該內(nèi)容對應的數(shù)據(jù)庫中，對所有用戶的這些信息進行統(tǒng)計，從而識別出大部分用戶感興趣的信息，在其他用戶使用該音頻和視頻內(nèi)容時，首先將最吸引人的內(nèi)容傳輸給用戶。

(4)BIS(BowlingInformationSystem)：該系統(tǒng)包含視頻內(nèi)容信息、與比賽有關的信息以及運動員的相關信息。所有的這些信息都用MPEG-7的規(guī)范進行描述。另外，該系統(tǒng)還設計了一個半自動標注機，該標注機集成了可感知特征的手動標注與可感知特征的自動提取。通過一個查詢接口，用戶可以檢索他想要的關于保齡球比賽的任何信息。

(5)BilVideo：一個視頻數(shù)據(jù)庫管理系統(tǒng)。該系統(tǒng)由事件提取機、視頻標注機、基于網(wǎng)絡的可視查詢接口以及類似SQL的查詢語言等部分組成。該系統(tǒng)支持顏色、形狀和紋理等查詢方式，并且可以實現(xiàn)剪輯視頻內(nèi)部任何片段的檢索。

(6)IHVMS(IntelligentHomeVideoManagementSystem)：由臺灣清華大學開發(fā)的智能家庭視頻管理系統(tǒng)。該系統(tǒng)首先計算每個視頻的五個特征，即顏色直方圖、紋理、運動幅度、運動方向直方圖和小波系數(shù)，然后使用計算機視覺中的一些技術，例如SVM、NeuralNetwork、Adaboost、K-means聚類算法等進行攝像機異常操作的檢測、鏡頭邊界檢測、人臉識別、關鍵幀提取、可變長度視頻摘要提取。該系統(tǒng)能夠使用戶有效地管理家庭中的各類視頻。

(7)NVBS(NewsVideoBrowsingSystem)：由臺灣的一所大學開發(fā)的新聞視頻瀏覽系統(tǒng)。該系統(tǒng)首先利用所有新聞故事的文字信息對各個故事進行分類，并根據(jù)所提出的基于熵的方法把這些故事聚類成分等級的樹型結(jié)構。同時，為了減少無線環(huán)境下的網(wǎng)絡負載荷，該系統(tǒng)提取每個故事的視頻摘要并進行顯示。

(8)MDSS(Music-DrivenSummarizationSystem)：一個專門針對家庭視頻開發(fā)的管理系統(tǒng)。在該系統(tǒng)中，首先提取音頻中的聲音能量和過零率，基于這兩個特征對音頻進行分割；同時，在視頻中，首先進行鏡頭邊界檢測，然后提取視頻中的一些特征，即人臉、燈光閃爍、運動和圖像幀的平均量度等特征，最后根據(jù)音頻和視頻特征的相關性實現(xiàn)音頻和視頻的同步。

(9)NewBR(NewsVideoBrowsingandRetrievalSystem)：由武漢大學計算機科學系研究與開發(fā)的一個新聞視頻瀏覽與檢索系統(tǒng)。該系統(tǒng)的特點是基于類型的新聞故事瀏覽、基于關鍵幀的視頻摘要、基于關鍵詞的新聞視頻檢索。該系統(tǒng)的基礎是準確的新聞故事分割及其文本標題提取。新聞故事分割采用的方法是鏡頭邊界檢測和故事標題檢測等。該系統(tǒng)采用的一些策略(如音頻和視頻集成的方法)也可以用到其他類似的系統(tǒng)中去。

(10)SportBR(BroadcastedSpotsVideoRetrievalSystem)：由華中師范大學計算機科學系開發(fā)的一個廣播體育視頻檢索系統(tǒng)。該系統(tǒng)采用基于事件的體育視頻瀏覽方法和基于關鍵詞的體育視頻檢索方法。首先將視頻分解為音頻流和視頻流，然后分別提取它們的特征。在視頻流中提取的特征是鏡頭檢測和文本提取等；在音頻流中提取的特征是語音信號能量等。這種多模特征集成的方法有效地提高了檢索的準確性。

(11)VISS(VideoIntelligentSurveillanceSystem)：由清華大學自動化系研究與開發(fā)的一個實時的智能視頻監(jiān)控系統(tǒng)。該系統(tǒng)采用魯棒的運動對象檢測與跟蹤算法，即用碼本模

型(CodebookModel)的方法檢測場景中的運動對象，隨后用LayerHiddenSemi-MarkovModel(LHSMM)對運動場景(如在公園里偷車的行為)進行建模，最后用卡爾曼濾波器(KalmanFilter)跟蹤算法記錄每個對象的運動路徑。

(12)IVDCS(InteractiveVideoDeliveryandCachingSystem)：一個交互式的視頻傳輸與緩存系統(tǒng)。它主要使用視頻內(nèi)容分析與視頻摘要技術。視頻內(nèi)容分析技術包括鏡頭邊界檢測與關鍵幀提取。在一個用戶查詢某一個視頻時，系統(tǒng)并不是直接就把整個視頻提供給用戶，而是首先將該視頻的摘要提供給用戶，然后用戶快速瀏覽該摘要，確定是否觀看該視頻或者其中的某一個部分。該系統(tǒng)節(jié)省了用戶的時間與網(wǎng)絡帶寬。

(13)ISVCE(InteractiveSystemforVideoContentExploration)：一個面向用戶的交互式視頻內(nèi)容瀏覽與搜索系統(tǒng)。該系統(tǒng)能使用戶訪問任何視頻片段的任何詳細的內(nèi)容。該系統(tǒng)由兩個子系統(tǒng)構成：第一個子系統(tǒng)是兩級的視頻緩存系統(tǒng)，主要是濾除不重要的視頻幀，并且把剩下的重要幀組織成圖索引的結(jié)構，這樣可以分等級地訪問視頻內(nèi)容；第二個子系統(tǒng)是用戶接口，該接口幫助用戶交互式地瀏覽視頻的內(nèi)容。該系統(tǒng)有三個主要特點：交互式的視頻瀏覽、語義視頻內(nèi)容總結(jié)和語義視頻內(nèi)容瀏覽。

(14)TQIBS(Two-levelQueuingSystemforInteractiveBrowsingandSearchingof

VideoContentMultimediaSystems)：一種兩級排隊的查詢系統(tǒng)。該系統(tǒng)支持基于關鍵幀的視頻摘要和面向用戶的交互式視頻內(nèi)容搜索。在第一級排隊中，用能量最小化的方法去除過渡幀；在第二級排隊中，通過度量視頻幀之間的相似性來去除冗余幀。最后剩余的關鍵幀以“有向圖”的方式進行組織與管理，此種方式使得用戶對視頻內(nèi)容的查詢變得容易。該系統(tǒng)有一個用戶界面，使用戶可以交互式地搜索視頻內(nèi)容。該系統(tǒng)的特點是計算復雜性小，內(nèi)存占用率少。

(15)LBVR：一個基于改進的AdaBoost學習算法的交互式視頻事件檢索系統(tǒng)。該系統(tǒng)的操作由三個步驟組成：

①

使用基于分布的方法將一段長的視頻序列分割成若干段視頻序列；

②

在每段序列中，提取音頻視頻的特征(顏色、運動和音頻特征)；

③

使用改進的AdaBoost學習算法實現(xiàn)具有相關反饋的交互式視頻檢索。

(16)NewsEye：西安電子科技大學影像處理實驗室自主開發(fā)的一種面向Web的基于內(nèi)容的新聞視頻檢索系統(tǒng)。該系統(tǒng)通過分析新聞視頻的結(jié)構特點，利用視頻語義分割技術和基于內(nèi)容的搜索技術，使得系統(tǒng)具有檢索效率高、檢索便捷和人機交互友好等特點。NewsEye系統(tǒng)的結(jié)構框圖如圖8-20所示。

圖8-20NewsEye系統(tǒng)的結(jié)構框圖

圖8-21為系統(tǒng)歡迎界面。在此系統(tǒng)中，“視頻管理”部分實現(xiàn)視頻鏡頭分割、關鍵幀提取部分的功能；“視頻檢索”部分實現(xiàn)本機的檢索功能；“查看幫助”為用戶提供了該軟件的使用說明。圖8-22和圖8-23分別為視頻管理界面和操作示例界面。

圖8-21系統(tǒng)歡迎界面

圖8-22視頻管理界面

圖8-23操作示例界面

8.4.4TRECVI

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術

文檔簡介

溫馨提示

最新文檔

評論

數(shù)字音視頻處理 課件 第8章 基于內(nèi)容的音頻、圖像、視頻檢索技術

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

數(shù)字音視頻處理課件第8章基于內(nèi)容的音頻、圖像、視頻檢索技術