(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf_第1頁
(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf_第2頁
(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf_第3頁
(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf_第4頁
(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

(計算機軟件與理論專業(yè)論文)音樂哼唱檢索關鍵技術研究.pdf.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

音樂哼唱檢索關鍵技術研究 摘要 音頻檢索與圖像檢索 視頻檢索并列為當今基于內(nèi)容檢索研究的熱點 而 目前基于內(nèi)容的多媒體信息檢索技術研究成果主要集中在圖像和視頻方面 在音 樂檢索上的成果還不多見 隨著數(shù)字音樂作品的劇增 音樂檢索可以用于搜索引 擎 卡拉o k k t v 廳的點歌系統(tǒng) 還可以用于數(shù)字音樂圖書館的檢索等領域 哼唱檢索給音樂檢索提供了易于操作的接1 3 其中哼唱聲音的特征提取 選擇 音樂旋律匹配以及對環(huán)境噪聲的處理是音樂檢索中的難點 本文緊緊圍繞音樂哼唱檢索關鍵技術 開展了以下研究工作 1 給出了基于內(nèi)容音樂檢索的系統(tǒng)框架 通過分析基于內(nèi)容方式檢索音樂 的可行性與難點 給出了哼唱檢索的研究方案和處理框架 2 提出了一種基于音樂旋律輪廓的特征提取算法 該算法從哼唱片斷中提 取出歌曲基音序列 經(jīng)規(guī)整 合并 分段后轉化為旋律輪廓序列 然后使用標準 音調(diào)生成的標準音調(diào)差值表將此序列轉化為旋律輪廓特征 3 提出了一個音樂檢索匹配算法 該算法根據(jù)歌曲字符串對相似度進行了 重新定義 它將從歌譜輪廓特征序列轉化而來的字符串序列與音樂數(shù)據(jù)庫中的歌 曲特征序列進行相似度計算 返回相似度最高的歌曲 4 音樂數(shù)據(jù)庫研究 首先介紹了音樂數(shù)據(jù)庫的建立方法 然后將時間序列 方法引入音樂數(shù)據(jù)庫 使用其中的p a a 算法對音樂數(shù)據(jù)庫進行優(yōu)化處理 5 設計實現(xiàn)了一個基于內(nèi)容的音樂哼唱檢索系統(tǒng) 經(jīng)過實驗驗證該系統(tǒng)對 于單一器樂音樂片段和哼唱的檢索具有較高的準確性 成功率達到9 0 以上 同 時也表明 該系統(tǒng)無需事先訓練 對環(huán)境噪聲有較好的魯棒性 具有較高的檢索 精度 本研究工作得到國家自然科學基金 基于w e b 的音頻識別與檢索關鍵技術 研究 基金編號 6 0 6 7 3 1 0 0 的資助 關鍵訶哼唱檢索音調(diào)差值表歌譜輪廓相似度時間序列 音樂哼唱檢索關鍵技術研究 a b s t r a c t a u d i or e t r i e v a l i m a g er e t r i e v a la n dv i d e or e t r i e v a la l et h eh o tt o p i c si nt h e c o n t e n t b a s e dr e t r i e v a lf i e l d s b u tt h er e s e a r c hr e s u l t so ft h em u l t i m e d i ai n f o r m a t i o n r e t r i e v a lf i e l d si sm a i n l yf e e u s i n go ni m a g ea n dv i d e oa s p e c t s t h e r ea r el i t t l ef r u i t si n t h em u s i cr e t r i e v a lf i e l d s n o wt h e r ea r em o r ea n dm o r en u m e r i cm u s i c s ot h es t u d y o nt h em u s i cr e t r i e v a ls y s t e mi su r g e n ta n di tc a l lb eu s e di nm a n yf i e l d s s u c ha st h e s e a r c he n g i n e p i c k i n gs o n gs y s t e mo fk t vr o o m m u s i cl i b r a r yr e t r i e v a ls y s t e ma n d e ta 1 t h et e c h n o l o g yo f q u e r yb yh u m m i n g c a l lm a k er e t r i e v a le a s yt ou b u tt h e r e a r es o m ed i f f i c u l t i e si nt h eq u e r yb yh u m m i n gf i e l d s s u c ha sf e a t u r ee x t r a c t i o n s o l e c f i o n m u s i cm e l o d ym a t c h i n g e n v k o n m e n tn o i s ea n de ta 1 s u r r o u n d i n gt h ek e yt e c h n o l o g yo ft h eq u e r yb yh u m m i n g t h em a i nw o r k si n t h i sp a p e ra l ea sf e l l o w s 1 t h es y s t e mf l a m eo ft h ec o n t e n t b a s e dm t m i cr e t r i e v a li sg i v e n a f t e r d i s c u s s i n gt h ef e a s i b i l i t ya n dt h ed i f f i c u l t yo ft h em u s i cr e t r i e v a lb a s e do nc o n t e n t s s o l u t i o na n dp r o c e s s i n gf l a m ea r eo b t a i n e d 2 1af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do nt h em u s i cm e l o d yo u t l i n ei sp r o p o s e d t h ea l g o r i t h mp i c k sl l pt h em u s i cp i t c hs e q u 鋤 t h e nc o n v e r t e di tt om e l o d yo u t l i n e s e q u e n c e f i n a l l yt h es e q u e n c ei sc o n v e r t e dt om e l o d yo u t l i n ec h a r a c t e r i s t i c sb a s e do n t h et a b l eo f s t a n d a r dt o n ed i f f e r e n c e sv a l u e 3 a m a c c ha l g o r i t h mo f m u s i cr e t r i e v a li sp r o p o s e d t h ea l g o r i t h mr e d e f i n e st h e s t r i n g ss i m i l a r i t ya c c o r d i n gt ot h es o n gc h a r a c t e r i s t i c a n dc o m p a r e st h es t r i n g s e q u e n c et om u s i cc h a r a c t e rs e q u e n c e si nt h ed a t a b a s et og e tt h eo b j e c tw h i c hh a s h i 班s i m i l a r i t y 舢s t u d y i n go f t h em u s i cd a t a b a s e n 地m u s i cd a t a b a s ee s t a b l i s h m e n tm e t h o dh a s b e e ni n t r o d u c e df i r s t l y s e c o n d l yt h et i m es e r i e sm e t h o dh a sb e e nu s e di nt h em u s i c d a t a b a s e a n dt h ep a aa l g o r i t h mw h i c hi sat i m es e r i e st e c h n o l o g yi su s e dt oo p t i m i z e t h em u s i cd a m b a s e 一 童墨 曼壘耋莖壁墊查翌壅 5 ac o n t e n t b a s e dq u e r yb yh u m m i n gs y s t e mi sd e s i g n e da n dc o m p l e t e d t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es y s t e mi sm o r ee x a c t l yi nt h eq u e r yb ym u s i c s e g m e n ta n dt h eq u e r yb yh u m m i n g t h es u c c e s s f u lr a t ei so v e r9 0 s i m u l t a n e o u s l y i th a sb e e no b t a i n e dt h a tt h i ss y s t e md o e sn o tn e e dt r a i n i n gp r o c e s sa n dh a sg o o d r o b u s t n e s st oe n v i r o n m e n t sn o i s e a n dh a sh i d e rr e t r i e v a lp r e c i s i o n t h i sr e s e a r c hw o r ki sap a r to ft h e r e s e a r c ho nt h ek e yt e c h n o l o g yo fa u d i o r e c o g n i t i o na n dr e t r i e v a lb a s e do nt h ew e b n o 6 0 6 7 31 0 0 s u p p o r t e db yt h e n a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f c h i n a k e yw o r d s q u e r yb yh u m m i n g p i t c hd i f f e r e n c et a b l e 湖r ec o n t o u r s i m i l a r i t y t i m es e r i e s 西北大學學位論文知識產(chǎn)權聲明書 本入完全了解學校有關保護知識產(chǎn)權的規(guī)定 即 研究生在校攻 讀學位期間論文工作的知識產(chǎn)權單位屬于西北大學 學校有權保留并 向國家有關部門或機構送交論文的復印件和電子版 本人允許論文被 查閱和借閱 學校可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù) 庫進行檢索 可以采用影印 縮印或掃描等復制手段保存和匯編本學 位論文 同時 本人保證 畢業(yè)后結合學位論文研究課題再撰寫的文 章一律注明作者單位為西北大學 保密論文待解密后適用本聲明 學位論文作者簽名 聾紅遮指導教師簽名 雌 渺7 年 月協(xié)日 期年 月f 汨 西北大學學位論文獨創(chuàng)性聲明 本人聲明 所呈交的學位論文是本人在導師指導下進行的研 究工作及取得的研究成果 據(jù)我所知 除了文中特別加以標注和 致謝的地方外 本論文不包含其他人已經(jīng)發(fā)表或撰寫過的研究成 果 也不包含為獲得西北大學或其它教育機構的學位或證書而使 用過的材料 與我一同工作的同志對本研究所做的任何貢獻均已 在論文中作了明確的說明并表示謝意 學位論文作者簽名 荔幺l 波 二零零七年四月 音樂哼唱檢索關鍵技術研究 第一章緒論 哼唱檢索是從音樂本身進行的一種檢索方式 它不關注歌曲或音樂的外在 信息 比如歌曲名稱 演唱者 作者等 而是對音樂的節(jié)奏 旋律等內(nèi)在信息 進行分析挖掘 從而得到檢索結果 滿足了人們通過旋律 節(jié)奏等方式檢索音樂 的能力 本章主要介紹哼唱檢索有關的基本概念 基于內(nèi)容的音樂檢索的基本方法 及其國內(nèi)外研究現(xiàn)狀 同時包含研究背景 主要研究內(nèi)容及全文組織結構等內(nèi)容 1 1 引言 二十一世紀是一個信息時代 它的顯著標志就是個人計算機的高度普及和 互聯(lián)網(wǎng)的迅猛發(fā)展 信息 知識和資訊等以前所未有的速度和方式涌向我們 這 促生了檢索技術及應用的蓬勃發(fā)展 從g o o g l e 到百度 無一不是互聯(lián)網(wǎng)上的明 星 可以說 通過他們 人們對檢索的重要性有了新的認識 基于內(nèi)容的檢索技術也正是在這種背景下蓬勃發(fā)展起來的 與傳統(tǒng)的基于 文本的檢索方式或搜索引擎相比 基于內(nèi)容的檢索技術強調(diào)從對象本質(zhì)著手 挖 掘相關屬性 并進行搜索 當然 對現(xiàn)有搜索引擎而言 基于內(nèi)容的搜索方式只 是對現(xiàn)有搜索技術的一個良好補充和加強 它并不能完全代替?zhèn)鹘y(tǒng)的文本檢索方 式 它增強了人們在搜索領域的能力 能給用戶以更好的搜索體驗 基于內(nèi)容的音樂檢索 是對音樂進行內(nèi)容檢索的一種方式 它強調(diào)從音樂 本身所擁有的音樂旋律等信息進行歌曲檢索 伴隨著數(shù)字音樂的爆炸性增長 使 用內(nèi)容檢索方式的哼唱檢索己越來越多地受到關注 從大學 研究機構到企業(yè) 公司 對它已有不少研究 并期待這一技術在不遠將來能夠商業(yè)化 音樂與人的聽覺感知緊密相關 它更多的傳達了一種感情 一種很難量化 的情緒 音樂的這種特性決定了在音頻的分類檢索技術中所用到的歌名 演唱者 等外在信息對音樂分析并不適用 當前絕大多數(shù)的音樂搜索引擎例如 y a h o o c o i n g o o g l e c 伽等 都是使用歌曲的歌名 演唱者 作者或者歌詞等來 建立索引架構 然后供用戶使用 但用戶經(jīng)常會遇到這種情況 他能記得歌曲的 某些片斷 卻無法想起歌名或演唱者等信息 從而利用上面搜索引擎無法找到目 音樂哼唱檢索關鍵技術研究 標歌曲 使用哼唱檢索技術 q u e r yb yh u m m i n g q b h 將有效的解決上述問題 哼唱檢索是一種基于內(nèi)容的音樂檢索 c o n t e n t b a s e dm u s i cr e t r i e v a l c b m r 方式 它通過用戶哼唱來進行檢索 相對于傳統(tǒng)的使用歌名 演唱者等外在信息 的檢索方式 它是根據(jù)音樂的旋律 節(jié)奏等內(nèi)在特征來進行檢索 因此相對于傳 統(tǒng)的關鍵字形式的用戶接口 哼唱檢索使用戶能得到更佳的搜索體驗 從本質(zhì)上說 哼唱檢索是基于內(nèi)容音樂檢索的一種直接應用 即基于內(nèi)容 的音樂檢索是其研究核心 哼唱檢索是在輸入手段上的一種創(chuàng)新 從人機交互角 度來看具有廣泛的應用前景 例如 使用哼唱檢索方式的音樂搜索引擎 使用手 機等便攜設備進行點歌 哼唱式的作曲系統(tǒng)等等 1 1 1 課題研究意義 對于基于內(nèi)容的音樂檢索研究 有著更嚴廣泛的價值和意義 1 目前的搜索引擎還大致停留在文字輸入方式的數(shù)據(jù)獲取 不能滿足通過 旋律進行檢索的需求 因此如果將哼唱檢索應用進來 我們將可以直接使用歌聲 哼唱的方式來搜尋所有在網(wǎng)絡世界中的數(shù)字音樂數(shù)據(jù) 例如m p 3 m i d i 等 并立刻可以進行下載及播放 2 可以用于卡拉o k 或k t v 的點歌系統(tǒng) 這是哼唱檢索技術最直接的一 個應用領域 3 可以應用于數(shù)字典藏系統(tǒng) 如數(shù)字音樂圖書館m d l m u s i cd i g i t a l l i b r a r y 1 2 i 可以使檢索操作過程更為簡便且人性化 讓使用者能自行選擇最 方便 最容易的方式來檢索數(shù)字典藏系統(tǒng) 4 可以應用于作曲分析上 不僅使作曲家可檢測歌曲是否被仿冒 也方便 作曲家對創(chuàng)作作品與已有作品進行交叉比對和參考 5 可以用于歌曲學習及演唱評分 除了提供點歌搜尋以及伴唱的娛樂功能 外 還可以準確的辨識節(jié)拍與音準的掌握度 達到較為專業(yè)的評分功能進而產(chǎn)生 歌曲學習的教學功能 6 對于音樂創(chuàng)作者來說 哼唱檢索具有很大的吸引力 因為它將可以讓業(yè) 2 音樂哼唱檢索關鍵技術研究 余作曲家將哼唱聲音轉為m i d i 當作曲家靈感一來 只要就著麥克風哼唱一段 系統(tǒng)就可以將接收到的旋律 直接翻轉成相應的樂譜 7 哼唱檢索進一步研究進行以旋律 及聲紋v o i c ep r i n t 進行身份辨識 即透過系統(tǒng)來辨識演唱者的身份 綜上所述 哼口昌檢索是一項有意義的研究工作 在研究過程中應該充分利 用音樂知識 將音樂的樂理和語音信號處理進行有機結合 善于利用新技術和新 方法 不斷提高系統(tǒng)性能 同時 不斷挖掘新的交互應用途徑和應用點 從而使 哼唱檢索走向實用 1 1 2 課題背景 現(xiàn)在每年只是在中國就會有上千張的新音樂專輯出現(xiàn) 面對大量涌現(xiàn)的新 音樂和海量的經(jīng)典音樂 對于喜愛音樂的人們來說 通過他們所熟悉的音樂旋律 特征來查找音樂是一種更受歡迎的方法 隨著計算機越來越多地用于多媒體領 域 對多媒體數(shù)據(jù)進行內(nèi)容檢索已越來越為人們所重視 近年來 圍繞基于內(nèi)容檢索的多媒體檢索技術 國際上如美國 日本 英 國 新西蘭等都已開展研究 并取得了一定的進展 為了使眾多的音頻 視頻數(shù) 據(jù)在網(wǎng)絡上能夠被使用者以最自然的語法來獲取他們想要的多媒體資料 m p e g 7 國際標準被制定出來 它簡稱多媒體內(nèi)容描述接口 它定義了用于描述 多媒體內(nèi)容的多媒體描述定義語言 2 0 0 6 年 c 0 1 心棚n i c a n o n so ft h ea c m 雜志在第8 期對音樂檢索 m u s i cr e t r i e v a l 等進行了專題探討 3 一潿 足見對此課題的重視程度 1 1 3 國內(nèi)外研究現(xiàn)狀 哼唱檢索以其獨特的以用戶體驗為核心的檢索方式 及自身所擁有的商業(yè) 發(fā)展?jié)摿?已經(jīng)被越來越多的人所關注 1 9 9 5 年 g l l i 越 6 等展示了首個q b h 系 統(tǒng) 此系統(tǒng)將歌曲轉換為音調(diào)輪廓信息進行匹配 利用三個字符s s a m e u u p d d o w n 來表示音樂的旋律輪廓 一段旋律中的字符表示當前音符與其前面的音 符的比較 s 表示音調(diào)的重復 u 表示比其前面音符的音調(diào)高 d 表示比其前面 音樂哼唱檢索關鍵技術研究 音符的音調(diào)低 m c n a b l 7 8 等增加了對音樂節(jié)奏信息的提取提高檢索成功率 上 述兩人的檢索系統(tǒng)都使用了字符串匹配的相似度方法進行結果排序 b l a c k b u r n l 9 1 等 r o l a n d 刪等和s h i h t 1 發(fā)展了m c n a b 的方法 使用基于樹的數(shù)據(jù)庫搜索技術 以提高搜索精度和速度 c h e r t 1 2 等使用半音 s e m i t o n e 作為距離測量方法 并 且去處掉旋律輪廓中重復的音符 k o s u g in 五 等在其系統(tǒng)中使用歐氏距離進行 搜索 并且該系統(tǒng)中用戶輸入及數(shù)據(jù)庫內(nèi)容都被分割為固定窗長 h u t l 5 1 等在旋 律提取中也使用了固定窗長技術 s h i h 1 6 1 等在其q b h 系統(tǒng)中使用了隱馬爾科夫 模型 m m 這項技術已經(jīng)被成功應用到語音識別等領域 c l a r i s s e l l r j 等為哼 唱檢索系統(tǒng)創(chuàng)建了一個聽覺模型 p a r d o 1 8 培嘗試了兩種不同的相似度計算方法 用于哼唱搜索 一是使用距離估計目標和數(shù)據(jù)庫中數(shù)據(jù)的差異 二則將數(shù)據(jù)庫中 的旋律序列看成h m m 形式 而輸入數(shù)據(jù)看作觀察序列 只有當某個h m m 結構 看起來能夠產(chǎn)生查詢序列而這才相匹配 l u 1 9 嚕提出一種新的旋律字符串 使用音調(diào)輪廓 音調(diào)間隔和音調(diào)長度的組合 其系統(tǒng)使用了字符串匹配和動態(tài)規(guī) 劃相結合的方法 及使用層次化的搜索方法來提高檢索結果 x h u 2 0 l 等動態(tài)時間 規(guī)整 d 呵w 索引技術將演唱歌曲直接與數(shù)據(jù)庫中的歌曲進行比較 國內(nèi)如浙江大學印 上海交通大學 2 2 1 西北大學 2 3 1 等也在基于內(nèi)容音樂檢 索方面開展了研究工作 各系統(tǒng)的解決方案如表1 i 所示 表1 1 哼唱檢索技術發(fā)展總結 作者特征提取技術搜索技術時問 g h i a s 基音輪廓 u d s 字符串匹配 1 9 9 5 m c n a b 基音輪廓 u d s 音長 字符串匹配1 9 9 6 2 0 0 0 b l a c k b u r n 基音輪廓 u d s 基于樹的搜索 1 9 9 8 1 9 9 9 r o l a n d c h e n 半音 音長動態(tài)規(guī)劃 1 9 9 8 k o s u g i 固定窗口長度基音信息動態(tài)規(guī)劃 1 9 9 9 h u a n d z h u2 0 0 3 c l a r i s s e 基音 音長 d t w2 0 0 2 s h i l i 基于基音特征的隱馬爾基于樹的搜索 2 0 0 2 科夫模型 音長 p a u w sm i d id t w2 0 0 2 p a r d o m i d i h m m相似度 2 0 0 4 傳統(tǒng)的哼唱檢索系統(tǒng)使用哼 鼻子 或者唱 口 固定的符號如 b a l a 4 音樂哼唱撿索關鍵技術研究 d a 等 更早的檢索系統(tǒng)還需要在用戶哼唱過程中加入輔助手段如節(jié)拍器以便分 割音符 1 1 4 選題來源 本課題得到國家自然科學基金資助課題 基于w e b 的音頻識別與檢索關鍵 技術研究 基金編號 6 0 6 7 3 l o o 的資助 西北大學可視化研究所近年來圍繞內(nèi)容檢索領域開展了大量的研究工作 承擔并完成了 基于內(nèi)容檢索技術研究 數(shù)據(jù)挖掘技術的研究與實現(xiàn) 計算 機輔助文物復原技術研究 等多項國家級 省部級項目 在內(nèi)容檢索技術方面積 累了重要研究數(shù)據(jù)與經(jīng)驗 為基于內(nèi)容的音樂哼口昌檢索提供良好的技術支撐 本項目的研究將樂理 信號處理和搜索技術與多媒體數(shù)據(jù)處理方法有機結 合 研究音樂及哼唱聲音的特征提取方法 構造基音到歌譜的轉換表 實現(xiàn)從聲 音到歌譜輪廓的轉換 從而使音樂的內(nèi)容檢索成為可能 然后定義字符串相似度 函數(shù) 實現(xiàn)音樂相似度比較 并完成搜索 該課題的研究具有重要的理論意義與 廣闊的應用前景 1 2 研究內(nèi)容 哼唱檢索給音樂檢索提供了易于操作的接口 其中哼唱聲音的特征提取 選擇 音樂旋律匹配以及對環(huán)境噪聲的處理是音樂檢索中的難點 本文針對這些 問題提出了特征提取及匹配算法 設計并開發(fā)了 m u s i ca n g e l 音樂哼唱檢索 系統(tǒng) 主要從事了以下方面的研究工作 1 音樂哼唱檢索技術原理研究 哼唱檢索是一種新穎的搜索技術 具有良好的使用前景 但如何從哼唱 者聲音中尋找合適特征 然后從音樂數(shù)據(jù)庫中搜索到最為匹配的歌曲 是 一個富有挑戰(zhàn)性的研究工作 本文從分析音樂樂理 音樂的信號特征入手 研究了哼唱檢索的原理 并給出了用于系統(tǒng)實現(xiàn)的技術路線 2 哼唱檢索特征提取算法研究 哼唱本質(zhì)上也是聲音的一種表現(xiàn)形式 而語音技術多年的研究經(jīng)驗可以 音樂哼唱檢索關鍵技術研究 有效地幫助哼唱檢索的研究 同時 音樂又與正常的發(fā)音不同 在它背后 包含了富有藝術性的音樂旋律內(nèi)涵 哼唱檢索系統(tǒng)不可能從演唱者哼唱數(shù) 據(jù)本身直接進行比較 必須把隱藏在這些原始哼唱數(shù)據(jù)中的語音特征 音 樂特征提取出來 才能夠抓住問題的本質(zhì) 獲得成功 本文將從多角度研究哼唱片段的特征提取技術 并給出相應算法 3 音樂匹配及相似度算法研究 哼唱檢索的最后一個重要步驟就是音樂匹配 在特征提取完成之后 大 數(shù)據(jù)量的二進制數(shù)據(jù)將被轉化為長度很短的字符串序列 將這些序列與音 樂數(shù)據(jù)庫中的數(shù)據(jù)進行相似度計算 再返回若干相似度最高的音樂 即完 成了搜索過程 4 環(huán)境噪聲魯棒性實驗 哼唱檢索的最終目的是要走向實用 所以對環(huán)境噪聲的影響要尤為注 意 本文研究測試了在正態(tài)隨機噪聲 環(huán)境沖激噪聲和呼吸噪聲的影響下 上述哼唱檢索算法的穩(wěn)定性和適應性 1 3 內(nèi)容組織 2 0 0 0 年以后 哼唱檢索理論及其應用在國際上得到了較快的發(fā)展 許多新 技術和方法得到應用 涌現(xiàn)出一批新的系統(tǒng)原型 但從整體看 由于人們對語音 技術自身研究仍舊處于一個較低的水平 對音樂內(nèi)容的存儲和表示 音樂特征的 選取和提取 音樂相似度比較和系統(tǒng)的環(huán)境魯棒性等等一系列問題沒有好的解決 方案 因而一直無法推出商業(yè)應用 本課題將充分學習和研究國內(nèi)外哼唱檢索技術的最新進展 吸取前人經(jīng)驗 研究開發(fā)出一套魯棒性較好 時間復雜度低 檢索精度較高的音樂檢索系統(tǒng) 并 對系統(tǒng)關鍵算法進行改進 綜上所述 結合國內(nèi)外音樂哼唱檢索理論的研究動態(tài) 我們確定了以下幾 個研究方向 音樂的信號處理 歌譜輪廓特征提取 音樂檢索匹配算法 系統(tǒng)設 計和實現(xiàn) 圍繞以上主題 本文主要分為七個章節(jié) 6 音樂哼喝檢索關鍵技術研究 第一章 緒論 簡要介紹哼唱檢索和基于內(nèi)容檢索的一些基本概念 研究意 義 研究背景及其國內(nèi)外研究現(xiàn)狀和選題來源 同時簡介本課題的研究內(nèi)容和組 織方式 第二章 基于內(nèi)容音樂檢索基礎原理研究 首先通過對音樂樂理 音樂的數(shù) 字化表示及音樂信號處理理論的研究學習 討論了音樂通過基于內(nèi)容方式進行檢 索的可行性 然后分析了基于內(nèi)容音樂家檢索中的難點 最后給出了基于內(nèi)容音 樂檢索的研究方案和處理框架 第三章 音樂旋律輪廓提取算法 針對基于內(nèi)容音樂檢索原理分析 提出了 音樂旋律輪廓特征的提取算法 m c e a 該算法首先從哼唱片斷中提取歌曲基 音序列 經(jīng)規(guī)整 合并 分段后轉化為歌譜輪廓序列 最后 根據(jù)使用標準音調(diào) 生成的標準音調(diào)差值圖 將歌譜輪廓序列映射為可供搜索的特征字符串 第四章 音樂檢索匹配算法 首先研究字符串匹配檢索算法和音樂旋律匹配 算法 分析了基于內(nèi)容音樂檢索中音樂匹配的難點 提出用于基于內(nèi)容音樂檢索 的字符串相似度計算方法 該算法將由歌譜輪廓特征序列轉化而來的字符串序 列 與音樂數(shù)據(jù)庫中的歌曲特征序列進行相似度計算 返回相似度最高的歌曲 第五章 音樂數(shù)據(jù)庫技術研究 首先介紹了用于音樂哼唱檢索的音樂數(shù)據(jù)庫 的建立方法 并給出了數(shù)據(jù)庫優(yōu)化的一些方法和思路 接著嘗試將時問序列技術 中的p a a 算法用于音樂數(shù)據(jù)庫的數(shù)據(jù)處理工作 第六章 音樂哼唱檢索系統(tǒng)及實現(xiàn) 結合上述研究內(nèi)容 實現(xiàn)了一個基于內(nèi) 容的哼唱檢索系統(tǒng)一 m u s i c a n g e l 并進行哼唱檢索試驗 試驗效果表明 該系統(tǒng)無需事先訓練 對環(huán)境噪聲有較好的魯棒性 具有較高的檢索精度 第七章 結論及展望 對本文做出總結分析 并對今后的基于內(nèi)容音樂檢索 研究進行了展望 剛 4 本章小結 本章是全文的綱領性部分 闡述了論文的研究意義 課題背景 國內(nèi)外研究 現(xiàn)狀及選題來源 并重點介紹了本課題的主要研究內(nèi)容 最后包括全文組織結構 及各章概要 7 音樂哼唱檢索關鍵技術研究 第二章基于內(nèi)容音樂檢索基礎 互聯(lián)網(wǎng)正以前所未有的速度改變著人們的生活 快速豐富的信息 包羅萬象 的資源 更重要的是這些資源可以為任何人所擁有 搜索引擎正是打開這些資源 的一把鑰匙 傳統(tǒng)音樂檢索方式是通過對音樂的元數(shù)據(jù) m e t a d a t a 例如歌曲名稱 歌詞 演唱者 歌曲作者等外在信息進行文本方式的檢索 基于內(nèi)容的音樂檢索則是利 用音符和旋律等音樂特征來進行檢索 本章通過對音樂樂理的介紹 音樂數(shù)字化的分析以及對音樂從信號處理角度 研究 討論了音樂通過基于內(nèi)容方式進行檢索的可行性 然后分析了基于內(nèi)容音 樂家檢索中的難點 最后給出了基于內(nèi)容音樂檢索的研究方案和處理框架 2 1 預備知識 2 1 1 音樂樂理基礎 樂理 就是關于音樂的理論 不同的國家和民族有不同的社會環(huán)境和不同的 文化背景 因而也就應該有不同的音樂實踐和不同的音樂理論 中國音樂理論遵循的是 音無定高 拍無定值 譜無定法 演奏 或演唱 者應根據(jù)自己對音樂的理解去塑造音樂形象 簡而言之 是一個開放的音樂體系 而西方的音樂理論 尤其是樂理 則講究的是 音高和音值是構成旋律的基 本要素 必須按譜演奏 任何改變音高或音值的做法必將改變音樂形象 是一 個封閉的音樂體系 我們目前所使用的樂理體系源于歐i f f 是歐洲文藝復興時期音樂基礎理論的 結晶 下面 我們對基于內(nèi)容音樂檢索中所涉及到的一些基本音樂樂理概念做簡 要介紹 1 音 由聽覺器官感覺到的信息就叫做音 在物理學中 物體振動在彈性 體里的傳播 叫做波動 簡稱為波 在空氣中傳播的波叫聲波 能為人的聽覺器 官所感覺到的聲波叫聲音 而包含信息的聲音就是音 音的性質(zhì)有四種 即音高 音值 音量和音色 音樂哼唱撿索關鍵技術研究 音高 就是音的高低 是由振動頻率的多少來決定的 音值 就是音的長短 是由振動延續(xù)的時間長短來決定的 音量 就是音的強弱 是由振動幅度的大小來決定的 音色 就是音的色彩 是由泛音的多少和各個泛音的強弱來決定的 在以上四種性質(zhì)中 前三種性質(zhì)里的 振動 主要指的是基音的振動 音的這四種性質(zhì)對于塑造各種不同的音樂形象均起著相當重要的作用 但是 音高和音值對于音的組織起著決定的作用 2 樂音 在音樂中使用的 有固定音高的音叫做樂音 而把音高不明顯 或者音高不固定的音叫做噪音 樂音具有上述全部四種性質(zhì) 而噪音則由于其音高不明顯或音高不固定而主 要只考慮其中的后三種 3 基音和泛音 絕大多數(shù)物體在振動時 振動的不僅是整個物體 它的各 個部分也分別在同時振動 這種振動叫復合振動 復合振動所產(chǎn)生的音叫復合音 其中整體振動所產(chǎn)生的音叫基音 各個部分振動所產(chǎn)生的音叫泛音 4 樂音體系 基本樂音的總和 叫做樂音體系 樂音體系中的音按照音高關系排列起來 叫做音歹l j 其中從低到高的排列叫 做上行音列 由高到低的排列叫做下行音列 5 音級 樂音體系中的各音叫音級 具有獨立名稱的音級叫做基本音級 6 唱名和音名 所有的音級都有兩種名稱 在唱樂譜時所使用的名稱叫做 唱名 在書面或口頭語言中所使用的名稱叫做音名 基本音級的音名使用英語字母表中的前七個字母 只不過不是從a 而是從c 開始 唱名是意大利體系 音名和唱名如下示例圖所示 9 音樂哼唱檢索關鍵技術研究 音名 唱名d o聆 n u f as o ll as i 拼音d o u m a im if a s u ol a x i 圖2 1 音名和唱名 7 八度 在音列中兩個相鄰的具有同樣名稱的音級叫做八度 2 1 2 音樂記譜表示 用書面形式將音樂記錄下來的方法叫做記譜法 用記譜法記錄下來的內(nèi)容口q 做樂譜 記譜方法自古就有 現(xiàn)在普遍使用的是簡譜和五線譜 五線譜用五條平行橫線和一些符號來記譜 能準確的表達音高 有利于記載 多聲音樂 是專業(yè)音樂工作者必須掌握的一種記譜方法 例如 中華人民共和國 國歌的前奏樂譜用五線譜記錄為 圖2 2 國歌 的五線譖表示 簡譜則用阿拉伯數(shù)字和一些附加成分來記錄樂曲的音高和音值 流行音樂多 采用此方法 同上 國歌的前奏樂譜用簡譜記錄為 j aa 墜一堇 互 65 塾三皿31避逝1 一 一 圖2 3 國歌 的簡譜表示 2 1 3 聽覺特性 人類的聽覺活動是一個復雜的生理和心理過程 人類的耳朵所能聽覺到的聲 l o 音樂哼唱檢索關鍵技術研究 音頻率范圍大概介于2 0 赫茲到2 0 千赫茲 而人類一般由聲帶所發(fā)出的聲音則是 成年男性介于5 0 到2 5 0 赫茲 成年女性介于1 2 0 到4 0 0 赫茲 小孩介于1 5 0 到 4 5 0 赫茲 我們平時在唱歌時候頻率則大概會落在3 0 0 到3 4 0 0 赫茲左右 因此 每個人的所能發(fā)出的音也大致介于l 到4 個八度音之間 因此取樣頻率就可以因 此設定范圍在5 0 到3 5 0 0 赫茲之間 使得音高偵測的準確度得到提高 2 2 音樂的數(shù)字化表示 能夠聽見的聲音都是連續(xù)的模擬信號 為了能夠保存在計算機中 要對連續(xù) 的模擬信號進行采樣 然后再保存為以二進制形式存儲的數(shù)字化音樂文件 對于 不同平臺 目前常用的計算機音樂文件格式也不盡相同 每種格式能支持的音頻 參數(shù)和使用環(huán)境各不相同 以下對目前常見的音樂格式進行簡要介紹 2 2 1 聲音文件 聲音文件指的是對真實聲音的模擬波形進行二進制采樣后得到的數(shù)據(jù) 是對 聲音的真實反映 這樣存儲聲音信息所產(chǎn)生的聲音文件是相當龐大的 因此絕大 多數(shù)聲音文件采用了不同的音頻壓縮算法 在基本保持聲音質(zhì)量不變的情況下盡 可能獲得更小的文件 w m d o w s 平臺上常見的聲音文件格式有 w a v e 格式 w a y 由m i c r o s o f t 公司開發(fā)的聲音文件格式 也叫波形聲音 文件 它支持m s a d p c m c c i t t a l a w 等多種壓縮算法 支持多種采樣頻率 和聲道 它的音質(zhì)較好 是w i n d o w s 平臺上最重要的聲音文件格式 文件大小 只和采樣精度及時問長度相關 即在一定的采樣精度下 所有時閶一樣的聲音文 件不管其內(nèi)容如何 文件大小相同 m p e g 格式 m p l m p 2 m p 3 m p 3 是指的是m p e g m o v i n g p i c t u r e e x p e r t s g r o u p 標準中的音頻部分 也就是m p e g 音頻層 它誕生于八十年代的德國 根據(jù)壓縮質(zhì)量和編碼處理的不同分為3 層 m p 3 分別對應m p l m p 2 r a p 3 這3 種聲音文件 m p e g 音頻文件的壓縮是一種有損壓縮 m p e g 3 音頻編碼具有 1 0 1 1 2 1 的高壓縮率 它利用人耳的掩蔽效應 犧牲聲音文件中1 2 k h z 到1 6 k h z 高音頻這部分的質(zhì)量來換取文件的尺寸 同時基本保持低音頻部分不失真 相同 音樂哼唱檢索關鍵技術研究 長度的音樂文件 用r a p 3 格式來儲存 一般只有w a v 文件的i 1 0 而音質(zhì)要低 于c d 格式或w a v 格式的聲音文件 r e a l a u d i o 格式 r m r a r a m r e a l a u d i o 是r e a l n e t w o r k s 公司推出的一 種音頻文件格式 它主要用來在低速率網(wǎng)絡上進行在線音樂欣賞 因而通常它的 回放效果較差 它可以根據(jù)網(wǎng)絡數(shù)據(jù)傳輸速率的不同而采用不同的壓縮比率 在 數(shù)據(jù)傳輸過程中邊下載邊播放音樂 從而實現(xiàn)聲音數(shù)據(jù)的實時傳送和播放 w m a 格式 w m a t 即w i n d o w sm e d i a a u d i o 是m i c r o s o r 公司推出的又 一種壓縮音頻文件格式 它比r a p 3 的壓縮率更高 可達l 1 8 w m a 的另一個 優(yōu)點是內(nèi)容提供商可以通過d r m d i g i t a lp d g h t sm a n a g e m e n t 方案如w i n d o w s m e d i ae i g h t sm a n a g e r7 加入防拷貝保護 這種版權保護技術可以限制播放時間 和播放次數(shù)甚至于播放的機器等等 2 2 2 m i d i 文件 為解決電子樂器之間的通信問題 1 9 8 2 年 國際樂器制造者協(xié)會會議通過 了 通用合成器接口 方案 并命名為 音樂設備數(shù)字接口m i d i m u s i c a l i n s t r u m e n td i g i t a li n t e r f a c e m d i 文件記錄的是音樂演奏指令序列 說明了在什么時間 用什么樂器演 奏什么音符及如何演奏 實際上m i d i 文件是利用聲音輸出設備或與計算機相連 的電子樂器進行演奏 其中并不包含真實聲音的數(shù)據(jù) 所以文件尺寸要比聲音文 件小的多 m i d i 的主要特性包括 1 m i d i 文件是一種數(shù)據(jù)文件 包含音樂數(shù)據(jù)和命令 2 m i d i 文件是一種二進制文件 3 m i d i 文件并不能跨越所有平臺或軟硬件 2 2 3 模塊文件 模塊m o d u l e 格式是一種已經(jīng)存在了很長時間的聲音記錄方式 它同時具有 m i d i 與數(shù)字音頻的共同特性 也就是說模塊文件中既包括如何演奏樂器的指 令 又保存了聲音信號的采樣數(shù)據(jù) 因此其聲音回放質(zhì)量對音頻硬件的依賴性較 1 2 音樂哼唱檢索關鍵技術研究 小 在不同的機器上可以獲得基本相似的聲音回放質(zhì)量 它的后綴名常 為 m o d s 3 m x m m t m f a r k a r i t 等 2 3 音樂信號特征及處理 語音是人類相互之間進行交流時使用最多 最自然也是最基本的信息載體 語音信號的研究有著較長的歷史 從2 0 世紀4 0 年代初美國人h d u d l e y 展出了 一個簡單的發(fā)聲過程模擬系統(tǒng)到現(xiàn)在 已經(jīng)走過了快7 0 年的歷史 在這7 0 年的 時間里 語音信號處理取得了許多矚目的成就 哼唱也是一種發(fā)聲活動 因而 我們可借助語音技術的成功經(jīng)驗和成熟技術 為哼唱檢索的研究提供便利 2 3 1 音樂信號特征 音樂數(shù)據(jù)的特征提取和特征向量的構建 對于索引算法的設計 音頻檢索的 效率 精度起著至關重要的作用 哼唱雖不同于說話 但從發(fā)聲角度看二者并無本質(zhì)差異 所以 在語音識別 中所使用的那些語音特征可以作為我們進行音樂檢索研究的 候選 特征 根據(jù) 信號的物理特性 音頻特征包括時域特征 頻域特征和基于濾波器的倒譜特征 這些特征包括 以下若參數(shù)不作特別說明 其含義分別為 礎 表示語音信號 膽 表示加窗 1 短時能量 s h o r t t i m ee n e r g y 和短時平均幅度 s h o r t t i m ea v e r a g e m a g e n i t u d e e 砌 w n m 2 2 1 e j 砌 w n m 2 1 式是短時能量函數(shù) 2 2 式是短時平均幅度函數(shù) 短時能量和短時平均幅度函數(shù)的主要作用有 音樂哼唱檢索關鍵技術研究 b 可用來區(qū)分聲母 韻母的分界 連字的分界 信噪比較高的情況下可區(qū) 短時平均過零率 s h o r t t i m e a v e r a g e z e r o c r o s s i n g r a t e 當離散時間信號相鄰兩個采樣點的正負號異號時 稱之為 過零 即此時 信號的時間波形穿過了零點平的橫軸 統(tǒng)計單位時間內(nèi)樣點值改變符號的次數(shù)就 乙 ls 口 m 卜s 鯛 工 卅一1 i 以行一喲 2 3 鼽s 鯽為符號濺眺臥 l 蕊孫州為窗濺常 采用矩形窗 窗長為 即 b s n n 1 l 這樣 在采用矩形窗的 釉翮氤漲舢朋m 叫磊j 邀橇積脆脯的 乙2 素 至撕鯛h 伽 一s 朗 坍 1 l 2 4 i 短時平均過零率可以用來粗略估計語音的頻譜特性 它的主要用途有 b 配合其他參數(shù)進行清濁音的區(qū)分 3 熵特征 e n t r o p y e r r y 即 l g p 2 5 跗 眇 叫儋阻 f h 2 2 6 其中m a 是指將音樂幀的頻率帶劃分為 個頻率子帶后 第f 個頻率子帶 上的能量 1 4 音樂哼唱檢索關鍵技術研究 4 線性預測系數(shù) l i n e a r p r e d i c t i o nc o d i n gc o e f f i c i e n t 1 9 4 7 年維納首次提出了 l i n e a r p r e d i c t i o n 這 概念 而板倉等人在1 9 6 7 年首先將線形預測技術應用到語音分析和合成中 它的基本思想是 由于語音樣點之間存在相關性 所以可以用過去的樣點值 來預測現(xiàn)在或未來的樣點值 即一個語音的抽樣能夠用過去若干個語音抽樣或它 們的線性組合來逼近 通過實際語音抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值來 決定唯一的一組預測系數(shù) 這就是線性預測系數(shù) 即已知過去p 個信號值 下一 個樣點值工0 可表示為 刀 蘭口 石 胛一f 2 7 f l 預測誤差為占 廳 工 1 一 竹 一妻a i x o 一0 這樣 通過在某個準則 i 1 下使預測誤差s n 達到最小值的方法來唯一的確定一組預測系數(shù) 噸o 1 2 p p 稱為預測階數(shù) 5 m e l 倒譜系數(shù) m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 一個信號的倒譜定義為信號頻譜模的自然對數(shù)的逆傅里葉變換 即 工 i d f t 扯i 刪叮 工 m 2 8 式中d 刀為離散傅里葉變換 i d f t 為逆離散傅里葉變換 而m e l 倒譜系數(shù)m f c c m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 的分析著眼于 人耳的聽覺特性 因為人耳聽見的聲音的高低與聲音的頻率并不成線性正比關 系 使用m e l 頻率尺度更符合入耳的聽覺特性 m e l 頻率與實際頻率之間的關系 為 m e t f 2 9 5 9 i g 1 f 7 0 0 2 9 這里 的單位是舷 撇開人的因素 音樂在本質(zhì)上表現(xiàn)為音符的序列 而人在演唱過程中 也總 是向這些音符靠近 以求演唱準確 這就提示我們 可以從音樂本身所具有的特 1 5 音樂哼唱檢索關鍵技術研究 質(zhì)這個角度去研究音樂檢索 上面所述的這5 種音樂特征是從信號處理的角度去尋找的 從音樂角度來 看 它還有音高 音調(diào) 音值 節(jié)奏 節(jié)拍 速度和旋律等眾多音樂特征 如何從眾多的特征中選擇合適的特征去描述音樂 提供檢索依據(jù)是問題解決 關鍵 現(xiàn)有系統(tǒng)基本上都選用某一種或幾種特征 無論是哪種特征都具有片面性 因而特征的選取也是非常關鍵的 2 3 2 音樂信號預處理 2 3 2 1 預濾波 預濾波的目的主要有兩個 1 抑制輸入信號各頻域分量中頻率超出 2 的所有分量 z 為采樣頻率 以防止混疊干擾 2 抑制5 0 h z 的電源工頻干擾 預濾波器必須是一個帶通濾波器 設其上 下截止頻率分別是厶和兀 對 于大多數(shù)語音解碼器 厶 3 4 0 0 h z 兀 6 0 一l o o h z 2 3 2 2 預加重 由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響 高頻端大約在 8 0 0 h z 以上按6 d b 倍頻程跌落 所以求語音信號頻譜時 頻率越高相應的成分 就越小 高頻部分的頻譜比低頻部分難的難求 因此要對語音信號先進行預加重 p r e e m p h a s i s 處理 其目的是提升高頻部分 使信號的頻譜交得平坦 保持 在低頻到高頻的整個頻帶中 能用同樣的信噪比求頻譜 通常使用一階的數(shù)字濾波器來進行處理 即 日 z 1 一 z 2 1 0 a 值接近于l 典型值為o 9 4 1 6 音樂哼唱檢索關鍵技術研究 2 3 2 3 加窗分幀 語音信號從整體來看其特征及表征其本質(zhì)特性的參數(shù)均是隨時間變化的 所以它是一個 非平穩(wěn)態(tài)過程 雖然語音信號具有時變特性 但是在一個短時 間范圍內(nèi) 1 0 3 0 m s 其特性基本保持不變 因而可將其看作是一個準穩(wěn)態(tài)過 程 即語音信號具有短時平穩(wěn)性 所以任何涉及語音信號的分析都必須建立在 短 時 的基礎上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論