




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一種基于高斯混合模型的說話人識別的有效評分算法摘要:這篇文章提出了一個新的算法,該算法用以降低識別一個用高斯混合說話人模型框架的識別方法的計算復雜度。應用于整個觀察序列是已知的,我們舉例說明了不可能的說話人模型的快速精簡可以通過記錄觀測向量時間的序列來更新每個說話人模型的累積概率。整體的方法是集成到一個光束的搜索策略和用于減少識別說話人的時間,當需要識別的說話人語音信息是從138人的YOHO語料庫中提取時,這種方式通過在標準的全搜索方法140的一個因素和標準的光束搜索方法的六倍的一個因素來實現(xiàn),。一、介紹 通過語音識別說話人的能力在最近的文獻中備受關注。說話人識別的應用和認證包括銀行電話,計算
2、機安全,以及獲得對因特網(wǎng)的安全文件。在基于GMM模型的說話人識別中,該模型被證明與現(xiàn)有的技術相比,能夠提供優(yōu)越的性能。比如說,低至0.7%的錯誤率已經(jīng)被報道,該數(shù)據(jù)是從YOHO語料庫采樣的總共138個說話人的8千赫語音。然而,由于試驗材料的數(shù)量和長度的增加,導致進行識別的計算成本也隨之大幅增加。這篇文章通過提出的新方法用于降低說話人識別的計算復雜的問題,該方法用光束搜索修剪一新的觀測序列重排來實現(xiàn)。二、基于高斯混合模型的說話人識別 在高斯混合模型的說話人識別中,語音用特征化的幀同步觀測向量來表示:。典型的幀速率是以10毫秒,三維特征從以每個幀瞬間為中心的重疊分析窗口提取。在識別過程中,該系統(tǒng)由
3、一系列從S模型中提取的說話人的觀測向量X來表示。說話人識別由說話人模型決定,該模型發(fā)現(xiàn)在說話人中后驗概率最大化,設為(1)利用Bayes規(guī)則,(1)可以表示為(2)假設每個說話人模型同樣是可能的,并指出對所有機型相同,識別任務可以概括為尋找 (3)其中被假定為模擬多變量高斯分布的混合物, ,其中和分別代表混合物質量,均值向量和協(xié)方差矩陣第個分布。在式(3)中,觀測值被認為是統(tǒng)計獨立的,因此時間信息不進行編碼的模式。此外,為了避免數(shù)值穩(wěn)定性問題,式(3)使用對數(shù)似然計,在一般情況下,使用對角線協(xié)方差矩陣產(chǎn)生模擬觀測 (4)完整的評價(4)要求顯著的計算資源,如果說話人模型的數(shù)目或者持續(xù)時間的實驗
4、材料大,那么會比較準確。為減少計算開銷的一種常見方法涉及到使用最近鄰的一個近似的可能性,則式(4)變換為 (5)其中 (6)請注意,在混合物相關的常數(shù)是完全已知的現(xiàn)有算法運行時,可以預先計算。其他研究也考慮在可能性計算過程中應用波束搜索。在這里,部分和的(5)式在時間中可以用來更新修剪閾值。 (7)其中是一組當前的狀態(tài)(即未修建時)模型,在時間和是用于定義用戶控制的波束寬度的常量時。在處理過程中,對數(shù)得分低于的說話人模型將被從搜索中消除。三、算法配方典型的語音處理系統(tǒng)通過校準計算來自重疊窗口部分的數(shù)據(jù)(20至30ms的順序)來分析言論,在這期間聲道特性被假定固定。幀重疊的過程導致表現(xiàn)出高度相關
5、性的相鄰觀測結果。在說話人識別的情況下,相鄰觀測值之間的相關性違反原有的統(tǒng)計獨立性假設,并且會導致光束搜索結果效率的下降。這是由于數(shù)量有限是信息是從觀測向量相比所得,因為它們在說話人聲學空間中有相似的位置。因此在加工過程中,許多觀測前必須檢查不可能說話模型,并將其修剪掉。事實上,我們可能會考慮使用可變幀頻來處理這個問題(例如,采樣語音觀測值往往是在快速光譜變化期間,而很少在緩慢變化光譜期間),我們指出這種做法將會丟失掉在整體決定中有用的數(shù)據(jù)。同樣,我們也考慮的方法是選擇的觀測值是基于頻譜距離準則的(例如,當抽樣光譜最后的觀測值和當前的觀測值之間的距離超過一定的閾值時,我們可以使用)。在此,節(jié)省
6、的速度可能會超過頻譜距離計算的成本。此外,就像在可變幀速率處理策略的情況下一樣可能會丟失信息。這篇文章提出的新方法提供了一個廉價的計算方法,來提高從每個觀測值中獲得的信息。為了實現(xiàn)這一目標,我們假定整個觀測序列是已知,并且考慮重新排列觀測的時間序列。正是出于這樣的事實,參數(shù)序列的順序不影響式(5)中給出的最終決定,重排序列是基于最大化用于更新式(5)中的連續(xù)觀測值之間是時間間隔。這里提出的觀測重排有兩個優(yōu)點:第一,由于觀測序列是重新排序的,在可變幀速率處理情況下不會丟失數(shù)據(jù);第二,幾乎沒有計算開銷被要求在已提出的標準下重排觀測序列。人們能夠想到的最大時間間隔是采樣來自不同因素的觀測值,它們能夠
7、被用來快速采樣測試條件下的聲學空間。該算法描述如下:第一步:初始化??梢孕纬梢粋€子集,該子集包含一個選自均勻跨載體間隔向量集的向量。第二步:更新可能性得分中所有未修剪的說話人模型。在更新過程中,假設一個如式(7)中所述的閾值,以消除在說話人模型中低于該閾值的模型。第三步:更新整個觀測集。第四步:形成一個由先前元素中找到的最接近中點的采樣值構成的子集,比如說:如果兩個元素同屬于一個集合,那么將其中間元素放入新定義的集合。一次增加變量第五步:重復2-4的步驟,直到一個說話人模型仍未被修剪或者所有的觀測向量已經(jīng)被檢查完,從中挑取最有可能的說話人。為了清楚起見,觀測矢量重新排序過程的圖形說明如圖1所示
8、,初步統(tǒng)一采樣幀數(shù)和總的觀察計數(shù)()。在這里,是觀測向量,首先被用于更新每個說話人模型的對數(shù)概率。接下來,剩余的說話人模型用于更新觀測向量。最后,剩余模型均用于更新向量 圖1 觀察序列(A)是標準GMM模型的評分算法的一個例子,在該算法中觀測向量根據(jù)抵達時間重新排序,(B)使用4)中提出的算法排列觀測向量。在(C)中,說話人識別的可能性估分用每個重新排序的觀察塊來評估(與模型的可能性期間更新修剪) 圖2 改善的速度與來自138人YOHO語音庫的說話人識別精度的全方位搜索方法有關,(A)為波束搜索最鄰近的鄰居高斯混合密度評估,(B)為波束搜索最近的鄰居高斯混合密度的評價和建議觀察重排。在每一種情
9、況下,波束寬度逐步變窄以揭示說話人識別的準確性和算法速度提高之間的權衡。 四、算法評價A、評價語料庫的語音特征GMM模型被用于估計YOHO語料庫中138個說話人語音(106名男性,32名女性)。要與以前的研究一致,用于計算評價方法的訓練與測試條件如2中描述。在這里,每個說話人的訓練數(shù)據(jù)是由數(shù)據(jù)庫中大約6分鐘的語音構成。評價數(shù)據(jù)是由四個組合鎖短語構成的10個驗證會話(即10個測試,每段測試持續(xù)的時間大約是15s)。在模型訓練中,語音需要使用一階有限脈沖響應(FIR)濾波器的形式進行預加重。通過使用以語音活動檢測算法為基礎的能量來去除低能量幀,這樣靜音就會被消除。在模型訓練中,從20ms重疊窗口中
10、獲得每10ms的語音參數(shù)。每一幀的參量是由19個梅爾倒譜系數(shù)(MFCC)組成的向量5并且歸一化幀能量。總體而言,64個高斯混合模型被用于每個說話人模型中。B、實驗步驟將四種不同的算法SCE情況的運算速度進行了比較,包括:1)沒有用光束搜索的完整的高斯混合密度評價。2)沒有用光束搜索的最近鄰高斯混合密度估計。3)最近鄰的光束搜索。4)由最近鄰近似,光束搜索,以及觀察重新排序組成的算法。以4)為例,用于初始均勻采樣的值被設置為10。對于每個方案,測試令牌的百分比正確地識別了每一秒(以秒為單位測量的CPU時鐘)被正確地識別并被記錄。CPU時間測量是從評分過程的開始到說話人識別被確定這段過程。使用3)
11、和4)進行模擬,將波束搜索寬度進行調整以揭示說話人識別的精度計算和計算成本之間的一個折衷。C、實驗結果基線系統(tǒng)的說話人身份識別的精度是99.3,我們指出這是相同的報告2中是識別精度。在沒有光束搜索的情況下,完整的密度評價(如案例1全搜索,該算法需要21465秒是CPU時間在Sun Ultra機上執(zhí)行整個1380測試方案。對于情況2),利用(6)中所給出的最近鄰的近似,ID率保持在99.3,同時提高了1.67倍的速度(12823s的CPU時間)。接下來,我們考慮最近鄰密度評價光束搜索,調整光束的寬度以揭示算法速度的權衡與說話人識別精度。這種情況下3)評價結果示于圖2中:其中a作為全搜索說話人正確
12、識別率中速度改善的系數(shù),在這里我們可以看到,當搜索速度增長超過基線搜索條件23(933s的CPU時間)這一因素時,說話人ID表現(xiàn)開始迅速下降。然而,利用4)提出的重排序方法,我們在圖2(b)中說話人識別率保持在99.3,然而提供的一個因素140(153s的CPU時間)超過全搜索條件改善的速度。超過140的因素,所提出的方法其說話人識別率會逐漸下降。該方法提出了一個可以提高6倍速度的因素(即),超過傳統(tǒng)的序貫抽樣光束搜索,幾乎沒有額外的資源需求。五、總結在這篇文章中,我們已經(jīng)解決了減少一個以高斯混合模型為基礎的說話人識別的計算復雜量,需要說明的是觀測向量是從重疊分析框架中提取的,與高斯混合模型中
13、數(shù)據(jù)的假設性獨立是相悖的。由于臨近觀測向量的高程度的相關性,許多觀測向量在不可能候選人被剔除之前,必須使用光束搜索機制來更新每個說話人模型的對數(shù)似然比。因此,我們認為在時間序列觀測向量中的數(shù)據(jù)是用來快速簡化測試條件下的聲學空間,這個從該算法中獲得的觀測向量的信息比傳統(tǒng)的對數(shù)似然數(shù)據(jù)更重要。因此,不可能說話人模型從搜索空間中被快速清除掉了,大量地減少了說話人識別算法的計算量。本人提出的觀測向量排序被證明可以用于減少搜索時間,利用光束搜索高于通過傳統(tǒng)序列抽樣六倍額外因素來實現(xiàn)的。該方法易于實現(xiàn),能夠被容易地組合到以高斯模型為基礎的系統(tǒng)中,并且不需要額外的開銷。參考文獻1D.Reynolds and
14、 R.Rose,“Robust text-independent speaker identification using Gaussian mixture speaker models,”IEEE Trans.Speech Audio Processing,vol.3,pp.72-83,1995.2D. Reynolds, “Speaker identification and verfication using Gaussian mixture speaker models,”Speech Commum,vol.17,pp.91-108,1995.3F.Seide, “Fast likelihood computation for continuous-mmixture densities using a tree-based nearest neighbor search,”in Proc.Eurospeech95,Madrid, Spain,vol.2, pp.1079-1082.4J.Campbell, “Testing with the YOHO CD-ROM voice verfication corpus,” in Proc. IEEE ICASSP95,Detroit,MI, 19
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產(chǎn)設備定期管理制度
- it出差管理制度
- 不宜妊娠管理制度
- 專業(yè)升學管理制度
- 專利分級管理制度
- 專賣車輛管理制度
- 專職學籍管理制度
- 嚴格政務管理制度
- 中醫(yī)醫(yī)囑管理制度
- 中國參事管理制度
- 2025年統(tǒng)編版小學語文五年級下冊期末綜合測試題及參考答案
- 浙江臨安招聘事業(yè)編制筆試真題2024
- DB62T 4130-2020 公路混凝土構件蒸汽養(yǎng)護技術規(guī)程
- 大學計算機知到智慧樹章節(jié)測試課后答案2024年秋廣西師范大學
- 埃斯頓自動化介紹
- 我的家鄉(xiāng)福州PPT課件
- C5116A立式車床的PLC控制
- 曲線正矢、付矢、超高、加寬(中分法)計算表
- 北師大版初中數(shù)學定理、公式匯編(共20頁)
- 迎風飄揚的旗歌譜二聲部
評論
0/150
提交評論