




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第7章聲音合成與轉換
7.1語音合成方法7.2漢語基于音節(jié)的規(guī)則合成方法7.3語音轉換方法7.4語音轉換評價指標7.5.語音轉換應用案例7.6非平行語音轉換應用案例27.0語音合成系統整體框圖37.1.1參數合成方法7.1.2波形合成方法7.1語音合成方法47.1語音合成方法
語音合成是一個基于分析、存儲、合成過程的技術。一般而言,合成的過程包括以下步驟:
首先,選擇適當的基本聲音單位,然后以一定的參數編碼或波形編碼方式存儲這些單位,從而構建一個語音庫。在合成階段,根據待合成的文本信息,從語音庫中提取相應的基本單位進行拼接,最終將它們還原為語音信號。在語音合成中,為了實現存儲,必須首先對語音信號進行分析或轉換,因此在合成之前通常需要進行相應的反變換。57.1語音合成方法
語音庫是合成的基本元素集合,包含了所有合成基本單位。根據不同的基本單位選擇方式和存儲形式,語音合成方法可以被概括為波形合成方法和參數合成方法。6參數合成方法:
參數合成,又稱分析-合成,采用了聲碼器技術以實現存儲空間的高效利用。其核心思想是在合成過程中通過聲音分析,提取關鍵語音參數,從而將語音信號進行高度壓縮。7.1.1參數合成方法最常用的參數提取方法包括線性預測編碼(LPC)、線性譜對(LSP)系數以及偏自相關(PARCOR)系數。7
7.1.1參數合成方法一般來說,參數合成方法可以根據聲道特性的不同描述方式分為線性預測合成方法和共振峰合成方法。這些方法在選擇參數和聲道建模方面存在差異,因此會對合成語音的質量和清晰度產生影響。87.1.1參數合成方法線性預測合成方法
線性預測合成(LPC)是一種廣泛應用的語音合成方法,它基于全極點聲道模型的假設,并采用線性預測分析原理來合成語音信號,通過具體的線性預測編碼(LPC)參數來控制聲道特性。 LPC能夠提取語音信號的全部譜特性,包括共振峰的頻率、帶寬和幅度等。此外,LPC將音高和振幅特性的激勵源與控制音素的聲道濾波器相分離。9一般線性預測合成系統中不允許使用混合激勵形式,清音激勵全部采用白噪聲序列,可以通過改變濁音激勵來提高合成語音的質量。合成語音樣本為:
7.1.1參數合成方法10
7.1.1參數合成方法
11
7.1.1參數合成方法LPC遞歸型合成濾波器12
7.1.1參數合成方法LPC格型合成濾波器
13
缺點:根據語音信號產生機制,許多語音信號,尤其是清音和鼻音,其聲道響應包含零點的影響。因此,從理論上講,應該使用零極點模型而不是簡單的全極點模型。此外,由于LPC譜估計的效果與聲音的諧波結構密切相關,對于音調較高的女聲信號,其頻譜中的諧波成分間距要比男聲信號大得多,因此反映出的聲道諧振特性不如男聲信號那么尖銳。因此,在用LPC譜逼近女聲信號譜的共振特性時,誤差明顯大于男聲信號,而兒童聲音的效果更差。7.1.1參數合成方法14
7.1.1參數合成方法157.1.1參數合成方法2.共振峰合成方法
語音感知的核心因素是聲道共振峰,不同語音具有不同的共振峰模式。這些共振峰以及其帶寬參數可以用于構建共振峰濾波器。通過組合多個這種濾波器以模擬聲道的傳輸特性,并對來自激勵聲源的信號進行調制,然后通過輻射即可獲得合成語音。這就是共振峰語音合成器的基本原理。16
7.1.1參數合成方法共振峰合成系統17
7.1.1參數合成方法187.1.2波形合成方法波形合成方法:波形合成方法是一種相對簡單的語音合成技術。它直接存儲人類語音的波形或經過簡單的波形編碼后存儲,形成語音庫。
在合成時,根據待合成信息,從語音庫中提取相應單位的波形數據,拼接或編輯它們,然后解碼以還原為語音。在波形合成系統中,語音合成器的主要任務是存儲和回放語音。。19
在20世紀80年代末,F.CharPentier等人提出了基音同步疊加技術(PSOLA),這一技術在波形拼接中保持了原始發(fā)音的主要音段特征,并在拼接時能夠調節(jié)音高和音長等韻律特征,為波形拼接技術帶來了新的發(fā)展。7.1.2波形合成方法
PSOLA算法是波形拼接技術的一種,其主要特點是在進行語音波形片斷拼接之前,根據語義信息,調整拼接單元的韻律特征,以使合成波形既保留原始語音基元的主要音段特征,又使拼接單元的韻律特征與語義相符。20
由于韻律修改所針對的側面不同,PSOLA算法可以有TD(timedomain)-PSOLA和FD(frequencydomain)-PSOLA等幾種不同的算法。不論哪一種類型的PSOLA算法,一般都按著以下三個步驟實施:(1)基音同步疊加分析:對原始語音信號做準確的基音同步標注,將原始語音信號與一系列基音同步的窗函數相乘,得到一系列有重疊的短時分析信號。。一般地,窗函數采用標準漢寧(Hanning)窗或漢明(Hamming)窗,窗長為兩個基音周期,相鄰的短時分析信號之間有50%的重疊部分?;糁芷诘臏蚀_性和起始位置非常重要,它將對合成語音的質量有很大的影7.1.2波形合成方法21
(2)對中間表示進行修改:首先根據原始語音波形的基音曲線和超音段特征與目標基音曲線和超音段特征修正的要求,建立合成波形與原始波形之間的基音周期的映射關系,再由此映射關系確定合成所需要的短時合成信號序列。(3)基音同步疊加處理:將合成的短時信號序列與目標基音周期同步排列,并重疊相加得到合成波形。此時,合成的語音波形就具有所期望的超音段特征。7.1.2波形合成方法22
7.1.2波形合成方法TD-PSOLA算法
在這種方法中,為原始語音段加基音標注是算法執(zhí)行的基礎?;敉綐俗Ⅻc是與合成單元濁音段的基音保持同步的一系列位置點,它們必須能夠準確反映基音的起始位置。PSOLA技術中,短時信號的截取和疊加、時窗長度的選擇都是依據同步標注進行的。23
7.1.2波形合成方法24
7.1.2波形合成方法25
7.1.2波形合成方法26
7.1.2波形合成方法
27
7.1.2波形合成方法28
7.1.2波形合成方法29
7.1.2波形合成方法2.FD-PSOLA算法
FD-PSOLA算法和TD-PSOLA算法具有相似之處,都包括基音同步疊加分析、中間表示的修改和基音同步疊加處理這三個主要步驟。然而,在TD-PSOLA算法中,因為它主要基于時域的變化,更適用于改變音段的長度。但當需要較大幅度地改變音調時,特別是基頻的改變,TD-PSOLA容易引發(fā)疊加單元混疊的問題。相較之下,FD-PSOLA算法具有更多的靈活性,不僅可以調整時間標尺,還可以在信號的頻域上進行適當的調整。30
FD-PSOLA算法流程圖31
FD-PSOLA算法的大致過程如下:(1)對短時分析信號做DFT,得到該信號的分析傅里葉頻譜;(2)用同態(tài)濾波得到短時分析傅里葉頻譜的譜包絡和分析激勵源頻譜;(3)對頻譜進行壓縮和拉伸;(4)對短時合成譜進行傅里葉反變換,得到短時合成信號7.1.2波形合成方法32
PSOLA有良好的韻律調整能力,但基音頻率修改過大時譜包絡失真嚴重;即使不存在基音定位錯誤,在拼接不同語音段時也會存在以下問題:(1)相位不匹配。(2)基音不匹配(3)幅度不匹配。(4)存儲空間較大。7.1.2波形合成方法33
解決拼接邊界不連續(xù)問題的一種有效方法是將PSOLA技術與參數合成法相結合,這可以通過LPC-PSOLA來實現。在LPC-PSOLA中,當進行基頻調整時,我們不使用內插得到的頻譜,而是依賴LPC頻譜的殘差信號。這種方法有助于減少頻譜不連續(xù)的問題,因為LPC譜更好地匹配了頻譜包絡,這在第6.6節(jié)中有詳細介紹。7.1.2波形合成方法34
357.2.1韻律規(guī)則合成7.2.2多音節(jié)協同發(fā)音規(guī)則合成7.2.3輕聲音節(jié)規(guī)則合成7.2漢語基于音節(jié)的規(guī)則合成方法36
漢語是一種聲調語言,擁有復雜的韻律結構。語音合成的音位層次為:音素→音節(jié)→詞語→句子。聲學基元指的是拼接的基本單元,可以是音素、雙音素、三音素、半音節(jié)(首音、尾音)、音節(jié)、詞語、句子等?;叫。Z音數據庫越小,拼接越靈活,韻律特征的變化也越復雜。7.2漢語基于音節(jié)的規(guī)則合成方法37和其他語言相比,漢語音節(jié)的特點如下:(1)是最自然和最基本的語音單位?;旧弦粋€音節(jié)對應一個漢字,且有一定的意義。(2)在音節(jié)相連的語流中,雖然音節(jié)間也存在協同發(fā)音現象,但作用范圍較小,音節(jié)的聲學表現相對穩(wěn)定。(3)音節(jié)數較少。無調音節(jié)只有412個,考慮音調也只有1282個,還有一二百個兒化音節(jié),總共不超過1500個。
因而以音節(jié)為基本單元所需的存儲量并不大,且合成的詞匯量不受限制。因此多數漢語語音合成系統以音節(jié)為合成單元。為使合成的詞語有連貫性,也可用單詞為合成單元。7.2漢語基于音節(jié)的規(guī)則合成方法387.2.1韻律規(guī)則合成韻律規(guī)則在合成語音中扮演著重要的角色。對于許多以西方語言為母語的人來說,漢語聽起來就像在歌唱一樣,充滿了抑揚頓挫、輕重變化、緩急交替以及明顯的節(jié)奏感。這些特征是由音高、音長、強度等方面的變化在語音流中所表現出來的,通常被稱為"韻律特征",也叫"超音段特征"。這些特征反映了語音在基頻、共振峰、能量以及譜分布等方面的差異。397.2.1韻律規(guī)則合成
重音規(guī)則
研究韻律特征時,我們可以從"重音"這一要素入手,因為重音在語言交流中扮演著關鍵角色。語的重音并不是指聲音的(音量)或(強度)較大,而是時間(音長)較長,音高(音程)較高407.2.1韻律規(guī)則合成
417.2.1韻律規(guī)則合成
2.聲調與變調
聲調指的是音節(jié)的音高、音長和音強等方面的變化,它主要通過音節(jié)的基頻隨時間的變化來體現。聲調的變化用音高或基頻的改變來描述。從現代音系學的觀點來看,漢語的聲調屬于超音質特征,也被稱為非線性特征,它作用在整個音節(jié)上,因此屬于音節(jié)層次的韻律特征。聲調特征可以從調類、調值和調型等方面進行考慮。427.2.1韻律規(guī)則合成
437.2.1韻律規(guī)則合成
3.音長
音長是語音的一個關鍵特征,它對語音的清晰度和自然度產生重要影響。在漢語中,音長主要表現在韻母調型段的持續(xù)時間上。音長與聲調緊密相聯,一般情況下,上聲音節(jié)最長,陰平和陽平音節(jié)其次,去聲音節(jié)最短。447.2.1韻律規(guī)則合成
457.2.1韻律規(guī)則合成
467.2.1韻律規(guī)則合成(2)單音節(jié)聲韻音長互補:
477.2.1韻律規(guī)則合成
487.2.1韻律規(guī)則合成(4)短語處理:幾個詞組成短語后,各音節(jié)的重度再次變化,按式(7.7)計算音長。(5)句子處理:成句后,首先要在各短語前加上適當的間隙;其次,在某些音節(jié)上有強調重音時,音長(特別是韻母)要隨之增加;最后,對于句末的非輕聲音節(jié),其音節(jié)音長(尤其是韻母),會隨該音節(jié)的聲調不同而有所增加。497.2.2多音節(jié)協同發(fā)音規(guī)則合成
協同發(fā)音是指與不同語音音段相連的發(fā)音過渡。在前面介紹的韻律規(guī)則合成中,涉及到音節(jié)內部的協同發(fā)音,即轉接和音渡現象。而在合成多音節(jié)詞語時,關注的是音節(jié)之間的協同發(fā)音。
合成多音節(jié)詞語時,我們可以將音節(jié)間的協同發(fā)音效應總結成協同發(fā)音規(guī)則。這些規(guī)則允許我們根據需要添加或修改相應音段的合成參數,從而能夠合成出音質更加自然、連貫的多音節(jié)詞語。以下是一些具體的協同發(fā)音規(guī)則:507.2.2多音節(jié)協同發(fā)音規(guī)則合成
517.2.2多音節(jié)協同發(fā)音規(guī)則合成
527.2.2多音節(jié)協同發(fā)音規(guī)則合成
537.2.2多音節(jié)協同發(fā)音規(guī)則合成
547.2.3輕聲音節(jié)規(guī)則合成在普通話中,幾乎任何帶4個正規(guī)聲調之一的音節(jié),在一定條件下都能轉變?yōu)檩p聲。漢語輕聲音節(jié)大多是固定的,主要有以下幾類:(1)單音節(jié)中有些結構助詞、語氣助詞、方位詞、趨向動詞、詞綴等讀輕聲;(2)雙音節(jié)詞的輕聲處于后音節(jié),構成“重輕”格;(3)三音節(jié)詞中的中綴和后綴輕讀;(4)重疊式中的后面部分輕讀。對于規(guī)則合成來說,可以利用規(guī)則將非輕聲音節(jié)的有關參數變?yōu)檩p聲音節(jié)的參數。下面分別討論輕聲音節(jié)在音長、音高、音強和音色等方面的合成規(guī)則。55
7.2.3輕聲音節(jié)規(guī)則合成56
7.2.3輕聲音節(jié)規(guī)則合成57
7.2.3輕聲音節(jié)規(guī)則合成58
4.音色規(guī)則
因此在合成這些音時,將韻母主要元音的共振峰頻率目標值進行央化處理,即7.2.3輕聲音節(jié)規(guī)則合成
59
4.音色規(guī)則
輕聲音節(jié)在音色上與重讀時是有差別的。在聲母方面,最明顯的是不送氣清塞音和清塞擦音常常濁化;在韻母方面,輕聲音節(jié)的主要元音被央化(即共振峰頻率向的方向移動),復合元音韻母的動程也縮小,鼻韻尾也會消失。7.2.3輕聲音節(jié)規(guī)則合成607.3.1語音轉換系統的總體框架7.3.2語音轉換常見的特征參數7.3語音轉換方法61
語音信號包含了多種信息,其中包括最為重要的內容信息和說話人個性特征信息,以及情感特征以及說話場景等其他信息。語聲轉換(VoiceConversion)就是要改變一個說話人即源說話人(SourceSpeaker)的語音個性特征信息,使之具有另外一個人即目標說話人(TargetSpeaker)的個性特征信息,也就是轉換后的語音保持內容信息不變,但聽起來像是目標說話人說的語音。7.3語音轉換方法627.3.1語音轉換系統的總體框架
語聲轉換系統通過改變語音信號的聲學特征參數來調整語音的個性特征。一般語聲轉換系統都可以分為訓練和轉換兩個階段。
在訓練階段,系統分別提取源說話人語音和目標說話人語音的身份個性特征參數,對這兩個特征參數空間進行訓練形成特征參數之間的匹配規(guī)則。
在轉換階段,系統利用已經形成的匹配規(guī)則將源說話人語音的聲學特征參數映射成目標說話人語音的聲學特征參數。然后再利用這些參數進行語音合成,從而得到具有目標說話人個性特征而內容信息不變的語音。63語聲轉換系統的總體框圖7.3.1語音轉換系統的總體框架64
語音轉換方法分為基于平行語料的轉換和基于非平行語料的轉換,采用平行語料來訓練轉換模型一般都能實現較好的轉換效果,并且在訓練數據平行的情況下建立特征映射規(guī)則相對簡單,所以基于平行語料的轉換方法是早期的研究熱點。然而在現實應用中,平行的語音數據不僅收集困難,而且獲取成本高昂,再加上平行語音在用于訓練前需要進行時間對齊(Dynamictimewarping,DTW)的預處理,如果對齊不準確會降低語音轉換的質量。為了克服平行語音轉換的這一局限性,使語音轉換能夠獲得更好的轉換效果,目前學界的研究大都集中于非平行語音轉換。7.3.1語音轉換系統的總體框架657.3.2語音轉換常見的特征參數
在語音轉換過程中,對語音進行分析之后,可以使用一些技術提取出語音的特征,之后對語音特征進一步處理成映射特征,以便能夠更好的表示語音。不同的特征包含不同的語音信息,表現形式也各不相同。
語音特征種類繁多,一般可以大致分為韻律特征和頻譜特征。比較常見的韻律特征包括能量、基頻軌跡、強度和語音時長等。頻譜特征則包含梅爾倒譜系數(MFCC)、線譜頻率(LSF)、感知線性預測系數(PLP)、線性預測系數(LPC)、線性預測倒譜系數(LPCC)、梅爾頻譜等。此外,還可以通過聲門參數、共振峰頻率和共振峰帶寬等特征來衡量聲音的音質。667.3.2語音轉換常見的特征參數
1.MFCC
Mel頻率倒譜系數(MelFrequencyCoefficient,MFCC)是最常用的倒譜參數,對其進行的分析是基于人的聽覺機理,其依據主要有兩個:
人的主觀感知領域的劃分并不是線性的,根據Stevens和Volkman的工作,有下面公式:
677.2.3輕聲音節(jié)規(guī)則合成提取梅爾倒譜系數包括以下幾個步驟:(1)進行預處理,使用一個高通濾波器來過濾語音信號,對語音的高頻部分進行增強,達到平衡語音頻譜的目的。(2)對加窗后的每幀語音信號進行傅里葉變換,得到語音頻譜,進行絕對運算或者平方運算,最終得到頻譜能量。(3)對數譜經過Mel濾波器組過濾后映射到梅爾刻度得到Mel頻譜。(4)倒譜分析,對Mel對數譜進行離散余弦變換,變換完成后就可得到信號倒譜特征參數,即MFCC。687.3.2語音轉換常見的特征參數
2.LSF: LSF參數之間具有較高的相關性,這些參數也稱為線譜對(LSP)。由于LSP能夠保證線性預測濾波器的穩(wěn)定性,其小的系數偏差帶來的譜誤差也只是局部的,且LSP與頻率的關系更密切,具有良好的量化特性和內插特性,這些特性使它們在使用統計方法時更加合適,因而得到廣泛的應用
697.3.2語音轉換常見的特征參數
707.3.2語音轉換常見的特征參數
3.共振峰
共振峰是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感知中利用了共振峰信息。共振峰已經廣泛地用作語音識別的主要特征和語音編碼傳輸的基本信息。共振峰信息包含在頻率包絡之中,因此共振峰參數提取的關鍵是估計自然語音頻譜包絡,一般認為譜包絡中的最大值就是共振峰。然而,在復雜的聲學系統中,可能會導致低語音質量。717.3.2語音轉換常見的特征參數
4.語譜特征
在語音信號處理中,信號的頻域分析和處理占有重要地位,針對語音信號的短時平穩(wěn)特性,提出短時傅里葉變換(ShortTimeFourierTransform,STFT),其方法是先將語音信號分幀,再將各幀進行傅里葉變換,每一幀語音信號可以認為是從各個不同的平穩(wěn)信號波形中截取出來的,各幀語音的短時頻譜就是各個平穩(wěn)信號波形頻譜的近似。727.3.2語音轉換常見的特征參數
5.頻譜包絡
語音是一個由多種頻率成分組成的復雜信號,每個不同的頻率都具有不同的幅度。頻譜包絡的形狀不是固定不變的,而是根據發(fā)出聲音的不同發(fā)生變化,聲帶振動生成的聲波在聲道中傳播時會發(fā)生共振,在共振作用下,頻譜中的某些區(qū)域得到加強。737.3.2語音轉換常見的特征參數
頻譜包絡獲取步驟包括預加重、分幀和加窗,傅里葉變換,逆傅里葉變換和加窗截斷。提取流程如圖747.3.2語音轉換常見的特征參數
6.線性預測系數
線性預測技術應用于語音信號處理領域,由于語音信號之間存在強相關性,如果已知一段特定時間內的語音樣本,那么可以通過對這些樣本線性組合來預測出未知的語音信號。使得預測信號逼近真實信號的唯一的一組預測系數,被定義為線性預測系數(LPC),是早期研究中最常見的語音特征之一,可以有效表現出語音信號的是時域特性和頻域特性。757.3.2語音轉換常見的特征參數
7.基頻
聲音本質上是由聲帶振動產生的,聲帶最低頻率振動發(fā)出的音被稱為基音。基音分量的頻率可以表示為基頻,基頻是聲音的基礎音調,決定了音頻中音高的大小?;纛l率與個人的聲帶的結構有很大的關系,能體現語音的音色,是常用的語音個性特征參數之一。在語音轉換研究中,對數基頻常被用作韻律特征。767.3.2語音轉換常見的特征參數
目前針對語音基頻的研究中,獲取基頻的方法最常用的有時域法和頻域法兩種,而轉換基頻一般采取高斯歸一化變換和基于平均周期的變換。777.3.2語音轉換常見的特征參數
787.3.2語音轉換常見的特征參數
797.3.2語音轉換常見的特征參數
807.4.1客觀評價7.4.2主觀評價7.4語音轉換評價指標817.4.1客觀評價
客觀評價通常是建立在語音數據失真測度的基礎上,利用某種距離準則來度量轉換后語音和原始的目標語音之間的相似程度。目前,客觀評價指標主要有均方誤差(MeanSquareError,MSE)和譜失真(SpectralDistortion,SD)等,均方誤差和譜失真越小,說明語音轉換的精度越高。827.4.1客觀評價
1.梅爾倒譜距離
頻譜特征是語音的重要聲學特征之一,因此可以通過比較兩個語音之間的特征距離,來評價兩個語音的相似性。梅爾倒譜距離可以體現轉換語音相對于目標語音的失真程度,是語音轉換系統的性能主流衡量標準,MCD值越低,說明兩個語音之間的在聲學特征空間中的距離越小,轉換語音與目標語音的匹配程度越高。MCD的計算表達式如下:837.4.1客觀評價
847.4.1客觀評價
2.MFCC參數匹配
MFCC參數匹配評價方法的過程包括隨機選取目標說話人語音、轉換后的語音的多幀樣本,提取出語音的MFCC參數。定義目標語音的MFCC參數為橫坐標,轉換語音的MFCC參數值為縱坐標,在坐標系中繪制出每一幀對應的點。觀察繪制出的參數匹配圖,如果兩組MFCC參數匹配程度較高,則繪制出的點就會聚攏于橫坐標軸與縱坐標軸的角平分線上,聚攏程度越高,說明兩個語音越相似。857.4.2主觀評價
主觀評價是通過人的主觀感受來對語音進行測試。由于語音信號是用來給人聽的,因此人對語音轉換效果好壞的感受是最為重要的評價指標。相對于客觀評價,主觀評價結果更具有可信度。主觀方法對轉換效果的評價一般從語音質量和說話人特征相似度兩個角度進行,采用的方法主要是平均意見得分(MeanOpinionScore,MOS)和ABX。867.4.1客觀評價
MOS測試的主要原理是讓測評人對測試語音的主觀感受進行打分,一般劃分為5個等級。MOS測試具體見1.3.1節(jié)描述。877.4.1客觀評價
ABX測試主要針對轉換后語音的說話人特征相似度進行轉換效果評價。該方法借鑒了說話人識別的原理。在測試過程中,測評人分別測聽三段語音A、B和X,并判斷在語音的個性特征方面,語音A和語音B哪個更接近于X。其中,X是轉換后得到的語音,而A和B分別為源語音和目標語音。最后統計所有測評人員的判決結果,計算出聽起來像目標語音的百分比。887.4.1客觀評價
897.4.1客觀評價
907.5.1平行語音轉換方法7.5.2非平行語音轉換應用案例7.5.語音轉換應用案例91語音轉換技術主要分為平行語音轉換和非平行語音轉換兩部分,傳統技術主要使用平行語料進行轉換,但平行語料的收集通常耗時耗力,因此目前主要的語音轉換研究主要針對非平行語料進行非平行語音轉換,下文首先介紹傳統的平行語音轉換方法,再介紹當前應用廣泛的非平行語音轉換方法。7.5.語音轉換應用案例927.5.1平行語音轉換方法
語音轉換過程中通常是利用源和目標特征向量來訓練源和目標特征之間的映射函數。從不同說話人語音特征空間把那些具有相同語義信息的特征參數進行匹配,然后利用這些配對參數設計和訓練出轉換模型。即進行時間規(guī)整。平行語料指的是源和目標說話人包括相同語言內容的語句。平行語句確保了源和目標語音具有時序一致、內容相同的語義信息,只是在各音素的持續(xù)時間上呈現不同。平行語音轉換主要方法包括矢量量化、高斯混合模型、非負矩陣分解等。937.5.1平行語音轉換方法矢量量化(VQ)算法最早由Abe提出,在說話人自適應的應用中取得了良好的效果,其基本思想是采用基于VQ的碼書映射方法對源語音和目標語音的頻譜包絡進行映射建模。通過矢量量化方法來轉換語音的原理圖如圖7.7所示。
7.5.1.1矢量量化94矢量量化語音轉換原理957.5.1平行語音轉換方法矢量量化本質上是將連續(xù)矢量空間映射到離散矢量空間,以幀劃分連續(xù)的語音信號,然后將源語音幀和目標語音幀形成一一對應關系。在訓練階段,獲取源說話人和目標說話人發(fā)語音數據庫生成學習單詞集,然后將單詞分幀并對每一幀矢量化,分別得到源語音對應的碼書和目標語音對應的碼書,兩本碼書的碼矢數目都是,之后需要對兩個說話人相同的單詞矢量進行對齊操作,這一步通過動態(tài)時間規(guī)整(DTW)實現。最后將統計直方圖的值作為權重來描述兩本碼書的矢量映射關系,找到最小失真映射后生成兩個說話人的映射碼書(是的矩陣)。967.5.1平行語音轉換方法
977.5.1平行語音轉換方法矢量量化語音轉換能很好地保留語音中的說話人個性特征,但矢量量化將連續(xù)的語音信號分割離散化,造成轉換后的語音缺失連續(xù)性,嚴重影響了轉換出的語音的質量。987.5.1平行語音轉換方法高斯混合模型(GMM)是語音轉換研究的經典模型,它基于統計平均參數,改進了VQ算法中語音特征參數離散的缺點,提升了轉換語音的質量7.5.1.2高斯混合模型997.5.1平行語音轉換方法在實際應用中,GMM不僅可以處理語音信號,還可以用于抑制干擾和噪聲等。高斯混合模型算法是基于源語音的頻譜包絡和目標語音的頻譜包絡符合聯合高斯概率密度分布的假設,并對語音頻譜特征參數進行概率密度建模:
1007.5.1平行語音轉換方法高斯混合模型參數估算流程1017.5.1平行語音轉換方法GMM算法雖然解決了VQ算法存在的不連續(xù)問題,但由于其特性,仍存在一些缺點,由于使用了統計平均參數,會導致共振峰過平滑。同時在數據過多或者語音特征維度較高的情況下,計算量會變得龐大,迭代速度變慢。且容易受噪聲等干擾因素的影響,難以還原聲音的變化過程。1027.5.1平行語音轉換方法高斯混合模型(GMM)是語音轉換研究的經典模型,它基于統計平均參數,改進了VQ算法中語音特征參數離散的缺點,提升了轉換語音的質量7.5.1.3非負矩陣分解1037.5.1平行語音轉換方法非負矩陣分解的含義是把一個說話人特征矩陣分解成說話人相關的字典和說話人無關的激活矩陣,其中涉及到的矩陣元素都是非負的。在該方法中,基于樣例的稀疏表示是核心?;跇永恼Z音轉換分為訓練和轉換兩個階段。7.5.1.3非負矩陣分解1047.5.1平行語音轉換方法
7.5.1.3非負矩陣分解1057.5.1平行語音轉換方法
7.5.1.3非負矩陣分解1067.5.1平行語音轉換方法隱馬爾科夫模型(HMM)是經典的統計分析模型,也是一種參數表示的生成模型。HMM的過程是先由一個隱藏的馬爾科夫鏈隨機產生一個不可觀測的狀態(tài)序列,再通過狀態(tài)序列產生對應的觀測序列。隱馬爾科夫模型在自然語音處理方面應用廣泛,常被用于音素建模。7.5.1.4隱馬爾科夫模型1077.5.1平行語音轉換方法隱馬爾科夫模型1087.5.1平行語音轉換方法
1097.5.2非平行語音轉換應用案例對于非平行語料,由于語義信息不同或者語義信息雖有重疊,但時間順序存在差異,因此在此情況下的時間對齊算法相對復雜得多。但由于非平行語料相對于平行語料更易獲取,故針對非平行語料的對齊研究也在不斷發(fā)展。非平行語音轉換的主要方法包括生成對抗網絡及其衍生模型、變分自動編碼器等一系列創(chuàng)新方法。110生成對抗網絡(GAN),可以從大量數據中學習其分布規(guī)律,從而構建出合理的映射函數,在圖像生成和語音生成領域應用廣泛。其思想是生成器和鑒別器之間的博弈7.5.2.1循環(huán)生成對抗網絡7.5.2非平行語音轉換應用案例111生成器通過學習訓練樣本的數據分布,生成一個接近真實訓練數據的假樣本,期望能騙過鑒別器。鑒別器的任務則是判斷生成器的輸出是否為真實樣本,通過每次的判別誤差來優(yōu)化鑒別器,鑒別器的水平得到提升之后,生成器就需要繼續(xù)學習以生成更逼真的樣本。二者在這樣的對抗訓練中不斷循環(huán)優(yōu)化,直至達到平衡。7.5.2.1循環(huán)生成對抗網絡7.5.2非平行語音轉換應用案例112傳統的GAN對訓練數據的匹配性有較大的依賴,如果數據無法滿足要求,模型將會很難訓練,并且生成的數據偏差較大。循環(huán)生成對抗網絡(CycleGAN)在此背景下應運而生,它由兩個傳統GAN構成,能夠實現兩種風格之間的轉換,而不需要一一對應的數據7.5.2.1循環(huán)生成對抗網絡7.5.2非平行語音轉換應用案例113CycleGAN的結構圖7.5.2非平行語音轉換應用案例114CycleGAN由三個損失函數來指導其訓練過程,即:對抗損失、循環(huán)一致損失和身份映射損失。7.5.2非平行語音轉換應用案例115對抗損失是為了確保轉換后的語音與目標語音足夠相似,對抗損失越小,說明轉換效果越好,其表達式如下:7.5.2非平行語音轉換應用案例116對抗損失只能保證轉換語音與目標語音的說話人身份特征具有相似性,卻不能保證語音的語言內容在轉換過程中不丟失,因此需要循環(huán)一致損失來增加轉換約束,確保轉換前后的語音內容是一致的。7.5.2非平行語音轉換應用案例117
7.5.2非平行語音轉換應用案例118
7.5.2.2星型生成對抗網絡7.5.2非平行語音轉換應用案例119StarGAN網絡的工作流程具體為以下三步:(1)獲取源語音特征、目標說話人的身份標簽,作為生成器的輸入,生成器生成類目標語音的假樣本。(2)將生成的假樣本和目標說話人的真實語音樣本一起饋入鑒別器,鑒別器判斷樣本是否真實,并輸出樣本類別概率。(3)將生成的假樣本和源說話人的身份標簽一起作為生成器的輸入,要求能輸出重構語音,這與CycleGAN的一致性約束是一樣的。7.5.2非平行語音轉換應用案例120
7.5.2非平行語音轉換應用案例121綜前所述,可得模型訓練所需的總體損失:7.5.2非平行語音轉換應用案例122語音由兩部分構成,分別是說話人無關的語音內容和說話人相關的個性特征。而語音轉換的目標就是改變說話人相關的部分,保留說話人無關的部分。變分自動編碼器(VariationalAutoEncoder,VAE)能夠將語音的兩個部分分離,并根據說話人無關的部分和轉換后的說話人相關的部分重建語音波形,達到轉換語音的目的。7.5.2.3變分自動編碼器7.5.2非平行語音轉換應用案例123VAE系統由編碼器和解碼器構成,系統流程如圖7.11所示7.5.2非平行語音轉換應用案例
124編碼器的任務是將輸入編碼成獨立于說話人的潛在變量,即:7.5.2非平行語音轉換應用案例
125基于VAE的語音轉換方法通過分離和重建的方式來轉換語音,對非平行數據的轉換展示出了良好的效果,后來的學者們在此基礎上進行研究,擴展了相當多的改進方法,如VQVAE、AutoVC、Cotatron、VAE-GAN等。7.5.2非平行語音轉換應用案例1267.5.2非平行語音轉換應用案例127目前在語音轉換領域的研究,自適應實例規(guī)范化(AdaptiveInstanceNormalizationVC,AdaIN-VC)通過使用實例規(guī)范化分離說話人和內容表示來實現語音轉換。。7.5.2.4自適應實例規(guī)范化7.5.2非平行語音轉換
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安全教育培訓考試應急救援知識實戰(zhàn)模擬與事故處理技巧試題
- 樣品買賣合同
- 2025年區(qū)塊鏈工程師職業(yè)能力測試卷:區(qū)塊鏈數據存儲與分布式賬本試題
- 2025年壓力容器檢驗員資格考試試卷:模擬試題集錦與答案解析
- 2025年安全教育培訓考試:安全文化建設核心內容試題集
- 2025年信息系統項目管理師考試項目管理信息系統集成驗收試題
- 2025年中學教師資格證考試《綜合素質》心理輔導案例實戰(zhàn)分析與試題
- 2025年中學教師資格考試《綜合素質》教育案例深度剖析模擬試題含答案解析
- 2025年安全生產應急管理應急演練評估試題
- 高等院校教師培訓心得體會
- 2025屆廣西柳州市名校高考沖刺押題(最后一卷)化學試卷含解析
- 業(yè)主投訴處理制度
- 2025年博士思政面試題及答案
- 一個土豆店創(chuàng)業(yè)計劃書
- 電站的應急預案范文(9篇)
- 2025年機動車檢測站全套管理制度(全套)
- 《智能媒體傳播》課程教學大綱
- 數字化設計與制造技術基礎知識單選題100道及答案
- 變電站設備危險源辨識清單及預控措施
- 艾灸療法課件
- 銀行職業(yè)介紹課件
評論
0/150
提交評論