論文翻譯機器學習中的高斯過程應用_第1頁
論文翻譯機器學習中的高斯過程應用_第2頁
論文翻譯機器學習中的高斯過程應用_第3頁
論文翻譯機器學習中的高斯過程應用_第4頁
論文翻譯機器學習中的高斯過程應用_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、外 文 譯 文機器學習中的高斯過程應用摘 要我們給了一個對高斯過程回歸模型的基本介紹。我們研究的重點在于理解隨機過程的含義和如何用他去定義一個分布函數。我們提出了一個簡單的方程,它可以結合訓練數據并且測試了它如何去應用邊緣概率密度來學習超參數。我們解釋了高斯過程的實際應用優(yōu)勢并且得出結論,高斯過程是適合當前時代趨勢的?;貧w(對于連續(xù)輸出)和分類(對于離散輸出)形式的機器學習是一個對于學習統(tǒng)計學和機器學習非常重要的組成部分,無論是對于大量數據的分析,或是對于一個更加復雜問題中的子目標的解決。傳統(tǒng)參數模型(參數模型,我們這里是指模型在訓練過程中從訓練數據“吸收”信息傳遞給參數;訓練結束后,數據庫可

2、以被丟棄。)已經被用作完成這些目標。這些可能在容易理解方面有優(yōu)勢,但是應用于復雜數據分析時,簡單的參數模型就顯得力不從心了,而且比它們更復雜的類似的方法(比如前向網絡)可能在實踐中比較難以實現。內核機器的出現,比如支持向量機和高斯過程使對復雜模型進行實際分析有了可能性。在這篇短文中,我們提出了一個使用高斯過程用于貝葉斯回歸方程的建模的基本方法。我們主要關注如何理解隨機過程和如何將他在機器學習中應用。第二,我們將討論關于超參數在協(xié)方差函數中的作用的切實問題,邊緣概率密度和奧卡姆剃刀原則的問題。要查看更多關于高斯過程的介紹,請看參考文獻1,2。第一章 高斯過程在這部分我們定義了高斯過程,并且展示它

3、們是如何非常自然的被應用于定義分布函數。接下來的部分,我們繼續(xù)展示這個分布函數是如何通過訓練數據更新的。定義 1:高斯過程是一個隨機變量的集合,其中任何有限的數字都有共同的高斯分布。一個高斯過程可以被它的均值函數m(x)和協(xié)方差函數k(x,x)完全的定義。分別將均值函數和協(xié)方差函數表示成向量和矩陣,這是一個對高斯分布的自然推廣。高斯分布用向量表示,而高斯過程用函數表示。如此有:意思是:“f是由均值函數m和協(xié)方差函數k定義的高斯分布函數?!彪m然從分布到過程的概括比較直截了當,我們會略詳細地解釋一下細節(jié),因為它可能對一些讀者來說沒那么熟悉。高斯向量中的單個隨機變量可以被他們的位置向量索引到。高斯過

4、程中,有一個參數x(隨機函數f(x)中的)起到了索引集的角色:每一個輸入x都有一個相聯(lián)系的隨機變量f(x),這是(隨機)函數f在x處的取值。為了識記方便,我們用自然數來列舉x的值,并且用這些來索引他們在隨機過程中的位置-不要讓你自己被這個迷惑:隨機過程的索引用xi表示,我們選擇用i來表示索引。雖然與無限維對象工作可能在起初看起來很笨拙,但是經過大量計算證明,這只需要與有限維對象工作就可以完成。實際上,找到用相關分布函數減少隨機過程運算量的答案,這才是高斯過程可行性的關鍵。讓我們看一個例子,考慮如下方程給出的高斯過程:為了更加直觀地理解這個隨機過程,我們可以用函數f畫出采樣圖。為了只與有限數據進

5、行處理,我們只要求在不同有限數字n代表的位置的f的取值。我們如何產生這樣的采樣呢?給出不同x的取值,我們可以用定義了一個標準高斯分布的方程計算出均值向量和協(xié)方差矩陣:我們用m和k代表高斯過程的參數,用和代表分布函數的參數,來清楚地區(qū)分它們。我們現在可以通過這個分布函數創(chuàng)造出一組隨機向量。這個向量會作為坐標的函數,由x的值得到相應的f(x)的值。圖1這是由一個確定的高斯隨機過程方程隨機3次畫出的3個函數的函數圖像。圖中的點是由方程算出的,另外兩條曲線(有些不準確)是連接采樣點畫出的。函數值體現了一個平滑的基礎函數;這實際上是高斯隨機過程與平方指數的協(xié)方差函數的性質的體現。陰影灰色部分代表了95%

6、的置信區(qū)間。我們現在就可以畫出f的函數值與x的關系圖,如圖1。我們實際上如何完成這件事?下面的幾句Matlab(Matlab是The MathWork Inc的商標)代碼可以用來畫出上圖。xs = (-5:0.2:5); ns = size(xs,1); keps = 1e-9;m = inline(0.25*x.2);K = inline(exp(-0.5*(repmat(p,size(q)-repmat(q,size(p).2);fs = m(xs) + chol(K(xs,xs)+keps*eye(ns)*randn(ns,1);plot(xs,fs,.)上面的例子里,m和k是均值和協(xié)方

7、差;chol是一個實現計算矩陣的Cholesky分解(我們還為了數值穩(wěn)定添加了多重協(xié)方差矩陣(限制特征值的數值不為0);有興趣的話可以查看Eq.(8)附近的解釋)的函數。這個例子說明了我們如何從過程轉變成分布,同時說明了高斯過程定義了一個分布函數。到此,我們只考慮了隨機函數-在下一部分,我們會看到一個非常簡單的應用高斯隨機過程建模的方法來進行數據推測訓練的例子。第二章 后驗高斯過程在前一個部分,我們看到了如何應用高斯過程來定義概率分布函數。這個高斯過程將被優(yōu)先用于貝葉斯推理,這不依賴于訓練數據,而是依靠一些函數的內容;舉例來說,圖1里的函數是平滑的,并且接近于二次方程函數。本部分的目標是找到一

8、個簡單的規(guī)則來更新之前的訓練數據。下一部分的目標是試圖根據之前(根據定義,先驗概率對于數據是獨立的,在這里我們用一個有自由參數的多層先驗概率,并且用它來推測參數。)得到的數據找到一些性質。計算后驗概率的主要目的是它們可以用來預測看不到的實驗因素。用f表示已知訓練數據的函數值, 用f*表示一系列對應輸入X*的函數值。再一次,我們寫出了我們有興趣的所有參數的聯(lián)合分布:其中,我們已經介紹過的標識:=m(xi),i=1,2,n是已知訓練數據的均值,類似地*是訓練后的均值;是訓練數據的協(xié)方差,*是訓練前數據與訓練后數據的協(xié)方差,*是訓練后數據的協(xié)方差。到此,由我們知道的訓練數據f的值我們可以的出我們感興

9、趣的f*在f條件下的條件概率(決定高斯聯(lián)合分布的公式是:)這是一個對于特定實驗情況的后驗概率分布。很容易驗證(根據檢驗),對應的后驗概率過程是:其中(X,x)是每個訓練數據和x之前的協(xié)方差向量。這些是高斯過程預測的核心方程。我們來測試一下這些方程的后驗均值和協(xié)方差。注意到后驗方差kD(x,x)等于先驗方差k(x,x)減去一個依賴于訓練數據輸入的確定的部分;因此只要數據給了我們額外的信息,后驗方差就永遠小于先驗方差。我們需要解決最后一件事情:訓練輸出數據中的噪聲。對于許多回歸的應用的來說,在觀察中存在噪聲是非常正常的事情(然而,可能非常有趣的是高斯過程模型也在無噪聲的情況下運行-這和大多數參數化

10、方法相反,因此它們通常無法正確地對數據建模。)。最常規(guī)的措施是在輸出處加上獨立同分布的高斯噪聲。在高斯過程模型中,這樣的噪聲是應該被考慮在內的;這樣做的效果就是每個f(x)都有一個額外的與他自己的協(xié)方差(只要噪聲被假設是獨立的),這個值等于噪聲方差:其中當且僅當i=I時ii=1,這是一個克羅內克函數。注意到,克羅內克函數的指數在確定的情況下,i,而不是輸入xi;你可能有幾例相同的輸入,但是這些情況下的噪聲都被認為是獨立的。因此,一個有噪聲的隨機過程的協(xié)方差函數是信號協(xié)方差和噪聲協(xié)方差的總和?,F在,我們把后驗協(xié)方差函數插入到Matlab軟件范例的第69頁去根據后驗過程畫一個樣本,便得到了圖2。在

11、這一部分,我們展示了如何簡單地應用均值和協(xié)方差函數來根據訓練數據由先驗概率更新到后驗概率。然而,我們遺留下了幾個還沒有被回答的問題:我們在最初如何寫出均值和協(xié)方差函數?我們如何估計噪聲等級?這就是下一部分的內容了。圖2由已知的20個訓練數據根據后驗概率函數畫出的隨機的3個函數圖像,高斯過程由Eq(3)和噪聲等級為n=0.7兩個條件確定。陰影部分是95%的置信區(qū)間。對比圖1,我們觀察到不確定性有了明顯下降,已經接近預測的情況。第三章 訓練一個高斯過程在之前的部分我們看到了如何根據訓練數據來更新先驗高斯過程分布。如果我們手上有足夠的關于數據的初始信息,我們就可以自信的指定先驗均值和協(xié)方差函數,這是

12、非常有用的。但是,得到如此細致的初始信息的可行性在機器學習應用方面并不是一個典型的情況。為了使高斯過程技術在實踐中更有應用價值,我們必須根據數據選擇對應的不同的均值函數和協(xié)方差函數。這個過程就被稱為訓練(訓練高斯過程模型涉及到模型的選擇,也涉及到在不同的均值函數和協(xié)方差函數的函數形式之間離散選擇來適應這些函數的超參數;為了簡便起見,我們在這里只考慮后者-直截了當的來說,在這種情況下邊緣概率密度是可以被比較的)高斯過程模型。根據通常比較模糊的先驗信息,我們使用了一個分層次的先驗概率,其中均值函數和協(xié)方差函數都被參數化為超參數。舉例來說,我們可以用Eq.(2)做一個總結:其中我們認為超參數=a,b

13、,c,y,n,l。這種特定的分級目的是這讓我們可以用一種簡單的方法確定了模糊的先驗信息。舉例來說,我們在開始的時候說了我們相信這個函數很接近一個二階多項式的樣子,但是我們沒有確定地說明什么是多項式,也沒有說明“接近”到了什么程度。事實上,多項式和數據之間的區(qū)別是一個平滑的函數加上獨立的高斯噪聲,但是我們又一次不需要確定特征長度l的等級或是兩個參數的值。我們想要根據數據對所有超參數進行推測。為了完成這項工作,我們計算了超參數給定的數據的可能性。幸運的是,這不是很難,只要假設數據的分布符合高斯分布:我們將調用這個數量級的對數邊緣概率密度。我們用“邊緣”這個詞來強調我們正在和一個沒有參數的模型進行工

14、作。例子1展示了高斯過程的權重空間,相當于方程(10)。使用權重邊緣化。我們現在可以通過求邊緣概率分布的偏導數來很簡單地找到超參數的值。其中m和k分別用來表示均值函數和協(xié)方差函數的超參數。方程(11)很方便地和一個共軛梯度等數值優(yōu)化程序聯(lián)系起來找到一個適合的(說明,對于大多數不是很微小的高斯過程,優(yōu)化超參數這個工作不是一個很困難的問題,所以通常預測應采取防止局部最小值的措施)超參數值的設定。圖3-1這是由最大邊緣似然函數得到的均值和95%后驗置信區(qū)間的圖,方程(10),是由方程(9)的高斯過程確認的,數據和圖2的相同。超參數的值是a=0.3,b=0.03,c=-0.7,y=1.1,n=0.25

15、。這個例子說明沒有超參數優(yōu)化方法,同樣可以實現得相當好(圖2),但是當然,它沒有這種方法在典型應用中更有保障性。由于實際上高斯過程是一個無參數模型,它的邊緣概率密度看起來與人們經驗中的有參數的模型多少有一些區(qū)別。事先說明的是,事實上模型確實對訓練數據非常適合:簡單地使噪聲等級n2為0,然后模型就創(chuàng)造了一個與訓練數據點十分吻合的均值預測函數。但是,這不是一個優(yōu)化邊緣似然函數的典型表現。實際上,Eq.(10)中的對數邊緣似然函數包括三個條件:第一個條件,是一個復雜的不利條件,它估量了模型的復雜度,使模型處于不利的情況。第二個條件是一個負二項式,它負責了對測量數據的擬合(這是一個僅有的依靠訓練輸出值

16、y的條件)。第三個條件是對數標準化,獨立于數據,不是很受人關注。圖3-1體現了被最大邊緣似然函數訓練的預測模型。注意到高斯過程中的懲罰和數據之間的權衡是自動的。沒有加權參數需要設置一些外部的方法,如交叉驗證。這是具有重要意義的特征,因為它簡化了訓練。圖3-2說明了如何進行自動權衡。在這一部分我們看到了,通過對先驗概率的多層次分級,我們找到了一種可以學習出先驗知識的非常方便的方法,以及通過對邊緣概率函數的優(yōu)化來學習了超參數的值。這可以被一些基于梯度的優(yōu)化所使用。而且,我們也看到了邊緣概率密度是如何采用奧卡姆剃刀的;這個性質有重要的實踐意義,因為它使訓練過程大幅堿化。圖3-2圖3-2奧卡姆剃刀是自

17、動的。x軸表現的是抽象的所有可能的數據(在一個特定的大小上)。y軸是數據給與模型的可能性。這里同時顯示了3個不同的模型。一個更加復雜的模型比一個簡單的模型可以說明更多數據集,但是由于概率必須統(tǒng)一整合,這表示更加復雜的模型會被自動懲罰更多。第四章 總結和對未來的展望我們已經看到的高斯過程是如何方便地確定復雜的非線性回歸方程的。我們只是順便提到了一種類型的協(xié)方差函數,但事實上任何正定函數(協(xié)方差函數必須是正定的,來保證作為結果的協(xié)方差矩陣也是正定的。)都可以作為協(xié)方差函數。許多這樣的函數是已知的,了解有特定協(xié)方差函數的高斯過程畫出的函數的性質是一個正在研究的重要目標。如果了解了這些函數的性質,它就

18、可以選擇協(xié)方差函數來反映之前的信息,或者作為替代,它可以體現被最大邊緣概率密度選擇的協(xié)方差函數,以此來對數據有更豐富的認識。在這個短暫的學習過程中,我們只是處理了最簡單的帶有高斯噪聲的回歸模型。在無高斯分布(比如需要分類的)的時候,訓練就變得很復雜。我們可以采用逼近的辦法,比如拉普拉斯逼近方法,或者采用把無高斯的模型看成最接近的高斯模型或者采樣方面的技術。另外一個問題是計算量復雜度的限制。在這里解釋一個簡單的實現技術,需要協(xié)方差矩陣的逆,需要O(n2)的記憶復雜度和O(n3)的計算復雜度。這對于在臺式電腦上的由n到幾千的數據集是可行的。雖然對于這種相對小的數據集有很多有趣的機器學習的問題,很多現在正在進行的研究都在發(fā)展對于更大數據集的逼近方法。許多這些方法依賴于稀疏近似。致 謝德國研究理事會(DFG)通過授予的RA 1030/1。參考文獻1 Williams, C.K.I.: Prediction with Gaussian processes: From linear regression to linear prediction and beyond. In Jordan, M.I., ed.: Learning in Gr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論