




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上偏最小二乘法(PLS)簡介-數(shù)理統(tǒng)計偏最小二乘法partial least square method是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首次提出。近幾十年來,它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。偏最小二乘法長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。而偏最小二乘法則把它們有機的結(jié)合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。這是多元統(tǒng)計數(shù)據(jù)分析中的一個飛躍。偏最小二乘法在統(tǒng)計應(yīng)用中的重要性體
2、現(xiàn)在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。主成分回歸的主要目的是要提取隱藏在矩陣X中的相關(guān)信息,然后用于預(yù)測變量Y的值。這種做法可以保證讓我們只使用那些獨立變量,噪音將被消除,從而達到改善預(yù)測模型質(zhì)量的目的。但是,主成分回歸仍然有一定的缺陷,當一些有用變量的相關(guān)性很小時,我們在選取主成分時就很容易把它們漏掉,使得最終的預(yù)測模型可靠性下降,如果我們對每一個成分進行挑選,那樣又太困難了。偏最小二乘回歸可以解決這個問題。它采用
3、對變量X和Y都進行分解的方法,從變量X和Y中同時提取成分(通常稱為因子),再將因子按照它們之間的相關(guān)性從大到小排列?,F(xiàn)在,我們要建立一個模型,我們只要決定選擇幾個因子參與建模就可以了基本概念偏最小二乘回歸是對多元線性回歸模型的一種擴展,在其最簡單的形式中,只用一個線性模型來描述獨立變量Y與預(yù)測變量組X之間的關(guān)系: Y= b0 + b1X1 + b2X2 + . + bpXp 在方程中,b0是截距,bi的值是數(shù)據(jù)點1到p的回歸系數(shù)。例如,我們可以認為人的體重是他的身高、性別的函數(shù),并且從各自的樣本點中估計出回歸系數(shù),之后,我們從測得的身高及性別中可以預(yù)測出某人的大致體重
4、。對許多的數(shù)據(jù)分析方法來說,最大的問題莫過于準確的描述觀測數(shù)據(jù)并且對新的觀測數(shù)據(jù)作出合理的預(yù)測。多元線性回歸模型為了處理更復(fù)雜的數(shù)據(jù)分析問題,擴展了一些其他算法,象判別式分析,主成分回歸,相關(guān)性分析等等,都是以多元線性回歸模型為基礎(chǔ)的多元統(tǒng)計方法。這些多元統(tǒng)計方法有兩點重要特點,即對數(shù)據(jù)的約束性: 1.變量X和變量Y的因子都必須分別從X'X和Y'Y矩陣中提取,這些因子就無法同時表示變量X和Y的相關(guān)性。 2.預(yù)測方程的數(shù)量永遠不能多于變量Y跟變量X的數(shù)量。偏最小二乘回歸從多元線性回歸擴展而來時卻不需要這些對數(shù)據(jù)的約束。在偏最小二
5、乘回歸中,預(yù)測方程將由從矩陣Y'XX'Y中提取出來的因子來描述;為了更具有代表性,提取出來的預(yù)測方程的數(shù)量可能大于變量X與Y的最大數(shù)。簡而言之,偏最小二乘回歸可能是所有多元校正方法里對變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元校正方法所不適用的許多場合,例如一些觀測數(shù)據(jù)少于預(yù)測變量數(shù)時。并且,偏最小二乘回歸可以作為一種探索性的分析工具,在使用傳統(tǒng)的線性回歸模型之前,先對所需的合適的變量數(shù)進行預(yù)測并去除噪音干擾。因此,偏最小二乘回歸被廣泛用于許多領(lǐng)域來進行建模,象化學(xué),經(jīng)濟學(xué),醫(yī)藥,心理學(xué)和制藥科學(xué)等等,尤其是它可以根據(jù)需要而任意設(shè)置變量這個優(yōu)點更加突出。在化學(xué)計量學(xué)上,
6、偏最小二乘回歸已作為一種標準的多元建模工具。計 算 過 程基本模型作為一個多元線性回歸方法,偏最小二乘回歸的主要目的是要建立一個線性模型:Y=XB+E,其中Y是具有m個變量、n個樣本點的響應(yīng)矩陣,X是具有p個變量、n個樣本點的預(yù)測矩陣,B是回歸系數(shù)矩陣,E為噪音校正模型,與Y具有相同的維數(shù)。在通常情況下,變量X和Y被標準化后再用于計算,即減去它們的平均值并除以標準偏差。偏最小二乘回歸和主成分回歸一樣,都采用得分因子作為原始預(yù)測變量線性組合的依據(jù),所以用于建立預(yù)測模型的得分因子之間必須線性無關(guān)。例如:假如我們現(xiàn)在有一組響應(yīng)變量Y(矩陣形式)和大量的預(yù)測變量X(矩陣形式),其中有些變量嚴重線性相關(guān)
7、,我們使用提取因子的方法從這組數(shù)據(jù)中提取因子,用于計算得分因子矩陣:T=XW,最后再求出合適的權(quán)重矩陣W,并建立線性回歸模型:Y=TQ+E,其中Q是矩陣T的回歸系數(shù)矩陣,E為誤差矩陣。一旦Q計算出來后,前面的方程就等價于Y=XB+E,其中B=WQ,它可直接作為預(yù)測回歸模型。偏最小二乘回歸與主成分回歸的不同之處在于得分因子的提取方法不同,簡而言之,主成分回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測變量X之間的協(xié)方差,偏最小二乘回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測變量X與響應(yīng)變量Y之間的協(xié)方差。在建模當中,偏最小二乘回歸產(chǎn)生了pxc的權(quán)重矩陣W,矩陣W的列向量用于計算變量X的列向量的nxc的得分矩陣T。不斷的計算
8、這些權(quán)重使得響應(yīng)與其相應(yīng)的得分因子之間的協(xié)方差達到最大。普通最小二乘回歸在計算Y在T上的回歸時產(chǎn)生矩陣Q,即矩陣Y的載荷因子(或稱權(quán)重),用于建立回歸方程:Y=TQ+E。一旦計算出Q,我們就可以得出方程:Y=XB+E,其中B=WQ,最終的預(yù)測模型也就建立起來了。非線性迭代偏最小二乘法用于計算偏最小二乘回歸的一種標準算法是非線性迭代偏最小二乘法(NIPALS),在這種算法中有許多變量,有些被規(guī)范化了,有些卻沒有。下面提到的算法被認為是非線性迭代偏最小二乘法中最有效的一種。對h=1.c,且A0=X'Y,M0=X'X, C0=I,變量c已知。計算qh,Ah'Ah的主特征向量。
9、 wh=GhAhqh,wh=wh/|wh|,并將wh作為W的列向量。 ph=Mhwh,ch=wh'Mhwh, ph=ph/ch,并將ph作為P的列向量。 qh=Ah'wh/ch,并將qh作為Q的列向量。 Ah+1=Ah- chphqh',Bh+1=Mh - chphph' Ch+1=Ch- whph' 得分因子矩陣T可以計算出來:T=XW,偏最小二乘回歸系數(shù)B也可由公式B=WQ計算出。 SIMPLS
10、算法還有一種對偏最小二乘回歸組分的估計方法,被稱為SIMPLS算法。對h=1.c,且A0=X'Y,M0=X'X, C0=I,變量c已知。計算qh,Ah'Ah的主特征向量。 wh=Ahqh,ch=wh'Mhwh, wh=wh/sqrt(ch),并將wh作為W的列向量。 ph=Mhwh,并將ph作為P的列向量。 qh=Ah'wh,并將qh作為Q的列向量。 vh=Chph,vh=vh/|vh| Ch+1=Ch- vhvh'
11、,Mh+1=Mh - phph' Ah+1=ChAh與NIPALS相同,SIMPLS的T由公式T=XW計算出,B由公式B=WQ'計算。其他的簡介:偏最小二乘法是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首提示來的,偏最小二乘法有機的結(jié)合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。這是多元統(tǒng)計數(shù)據(jù)分析中的一個飛躍。偏最小二乘法在統(tǒng)計應(yīng)用中的重要性體現(xiàn)在以下幾個方面: 偏最小二乘法是一種多因變量對多自變量的回歸
12、建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。 偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。 主成分回歸的主要目的是要提取隱藏在矩陣X中的相關(guān)信息,然后用于預(yù)測變量Y的值。這種做法可以保證讓我們只使用那些獨立變量,噪音將被消除,從而達到改善預(yù)測模型質(zhì)量的目的。但是,主成分回歸仍然有一定的缺陷,當一些有用變量的相關(guān)性很小時,我們在選取主成分時就很容易把它們漏掉,使得最終的預(yù)測模型可靠性下降,如果我們對每一個成分進行挑選,那樣又太困難了。偏最小二乘回歸可以解決這個問題。它采用對變量X和Y都進行分解的方法,從變量X和Y中同時提取成分
13、(通常稱為因子),再將因子按照它們之間的相關(guān)性從大到小排列。現(xiàn)在,我們要建立一個模型,我們只要決定選擇幾個因子參與建模就可以了基本概念 偏最小二乘回歸是對多元線性回歸模型的一種擴展,在其最簡單的形式中,只用一個線性模型來描述獨立變量Y與預(yù)測變量組X之間的關(guān)系:Y = b0 + b1X1 + b2X2 + . + bpXp 在方程中,b0是截距,bi的值是數(shù)據(jù)點1到p的回歸系數(shù)。 例如,我們可以認為人的體重是他的身高、性別的函數(shù),并且從各自的樣本點中估計出回歸系數(shù),之后,我們從測得的身高及性別中可以預(yù)測出某人的大致體重。對許多的數(shù)據(jù)分析方法來說,最大的問題莫過于準確的描述觀測數(shù)據(jù)并且對新的觀測數(shù)
14、據(jù)作出合理的預(yù)測。多元線性回歸模型為了處理更復(fù)雜的數(shù)據(jù)分析問題,擴展了一些其他算法,象判別式分析,主成分回歸,相關(guān)性分析等等,都是以多元線性回歸模型為基礎(chǔ)的多元統(tǒng)計方法。這些多元統(tǒng)計方法有兩點重要特點,即對數(shù)據(jù)的約束性:變量X和變量Y的因子都必須分別從X'X和Y'Y矩陣中提取,這些因子就無法同時表示變量X和Y的相關(guān)性。 預(yù)測方程的數(shù)量永遠不能多于變量Y跟變量X的數(shù)量。 偏最小二乘回歸從多元線性回歸擴展而來時卻不需要這些對數(shù)據(jù)的約束。在偏最小二乘回歸中,預(yù)測方程將由從矩陣Y'XX'Y中提取出來的因子來描述;為了更具有代表性,提取出來的預(yù)測方程的數(shù)量可能大于變量X與Y的最大數(shù)。簡而言之,偏最小二乘回歸可能是所有多元校正方法里對變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元校正方法所不適用的許多場合,例如一些觀測數(shù)據(jù)少于預(yù)測變量數(shù)時。并且,偏最小二乘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會計檔案管理流程的優(yōu)化與制度建設(shè)
- 教育政策對教師資源的調(diào)配影響分析
- 大學(xué)生在人工智能產(chǎn)業(yè)中的就業(yè)機會與發(fā)展路徑
- 2025至2030車輛霧燈行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 甘肅省武威第十七中學(xué)2025屆八年級物理第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 北京市教育院附屬中學(xué)2024-2025學(xué)年八年級物理第一學(xué)期期末經(jīng)典模擬試題含解析
- 湖北省武漢市江岸區(qū)武漢七一華源中學(xué)2025屆八上數(shù)學(xué)期末聯(lián)考模擬試題含解析
- 長期固定車輛代駕服務(wù)合同
- 基于能源互聯(lián)網(wǎng)的高端設(shè)備機組狀態(tài)監(jiān)測系統(tǒng)的研發(fā)策略
- 企業(yè)品牌建設(shè)年度總結(jié)
- 吉林省吉林市亞橋中學(xué)2023-2024學(xué)年七年級下學(xué)期期末考試數(shù)學(xué)試卷
- 貴州省貴陽市南明區(qū)2023-2024學(xué)年四年級下學(xué)期期末數(shù)學(xué)質(zhì)量監(jiān)測
- DL-T5706-2014火力發(fā)電工程施工組織設(shè)計導(dǎo)則
- 2024-2030年殷瓦鋼行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 第一目擊者理論考試題題庫110題
- 2024年縣鄉(xiāng)教師選調(diào)進城考試《教育學(xué)》題庫附答案【綜合卷】
- 2022智慧健康養(yǎng)老服務(wù)與管理專業(yè)人才培養(yǎng)調(diào)研報告
- 機動車駕駛員安全教育培訓(xùn)課件
- 三坐標檢測報告樣本
- 焊條烘烤操作規(guī)程
- 2022海南省財金集團有限公司招聘試題及答案解析
評論
0/150
提交評論