




已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
農林學類論文-論加權回歸與建模摘要:以加權回歸估計方法為核心,對林業(yè)上常用模型的異方差性進行了研究,提出了能徹底消除異方差的最佳權函數(shù)。并對模型的評價指標進行了探討,提出了評價通用性回歸模型的3大指標,并分析了加權回歸估計與這些評價指標之間的關系。最后對樣本資料的收集進行了討論,提出了收集建模樣本應遵循的基本原則。關鍵詞:加權回歸建模異方差模型評價林業(yè)數(shù)表模型是森林經營決策必不可少的計量、預測、評價依據(jù),保證模型質量至關重要,而樣本組織、模型擬合方法和模型評價是保證質量的3個重要環(huán)節(jié)。實踐證明,林業(yè)數(shù)表模型所描述的問題普遍存在異方差性,在模型擬合中若不采取消除異方差影響的有效方法,必然導致模型有偏。為此,一般可采取加權最小二乘法擬合模型,但在權函數(shù)的選擇上尚存在兩個有待進一步解決的問題:一是權函數(shù)的形式因模型所描述的事物的性質不同而異,確定最佳權函數(shù)十分繁瑣;二是到目前為止,尚未找出能完全消除異方差的權函數(shù)。本文旨在提出一種可以完全消除異方差影響的權函數(shù)通式,并給出正確評價模型的指標體系及組織建模樣本的基本原則。1加權回歸的概念確定變量之間的回歸關系,一般情況下是利用普通最小二乘法。假設隨機變量y,其中,E(y)=f(x)。也就是說,隨機變量y與x滿足下列模型:y=f(x)+(1)式中的有3個基本假定,即“獨立、正態(tài)、等方差”,它們是采用普通最小二乘法建立回歸模型的先決條件。3個條件中的“獨立”與“正態(tài)”在一般情況下都是基本滿足的,而“等方差”這一條件,則在很多情況下都難以滿足。為解決誤差項的異方差性問題,應設法校正原有的模型,使校正后的模型其誤差項具有常數(shù)方差,而模型的校正取決于方差2i與自變量xi之間的關系。假設i的方差與xi的函數(shù)g(xi)呈比例關系,即:2i=g(xi)2(2)這里2是一個有限常數(shù)。于是用去除原有模型,可使新模型的誤差項具有常數(shù)方差。用這種方法估計模型中相應的參數(shù),叫做加權最小二乘法(俞大剛,1987)。2權函數(shù)的選擇2.1異方差性的基本概念根據(jù)回歸估計理論,當建立的回歸模型的誤差項存在異方差時,必須采用加權最小二乘法來消除異方差對參數(shù)估計的影響。在林業(yè)上所涉及的許多數(shù)學模型,如材積模型、生物量模型、生長率模型、削度模型等,其誤差項的方差都不為常數(shù),而是隨解釋變量的變化而變化(駱期邦等,1992;曾偉生等,1992;曾偉生,1996)。一般而言,模型預估值隨解釋變量的增大而增大時,其誤差項的方差也隨解釋變量的增大而增大,如材積模型和生物量模型;模型預估值隨解釋變量的增大而減小時,其誤差項方差也隨解釋變量的增大而減小,如生長率模型。在殘差圖上反映出來,二者都為喇叭型。另外,預估變量的變化范圍愈大,異方差性一般也愈明顯。因此,采用適當形式縮小預估變量的變動幅度,可在一定程度上消除異方差性。如將材積轉化為形數(shù)來建模,可將預估變量的取值大致控制在0.350.65的范圍,使預估值的最大相差倍數(shù)從數(shù)千倍縮小至2倍以內,從而基本上消除了異方差性。將生長量轉化為生長率再建模,也在很大程度上縮小了預估值的變動幅度,可明顯削弱其異方差性。2.2權函數(shù)選擇的研究現(xiàn)狀上面提到的一些常用模型,由于存在異方差,因此必須選用適當?shù)臋嗪瘮?shù)來進行加權回歸估計。關于這一點,近幾年已經逐步有了認識。如對材積模型V=aDbHc的估計,一般認為選用權函數(shù)W=1/(D4H2)可有效地消除異方差的影響(駱期邦等,1992);對生長率模型PV=aDbAc的估計,取權函數(shù)W=1/(D2A)效果較佳(曾偉生等,1992)。而且,還認識到了最合適的權函數(shù)是針對某一個模型而不是某一類模型(曾偉生,1992)。但是,針對一個具體的回歸模型,如何確定其最合適權函數(shù)的問題仍然沒有得到圓滿解決。一般情況下,如果不具有異方差性形式的信息,可通過對剩余值ei=g(xi)進行試驗,以挑選出一種合適的擬合形式(俞大剛,1987)。另外,也有人提出直接尋找方差S2ei與自變量xi的關系式S2ei=g(xi),再以W=1/g(xi)為權函數(shù)進行加權回歸,新模型的誤差項方差S2ei就會近似為常數(shù)1。還進一步提出了較具通用性的拋物線形式的權函數(shù),并取得了較好的效果(曾偉生,1996)。但是這樣來確定權函數(shù),一方面比較繁瑣;另一方面也難保證拋物線形式能適合所有模型,尤其是含多個自變量的模型;再就是必須有比較大的建模樣本才可能得到誤差項方差與變量x之間的回歸關系。誠然,在此基礎上還可以作些改進,如:借鑒曾偉生文(曾偉生等,1997)中可變參數(shù)模型的設計,將狹義的拋物線形式y(tǒng)=a+bx+cx2擴展為廣義的拋物線形式y(tǒng)=a+bxn+c(xn)2(n=0.5,1,2)以更好地適應各個模型不同程度的異方差性;從自變量集中選出最主要的變量(如材積模型中的直徑)來構造權函數(shù)等。即使這樣,效果仍然不太理想。2.3最佳權函數(shù)的確定前面已經提到,最佳權函數(shù)是針對某個模型而不是某類模型,即同類模型中不同的回歸方程式應有不同的最佳權函數(shù)?;谶@一認識,我們再來對一些經典模型及其合適權函數(shù)作進一步分析。不難發(fā)現(xiàn),認為以W=1/(D2H)2為權函數(shù)效果較好的材積模型V=aDbHc,其參數(shù)b、c的估計值分別接近于2和1;以W=1/(D2A)為權函數(shù)的生長率模型PV=aDbAc,其參數(shù)b、c的估計值分別接近于1和0.5。最近筆者還發(fā)現(xiàn),形如W=a(D2H)b的生物量模型,取W=1/(D2H)2為權函數(shù)效果也很佳,此時b的估計值接近于1。如果定義W=1/g(x)2為權函數(shù),因為上述模型中的參數(shù)估計值與權函數(shù)中的相應參數(shù)值接近,故模型兩邊同時除以g(x)時,右邊都近似等于參數(shù)a;若權函數(shù)中的相應參數(shù)取模型的參數(shù)估計值,則模型兩邊同除g(x)時右邊就會恒等于參數(shù)a了。更進一步,若?。篧=1/f(x)2(3)作為權函數(shù),則模型兩邊同除以f(x)后得到的新模型,右邊都等于1??梢宰C明,此時得到的新模型,其誤差項的期望值為0,方差為常數(shù)。亦即,以模型本身構造的權函數(shù)就是要尋找的最佳權函數(shù)。這剛好應證了“不同模型有不同的最佳權函數(shù)”的觀點。該模型為:y=f(x)+(4)兩邊同時除以f(x)得新模型:y=y/f(x)=1+/f(x)=1+(5)對新模型(5)采用普通最小二乘法進行估計(相當于原有模型(4)的加權回歸估計),有:(6)下面討論新模型誤差項的性質。期望值:E()=E/f(x)=Ey/f(x)-1由(6)式知,Ey/f(x)=1,故E()=0。方差:式中f(ei)為頻數(shù)(董德元等,1987)??捎媒颖緦ι鲜龇讲頓()作出如下無偏估計:因此,新模型誤差項的期望值為0,其方差為常數(shù),即對所有xi來說,每個i的方差都相同;滿足等方差的條件。至此可以得出結論:以模型本身構造的權函數(shù)(3)式就是要尋找的最佳權函數(shù)。3模型評價與加權回歸3.1回歸模型評價指標建立回歸模型,從一般的意義上講有以下3個目的(劉璋溫等,1983):結構分析對觀測數(shù)據(jù)進行分析,以便描述存在于解釋變量與目標變量之間的結構關系;預測以已知解釋變量的值來預測目標變量的未來值或期望值;控制為使目標變量的值保持在一個理想的水平上,而適當調整解釋變量中可調整的變量值。在上述3個目的中,預測是最根本的。因為結構分析可以考慮為在更一般的條件下預測目標變量的變化問題,而控制可以考慮為針對解釋變量的不同水平來預測相應的目標變量的值,以便從中選擇最佳變量的問題。事實上,林業(yè)上的所有通用性數(shù)表的編制都可以看成是用于預測的超總體回歸模型的建立問題。如何評價這類模型的優(yōu)劣,一直是林業(yè)數(shù)表領域所面臨的一個課題。關于回歸模型評價的常用指標,包括殘差平方和Q、剩余標準差S、復相關系數(shù)R、修正復相關系數(shù)R、參數(shù)變動系數(shù)(穩(wěn)定性)、殘差分布(隨機性)、參數(shù)的可解釋性以及信息量準則AIC和CP準則等(駱期邦等,1992;劉璋溫等,1983;鐘義山,1992;盛承懋等譯,1989)。除此之外,筆者認為對用于預測目的的回歸模型,尚需考慮以下4大指標:(7)(8)平均相對誤差絕對值(9)預估精度(10)或,預估誤差(11)式中:yi為實測值;i為預估值;n為樣本單元數(shù);t為置信水平時的t分布值;T為回歸模型參數(shù)個數(shù);為平均預估值,可由f()給出。另外,因為這類回歸模型必須具有通用性質,需滿足隨自變量x從小到大時模型的上述指標應基本保持一致,所以還需分段對上述指標作出評價。應特別強調的一點是,因為相對誤差公式一般表示為:從而在林業(yè)應用上對(7)(9)式過去幾乎都是寫成(預估值-實測值)/實測值,即習慣性地將實測值當成了真值。將實測值當真值正確與否,需視具體情況而定。如某一株D=20cm、H=15m的杉木,經實測其材積為0.24m3。如果用于立木材積的目測訓練,正確的做法自然是將0.24m3作為該樹的材積真值來檢測每個人的目測水平;如果是用于立木材積表的編制,則0.24m3只是滿足D=20cm、H=15m這一條件的某株杉木的材積實測值,在這種情況下不存在真值的概念,而只有實測值與預估值(或期望值)之分。誤差計算在林業(yè)數(shù)表領域的應用基本上都是后一種情形,因此一般應采用前面給出的(7)(9)式。預估精度(10)式或預估誤差(11)式是筆者提出的評價通用性模型的新指標,從后面的討論將看到,它是反映模型預估效果的最重要的評價指標。它的成立需滿足條件總體為正態(tài)分布這一前提條件。對于林業(yè)生產應用中的絕大多數(shù)情況,這一條件都是基本滿足或近似滿足的。3.2模型評價與加權回歸為了說明加權回歸方法對建立通用性模型的重要性,現(xiàn)以一組實測數(shù)據(jù)為例,來對普通最小二乘法和加權最小二乘法得出的模型進行評價。所用數(shù)據(jù)為杉木地上部分干物質生物量,采集自江西省德興市的人工杉木林中。共計50株樣木,來自6個樣地,樣地按幼、中、成3個齡組和中、好兩個立地等級各分布1塊。如果從建立立木生物量模型這一目的考慮,所用數(shù)據(jù)嚴格講并不符合建模要求(后面將討論到),但用作不同方法結果的對比是可以的。表1給出了常規(guī)生物量模型W=a(D2H)b兩種回歸估計方法的對比結果,表2列出了(7)(10)式的評價指標值,其中包括將整個建模樣本按胸徑D的大小以株數(shù)平分為5段所算出的評價指標值。從表1、表2可以明顯看出,盡管加權回歸(特指按前面的最佳權函數(shù)(3)式加權,下同)的殘差平方和為普通回歸的2.1倍,剩余標準差為1.4倍,但按(7)(10)式所給指標進行分段檢驗的結果,加權回歸模型明顯優(yōu)于普通回歸模型。普通回歸模型隨自變量x從小到大各評價指標從劣到優(yōu),即主要只照顧絕對值大的樣點,而對絕對值小的樣點很少考慮。但是,加權回歸模型卻各段的檢驗結果基本一致,而且加權回歸模型還有一個很好的特性,即總系統(tǒng)誤差為0,這從(6)式可以推知。表1普通回歸與加權回歸估計的擬合結果Tab.1Fittingresultsofordinaryregressionandweightingregressionestimation方法Regressionmethod參數(shù)估計值(變動系數(shù)%)Parameterestimates(coefficientsofvariation%)統(tǒng)計指標StatisticalindicesabQSRR*普通回歸Ordinaryregression0.029074(22.72%)0.94180(2.68%)2455.237.15200.991440.99126加權回歸Weightingregression0.069923(11.01%)0.83353(1.92%)5137.9110.34600.982010.98163表2普通回歸與加權回歸估計的檢測結果Tab.2Testresultsofordinaryregressionandweightingregressionestimation樣本范圍Samplesize普通回歸Ordinaryregression加權回歸WeightingregressionRSERMAPRSERMAP全部1.26958.0025.5994.364.200.0014.1892.30Total第1段SectionNo.143.35543.4554.3538.36-2.86-4.8610.4783.60第2段SectionNo.233.05400.1241.8461.384.1575.8222.9277.67第3段SectionNo.35.7465.248.1491.45-6.79-72.349.8891.54第4段SectionNo.4-4.67-58.4116.0386.10-6.87-91.6716.3585.71第5段SectionNo.50.497.607.6191.7210.7693.0611.2885.56需要說明的一點是,由于模型本身的參數(shù)是未知的(假定模型結構為已知模型結構設計也是建模的重要環(huán)節(jié)之一,本文不作討論),因此,只有事先得到其普通回歸估計值,才能進行加權回歸估計。嚴格來講,以模型本身為權函數(shù)進行的加權回歸估計,應該是權函數(shù)所賦參數(shù)值與回歸估計得出的參數(shù)完全相等;如果不相等,應再以新的回歸模型為權函數(shù)重新進行擬合。一般地,要達到完全穩(wěn)定需經數(shù)次的反復擬合,而且參數(shù)越多,所要擬合的次數(shù)也越多。如上述表1中的例子,就經過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 輔仁高中數(shù)學試卷
- 福建8年級下數(shù)學試卷
- 定南中學高考數(shù)學試卷
- 福建龍巖中學生數(shù)學試卷
- 復旦大學招生數(shù)學試卷
- 肝功能不全的急診搶救措施
- 2025至2030唇蜜行業(yè)市場深度研究與戰(zhàn)略咨詢分析報告
- 基礎心理學:了解人類行為與心理的基本原理
- 2025至2030乘用車語音識別行業(yè)市場深度研究與戰(zhàn)略咨詢分析報告
- 北京省考2024行測真題及答案
- 2025年天津市中考物理真題 (解析版)
- GA/T 2182-2024信息安全技術關鍵信息基礎設施安全測評要求
- 培訓物業(yè)客服部禮儀禮節(jié)
- 北京海淀區(qū)一零一中學2025年八年級英語第二學期期末復習檢測模擬試題含答案
- 2025年廣東省高考生物試題(含答案解析)
- 院感知識手衛(wèi)生培訓內容
- 章程規(guī)范業(yè)務管理制度
- QGDW11914-2018電力監(jiān)控系統(tǒng)網(wǎng)絡安全監(jiān)測裝置技術規(guī)范
- 新生兒洗澡及皮膚護理
- 保鮮庫建設項目可行性研究報告(可編輯)
- 餐飲廢棄物管理制度
評論
0/150
提交評論