




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章機(jī)器學(xué)習(xí)基礎(chǔ)算法建模機(jī)器學(xué)習(xí)分類算法回歸算法集成學(xué)習(xí)算法聚類算法關(guān)聯(lián)規(guī)則算法智能推薦算法回歸算法在有監(jiān)督學(xué)習(xí)中若預(yù)測(cè)的變量是離散的,則稱其為分類。若預(yù)測(cè)的變量是連續(xù)的,則稱其為回歸。回歸算法回歸分析回歸是一種統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個(gè)或多個(gè)變量間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型以便觀察特定變量來(lái)預(yù)測(cè)研究者感興趣的變量。更具體的解釋是,回歸分析可以幫助人們了解在只有一個(gè)自變量變化時(shí)因變量的變化量。一般地,通過(guò)回歸分析可以由給出的自變量估計(jì)因變量的條件期望。簡(jiǎn)而言之,建立方程模擬兩個(gè)或者多個(gè)變量之間關(guān)系的過(guò)程稱為回歸。其中,被預(yù)測(cè)的變量稱為因變量,被用于進(jìn)行預(yù)測(cè)的變量稱為自變量?;貧w算法從19世紀(jì)初高斯提出的最小二乘估計(jì)起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如右圖。回歸算法在回歸模型中,自變量與因變量具有相關(guān)關(guān)系,自變量的值是已知的,因變量是需要預(yù)測(cè)的?;貧w算法的實(shí)現(xiàn)步驟(和分類算法基本相同)學(xué)習(xí)預(yù)測(cè)學(xué)習(xí)是通過(guò)訓(xùn)練樣本數(shù)據(jù)來(lái)擬合回歸方程。預(yù)測(cè)則是利用學(xué)習(xí)過(guò)程中擬合出的回歸方程,將測(cè)試數(shù)據(jù)放入方程中求出預(yù)測(cè)值。回歸算法常用的回歸模型回歸模型名稱適用條件算法描述線性回歸因變量與自變量是線性關(guān)系對(duì)一個(gè)或多個(gè)自變量和因變量之間的線性關(guān)系進(jìn)行建模,可用最小二乘法求解模型系數(shù)非線性回歸因變量與自變量之間不都是線性關(guān)系對(duì)一個(gè)或多個(gè)自變量和因變量之間的非線性關(guān)系進(jìn)行建模。若非線性關(guān)系可以通過(guò)簡(jiǎn)單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系,則用線性回歸的思想求解;若不能轉(zhuǎn)化,則用非線性最小二乘方法求解Logistic回歸因變量一般有1和0(是與否)兩種取值是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率嶺回歸參與建模的自變量之間具有多重共線性是一種改進(jìn)最小二乘估計(jì)的方法主成分回歸參與建模的自變量之間具有多重共線性主成分回歸是根據(jù)主成分分析的思想提出來(lái)的,是對(duì)最小二乘法的一種改進(jìn),它是參數(shù)估計(jì)的一種有偏估計(jì)??梢韵宰兞恐g的多重共線性………………線性回歸線性回歸線性回歸是機(jī)器學(xué)習(xí)中最基本的算法之一,是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來(lái)確定兩種或者兩種以上變量之間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法線性回歸的目標(biāo)是在給定自變量的情況下,預(yù)測(cè)因變量的值。根據(jù)不同的自變量數(shù)量,可以將線性回歸分為一元線性回歸和多元線性回歸。線性回歸——一元線性回歸一元線性回歸是描述兩個(gè)變量之間相關(guān)關(guān)系的最簡(jiǎn)單的回歸模型。自變量與因變量間的線性關(guān)系的數(shù)學(xué)結(jié)構(gòu)通常用式方程稱為變量
y對(duì)
x的一元線性回歸理論模型。一般稱
y為因變量,x為自變量,
和
是未知參數(shù),稱
為回歸常數(shù),
為回歸系數(shù),
表示其他隨機(jī)因素的影響。其中,兩個(gè)變量
y與
x之間的關(guān)系用兩部分描述。一部分是由于
x的變化引起
y線性變化的部分,即
,另一部分是由其他一切隨機(jī)因素引起的,記為
。該式確切地表達(dá)了變量
x與
y
之間的密切關(guān)系,但密切的程度又沒(méi)有到
x
唯一確定
y的這種特殊關(guān)系。線性回歸——一元線性回歸的數(shù)據(jù)輸入一元線性回歸數(shù)據(jù)的輸入要求自變量可以是分類變量或連續(xù)變量,因變量必須是連續(xù)變量。因變量與自變量之間是線性關(guān)系。自變量個(gè)數(shù)只能是1。線性回歸——一元線性回歸算法輸出一元線性回歸的主要輸出內(nèi)容訓(xùn)練后的一元線性方程。包含真實(shí)值和預(yù)測(cè)值的樣本。線性回歸——一元線性回歸的優(yōu)點(diǎn)建模速度快,不需要很復(fù)雜的計(jì)算。由于己知的變量少且簡(jiǎn)單,所以預(yù)測(cè)準(zhǔn)確率通常都較高。對(duì)異常值很敏感。線性回歸——一元線性回歸的應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn的linear_model模塊提供了LinearRegression函數(shù)用于構(gòu)建一元線性回歸模型。LinearRegression函數(shù)基本使用語(yǔ)法sklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)LinearRegression函數(shù)的主要參數(shù)及其說(shuō)明參數(shù)名稱說(shuō)明fit_intercept接收Boolean。表示是否計(jì)算該模型的截距,默認(rèn)為T(mén)rue線性回歸——多元線性回歸多元線性回歸多元線性回歸模型的目的是構(gòu)建一個(gè)回歸方程,利用多個(gè)自變量估計(jì)因變量,從而解釋和預(yù)測(cè)因變量的值。多元線性回歸模型中的因變量和大部分自變量為定量值,某些定性指標(biāo)需要轉(zhuǎn)換為定量值才能應(yīng)用到回歸方程中。線性回歸——多元線性回歸多元線性回歸模型中,自變量與因變量間的線性關(guān)系的數(shù)學(xué)結(jié)構(gòu)通常用式其中,y為因變量,
為自變量,
是n+1個(gè)未知參數(shù),稱
為回歸常數(shù),
為回歸系數(shù),
表示其他隨機(jī)因素的影響。線性回歸——多元線性回歸的數(shù)據(jù)輸入多元線性回歸數(shù)據(jù)的輸入要求自變量可以是分類變量或連續(xù)變量,因變量必須是連續(xù)變量。因變量與自變量之間是線性關(guān)系。自變量個(gè)數(shù)不少于2。自變量之間互相獨(dú)立。線性回歸——多元線性回歸的算法輸出多元線性回歸的主要輸出內(nèi)容訓(xùn)練后的多元線性方程。包含真實(shí)值和預(yù)測(cè)值的樣本。線性回歸——多元線性回歸的優(yōu)點(diǎn)可以根據(jù)結(jié)果給出每個(gè)變量的理解和解釋,具有很好的可解釋性,有利于決策分析。由多個(gè)自變量的最優(yōu)組合共同來(lái)預(yù)測(cè)或估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測(cè)或估計(jì)更有效,實(shí)際意義更大。線性回歸——多元線性回歸的應(yīng)用實(shí)例對(duì)于多元線性回歸,同樣可以使用Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn的linear_model模塊的LinearRegression函數(shù)構(gòu)建多元線性回歸模型。KNN回歸KNN回歸KNN算法不僅可以用于分類,而且可以用于回歸分析。KNN回歸的原理是從訓(xùn)練樣本中找到與新數(shù)據(jù)點(diǎn)在距離上最近的預(yù)定數(shù)量的幾個(gè)數(shù)據(jù)點(diǎn),并從這些數(shù)據(jù)點(diǎn)中預(yù)測(cè)標(biāo)簽。這些數(shù)據(jù)點(diǎn)的數(shù)量可以是用戶自定義的常量,也可以根據(jù)不同的點(diǎn)的局部密度得到。距離通常可以通過(guò)任何方式來(lái)度量,標(biāo)準(zhǔn)歐式距離是最常見(jiàn)的選擇之一。KNN回歸KNN回歸適用于連續(xù)變量估計(jì),KNN回歸的一種簡(jiǎn)單的實(shí)現(xiàn)是計(jì)算最近鄰k的數(shù)值目標(biāo)的平均值,另一種方法是使用k近鄰的逆距離加權(quán)平均值。KNN回歸使用與KNN分類相同的距離函數(shù)KNN回歸與KNN分類均適用反距離加權(quán)平均多個(gè)k近鄰點(diǎn)確定測(cè)試點(diǎn)的值。KNN算法用于回歸和分類的目標(biāo)數(shù)據(jù)區(qū)別用于回歸的目標(biāo)數(shù)據(jù)是連續(xù)的。用于分類的目標(biāo)數(shù)據(jù)是離散的。KNN回歸——數(shù)據(jù)輸入KNN回歸數(shù)據(jù)的輸入要求目標(biāo)數(shù)據(jù)為連續(xù)型。數(shù)據(jù)中不能存在空值。KNN回歸——算法輸出KNN算法通過(guò)模型訓(xùn)練后的輸出主要為訓(xùn)練后的模型,可用于預(yù)測(cè)未來(lái)值的樣本,直接得出其預(yù)測(cè)值。KNN回歸——優(yōu)缺點(diǎn)KNN回歸的優(yōu)點(diǎn)既可以用于分類,也可以用于回歸。與線性回歸相比,優(yōu)點(diǎn)為:對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高,對(duì)異常點(diǎn)不敏感。模型無(wú)需訓(xùn)練,無(wú)需擬合一個(gè)函數(shù)。KNN回歸——優(yōu)缺點(diǎn)KNN回歸的缺點(diǎn)計(jì)算量太大,尤其是自變量個(gè)數(shù)非常多的時(shí)候。屬于慵懶散學(xué)習(xí)方法,基本上不學(xué)習(xí),導(dǎo)致預(yù)測(cè)時(shí)速度比起其他算法慢。對(duì)訓(xùn)練數(shù)據(jù)依賴度非常大,對(duì)訓(xùn)練數(shù)據(jù)的容錯(cuò)性較差。KNN回歸——算法應(yīng)用KNN算法通常在分類問(wèn)題中應(yīng)用較多,雖然很少用于回歸問(wèn)題,但是對(duì)于連續(xù)的變量仍有很好的效果。KNN回歸——應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn的neighbors模塊提供的KNeighborsRegressor類用于構(gòu)建KNN回歸模型。KNeighborsRegressor類基本使用語(yǔ)法sklearn.neighbors.KNeighborsRegressor(n_neighbors=5,weights='uniform',algorithm='auto',leaf_size=30,p=2,metric='minkowski',metric_params=None,n_jobs=None,**kwargs)KNeighborsRegressor類的主要參數(shù)及其說(shuō)明參數(shù)名稱說(shuō)明n_neighbors接收int。表示KNN算法中選取離測(cè)試數(shù)據(jù)最近的k個(gè)點(diǎn),默認(rèn)為5weights接收str。表示k近鄰點(diǎn)對(duì)分類結(jié)果的影響,一般情況下,選取k近鄰點(diǎn)中類別數(shù)目最多的作為分類結(jié)果,這種情況下默認(rèn)k個(gè)點(diǎn)的權(quán)重相等,但在很多情況下,k近鄰點(diǎn)權(quán)重并不相等,可能近的點(diǎn)權(quán)重大,對(duì)分類結(jié)果影響大,可選擇的值為“uniform”和“distance”,其含義如下“uniform”:表示所有點(diǎn)的權(quán)重相等“distance”:表示權(quán)重是距離的倒數(shù),意味著在k個(gè)點(diǎn)中,距離近的點(diǎn)對(duì)分類結(jié)果的影響大于距離遠(yuǎn)的點(diǎn)默認(rèn)為“uniform”KNN回歸——應(yīng)用實(shí)例KNeighborsRegressor類的主要參數(shù)及其說(shuō)明參數(shù)名稱說(shuō)明algorithm接收str。計(jì)算找出k近鄰點(diǎn)的算法,可選擇的值為“ball_tree”“kd_tree”“brute”和“auto”,其含義如下“ball_tree”:使用BallTree算法,建議數(shù)據(jù)維度大于20時(shí)使用“kd_tree”:使用KDTree算法,在數(shù)據(jù)維度小于20時(shí)效率高“brute”:暴力算法,線性掃描“auto”:自動(dòng)選取最合適的算法默認(rèn)為“auto”leaf_size接收int。用于構(gòu)造BallTree和KDTree,leaf_size參數(shù)的設(shè)置會(huì)影響樹(shù)的構(gòu)造和詢問(wèn)的速度,同樣也會(huì)影響樹(shù)存儲(chǔ)需要的內(nèi)存,默認(rèn)為30p接收int。表示度量的方式可選擇的值為1和2,其含義如下1:使用曼哈頓距離進(jìn)行度量2:使用歐式距離進(jìn)行度量默認(rèn)為2KNN回歸——應(yīng)用實(shí)例Lasso回歸Lasso回歸Lasso回歸以縮小特征集(降階)為思想,是一種收縮估計(jì)方法。Lasso回歸可以將特征的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到特征選擇的目的,可以廣泛地應(yīng)用于模型改進(jìn)與選擇。通過(guò)選擇懲罰函數(shù),借用Lasso思想和方法實(shí)現(xiàn)特征選擇的目的。模型選擇本質(zhì)上是尋求模型稀疏表達(dá)的過(guò)程,而這種過(guò)程可以通過(guò)優(yōu)化一個(gè)“損失”+“懲罰”的函數(shù)問(wèn)題來(lái)完成。Lasso回歸Lasso回歸定義其中,
為非負(fù)正則參數(shù),控制著模型的復(fù)雜程度,
越大對(duì)特征較多的線性模型的懲罰力度就越大,從而最終獲得一個(gè)特征較少的模型,
稱為懲罰項(xiàng)。調(diào)整參數(shù)
的取值可以采用交叉驗(yàn)證法,選取交叉驗(yàn)證誤差最小的
值。最后,按照得到的
值,用全部數(shù)據(jù)重新擬合模型即可。Lasso回歸——數(shù)據(jù)輸入在理論上,Lasso回歸對(duì)數(shù)據(jù)類型沒(méi)有太多限制,可以接受任何類型的數(shù)據(jù),而且一般不需要對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理。Lasso回歸——算法輸出Lasso回歸的主要輸出內(nèi)容訓(xùn)練后的Lasso回歸方程。包含真實(shí)值和預(yù)測(cè)值的樣本。Lasso回歸——優(yōu)缺點(diǎn)Lasso回歸的優(yōu)點(diǎn)Lasso回歸的缺點(diǎn)可以彌補(bǔ)最小二乘法和逐步回歸局部最優(yōu)估計(jì)的不足,可以很好地進(jìn)行特征的選擇,可以有效的解決各特征之間存在多重共線性的問(wèn)題。如果存在一組高度相關(guān)的特征時(shí),Lasso回歸方法傾向于選擇其中的一個(gè)特征,而忽視其他所有的特征,這種情況會(huì)導(dǎo)致結(jié)果的不穩(wěn)定性。Lasso回歸——算法應(yīng)用當(dāng)原始特征中存在多重共線性時(shí),Lasso回歸不失為一種很好的處理共線性的方法。它可以有效地對(duì)存在多重共線性的特征進(jìn)行篩選。處理共線性的問(wèn)題用于特征降維在機(jī)器學(xué)習(xí)中,面對(duì)海量的數(shù)據(jù),往往會(huì)用到降維,爭(zhēng)取用盡可能少的數(shù)據(jù)解決問(wèn)題,而用Lasso模型進(jìn)行特征選擇也是一種有效的降維方法。Lasso回歸——應(yīng)用實(shí)例Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn的linear_model模塊提供的Lasso類用于構(gòu)建Lasso回歸模型。Lasso類基本使用語(yǔ)法sklearn.linear_model.Lasso(alpha=1.0,fit_intercept=True,normalize=False,prec
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 長(zhǎng)春師范大學(xué)《動(dòng)畫(huà)創(chuàng)作》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆重慶市南岸區(qū)重慶南開(kāi)融僑中學(xué)英語(yǔ)七下期末考試試題含答案
- 【小升初真題匯編】統(tǒng)編版語(yǔ)文六年級(jí)下冊(cè)現(xiàn)代文閱讀專項(xiàng)訓(xùn)練(含答案)
- 遺傳學(xué)與疾病
- 內(nèi)蒙古農(nóng)業(yè)大學(xué)《漢語(yǔ)方言研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 柳州鐵道職業(yè)技術(shù)學(xué)院《二外(法語(yǔ))3》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇電子信息職業(yè)學(xué)院《植物基因工程原理與技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東旅游職業(yè)學(xué)院《概率論與數(shù)理統(tǒng)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆湖北省武漢江岸區(qū)七校聯(lián)考英語(yǔ)七年級(jí)第二學(xué)期期中達(dá)標(biāo)檢測(cè)模擬試題含答案
- 南寧師范大學(xué)《景觀規(guī)劃原理》2023-2024學(xué)年第二學(xué)期期末試卷
- GB/T 1689-1998硫化橡膠耐磨性能的測(cè)定(用阿克隆磨耗機(jī))
- GB/T 16823.3-2010緊固件扭矩-夾緊力試驗(yàn)
- 江蘇省金陵中學(xué)2023學(xué)年物理高一下期末調(diào)研試題(含答案解析)
- 2023年合肥城建發(fā)展股份有限公司校園招聘筆試模擬試題及答案解析
- DB11-T1834-2021 城市道路工程施工技術(shù)規(guī)程高清最新版
- 廣東省珠海市2022-2023高一物理下學(xué)期期末學(xué)業(yè)質(zhì)量檢測(cè)試題
- 小學(xué)語(yǔ)文擴(kuò)句、縮句專題
- PDCA降低I類切口感染發(fā)生率
- 人類能源史課件
- 農(nóng)村公路安全生命防護(hù)工程施工方案
- 科技社團(tuán)活動(dòng)記錄2017年秋
評(píng)論
0/150
提交評(píng)論