




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
處理玻璃成分?jǐn)?shù)據(jù)加工廠玻璃類別識別——決策樹、隨機(jī)森林任務(wù)描述數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動山搖,因此,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。打好堅(jiān)實(shí)的基礎(chǔ)才能為之后的騰飛做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的具體目標(biāo)是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對加工廠生產(chǎn)的玻璃進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標(biāo)準(zhǔn)化,以及通過PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。利用sklearn庫進(jìn)行PCA降維。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)降維數(shù)據(jù)標(biāo)準(zhǔn)化什么是數(shù)據(jù)標(biāo)準(zhǔn)化?數(shù)據(jù)標(biāo)準(zhǔn)化是將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和結(jié)構(gòu),以便在不同系統(tǒng)和應(yīng)用程序之間進(jìn)行共享和交換,同時確保數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化數(shù)據(jù)有何作用?在數(shù)據(jù)處理中進(jìn)行標(biāo)準(zhǔn)化的意義在于消除數(shù)據(jù)的尺度影響,原始數(shù)據(jù)的尺度可能差異較大。數(shù)據(jù)標(biāo)準(zhǔn)化可以將所有特征的取值范圍統(tǒng)一,消除尺度影響,提高模型的穩(wěn)定性和準(zhǔn)確性。數(shù)據(jù)標(biāo)準(zhǔn)化可以提高模型的收斂速度,在機(jī)器學(xué)習(xí)中,一些優(yōu)化算法可能需要多次迭代才能達(dá)到最優(yōu)解。如果數(shù)據(jù)的尺度不同,會導(dǎo)致算法在某些特征上迭代次數(shù)多,而在其他特征上則迭代次數(shù)少。提高數(shù)據(jù)質(zhì)量,標(biāo)準(zhǔn)化可以幫助識別和消除數(shù)據(jù)中的異常值和錯誤,提高數(shù)據(jù)質(zhì)量。常見的數(shù)據(jù)標(biāo)準(zhǔn)化方法如下。方法意義小數(shù)定標(biāo)標(biāo)準(zhǔn)化將數(shù)據(jù)除以一個固定的基數(shù),例如10的冪,以消除數(shù)據(jù)中的單位差異標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化將數(shù)據(jù)轉(zhuǎn)換為其標(biāo)準(zhǔn)分?jǐn)?shù),適用于正態(tài)分布的數(shù)據(jù)最大最小標(biāo)準(zhǔn)化將數(shù)據(jù)縮放到指定范圍內(nèi),適用于數(shù)據(jù)分布在不同范圍的情況下數(shù)據(jù)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化通過對原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)縮放到指定的范圍內(nèi),通常是[0,1]。最大最小標(biāo)準(zhǔn)化的公式如下所示。最大最小標(biāo)準(zhǔn)化x的最大值x的最小值使用sklearn庫中的MinMaxScaler函數(shù)可以實(shí)現(xiàn)最大最小標(biāo)準(zhǔn)化,其基本使用格式如下。classsklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)最大最小標(biāo)準(zhǔn)化MinMaxScaler函數(shù)常用參數(shù)及其說明如下。參數(shù)名稱說明feature_range接收tuple,用于指定數(shù)據(jù)轉(zhuǎn)換后的范圍,默認(rèn)值為(0,1)copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為True標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化最常用的標(biāo)準(zhǔn)化方法是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,也稱為Z-score標(biāo)準(zhǔn)化,是一種將原始數(shù)據(jù)轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布的方法。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化的公式如下所示。
均值標(biāo)準(zhǔn)差classsklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True)使用sklearn庫中的StandardScaler函數(shù)實(shí)現(xiàn)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其基本使用格式如下。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化StandardScaler函數(shù)的參數(shù)及說明如下。參數(shù)名稱說明copy接收bool,表示是否復(fù)制輸入數(shù)據(jù),默認(rèn)為Truewith_mean接收bool,表示是否進(jìn)行中心化處理,默認(rèn)為Truewith_std接收bool,表示是否對每個特征的標(biāo)準(zhǔn)差進(jìn)行歸一化處理,默認(rèn)為True標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化加強(qiáng)國家科普能力建設(shè),深化全民閱讀活動。廣泛的閱讀不僅可以開闊視野,還可以發(fā)現(xiàn)自己的興趣導(dǎo)向。在閱讀時,有時需要對一篇文獻(xiàn)的詞頻進(jìn)行分析。首先將文獻(xiàn)中的每個詞語作為一個特征,構(gòu)造一個詞頻矩陣。詞頻矩陣可以便于快速的瀏覽一篇文章的主要內(nèi)容。對這個詞頻矩陣進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,以消除詞頻之間的量級差異。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化下表是關(guān)于詞頻矩陣的數(shù)據(jù)集,其中每行表示一篇文章,每列表示一個詞語的出現(xiàn)次數(shù)。最大最小標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)字中國網(wǎng)絡(luò)51001042580670121025100將對該詞頻矩陣分別使用最大最小標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過移動數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化,將數(shù)據(jù)放縮到[0,1]之間,如下式所示。在具體標(biāo)準(zhǔn)化過程中,小數(shù)點(diǎn)移動多少位取決于數(shù)據(jù)系列中的最大絕對值大小。例如,[100,2,30]標(biāo)準(zhǔn)化為[0.1,0.002,0.03],可以明顯的看出它的優(yōu)點(diǎn)在于不改變原始數(shù)據(jù)的分布。小數(shù)定標(biāo)標(biāo)準(zhǔn)化下表是某省市的旅游人數(shù)的數(shù)據(jù)集,包括日期及旅游人數(shù)兩個特征。下面將對旅游人數(shù)的數(shù)據(jù)集進(jìn)行小數(shù)定標(biāo)標(biāo)準(zhǔn)化。日期旅游人數(shù)2022年10月1日3700682022年10月2日5900432022年10月3日2954032022年10月4日315698小數(shù)定標(biāo)標(biāo)準(zhǔn)化最大最小標(biāo)準(zhǔn)化方法簡單,便于理解,標(biāo)準(zhǔn)化后的數(shù)據(jù)限定在[0,1]區(qū)間內(nèi)。標(biāo)準(zhǔn)差標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)作物病蟲害流行病學(xué)分析與防控考核試卷
- 照明器具的智能控制系統(tǒng)與物聯(lián)網(wǎng)技術(shù)考核試卷
- 稀土金屬加工設(shè)備操作技巧與經(jīng)驗(yàn)分享考核試卷
- 聚己內(nèi)酰胺纖維耐溶劑性考核試卷
- 建筑樓體加固安裝工程技術(shù)考核試卷
- 磷肥產(chǎn)業(yè)技術(shù)創(chuàng)新與產(chǎn)業(yè)融合發(fā)展策略考核試卷
- 虛擬現(xiàn)實(shí)體育賽事直播與新媒體合作推廣合同
- 國際貨運(yùn)代理報(bào)關(guān)及風(fēng)險(xiǎn)控制合同
- 農(nóng)業(yè)旅游特色美食經(jīng)營許可合同
- 新能源儲能項(xiàng)目設(shè)備檢驗(yàn)與認(rèn)證合作協(xié)議
- 泵站調(diào)度運(yùn)行應(yīng)急預(yù)案
- 委托書范本(下載版)
- 天然氣巡檢記錄表
- (完整版)離婚協(xié)議書
- 養(yǎng)老院工作人員保密協(xié)議書
- 數(shù)據(jù)網(wǎng)-IPRAN含IPRAN基礎(chǔ)組網(wǎng)和IPRAN高級知識
- 上市公司執(zhí)行企業(yè)會計(jì)準(zhǔn)則案例解析-中國證監(jiān)會會計(jì)部編
- 2《建筑機(jī)械使用安全技術(shù)規(guī)程》JGJ33-2012
- GB/T 4745-2012紡織品防水性能的檢測和評價(jià)沾水法
- 泥水平衡頂管施工方案(專家論證)
- 鐵路運(yùn)輸調(diào)度指揮與統(tǒng)計(jì)分析
評論
0/150
提交評論