




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
授課教師:趙
宇項(xiàng)目一智慧校園消費(fèi)數(shù)據(jù)分析任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理任務(wù)目標(biāo):提取18級(jí)學(xué)生校園消費(fèi)數(shù)據(jù)data1:18級(jí)學(xué)生基本信息data2:消費(fèi)數(shù)據(jù)任務(wù)拆解:18級(jí)學(xué)生的校園消費(fèi)數(shù)據(jù)讀:數(shù)據(jù)讀取,查看基本內(nèi)容合并:data1(18級(jí)學(xué)生基本信息)和data2(消費(fèi)數(shù)據(jù)刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數(shù)據(jù)模塊1:校園消費(fèi)數(shù)據(jù)的讀取與查看任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理校園消費(fèi)數(shù)據(jù)是什么格式?CSV(Comma-SeparatedValues,逗號(hào)分隔值,有時(shí)也稱為字符分隔值,因?yàn)榉指糇址部梢圆皇嵌禾?hào)),其文件以純文本形式存儲(chǔ)表格數(shù)據(jù)(數(shù)字和文本)。校園消費(fèi)數(shù)據(jù)的讀???絕對(duì)路徑:從盤符(c盤、d盤)開(kāi)始一直到文件所在的具體位置。相對(duì)路徑:針對(duì)“當(dāng)前文件夾”這一參考對(duì)象,來(lái)描述文件路徑的形式。相對(duì)路徑使用..\\或.\\表示。一個(gè)點(diǎn).\表示文件或文件夾所在的當(dāng)前目錄。兩個(gè)點(diǎn)..\表示當(dāng)前目錄的上一級(jí)目錄。上n級(jí)就用n個(gè)..\\表示。一個(gè)點(diǎn).\表示文件或文件夾所在的當(dāng)前目錄,可省略。兩個(gè)點(diǎn)..\表示當(dāng)前目錄的上一級(jí)目錄。Pandas查看數(shù)據(jù)print(data1.head(3))shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")在數(shù)據(jù)分析過(guò)程中,df.head()經(jīng)常用于初步檢查數(shù)據(jù),包括數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)類型以及是否存在明顯的異常值。通過(guò)查看前幾行數(shù)據(jù),分析人員可以大致了解數(shù)據(jù)的分布和特性,為后續(xù)的數(shù)據(jù)處理和分析打下基礎(chǔ)。Pandas的數(shù)據(jù)結(jié)構(gòu)--DataFrameindex:索引值,或者可以稱為行標(biāo)簽。columns:列標(biāo)簽,默認(rèn)為RangeIndex(0,1,2,…,n)模塊2:校園消費(fèi)刷卡數(shù)據(jù)合并任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理1.使用concat()函數(shù)concat()函數(shù)用于沿一個(gè)軸將多個(gè)對(duì)象堆疊到一起。2.使用merge()函數(shù)merge()函數(shù)用于根據(jù)一個(gè)或多個(gè)鍵將行連接起來(lái)data1_merge_data2數(shù)據(jù)合并data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校園卡號(hào)',right_on='校園卡號(hào)')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函數(shù),用于合并兩個(gè)或多個(gè)數(shù)據(jù)集。類似于MYSQL中的JOIN操作,按照一個(gè)或多個(gè)鍵將數(shù)據(jù)集中的行連接起來(lái)?;靖袷剑簆d.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一個(gè)數(shù)據(jù)集。right:第二個(gè)數(shù)據(jù)集。how:指定合并方式。①'inner'(默認(rèn)):只保留兩個(gè)數(shù)據(jù)集中都有的鍵的行。②'outer':保留兩個(gè)數(shù)據(jù)集中的所有行,如果某一邊沒(méi)有匹配的鍵,則該邊的結(jié)果為NaN。③'left':保留左側(cè)數(shù)據(jù)集的所有行,右側(cè)沒(méi)有匹配的鍵則為NaN。④'right':保留右側(cè)數(shù)據(jù)集的所有行,左側(cè)沒(méi)有匹配的鍵則為NaN。on:指定用于連接的列名。必須在左右數(shù)據(jù)集中都存在。left_on:左側(cè)數(shù)據(jù)集中用作連接鍵的列。right_on:右側(cè)數(shù)據(jù)集中用作連接鍵的列。left_index:如果為True,則使用左側(cè)數(shù)據(jù)集的索引(行標(biāo)簽)作為其連接鍵。right_index:如果為True,則使用右側(cè)數(shù)據(jù)集的索引作為其連接鍵。sort:根據(jù)連接鍵對(duì)合并后的數(shù)據(jù)進(jìn)行排序,默認(rèn)為True。模塊3:校園消費(fèi)數(shù)據(jù)缺失值處理任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理apply方法能夠?qū)⒑瘮?shù)應(yīng)用于每一列。使用分組聚合進(jìn)行組內(nèi)計(jì)算使用apply方法聚合數(shù)據(jù)DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)參數(shù)名稱說(shuō)明func接收f(shuō)unctions。表示應(yīng)用于每行/列的函數(shù)。無(wú)默認(rèn)。axis接收0或1。代表操作的軸向。默認(rèn)為0。broadcast接收boolearn。表示是否進(jìn)行廣播。默認(rèn)為False。raw接收boolearn。表示是否直接將ndarray對(duì)象傳遞給函數(shù)。默認(rèn)為False。reduce接收boolearn或者None。表示返回值的格式。默認(rèn)None。data1_merge_data2
數(shù)據(jù)缺失值處理missing_value_ratios=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)data1_merge_data2.apply:合并兩個(gè)數(shù)據(jù)集data1和data2,對(duì)合并后DataFrame的行或列進(jìn)行處理。lambdax:sum(x.isnull())/len(x):傳入?yún)?shù)x(代表DataFrame中的一列),計(jì)算該列中缺失值的數(shù)量(x.isnull()),然后除以列的長(zhǎng)度(len(x)),得到缺失值的比例。axis=0:對(duì)每一列應(yīng)用lambda函數(shù)。print(missing_value_ratios)打印,該變量包含了data1_merge_data2中每一列的缺失值比例。data1_merge_data2
數(shù)據(jù)缺失值處理print('刪除缺失值前:',data1_merge_data2.shape)data1_merge_data2=data1_merge_data2.dropna(subset=['消費(fèi)地點(diǎn)'],how='any')print('刪除缺失值后:',data1_merge_data2.shape)data1_merge_data2.dropna():刪除含有缺失值的行。subset=[‘消費(fèi)地點(diǎn)’]:在‘消費(fèi)地點(diǎn)’列中查找缺失值。也就是說(shuō),當(dāng)‘消費(fèi)地點(diǎn)’列中存在缺失值時(shí),則刪除對(duì)應(yīng)行。how='any',指定列中,只要含有缺失值,則刪除該行。how='all',指定列中,所在行皆為缺失值時(shí),則刪除該行。data1_merge_data2數(shù)據(jù)缺失值處理
missing_value_ratios2=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios2)通過(guò)dropna()函數(shù),刪除含有缺失值的行。再次計(jì)算每一列的缺失值比例。可以發(fā)現(xiàn)全部列的缺失值比例都為零,也就是不再包含缺失值。data1_merge_data2.to_csv('task1_2_1.csv',index=False,encoding='gbk')舉一反三:校園教學(xué)場(chǎng)所門禁刷卡數(shù)據(jù)預(yù)處理任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理data1_merge_data2
導(dǎo)出為csv文件先將data1和data2根據(jù)校園卡號(hào)列進(jìn)行左連接合并,得到data1_merge_data2。使用apply函數(shù)和lambda表達(dá)式計(jì)算data1_merge_data2中每列的缺失值比例。使用dropna函數(shù)刪除含有缺失值的行。重新計(jì)算data1_merge_data2中每列的缺失值比例。最后,將進(jìn)行一系列數(shù)據(jù)處理后的data1_merge_data2數(shù)據(jù)集導(dǎo)出到名為task1_2_1.csv的文件中,不包含索引,使用GBK編碼。data1_merge_data3數(shù)據(jù)讀取合并和缺失值處理并導(dǎo)出data1=pd.read_csv("task1_1_1.csv",encoding="gbk")data3=pd.read_csv("task1_1_3.csv",encoding="gbk")data1_merge_data3=pd.merge(data1,data3,how='left',left_on='門禁卡號(hào)',right_on='門禁卡號(hào)')print(data1_merge_data3)print(data1_merge_data3.tail())missing_value_ratios=data1_merge_data3.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)print('刪除缺失值前:',data1_merge_data3.shape)data1_merge_data3=data1_merge_data3.dropna(subset=['進(jìn)出地點(diǎn)'],how='any')print('刪除缺失值后:',data1_merge_data3.shape)missing_value_rati
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)新型傘齒布料器市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)數(shù)字報(bào)警器數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025至2031年中國(guó)纖維混紡紗線行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年中國(guó)工業(yè)計(jì)數(shù)器市場(chǎng)調(diào)查研究報(bào)告
- 肇慶市實(shí)驗(yàn)中學(xué)高中歷史三:第課社會(huì)主義建設(shè)的思想指南高效課堂教學(xué)設(shè)計(jì)
- 新疆生產(chǎn)建設(shè)兵團(tuán)圖木舒克市2024-2025學(xué)年六年級(jí)數(shù)學(xué)小升初摸底考試含解析
- 新疆烏魯木齊2025年高三期初調(diào)研測(cè)試英語(yǔ)試題含解析
- 新鄉(xiāng)醫(yī)學(xué)院三全學(xué)院《物流系統(tǒng)優(yōu)化與仿真》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025-2030年中國(guó)edta鐵銨行業(yè)發(fā)展?fàn)顩r及投資前景規(guī)劃研究報(bào)告
- 興義民族師范學(xué)院《生物與醫(yī)藥儀器分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 拔牙技巧必成高手
- 婦科醫(yī)生進(jìn)修匯報(bào)課件
- 動(dòng)態(tài)分析與設(shè)計(jì)實(shí)驗(yàn)報(bào)告總結(jié)
- 2024年江蘇省泰州市海陵區(qū)中考一模數(shù)學(xué)試卷
- 從汽車檢測(cè)看低空飛行器檢測(cè)發(fā)展趨勢(shì)
- DB32T 4740-2024 耕地和林地?fù)p害程度鑒定規(guī)范
- 投標(biāo)項(xiàng)目實(shí)施方案服務(wù)響應(yīng)方案
- 五一節(jié)假日安全生產(chǎn)培訓(xùn)
- 中考英語(yǔ)二輪復(fù)習(xí)課件:中考解題技巧-讀寫綜合
- 《鐵路基本安全知識(shí)》課程標(biāo)準(zhǔn)
- 三年級(jí)下冊(cè)口算練習(xí)1000道附答案
評(píng)論
0/150
提交評(píng)論