《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并

上傳人：青*** IP屬地：福建上傳時間：2025-05-04 格式：PPTX 頁數(shù)：13 大?。?.67MB 積分：2.4 舉報 版權(quán)申訴

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第2頁

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第3頁

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第4頁

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第5頁

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

授課教師：趙

宇項(xiàng)目一智慧校園消費(fèi)數(shù)據(jù)分析任務(wù)二

提取18級校園消費(fèi)數(shù)據(jù)模塊目標(biāo)：提取18級學(xué)生校園消費(fèi)數(shù)據(jù)data1：18級學(xué)生基本信息data2：消費(fèi)數(shù)據(jù)任務(wù)拆解：18級學(xué)生的校園消費(fèi)數(shù)據(jù)讀：數(shù)據(jù)讀取，查看基本內(nèi)容合并：data1（18級學(xué)生基本信息）和data2（消費(fèi)數(shù)據(jù)刷卡記錄）查：缺失值；清洗：缺失值存：合并后的數(shù)據(jù)模塊2:校園消費(fèi)刷卡數(shù)據(jù)合并任務(wù)二

提取18級校園

消費(fèi)數(shù)據(jù)Pandas中DataFrame索引、選取數(shù)據(jù)print(data2['消費(fèi)時間'])#數(shù)據(jù)名[列名]Pandas中DataFrame索引、選取數(shù)據(jù)print(data2[['消費(fèi)時間','消費(fèi)金額']])#數(shù)據(jù)名[[列名1,列名2,...,列名n]]Pandas中DataFrame索引、選取數(shù)據(jù)loc：通過行、列的名稱或標(biāo)簽來索引iloc：通過行、列的索引位置來尋找數(shù)據(jù)print(data2.loc[:,'消費(fèi)時間'])print(data2.iloc[:,3])##所有行，第三列Pandas中DataFrame索引、選取數(shù)據(jù)loc：通過行、列的名稱或標(biāo)簽來索引iloc：通過行、列的索引位置來尋找數(shù)據(jù)print(data2.iloc[:3,3])##前3行，第三列print(data2.iloc[:3,:3])##前3行，前3列

##前3行，第三列##前3行，前3列

1.使用concat()函數(shù)concat()函數(shù)用于沿一個軸將多個對象堆疊到一起。2.使用merge()函數(shù)merge()函數(shù)用于根據(jù)一個或多個鍵將行連接起來選擇合并方法的決策流程1.是否需要簡單堆疊？是→pd.concat()2.是否需要基于列的值關(guān)聯(lián)？是→df.merge()3.是否需要基于索引合并？是→df.join()4.是否需要填充缺失值？是→bine_first()5.是否需要覆蓋舊值？是→df.update()pd.concat()：沿軸拼接數(shù)據(jù)功能：將多個DataFrame或Series沿行（縱向）或列（橫向）拼接。適用場景：結(jié)構(gòu)相同的數(shù)據(jù)簡單堆疊。語法：pd.concat()pd.concat(objs,#要拼接的對象列表（如[df1,df2]）axis=0,#0沿行拼接（縱向），1沿列拼接（橫向）join='outer',#合并方式：'outer'（并集）或'inner'（交集）ignore_index=False#是否忽略原索引，重建新索引)importpandasaspddf1=pd.DataFrame({'A':[1,2],'B':[3,4]})df2=pd.DataFrame({'A':[5,6],'B':[7,8]})#縱向拼接（默認(rèn)axis=0）result=pd.concat([df1,df2],ignore_index=True)AB013124257368df.join()：基于索引的合并功能：將另一個DataFrame的列合并到當(dāng)前DataFrame的索引上。適用場景：快速基于索引合并，尤其是處理時間序列數(shù)據(jù)。語法：df1.join(df2,how='left',#合并方式：'left','right','outer','inner'on=None,#指定df1的某列作為鍵（默認(rèn)用索引）lsuffix='',#左側(cè)重復(fù)列名的后綴rsuffix=''#右側(cè)重復(fù)列名的后綴)df1=pd.DataFrame({'A':[1,2]},index=['X','Y'])df2=pd.DataFrame({'B':[3,4]},index=['X','Y'])#基于索引合并result=df1.join(df2)ABX13Y24pd.merge()data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校園卡號',right_on='校園卡號')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函數(shù)，用于合并兩個或多個數(shù)據(jù)集。類似于MYSQL中的JOIN操作，按照一個或多個鍵將數(shù)據(jù)集中的行連接起來。基本格式：pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一個數(shù)據(jù)集。right:第二個數(shù)據(jù)集。how:指定合并方式。①'inner'（默認(rèn)）:只保留兩個數(shù)據(jù)集中都有的鍵的行。②'outer':保留兩個數(shù)據(jù)集中的所有行，如果某一邊沒有匹配的鍵，則該邊的結(jié)果為NaN。③'left':保留左側(cè)數(shù)據(jù)集的所有行，右側(cè)沒有匹配的鍵則為NaN。④'right':保留右側(cè)數(shù)據(jù)集的所有行，左側(cè)沒有匹配的鍵則為NaN。on:指定用于連接的列名。必須在左右數(shù)據(jù)集中都存在。left_on:左側(cè)數(shù)據(jù)集中用作連接鍵的列。right_on:

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并

文檔簡介

溫馨提示

最新文檔

評論

《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔