《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第1頁
《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第2頁
《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第3頁
《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第4頁
《機(jī)器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-2校園消費(fèi)刷卡數(shù)據(jù)索引與合并_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

授課教師:趙

宇項(xiàng)目一智慧校園消費(fèi)數(shù)據(jù)分析任務(wù)二

提取18級校園消費(fèi)數(shù)據(jù)模塊目標(biāo):提取18級學(xué)生校園消費(fèi)數(shù)據(jù)data1:18級學(xué)生基本信息data2:消費(fèi)數(shù)據(jù)任務(wù)拆解:18級學(xué)生的校園消費(fèi)數(shù)據(jù)讀:數(shù)據(jù)讀取,查看基本內(nèi)容合并:data1(18級學(xué)生基本信息)和data2(消費(fèi)數(shù)據(jù)刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數(shù)據(jù)模塊2:校園消費(fèi)刷卡數(shù)據(jù)合并任務(wù)二

提取18級校園

消費(fèi)數(shù)據(jù)Pandas中DataFrame索引、選取數(shù)據(jù)print(data2['消費(fèi)時間'])#數(shù)據(jù)名[列名]Pandas中DataFrame索引、選取數(shù)據(jù)print(data2[['消費(fèi)時間','消費(fèi)金額']])#數(shù)據(jù)名[[列名1,列名2,...,列名n]]Pandas中DataFrame索引、選取數(shù)據(jù)loc:通過行、列的名稱或標(biāo)簽來索引iloc:通過行、列的索引位置來尋找數(shù)據(jù)print(data2.loc[:,'消費(fèi)時間'])print(data2.iloc[:,3])##所有行,第三列Pandas中DataFrame索引、選取數(shù)據(jù)loc:通過行、列的名稱或標(biāo)簽來索引iloc:通過行、列的索引位置來尋找數(shù)據(jù)print(data2.iloc[:3,3])##前3行,第三列print(data2.iloc[:3,:3])##前3行,前3列

##前3行,第三列##前3行,前3列

1.使用concat()函數(shù)concat()函數(shù)用于沿一個軸將多個對象堆疊到一起。2.使用merge()函數(shù)merge()函數(shù)用于根據(jù)一個或多個鍵將行連接起來選擇合并方法的決策流程1.是否需要簡單堆疊?是→pd.concat()2.是否需要基于列的值關(guān)聯(lián)?是→df.merge()3.是否需要基于索引合并?是→df.join()4.是否需要填充缺失值?是→bine_first()5.是否需要覆蓋舊值?是→df.update()pd.concat():沿軸拼接數(shù)據(jù)功能:將多個DataFrame或Series沿行(縱向)或列(橫向)拼接。適用場景:結(jié)構(gòu)相同的數(shù)據(jù)簡單堆疊。語法:pd.concat()pd.concat(objs,#要拼接的對象列表(如[df1,df2])axis=0,#0沿行拼接(縱向),1沿列拼接(橫向)join='outer',#合并方式:'outer'(并集)或'inner'(交集)ignore_index=False#是否忽略原索引,重建新索引)importpandasaspddf1=pd.DataFrame({'A':[1,2],'B':[3,4]})df2=pd.DataFrame({'A':[5,6],'B':[7,8]})#縱向拼接(默認(rèn)axis=0)result=pd.concat([df1,df2],ignore_index=True)AB013124257368df.join():基于索引的合并功能:將另一個DataFrame的列合并到當(dāng)前DataFrame的索引上。適用場景:快速基于索引合并,尤其是處理時間序列數(shù)據(jù)。語法:df1.join(df2,how='left',#合并方式:'left','right','outer','inner'on=None,#指定df1的某列作為鍵(默認(rèn)用索引)lsuffix='',#左側(cè)重復(fù)列名的后綴rsuffix=''#右側(cè)重復(fù)列名的后綴)df1=pd.DataFrame({'A':[1,2]},index=['X','Y'])df2=pd.DataFrame({'B':[3,4]},index=['X','Y'])#基于索引合并result=df1.join(df2)ABX13Y24pd.merge()data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校園卡號',right_on='校園卡號')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函數(shù),用于合并兩個或多個數(shù)據(jù)集。類似于MYSQL中的JOIN操作,按照一個或多個鍵將數(shù)據(jù)集中的行連接起來。基本格式:pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一個數(shù)據(jù)集。right:第二個數(shù)據(jù)集。how:指定合并方式。①'inner'(默認(rèn)):只保留兩個數(shù)據(jù)集中都有的鍵的行。②'outer':保留兩個數(shù)據(jù)集中的所有行,如果某一邊沒有匹配的鍵,則該邊的結(jié)果為NaN。③'left':保留左側(cè)數(shù)據(jù)集的所有行,右側(cè)沒有匹配的鍵則為NaN。④'right':保留右側(cè)數(shù)據(jù)集的所有行,左側(cè)沒有匹配的鍵則為NaN。on:指定用于連接的列名。必須在左右數(shù)據(jù)集中都存在。left_on:左側(cè)數(shù)據(jù)集中用作連接鍵的列。right_on:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論