




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
授課教師:趙
宇項(xiàng)目一智慧校園消費(fèi)數(shù)據(jù)分析任務(wù)二
提取18級校園消費(fèi)數(shù)據(jù)模塊目標(biāo):提取18級學(xué)生校園消費(fèi)數(shù)據(jù)data1:18級學(xué)生基本信息data2:消費(fèi)數(shù)據(jù)任務(wù)拆解:18級學(xué)生的校園消費(fèi)數(shù)據(jù)讀:數(shù)據(jù)讀取,查看基本內(nèi)容合并:data1(18級學(xué)生基本信息)和data2(消費(fèi)數(shù)據(jù)刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數(shù)據(jù)模塊2:校園消費(fèi)刷卡數(shù)據(jù)合并任務(wù)二
提取18級校園
消費(fèi)數(shù)據(jù)Pandas中DataFrame索引、選取數(shù)據(jù)print(data2['消費(fèi)時間'])#數(shù)據(jù)名[列名]Pandas中DataFrame索引、選取數(shù)據(jù)print(data2[['消費(fèi)時間','消費(fèi)金額']])#數(shù)據(jù)名[[列名1,列名2,...,列名n]]Pandas中DataFrame索引、選取數(shù)據(jù)loc:通過行、列的名稱或標(biāo)簽來索引iloc:通過行、列的索引位置來尋找數(shù)據(jù)print(data2.loc[:,'消費(fèi)時間'])print(data2.iloc[:,3])##所有行,第三列Pandas中DataFrame索引、選取數(shù)據(jù)loc:通過行、列的名稱或標(biāo)簽來索引iloc:通過行、列的索引位置來尋找數(shù)據(jù)print(data2.iloc[:3,3])##前3行,第三列print(data2.iloc[:3,:3])##前3行,前3列
##前3行,第三列##前3行,前3列
1.使用concat()函數(shù)concat()函數(shù)用于沿一個軸將多個對象堆疊到一起。2.使用merge()函數(shù)merge()函數(shù)用于根據(jù)一個或多個鍵將行連接起來選擇合并方法的決策流程1.是否需要簡單堆疊?是→pd.concat()2.是否需要基于列的值關(guān)聯(lián)?是→df.merge()3.是否需要基于索引合并?是→df.join()4.是否需要填充缺失值?是→bine_first()5.是否需要覆蓋舊值?是→df.update()pd.concat():沿軸拼接數(shù)據(jù)功能:將多個DataFrame或Series沿行(縱向)或列(橫向)拼接。適用場景:結(jié)構(gòu)相同的數(shù)據(jù)簡單堆疊。語法:pd.concat()pd.concat(objs,#要拼接的對象列表(如[df1,df2])axis=0,#0沿行拼接(縱向),1沿列拼接(橫向)join='outer',#合并方式:'outer'(并集)或'inner'(交集)ignore_index=False#是否忽略原索引,重建新索引)importpandasaspddf1=pd.DataFrame({'A':[1,2],'B':[3,4]})df2=pd.DataFrame({'A':[5,6],'B':[7,8]})#縱向拼接(默認(rèn)axis=0)result=pd.concat([df1,df2],ignore_index=True)AB013124257368df.join():基于索引的合并功能:將另一個DataFrame的列合并到當(dāng)前DataFrame的索引上。適用場景:快速基于索引合并,尤其是處理時間序列數(shù)據(jù)。語法:df1.join(df2,how='left',#合并方式:'left','right','outer','inner'on=None,#指定df1的某列作為鍵(默認(rèn)用索引)lsuffix='',#左側(cè)重復(fù)列名的后綴rsuffix=''#右側(cè)重復(fù)列名的后綴)df1=pd.DataFrame({'A':[1,2]},index=['X','Y'])df2=pd.DataFrame({'B':[3,4]},index=['X','Y'])#基于索引合并result=df1.join(df2)ABX13Y24pd.merge()data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校園卡號',right_on='校園卡號')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函數(shù),用于合并兩個或多個數(shù)據(jù)集。類似于MYSQL中的JOIN操作,按照一個或多個鍵將數(shù)據(jù)集中的行連接起來。基本格式:pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一個數(shù)據(jù)集。right:第二個數(shù)據(jù)集。how:指定合并方式。①'inner'(默認(rèn)):只保留兩個數(shù)據(jù)集中都有的鍵的行。②'outer':保留兩個數(shù)據(jù)集中的所有行,如果某一邊沒有匹配的鍵,則該邊的結(jié)果為NaN。③'left':保留左側(cè)數(shù)據(jù)集的所有行,右側(cè)沒有匹配的鍵則為NaN。④'right':保留右側(cè)數(shù)據(jù)集的所有行,左側(cè)沒有匹配的鍵則為NaN。on:指定用于連接的列名。必須在左右數(shù)據(jù)集中都存在。left_on:左側(cè)數(shù)據(jù)集中用作連接鍵的列。right_on:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新質(zhì)生產(chǎn)力新質(zhì)戰(zhàn)斗力
- 2025至2031年中國濺渣護(hù)爐造渣球行業(yè)投資前景及策略咨詢研究報告
- 2025年六盤水貨運(yùn)從業(yè)資格證模擬考
- 《國際商務(wù)文化(英文)》課件-2.3Singapore International Business
- 脊髓先天性畸形的臨床護(hù)理
- 2025-2030光端機(jī)市場發(fā)展現(xiàn)狀調(diào)查及供需格局分析預(yù)測報告
- 《兵工企業(yè)常用焊接方法與設(shè)備使》課件-鎢極氬弧焊工藝
- 《兵工企業(yè)常用焊接方法與設(shè)備使》課件-焊槍
- 2025年供應(yīng)鏈管理師考試試題及答案匯編
- 2025年大學(xué)生英語口語水平測試試題及答案
- 2023年新改版教科版四年級下冊科學(xué)練習(xí)題(一課一練+單元+期中+期末)
- GB/T 10228-2023干式電力變壓器技術(shù)參數(shù)和要求
- 基于STM32的停車場智能管理系統(tǒng)
- 超市商品分類明細(xì)表
- 2023年北京市石景山區(qū)八角街道社區(qū)工作者招聘筆試題庫及答案解析
- 完整解讀中華人民共和國政府信息公開條例課件
- RB/T 109-2013能源管理體系人造板及木制品企業(yè)認(rèn)證要求
- GB/T 16895.2-2017低壓電氣裝置第4-42部分:安全防護(hù)熱效應(yīng)保護(hù)
- 法人治理主體“1+3”權(quán)責(zé)表
- 小學(xué)科學(xué)《螞蟻》優(yōu)質(zhì)課件
- 幼兒園中班語言繪本《章魚先生賣雨傘》課件
評論
0/150
提交評論