《大數(shù)據(jù)導(dǎo)論》課件-第5章 Pandas數(shù)據(jù)分析_第1頁
《大數(shù)據(jù)導(dǎo)論》課件-第5章 Pandas數(shù)據(jù)分析_第2頁
《大數(shù)據(jù)導(dǎo)論》課件-第5章 Pandas數(shù)據(jù)分析_第3頁
《大數(shù)據(jù)導(dǎo)論》課件-第5章 Pandas數(shù)據(jù)分析_第4頁
《大數(shù)據(jù)導(dǎo)論》課件-第5章 Pandas數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)導(dǎo)論1.Pandas統(tǒng)計分析目錄01Pandas庫的理解03Pandas庫的DataFrame類型02Series類型的基本操作04Pandas庫索引操作05Pandas庫的數(shù)據(jù)類型操作06Pandas庫的數(shù)據(jù)排序和統(tǒng)計函數(shù)Pandas庫的理解Pandas介紹Series類型Series類型的創(chuàng)建importpandas

aspd引入模塊Pandas庫的理解(1)兩種數(shù)據(jù)類型:Series,DataFramePandas庫的理解(2)NumpyPandas基礎(chǔ)數(shù)據(jù)類型關(guān)注數(shù)據(jù)的結(jié)構(gòu)表達(dá)維度:數(shù)據(jù)間關(guān)系擴(kuò)展數(shù)據(jù)類型關(guān)注數(shù)據(jù)的應(yīng)用表達(dá)數(shù)據(jù)與索引間關(guān)系Pandas庫的理解(3)Series是一種類似于一維數(shù)組的對象,它由一組數(shù)據(jù)(各種Numpy數(shù)據(jù)類型)以及一組與之相關(guān)的數(shù)據(jù)標(biāo)簽(即索引)組成。值索引Pandas庫的Series類型(1)自定義索引Pandas庫的Series類型(2)Series類型可以由如下類型創(chuàng)建:Python列表,index與列表元素個數(shù)一致標(biāo)量值,index表達(dá)Series類型的尺寸Python字典,鍵值對中的“鍵”是索引,index從字典中進(jìn)行選擇操作ndarray,索引和數(shù)據(jù)都可以通過ndarray類型創(chuàng)建其他函數(shù),range()函數(shù)等Series類型的創(chuàng)建方法Series類型的創(chuàng)建方法——從標(biāo)量值創(chuàng)建Series類型的創(chuàng)建方法——從字典類型創(chuàng)建這也是非常常用的創(chuàng)建方式Series類型的創(chuàng)建方法——從ndarray類型創(chuàng)建大數(shù)據(jù)導(dǎo)論2.Series類型的基本操作基本操作概述index和values操作

類似ndarray類型

類似Python字典操作Series類型包括index和values兩部分Series類型的操作類似ndarray類型Series類型的操作類似Python字典類型Series類型的基本操作Series類型的基本操作——index和values操作(1)自動索引和基本索引并存,兩種索引都可以使用,但在使用的時候要么全是自動索引、要么全是基本索引。Series類型的基本操作——index和values操作(2)Series類型的操作類似ndarray類型:索引方法相同,采用[]Numpy中運(yùn)算和操作可用于Series類型可以通過自定義索引的列表進(jìn)行切片可以通過自動索引進(jìn)行切片,如果存在自定義索引,則一同被切片Series類型的基本操作——類似ndarray類型Series類型的基本操作——類似ndarray類型的切片和運(yùn)算類似Python字典操作方式:通過自定義索引訪問保留字in操作使用.get()方法Series類型的基本操作——類似Python字典類型通過基本索引和自動索引切片對values值進(jìn)行修改并立即生效。Series類型的基本操作——通過index修改values的值大數(shù)據(jù)導(dǎo)論3.Pandas庫的DataFrame類型DataFrame類型的理解DataFrame類型的創(chuàng)建loc、iloc函數(shù)索引列

多列數(shù)據(jù)組成

DataFrame類型的理解(1)columnindexaxis=1axis=0DataFrame類型的理解(2)四種常用的創(chuàng)建方式:由二維ndarray對象創(chuàng)建由一維ndarray、列表、字典、元組或Series構(gòu)成的字典Series類型其他的DataFrame類型DataFrame類型的創(chuàng)建DataFrame類型的創(chuàng)建:從二維ndarray對象創(chuàng)建DataFrame類型的創(chuàng)建:從一維ndarray對象字典創(chuàng)建DataFrame類型的創(chuàng)建:從列表類型的字典創(chuàng)建loc:通過行標(biāo)簽索引數(shù)據(jù),例如取index為a的行;location的縮寫。iloc:通過行號索引行數(shù)據(jù),例如取第2行數(shù)據(jù);Integerandlocation的縮寫。pandas-數(shù)據(jù)選取loc、iloc函數(shù)(1)pandas-數(shù)據(jù)選取loc、iloc函數(shù)(2)pandas-數(shù)據(jù)選取某行pandas-數(shù)據(jù)選取多行pandas-數(shù)據(jù)選取多行切片pandas-數(shù)據(jù)選取索引某行某列大數(shù)據(jù)導(dǎo)論4.Pandas庫索引操作索引的理解

索引類型的常用方法

重新索引Series和DataFrame的索引是Index類型Index對象是不可修改類型Pandas庫——索引方法說明.append(idx)連接另一個Index對象,產(chǎn)生新的Index對象.diff(idx)計算差集,產(chǎn)生新的Index對象.intersection(idx)計算交集.union(idx)計算并集.delete(loc)刪除Loc位置處的元素.insert(loc,e)在loc位置增加一個元素ePandas庫——索引類型的常用方法Pandas庫——索引類型的方法使用.drop()能夠刪除Series和DataFrame指定行或列索引Pandas庫——刪除指定索引對象.reindex()能夠改變或重排Series和DataFrame索引Pandas庫的數(shù)據(jù)類型操作——重新索引參數(shù)說明index,columns新的行列自定義索引fill_value重新索引中,用于填充缺失位置的值method填充方法,ffill當(dāng)前值向前填充,bfill向后填充limit最大填充量copy默認(rèn)True,生成新的對象;False時,新舊相等不復(fù)制Pandas庫的數(shù)據(jù)類型操作——重新索引reindex函數(shù)參數(shù)Pandas庫的數(shù)據(jù)類型操作——重新索引舉例大數(shù)據(jù)導(dǎo)論5.Pandas庫的數(shù)據(jù)類型操作算術(shù)運(yùn)算

比較運(yùn)算算術(shù)運(yùn)算根據(jù)行列索引,補(bǔ)齊后運(yùn)算,運(yùn)算默認(rèn)產(chǎn)生浮點(diǎn)數(shù)補(bǔ)齊時缺項(xiàng)填充NaN(空值)二維和一維、一維和零維間為廣播運(yùn)算采用+

‐*

/符號進(jìn)行的二元運(yùn)算產(chǎn)生新的對象Pandas庫數(shù)據(jù)的算術(shù)運(yùn)算Pandas庫的數(shù)據(jù)的算術(shù)運(yùn)算——+、-、*、/符號運(yùn)算方法說明.add(d,**argws)類型間加法運(yùn)算,可選參數(shù).sub(d,**argws)類型間減法運(yùn)算,可選參數(shù).mul(d,**argws)類型間乘法運(yùn)算,可選參數(shù).div(d,**argws)類型間除法運(yùn)算,可選參數(shù)Pandas庫的數(shù)據(jù)的算術(shù)運(yùn)算——加減乘除的方法形式的運(yùn)算Pandas庫的數(shù)據(jù)的算術(shù)運(yùn)算

——加減乘除的方法形式的運(yùn)算(1)Pandas庫的數(shù)據(jù)的算術(shù)運(yùn)算

——加減乘除的方法形式的運(yùn)算(2)比較運(yùn)算只能比較相同索引的元素,不進(jìn)行補(bǔ)齊二維和一維、一維和零維間為廣播運(yùn)算采用>

<

>=

<=

==

!=等符號進(jìn)行的二元運(yùn)算產(chǎn)生布爾對象Pandas庫數(shù)據(jù)的比較運(yùn)算Pandas庫的數(shù)據(jù)的比較運(yùn)算(1)Pandas庫的數(shù)據(jù)的比較運(yùn)算(2)大數(shù)據(jù)導(dǎo)論6.Pandas庫的數(shù)據(jù)排序和統(tǒng)計函數(shù)數(shù)據(jù)排序

基本統(tǒng)計方法Pandas提供了兩種排序方法:索引排序sort_index()值排序sort_values()Pandas庫的數(shù)據(jù)排序.sort_index()方法在指定軸上根據(jù)索引進(jìn)行排序,默認(rèn)升序.sort_index(axis=0,

ascending=True)Pandas數(shù)據(jù)排序

——索引排序sort_index()方法(1)Pandas數(shù)據(jù)排序

——索引排序sort_index()方法(2).sort_values()方法在指定軸上根據(jù)數(shù)值進(jìn)行排序,默認(rèn)升序Series.sort_values(axis=0,

ascending=True)DataFrame.sort_values(by,

axis=0,

ascending=True)by

:axis軸上的某個索引或索引列表Pandas數(shù)據(jù)排序

——值排序sort_values()方法(1).sort_values(by,

axis=0,

ascending=True)Pandas數(shù)據(jù)排序

——值排序sort_values()方法(2)如有NaN,NaN統(tǒng)一放到排序末尾Pandas數(shù)據(jù)排序

——值排序sort_values()方法(3)適用于Series和DataFrame類型方法說明.sum()計算數(shù)據(jù)的總和,按0軸計算,下同.count()非NaN值的數(shù)量.mean().median()計算數(shù)據(jù)的算術(shù)平均值、算術(shù)中位數(shù).var().std()計算數(shù)據(jù)的方差、標(biāo)準(zhǔn)差.min.max()計算數(shù)據(jù)的最小值、最大值Pandas數(shù)據(jù)的基本統(tǒng)計方法適用于Series類型方法說明.argmin().argmax()計算數(shù)據(jù)最大值、最小值所在位置的索引位置(自動索引

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論