數(shù)據(jù)分析及可視化 課件 第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化;第8章 數(shù)據(jù)模型分析及可視化;第9章 文本及在線數(shù)據(jù)的挖掘_第1頁
數(shù)據(jù)分析及可視化 課件 第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化;第8章 數(shù)據(jù)模型分析及可視化;第9章 文本及在線數(shù)據(jù)的挖掘_第2頁
數(shù)據(jù)分析及可視化 課件 第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化;第8章 數(shù)據(jù)模型分析及可視化;第9章 文本及在線數(shù)據(jù)的挖掘_第3頁
數(shù)據(jù)分析及可視化 課件 第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化;第8章 數(shù)據(jù)模型分析及可視化;第9章 文本及在線數(shù)據(jù)的挖掘_第4頁
數(shù)據(jù)分析及可視化 課件 第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化;第8章 數(shù)據(jù)模型分析及可視化;第9章 文本及在線數(shù)據(jù)的挖掘_第5頁
已閱讀5頁,還剩125頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念

2.隨機(jī)抽樣7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布

2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念(1)總體:研究對象的全體(2)個(gè)體:構(gòu)成總體的每個(gè)成員(3)樣本:從總體中抽出的部分個(gè)體組成的集合(4)樣本量:樣本中所含個(gè)體個(gè)數(shù)(5)統(tǒng)計(jì)量:不含未知參數(shù)的樣本函數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣(1)隨機(jī)數(shù)如生成100個(gè)均值為170cm,標(biāo)準(zhǔn)差為9cm的學(xué)生身高的正態(tài)分布隨機(jī)數(shù)。Inimportnumpyasnpimportpandasaspdnp.random.seed(1)#設(shè)置隨機(jī)種子數(shù)以便重復(fù)結(jié)果N=100#隨機(jī)數(shù)個(gè)數(shù)x=np.random.normal(170,9,N);#X~N(170,3^2)=N(170,9)X=pd.DataFrame({'X':x.round(1)});X#形成數(shù)據(jù)框,保留1位小數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣OutX0184.61164.52165.23160.34177.8.....95170.796166.997170.498164.499176.37.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣生成直方圖:7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣(2)隨機(jī)樣本:從上面的正態(tài)總體中隨機(jī)抽取樣本量為10的若干樣本(注意,每次抽取的樣本是不一樣的)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布若一組數(shù)據(jù)來自正態(tài)分布x

N(μ,σ2),可用正態(tài)化變換將其轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布:根據(jù)中心極限定理可知,此時(shí)樣本的均值服從正態(tài)分布:對樣本均值進(jìn)行標(biāo)準(zhǔn)化也可得標(biāo)準(zhǔn)正態(tài)分布:7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布當(dāng)總體標(biāo)準(zhǔn)差σ未知時(shí),可用樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差,這時(shí)樣本均值的標(biāo)準(zhǔn)化變量t服從t分布:可以證明,t值服從t分布,當(dāng)n趨向無窮大時(shí),t分布近似為標(biāo)準(zhǔn)正態(tài)分布N(0,1)。7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)2.區(qū)間估計(jì)7.2.2假設(shè)檢驗(yàn)的思想

1.假設(shè)檢驗(yàn)的基本思想

2.假設(shè)檢驗(yàn)的基本步驟7.2.3均值比較的t檢驗(yàn)

1.單樣本均值的t檢驗(yàn)

【Excel的基本操作】

2.兩樣本均值的t檢驗(yàn)

【Excel的基本操作】練習(xí)題77.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法點(diǎn)估計(jì)(pointestimation),用樣本統(tǒng)計(jì)量來估計(jì)相應(yīng)的總體參數(shù)樣本均值x→總體均值μ;樣本標(biāo)準(zhǔn)差s→總體標(biāo)準(zhǔn)差σ;樣本比例p→總體比例P

1.點(diǎn)估計(jì)參數(shù)的估計(jì)方法包括點(diǎn)估計(jì)和區(qū)間估計(jì)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)樣本X的各種統(tǒng)計(jì)量的點(diǎn)估計(jì)值:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)區(qū)間估計(jì)(intervalestimation)是通過統(tǒng)計(jì)推斷找到包括樣本統(tǒng)計(jì)量在內(nèi)(有時(shí)以統(tǒng)計(jì)量為中心)的一個(gè)區(qū)間,該區(qū)間被認(rèn)為以多大概率(也稱可信度或置信度)可能性包含了總體參數(shù)。置信區(qū)間的一般公式:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)總體標(biāo)準(zhǔn)差通常未知,可使用t統(tǒng)計(jì)量及其分布:運(yùn)用t分布構(gòu)造置信區(qū)間:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)可用scipy包的模塊stats中的erval函數(shù)也可生成置信水平為1-α的置信區(qū)間:erval(b,df,loc,scale)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想假設(shè)檢驗(yàn)(hypothesistesting),又稱統(tǒng)計(jì)假設(shè)檢驗(yàn),是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。顯著性檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的一種方法,也是一種最基本的統(tǒng)計(jì)推斷形式常用的假設(shè)檢驗(yàn)方法有z檢驗(yàn)、t檢驗(yàn)、F檢驗(yàn)和方差分析等7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本思想“小概率事件”原理,其統(tǒng)計(jì)推斷方法是帶有某種概率性質(zhì)的反證法。小概率思想小概率事件在一次試驗(yàn)中基本上不會(huì)發(fā)生反證法思想先提出檢驗(yàn)假設(shè),再用適當(dāng)?shù)慕y(tǒng)計(jì)方法,利用小概率原理,確定假設(shè)是否成立。假定該假設(shè)H0正確小概率事件發(fā)生拒絕H0“小概率事件”發(fā)生的概率稱為檢驗(yàn)的顯著性水平,用α表示7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化(1)提出檢驗(yàn)假設(shè)提出檢驗(yàn)假設(shè)又稱零假設(shè),符號是H0;備擇假設(shè)的符號是H1。H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1:樣本與總體或樣本與樣本間存在本質(zhì)差異;(2)給定顯著性水平

通常取α=0.05(3)選定相應(yīng)統(tǒng)計(jì)方法由樣本觀察值按相應(yīng)的公式計(jì)算出統(tǒng)計(jì)量的大小,如t值、F值等。(4)根據(jù)統(tǒng)計(jì)量計(jì)算相應(yīng)的概率p值下結(jié)論若p>α,不顯著,接受H0;若p≤

α,顯著,拒絕H07.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本步驟7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)

7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較檢驗(yàn)的p=0.0008<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與5萬元有顯著差異,應(yīng)該是不少于5萬元的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】(1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。(3)給出總體均值:在C4:C24區(qū)域給出總體均值5。(4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:C3:C24假設(shè)平均差:0標(biāo)志:不選α(A):0.05(5)輸出選項(xiàng):輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化檢驗(yàn)的p=0.3508>0.05,在顯著性水平

=0.05時(shí)不拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與10萬元無顯著差異。7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較檢驗(yàn)的p=0.0405<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與5萬元有顯著差異,應(yīng)該是不少于5萬元的。檢驗(yàn)的p=0.0374<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較【Excel的基本操作】1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。3)給出總體均值:在D4:D24區(qū)域分別給出總體均值10。4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:D3:D24

假設(shè)平均差:0標(biāo)志:不選α(A):0.055)輸出選項(xiàng):輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)由于經(jīng)濟(jì)數(shù)據(jù)大都有趨勢波動(dòng),所以數(shù)據(jù)通常很難滿足正態(tài)性要求,這類數(shù)據(jù)的檢驗(yàn)通常要做些變換,如對數(shù)變換或秩變換(非參數(shù)方法),從而使數(shù)據(jù)更接近正態(tài)分布。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理檢驗(yàn)的p=0.1207>0.05,在顯著性水平=0.05時(shí)不拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與5萬元無顯著差異。檢驗(yàn)的p=0.0374<0.05,在顯著性水平=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)要求兩組數(shù)據(jù)均應(yīng)服從正態(tài)分布要求兩組數(shù)據(jù)相應(yīng)的兩總體方差相等,即方差齊性。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)可以看出,深圳和珠海的GDP數(shù)據(jù)的分布基本上是正態(tài)的7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(2)方差齊性檢驗(yàn)檢驗(yàn)不同地區(qū)GDP的變異有無顯著差異,即檢驗(yàn)兩總體方差是否相等,這里用的是levene方差齊性檢驗(yàn)。p=0.8333>0.05,說明兩組數(shù)據(jù)的方差是一樣的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(3)均值的檢驗(yàn)(方差齊性時(shí))要具體檢驗(yàn)以下假設(shè):H0:

1=

2;H1:

1≠

2

。由概率論知:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(3)均值的檢驗(yàn)(方差齊性時(shí))當(dāng)H0

成立時(shí),所以在給定了顯著性水平α后,由樣本數(shù)據(jù)算出t值及對應(yīng)的概率p值,當(dāng)p<0.05時(shí),拒絕假設(shè)H0,當(dāng)p>0.05時(shí),接受假設(shè)H0。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)【Excel的基本操作】(1)在透視表中選需要的數(shù)據(jù),本例是深圳和珠海的GDP數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):雙樣本等方差檢驗(yàn)”。(3)輸入:變量1的區(qū)域:B2:B22變量2的區(qū)域:C2:C22假設(shè)平均差:0標(biāo)志:勾選α(A):0.05(4)輸出選項(xiàng):輸出區(qū)域:F27.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)當(dāng)假定兩個(gè)樣本有著相同的方差時(shí),可以根據(jù)樣本數(shù)據(jù)估計(jì)方差。Python默認(rèn)方差非齊性。經(jīng)檢驗(yàn),p=0.0133e-08<0.05,拒絕原假設(shè),說明深圳和珠海的GDP有顯著差別。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)下面是假定兩組數(shù)據(jù)的方差不同時(shí)雖然計(jì)算結(jié)果稍稍不同,但在本例中結(jié)論卻是一樣的(拒絕原假設(shè))。第8章數(shù)據(jù)模型分析及可視化8.1相關(guān)分析及可視化第8章數(shù)據(jù)模型分析及可視化8.1.1兩變量線性相關(guān)分析

1.相關(guān)系數(shù)的計(jì)算

2.相關(guān)系數(shù)的檢驗(yàn)

【Excel的基本操作】8.1.2多變量線性相關(guān)分析

1.相關(guān)系數(shù)矩陣及散點(diǎn)圖

【Excel的基本操作】

2.變量間相關(guān)系數(shù)的檢驗(yàn)8.2.1兩變量線性回歸模型

1.簡單線性模型估計(jì)

2.簡單線性模型檢驗(yàn)

3.實(shí)例分析

【Excel的基本操作】8.2線性回歸模型及可視化第8章數(shù)據(jù)模型分析及可視化

4.模型預(yù)測方法8.2.2多變量線性回歸模型

1.多變量線性回歸模型形式

2.線性回歸模型的基本假設(shè)

3.偏回歸系數(shù)的假設(shè)檢驗(yàn)

4.回歸模型的檢驗(yàn)與評判

【Excel的基本操作】8.2.3可線性化的非線性模型

1.兩變量非線性回歸模型

2.趨勢分析模型的構(gòu)建

【Excel的基本操作】

3.生產(chǎn)函數(shù)及其應(yīng)用8.3一般線性模型及可視化第8章數(shù)據(jù)模型分析及可視化8.3.1一般線性模型的形式

1.線性回歸模型

2.方差分析模型

3.協(xié)方差分析模型8.3.2單因素方差分析模型

1.橫向數(shù)據(jù)比較

2.縱向數(shù)據(jù)比較練習(xí)題8第9章文本及在線數(shù)據(jù)的挖掘文本數(shù)據(jù)挖掘(TextMining)是指從大量文本數(shù)據(jù)中抽取出有價(jià)值的知識(shí),并且利用這些知識(shí)重新組織信息的過程。從這個(gè)意義上講,文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘與分析的一個(gè)分支。文本挖掘利用智能算法,分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進(jìn)行分類,獲取有用的知識(shí)和信息。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘在線分析處理是一種重要的商務(wù)智能分析方法。這種技術(shù)主要對多維數(shù)據(jù)集進(jìn)行多角度、多層次的分析,幫助管理者獲取業(yè)務(wù)洞察。在線數(shù)據(jù)分析也稱聯(lián)機(jī)分析處理,是一門新興的軟件技術(shù),它專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求,快速靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)的經(jīng)營狀況,了解市場需求并制定正確的方案,以增加效益。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理

1.字符及字符串統(tǒng)計(jì)

2.字符串連接與拆分

3.字符串查詢與替換9.1.2文本挖掘及可視化

1.文本挖掘的概念與方法

2.Python分詞包jieba

3.文本數(shù)據(jù)的收集與分詞

4.詞頻與詞云分析及可視化9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)直接使用len()函數(shù)可分別對字段自身長度、列表長度和嵌套列表長度進(jìn)行統(tǒng)計(jì),len()函數(shù)也可以直接對中文字段進(jìn)行操作。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Ins='abcdef’#字符串的定義len(s)#字符串的長度Out6InS=["Python","Data","Visual","暨南大學(xué)","管理學(xué)院"];#字符串列表長度len(S)#字符串的個(gè)數(shù)Out5In[len(s)forsinS]#字符串列表中各字符串長度Out[6,4,6,4,4]9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法1:加號'+'直接使用加號'+'就可以實(shí)現(xiàn)對兩個(gè)或多個(gè)字符串進(jìn)行連接。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'Excel'+''+'and'+''+'Python'Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法2:字符串格式化輸出有時(shí)對連接有自定義操作,這時(shí)可以采用字符串格式化輸出,這種方法更為常用。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Inwebsite='%s%s%s%s%s'%('Excel','','and','','Python’);websiteOut'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法3:join()如果操作的對象是列表,也可以采用join()函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InlistStr=['Excel','','and','','Python']''.join(listStr)Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分Python內(nèi)置了針對字串的拆分函數(shù)split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS1='中國;廣東省;廣州市;天河區(qū)'S1.split(';’)#按;拆分Out['中國','廣東省','廣州市','天河區(qū)']InS2='暨南大學(xué)、管理學(xué)院、企業(yè)管理系'S2.split('、’)#按、拆分Out['暨南大學(xué)','管理學(xué)院','企業(yè)管理系']9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分針對字符串列表(相當(dāng)于一段段文本),可以自定義一個(gè)列表拆分函數(shù)list_split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS3=['廣州大學(xué);廣州發(fā)展研究院','暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']Indeflist_split(lists,sep):#列表拆分函數(shù)new_list=[]foriinrange(len(lists)):new_list.append(list(filter(None,lists[i].split(sep))))returnnew_listInlist_split(S3,';')Out[['廣州大學(xué)','廣州發(fā)展研究院'],['暨南大學(xué)','文學(xué)院','歷史系'],['暨南大學(xué)','管理學(xué)院']]9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)在Python中in可以實(shí)現(xiàn)直接查詢(集合操作)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'暨南大學(xué)'inS2OutTrue9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)根據(jù)in的特點(diǎn)可以自定義一個(gè)字符串列表查詢函數(shù)find_words()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_find(lists,word):return[lists[i]foriinrange(len(lists))if(wordinlists[i])==True]Inlist_find(S3,'暨南大學(xué)')Out['暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)replace函數(shù)可以對字符串的內(nèi)容進(jìn)行替換。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS2.replace('、',';')Out'暨南大學(xué);管理學(xué)院;企業(yè)管理系'9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)也可以自定義一個(gè)針對字符串列表的字符串替換函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_replace(lists,old,new):return[lists[i].replace(old,new)foriinrange(len(lists))]Inlist_replace(S3,'暨南大學(xué)','中山大學(xué)')Out['廣州大學(xué);廣州發(fā)展研究院','中山大學(xué);文學(xué)院;歷史系','中山大學(xué);管理學(xué)院']9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過程。文本挖掘是數(shù)據(jù)挖掘的一個(gè)應(yīng)用分支,用于基于文本信息的知識(shí)發(fā)現(xiàn)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進(jìn)行分類,獲取有用的知識(shí)和信息。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來,但并不意味著簡單地將數(shù)據(jù)挖掘技術(shù)運(yùn)用到大量文本的集合上就可以實(shí)現(xiàn)文本挖掘,還需要做很多準(zhǔn)備工作。文本挖掘的準(zhǔn)備工作由文本收集、文本分析和特征修剪三個(gè)步驟組成。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(1)文本收集:需要挖掘的文本數(shù)據(jù)可能具有不同的類型,且分散在很多地方。需要尋找和檢索那些所有被認(rèn)為可能與當(dāng)前工作相關(guān)的文本。一般地,系統(tǒng)用戶都可以定義文本集,但是仍需要一個(gè)用來過濾相關(guān)文本的系統(tǒng)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(2)文本分析:與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文本具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu);此外文檔的內(nèi)容是人類所使用的自然語言,計(jì)算機(jī)很難處理其語義。文本數(shù)據(jù)源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上,需要對文本進(jìn)行分析,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。其目的在于從文本中掃描并抽取所需要的事實(shí)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(3)關(guān)鍵詞詞云分析詞云就是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使用戶只要一眼掃過文本就可以領(lǐng)略文本的主旨。好的數(shù)據(jù)可視化,可以使得數(shù)據(jù)分析的結(jié)果更通俗易懂。“詞云”就是數(shù)據(jù)可視化的一種形式。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jiebaJieba(結(jié)巴分詞)號稱宇宙最強(qiáng)Python分詞工具,是Python語言中最流行的一個(gè)分詞工具,在自然語言處理等場景被廣泛使用。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba(1)安裝9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘In#!pipinstalljiebaOutRequirementalreadysatisfied:jiebainc:\users\lenovo\anaconda3\lib\site-packages(0.42.1)9.1.2文本挖掘及可視化2.Python分詞包jieba(2)簡單分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inimportjiebawords1=jieba.lcut("我愛中國暨南大學(xué)");words1Out['我','愛','中國','暨南大學(xué)']句子切分成了5個(gè)詞組的列表。9.1.2文本挖掘及可視化2.Python分詞包jieba(3)全模式分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords2=jieba.lcut("我愛中國暨南大學(xué)",cut_all=True);words2Out['我','愛','中國','暨南','暨南大學(xué)','南大','大學(xué)']全模式分出來的詞覆蓋面更廣。9.1.2文本挖掘及可視化2.Python分詞包jieba(4)提取關(guān)鍵詞從一個(gè)句子或者一個(gè)段落中提取前K個(gè)關(guān)鍵詞,topK為返回前topK個(gè)權(quán)重最大的關(guān)鍵詞,withWeight返回每個(gè)關(guān)鍵字的權(quán)重值。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Insentence="詞云就是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使用戶只要一眼掃過文本就可以領(lǐng)略文本的主旨。其作用是提供用戶在業(yè)務(wù)中的轉(zhuǎn)化率和流失率;揭示了各種業(yè)務(wù)在網(wǎng)站中受歡迎的程度;發(fā)現(xiàn)業(yè)務(wù)流程中存在的問題,以及改進(jìn)的效果。"Inimportjieba.analyseasjaja.extract_tags(sentence,topK=5)#句中出現(xiàn)次數(shù)最多的5個(gè)詞Out['文本','關(guān)鍵詞','流失率','用戶','詞云']9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inja.extract_tags(sentence,topK=5,withWeight=True)#出現(xiàn)次數(shù)最多的5個(gè)詞及權(quán)重Out[('文本',0.7778130951626087),('關(guān)鍵詞',0.5806607855354349),('流失率',0.30218864460869566),('用戶',0.2966233074965217),('詞云',0.25988625006304344)]9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(1)粵港澳大灣區(qū)發(fā)展規(guī)劃綱要《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》是進(jìn)一步提升粵港澳大灣區(qū)在國家經(jīng)濟(jì)發(fā)展和對外開放中的支撐引領(lǐng)作用,支持香港、澳門融入國家發(fā)展大局,增進(jìn)香港、澳門同胞福祉,保持香港、澳門長期繁榮穩(wěn)定,讓港澳同胞同祖國人民共擔(dān)民族復(fù)興的歷史責(zé)任、共享祖國繁榮富強(qiáng)的偉大榮光。由中共中央、國務(wù)院于2019年2月印發(fā)實(shí)施。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(2)規(guī)劃綱要正文(節(jié)選)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Intxt=open("GBAtxt.txt","r",encoding='GBK').read()txt[:200]#顯示前200個(gè)字符Out'《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》\n前言\n粵港澳大灣區(qū)包括香港特別行政區(qū)、澳門特別行政區(qū)和廣東省廣州市、深圳市、珠海市、佛山市、惠州市、東莞市、中山市、江門市、肇慶市(以下稱珠三角九市),總面積5.6萬平方公里,2017年末總?cè)丝诩s7000萬人,是我國開放程度最高、經(jīng)濟(jì)活力最強(qiáng)的區(qū)域之一,在國家發(fā)展大局中具有重要戰(zhàn)略地位。建設(shè)粵港澳大灣區(qū),既是新時(shí)代推動(dòng)形成全面開放新格局的新嘗試,也是推動(dòng)“一國兩制”事'9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(3)分詞及權(quán)重分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords=jieba.lcut(txt)#使用精確模式對文本進(jìn)行分詞words[:10]#顯示前10個(gè)詞Out'《','粵港澳','大灣','區(qū)','發(fā)展','規(guī)劃','綱要','》','\n','前言']9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InWi=ja.extract_tags(txt,topK=10,withWeight=True)#文中出現(xiàn)次數(shù)最多的10個(gè)詞及權(quán)重pd.DataFrame(Wi,columns=['關(guān)鍵詞','權(quán)重'])Out關(guān)鍵詞權(quán)重0粵港澳0.1491大灣0.1292建設(shè)0.0943港澳0.0864合作0.0855澳門0.0726發(fā)展0.0717創(chuàng)新0.0708支持0.0659香港0.0579.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(1)詞頻分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Indefwords_freq(words):#定義統(tǒng)計(jì)文中詞出現(xiàn)的頻數(shù)函數(shù)counts={}#通過鍵值對的形式存儲(chǔ)詞語及其出現(xiàn)的次數(shù)forwordinwords:iflen(word)==1:continue#單個(gè)字不計(jì)算在內(nèi)else:#遍歷所有詞語,每出現(xiàn)一次其值加1counts[word]=counts.get(word,0)+1return(DataFrame(counts.items(),columns=['關(guān)鍵詞','頻數(shù)']))Inwordsfreq=words_freq(words);wordsfreq9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out關(guān)鍵詞頻數(shù)0粵港澳1171大灣1182發(fā)展2013規(guī)劃194綱要1.........2188勞工12189學(xué)術(shù)界12190建立聯(lián)系12191公眾22192意見反饋1[2193rowsx2columns]9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwordsfreq.sort_values(by='頻數(shù)’,ascending=False,inplace=True);wordsfreqkeys=wordsfreq.set_index('關(guān)鍵詞');keys[:10]#按詞頻排序,并設(shè)關(guān)鍵詞為索引,取排名前10個(gè)關(guān)鍵詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out頻數(shù)關(guān)鍵詞發(fā)展201建設(shè)192合作155支持128創(chuàng)新122大灣118粵港澳117香港98港澳98國際919.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inkeys[:10].plot(kind='barh');Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(2)詞云分析>pipinstallWordCloud#安裝詞云包9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InfromwordcloudimportWordCloud#加載詞云包Instrings="".join(words)#用.join將分詞連接為字符串,用空格分隔WC=WordCloud(max_words=50,max_font_size=200,width=1200,height=800,font_path='STZHONGS.TTF',background_color="white")plt.imshow(WC.generate(strings));plt.axis("off")9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化注意在做該圖時(shí)并未刪除一些停止詞。停止詞是指在句子中無關(guān)緊要的詞語,例如標(biāo)點(diǎn)符號、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動(dòng)處理。限于篇幅這里從略。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取2.居民消費(fèi)數(shù)據(jù)的抓取9.2.2網(wǎng)絡(luò)數(shù)據(jù)爬蟲及分析1.股票數(shù)據(jù)的抓取與分析2.Python爬蟲步驟3.爬蟲數(shù)據(jù)的分析練習(xí)題9(網(wǎng)上存在大量的在線數(shù)據(jù),如何獲取這些數(shù)據(jù)是大家所關(guān)心的.下面我們以中商情報(bào)網(wǎng)(/)的中商產(chǎn)業(yè)研究院數(shù)據(jù)庫(/)平臺(tái)為例介紹這類數(shù)據(jù)的獲取和分析。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘中商情報(bào)網(wǎng)是國內(nèi)第三方市場研究機(jī)構(gòu)和企業(yè)綜合咨詢服務(wù)提供商。已構(gòu)建起企業(yè)商業(yè)情報(bào)數(shù)據(jù)庫,致力于為企業(yè)中高層管理人員、企事業(yè)發(fā)展研究部門人員、市場投資人士、投行及咨詢行業(yè)人士、投資專家等提供各行業(yè)的市場研究資料和商業(yè)競爭情報(bào);致力于為國內(nèi)外各行業(yè)企業(yè)、科研院所、社會(huì)團(tuán)體和政府部門提供專業(yè)的行業(yè)市場研究、行業(yè)專項(xiàng)咨詢、項(xiàng)目可行性研究、IPO咨詢、商業(yè)計(jì)劃書等服務(wù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取中商情報(bào)網(wǎng)上的很多數(shù)據(jù)都是以表格形式出現(xiàn)的,對少量的表格數(shù)據(jù),我們可以用簡單的拷貝方式獲取數(shù)據(jù)。進(jìn)入網(wǎng)頁/data/area/440000/,可選取數(shù)據(jù)并復(fù)制到Python中。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘很多網(wǎng)站都會(huì)以表格的形式展示數(shù)據(jù),但如果表格中的數(shù)據(jù)較多或有多頁數(shù)據(jù)時(shí),顯然使用復(fù)制的方法是不可行的。如對于下圖的我國宏觀經(jīng)濟(jì)的綜合數(shù)據(jù),可通過爬蟲技術(shù)獲取這些數(shù)據(jù)。從下圖可以看出,我們需要的數(shù)據(jù)都保存在表格中,所以這里可以使用pandas獲取表格數(shù)據(jù)。在pandas庫中有一個(gè)方法read_html可以直接讀取網(wǎng)頁中的圖表,然后遍歷出每一個(gè)表格。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘打開網(wǎng)址/stock/a/,其中有幾個(gè)主表數(shù)據(jù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘若表數(shù)據(jù)量不大,也可以用前文介紹的復(fù)制的方法抓取數(shù)據(jù),但若表內(nèi)容較多,這時(shí)使用復(fù)制的方法顯然是不可行的,需通過編程的方法抓取數(shù)據(jù)。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取InImportrequestsurl=‘/stock/a’#A股信息html=requwsts.get(url).content.decode(‘utf-8);In#獲取第1張表格的數(shù)據(jù):A股公司營業(yè)收入排行榜pd.read_html(html,header=0)[0]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論