央視新聞網(wǎng)站數(shù)據(jù)分析與展示_第1頁(yè)
央視新聞網(wǎng)站數(shù)據(jù)分析與展示_第2頁(yè)
央視新聞網(wǎng)站數(shù)據(jù)分析與展示_第3頁(yè)
央視新聞網(wǎng)站數(shù)據(jù)分析與展示_第4頁(yè)
央視新聞網(wǎng)站數(shù)據(jù)分析與展示_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開(kāi)發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡(jiǎn)介..........................................................................................2

1.2.2MySQL簡(jiǎn)介............................................................................................3

1.2.3Jypyternotebook簡(jiǎn)介......................................................................3

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).......................................................................................5

2.3.2文件存取技術(shù).......................................................................................6

2.3.3可視化技術(shù)...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................7

3.1采集頁(yè)面分析..............................................................................................7

3.2字段分析......................................................................................................8

3.3編程實(shí)現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................10

4.1數(shù)據(jù)清洗....................................................................................................10

4.2數(shù)據(jù)儲(chǔ)存....................................................................................................10

4.3編程實(shí)現(xiàn)....................................................................................................11

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12

5.2數(shù)據(jù)展示....................................................................................................13

5.2.1依據(jù)國(guó)內(nèi)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................13

5.2.2依據(jù)國(guó)際新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................14

5.2.3依據(jù)法治新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................15

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.4依據(jù)社會(huì)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................16

5.3綜述............................................................................................................16

6小結(jié)..........................................................................................................................17

參考資料.........................................................................................................................18

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

央視新聞網(wǎng)站數(shù)據(jù)分析與展示

1引言

歲月如梭,光陰飛逝,距離上一次科技革命已過(guò)去多年,電子和信息技術(shù)普

及應(yīng)用開(kāi)啟了第五次科技革命之門(mén),而隨著互聯(lián)網(wǎng)技術(shù)的普及和移動(dòng)互聯(lián)網(wǎng)的

發(fā)展,全球正處于半個(gè)世紀(jì)以來(lái)的又一次重大技術(shù)周期之中,進(jìn)入21世紀(jì)以來(lái),

全球科技創(chuàng)新進(jìn)入了空前密集活躍的時(shí)期,新一輪科技革命和產(chǎn)業(yè)變革正在重

構(gòu)全球創(chuàng)新版圖、重塑全球經(jīng)濟(jì)結(jié)構(gòu)。以人工智能、量子信息、移動(dòng)通信、物

聯(lián)網(wǎng)、區(qū)塊鏈為代表的新一代信息技術(shù)加速突破應(yīng)用。

信息技術(shù)的飛速發(fā)展也讓人們不停接受各式各樣的、海量的信息數(shù)據(jù),而如

此眾多方面各異的數(shù)據(jù)也讓人眼花繚亂,不能準(zhǔn)確了解到自己需要的信息,這

個(gè)時(shí)候,如何對(duì)這海量的數(shù)據(jù)進(jìn)行開(kāi)發(fā)、分析成為關(guān)鍵的一環(huán)。所以大數(shù)據(jù)技

術(shù)也應(yīng)運(yùn)而生成為信息技術(shù)領(lǐng)域一大熱門(mén)分支。通過(guò)大數(shù)據(jù)技術(shù),我們能采集

到各類(lèi)數(shù)據(jù),并能將海量的數(shù)據(jù)儲(chǔ)存在系統(tǒng)之中,而原始的數(shù)據(jù)價(jià)值很低,需

要我們對(duì)數(shù)據(jù)進(jìn)行處理,而處理后的數(shù)據(jù)即可對(duì)有需要的人提供相關(guān)服務(wù),這

就是大數(shù)據(jù)技術(shù)。

1.1項(xiàng)目背景

自然界主要依靠信息的傳遞而自成體系,而人類(lèi)社會(huì)則通過(guò)信息傳遞的路徑

實(shí)體化,而形成最基本的社會(huì)結(jié)構(gòu),無(wú)論是遠(yuǎn)古時(shí)代的結(jié)繩時(shí)紀(jì),還是現(xiàn)代社

會(huì)的大眾媒體,信息的傳播從根本上推動(dòng)了人類(lèi)社會(huì)的發(fā)展。而新聞傳播作為

近現(xiàn)代人類(lèi)社會(huì)對(duì)信息傳遞這一概念的重新理解,在各個(gè)層面上都對(duì)現(xiàn)代社會(huì)

產(chǎn)生著非凡的影響。

其實(shí)新聞最早的起源甚至可以追溯到當(dāng)年的驛站,布告之類(lèi)的上面去,也就

是傳遞消息。從當(dāng)權(quán)者注重信息的及時(shí)性慢慢地延伸到老百姓也需要及時(shí)的消

息。比如在古代,哪里發(fā)生了戰(zhàn)亂?哪里在鬧饑荒?等,這些都是促進(jìn)新聞發(fā)

展的根本,有需要才有市場(chǎng)。新聞的本質(zhì)就是傳遞消息,當(dāng)然消息也能作假,

古代就有謊報(bào)軍情的例子,如何找到準(zhǔn)確的新聞信息呢?央視新聞網(wǎng)站,作為

官方的新聞發(fā)布網(wǎng)站,不能說(shuō)新聞是百分百無(wú)誤,但也是我們能找到準(zhǔn)確率最

高的新聞網(wǎng)站之一。

新聞是我們了解外界,開(kāi)闊眼界的重要信息來(lái)源,但新聞的作用不止于此。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

通過(guò)新聞報(bào)道,一方面可以弘揚(yáng)社會(huì)正能量,宣傳社會(huì)中正向的一面,對(duì)社會(huì)

發(fā)展,穩(wěn)定起到了進(jìn)步的作用;另一方面針對(duì)一些性質(zhì)惡劣的新聞進(jìn)行報(bào)道,

對(duì)一些心存不軌者起到警示作用。而這一般為官方新聞也就是我們本次分析的

央視新聞網(wǎng)站發(fā)布新聞的大體方向。

本項(xiàng)目就是對(duì)央視新聞近期發(fā)布的各類(lèi)新聞數(shù)據(jù)進(jìn)行爬取,然后進(jìn)行數(shù)據(jù)處

理、儲(chǔ)存和分析,最后對(duì)數(shù)據(jù)進(jìn)行可視化展示。

1.2開(kāi)發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是一種被稱(chēng)為ABC語(yǔ)言的替代語(yǔ)言,由荷蘭和計(jì)算機(jī)科學(xué)研究協(xié)會(huì)

的GuidovonRossum(吉多·范·羅蘇姆)于20世紀(jì)90年代初創(chuàng)立,1989年圣

誕節(jié)期間,在阿姆斯特丹的Guido為了打發(fā)圣誕節(jié)的無(wú)聊時(shí)間,決心開(kāi)發(fā)一個(gè)

新的腳本解釋程序,作為ABC語(yǔ)言的一種繼承。該編程語(yǔ)言被命名為Python的

原因是20世紀(jì)70年代在英國(guó)首次播出的電視喜劇《蒙提·派森的飛行馬戲團(tuán)》

(MontyPython'sFlyingCircus)。

Python提供了一種高級(jí)高效的數(shù)據(jù)結(jié)構(gòu),也可以簡(jiǎn)單高效地編程。Python的

語(yǔ)法和動(dòng)態(tài)類(lèi)型,和解釋型語(yǔ)言的本質(zhì),使得其成為大多數(shù)平臺(tái)編寫(xiě)腳本和快

速開(kāi)發(fā)應(yīng)用程序的編程語(yǔ)言。隨著不斷編輯和添加新的語(yǔ)言功能,它逐漸被用

于獨(dú)立、大規(guī)模、大規(guī)模的項(xiàng)目開(kāi)發(fā)。

2021年10月,TIOBE人口指數(shù)開(kāi)發(fā)人員將Python評(píng)為最著名的編程語(yǔ)言。

20年來(lái),它首次位于Java、C和JavaScript中。自20世紀(jì)90年代初Python語(yǔ)

言誕生以來(lái),它已廣泛應(yīng)用于系統(tǒng)管理和Internet編程任務(wù)的開(kāi)發(fā)。

Python第三方模塊簡(jiǎn)介:

Requests:request是以python語(yǔ)音編寫(xiě),基于urllib的,采用Apache2

Licensed開(kāi)源協(xié)議的http庫(kù)。

Re:re是python的標(biāo)準(zhǔn)庫(kù),主要用于使用正則表達(dá)式匹配字符串。

Csv:csv是python的內(nèi)置模塊之一,它可以讀取csv格式的文件,或者把數(shù)

據(jù)存到csv表格之中。

NumPy:numpy庫(kù)是是一個(gè)由多維數(shù)組對(duì)象和用于處理數(shù)組的例程集合組

成的庫(kù),也是python數(shù)據(jù)分析的基礎(chǔ)。

Pymysql:pymysql是一個(gè)連接mysql數(shù)據(jù)庫(kù)的第三方模塊,可作為連接

mysql的客戶端,對(duì)數(shù)據(jù)庫(kù)進(jìn)行增、刪、改、查的操作。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

Pandas:pandas庫(kù)為python的數(shù)據(jù)分析提供了高性能、且易于使用的數(shù)據(jù)結(jié)

構(gòu),即Series(一維數(shù)組結(jié)構(gòu))與DataFrame(二維數(shù)組結(jié)構(gòu)),這兩種數(shù)據(jù)結(jié)

構(gòu)極大地增強(qiáng)了pandas的數(shù)據(jù)分析能力。

Sqlalchemy:sqlalchemy是一個(gè)python語(yǔ)言實(shí)現(xiàn)的針對(duì)關(guān)系型數(shù)據(jù)庫(kù)的orm

庫(kù)??捎糜谶B接大多數(shù)常見(jiàn)的數(shù)據(jù)庫(kù),比如Postges、MySQL、SQLite、Oracle

等。

1.2.2MySQL簡(jiǎn)介

MySQL是一個(gè)開(kāi)源的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),由瑞典MySQLAB公司1995

年開(kāi)發(fā),迅速成為最流行的開(kāi)源關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。在WEB應(yīng)用方面

MySQL是最好的RDBMS(RelationalDatabaseManagementSystem:關(guān)系數(shù)據(jù)庫(kù)

管理系統(tǒng))應(yīng)用軟件之一。

MySQL是一種關(guān)聯(lián)數(shù)據(jù)庫(kù)管理系統(tǒng),將數(shù)據(jù)保存在不同的表中,而不是將

所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性。

MySQL是可以定制的,采用了GPL(GNUGeneralPublicLicense)協(xié)議,

你可以修改源碼來(lái)開(kāi)發(fā)自己的MySQL系統(tǒng)。

MySQL支持大型的數(shù)據(jù)庫(kù),可以處理?yè)碛猩锨f(wàn)條記錄的大型數(shù)據(jù)庫(kù)。支

持5000萬(wàn)條記錄的數(shù)據(jù)倉(cāng)庫(kù),32位系統(tǒng)表文件最大可支持4GB,64位系統(tǒng)支

持最大的表文件為8TB。

MySQL使用標(biāo)準(zhǔn)的SQL數(shù)據(jù)語(yǔ)言形式。

MySQL可以運(yùn)行于多個(gè)系統(tǒng)上,并且支持多種語(yǔ)言。這些編程語(yǔ)言包括

C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。

1.2.3Jypyternotebook簡(jiǎn)介

JupyterNotebook是用網(wǎng)頁(yè)的形式打開(kāi),可以在網(wǎng)頁(yè)頁(yè)面中直接編寫(xiě)代碼與

運(yùn)行代碼,代碼的運(yùn)行結(jié)果也會(huì)直接在代碼塊下顯示。如果在編寫(xiě)代碼過(guò)程中

需要編寫(xiě)說(shuō)明文字,則可在同一個(gè)頁(yè)面中直接編寫(xiě),以便于作及時(shí)的說(shuō)明以及

解釋。

Jupyter的名字是它所服務(wù)的三種語(yǔ)言的縮寫(xiě),即Julia,Python還有R,但

是Jupyter遠(yuǎn)遠(yuǎn)不止支持上面的三種語(yǔ)言,目前能夠使用的語(yǔ)言他基本上都能支

持,包括C、C++、C#,java、Go等等。JupyterNotebook自開(kāi)創(chuàng)以來(lái)迅速成為

數(shù)據(jù)分析,機(jī)器學(xué)習(xí)的必備工具。因?yàn)樗茏寯?shù)據(jù)分析師們集中精神向用戶解

釋整個(gè)分析的過(guò)程。我們可以通過(guò)Jupyternotebook寫(xiě)出學(xué)習(xí)筆記等。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

Jupyter在大數(shù)據(jù)技術(shù)應(yīng)用方面應(yīng)用比較廣泛,特別適合用來(lái)對(duì)數(shù)據(jù)進(jìn)行清洗

和處理,在數(shù)據(jù)可視化方面也是非常便利好用的。

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python是一種面向?qū)ο蟮挠?jì)算機(jī)編程語(yǔ)言,且相對(duì)其他編程語(yǔ)言更通俗易懂,

利于我們使用其編寫(xiě)程序。在本次項(xiàng)目之中,我們使用python編寫(xiě)程序以實(shí)現(xiàn)

數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)存和數(shù)據(jù)可視化。在項(xiàng)目之初爬取數(shù)據(jù)時(shí)遇到了

一個(gè)問(wèn)題,發(fā)現(xiàn)爬取到的該網(wǎng)頁(yè)源代碼與檢查時(shí)看到的源代碼并不相同,所以

我判斷該網(wǎng)頁(yè)既有可能采用了XHR異步加載方式,如我所料,修改代碼后成功

獲取到了數(shù)據(jù)。然后我們將爬取的數(shù)據(jù)暫時(shí)以csv格式儲(chǔ)存,在通過(guò)數(shù)據(jù)清洗處

理后,將準(zhǔn)確無(wú)誤的數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)之中。最后使用MySQL中的數(shù)據(jù)

進(jìn)行數(shù)據(jù)可視化并分析。

2、項(xiàng)目可行性

新聞是當(dāng)代傳播信息的重要方式之一,如何在眾多新聞之中先他人一步把握

關(guān)鍵信息是非常重要的,畢竟現(xiàn)代社會(huì),時(shí)間就是金錢(qián),我們沒(méi)有那么多時(shí)間

對(duì)新聞逐條翻閱。并且新聞是否準(zhǔn)確,是否沒(méi)有被歪曲也十分重要。

綜上,我們本次對(duì)官方新聞網(wǎng)站即央視新聞網(wǎng)站進(jìn)行分析,最大程度地保證

新聞地準(zhǔn)確性,且我們將從國(guó)內(nèi)新聞,國(guó)際新聞,社會(huì)新聞以及法治新聞板塊,

共4個(gè)分類(lèi)進(jìn)行分析。我們將主要使用新聞內(nèi)容的關(guān)鍵詞,與發(fā)布時(shí)間(精確

到年月日)進(jìn)行分析,以便于后續(xù)實(shí)現(xiàn)可視化后,我們能對(duì)圖像一目了然,分

析準(zhǔn)確。

2.2采集目標(biāo)功能分析

本項(xiàng)目的數(shù)據(jù)來(lái)自央視新聞網(wǎng)站的國(guó)內(nèi)、世界、社會(huì)和法治四個(gè)板塊,通過(guò)

python爬取四個(gè)板塊的新聞數(shù)據(jù)。粗略檢查確定數(shù)據(jù)屬于央視新聞網(wǎng)站,再通

過(guò)數(shù)據(jù)清洗最大程度上保證數(shù)據(jù)的準(zhǔn)確性,最后將準(zhǔn)確的數(shù)據(jù)存入數(shù)據(jù)庫(kù)中,

共1278條數(shù)據(jù)。

分析央視新聞網(wǎng)站網(wǎng)頁(yè)的信息,明確我們需要爬取每條新聞中的新聞標(biāo)題、

關(guān)鍵詞、發(fā)布時(shí)間數(shù)據(jù)。在對(duì)初始數(shù)據(jù)進(jìn)行清洗處理后我們將會(huì)對(duì)數(shù)據(jù)進(jìn)行分

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

析。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

隨著信息時(shí)代的到來(lái),網(wǎng)絡(luò)上充斥著各不相同的數(shù)據(jù)流,數(shù)據(jù)量之大,數(shù)據(jù)

雜糅復(fù)雜。如何自動(dòng)準(zhǔn)確高效地獲取互聯(lián)網(wǎng)中我們感興趣的需要的信息并為我

們所利用是一個(gè)重要的問(wèn)題,為了解決這些問(wèn)題,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)運(yùn)而生。且

隨著人們對(duì)數(shù)據(jù)的重視度越來(lái)越高,網(wǎng)絡(luò)爬蟲(chóng)在互聯(lián)網(wǎng)中的地位也越來(lái)越重要。

網(wǎng)絡(luò)爬蟲(chóng)也被人們稱(chēng)作網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機(jī)器人等,從這些名字中

我們就可以看出網(wǎng)絡(luò)爬蟲(chóng)在網(wǎng)絡(luò)中充當(dāng)?shù)慕巧?。網(wǎng)絡(luò)爬蟲(chóng)可以代替人們自動(dòng)地

在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理。在大數(shù)據(jù)時(shí)代,信息的采集是一項(xiàng)重

要的工作,如果單純靠人力進(jìn)行信息采集,不僅低效繁瑣,搜集的成本也會(huì)提

高。我們可以使用網(wǎng)絡(luò)爬蟲(chóng)對(duì)數(shù)據(jù)信息進(jìn)行自動(dòng)采集,當(dāng)然瀏覽信息的時(shí)候需

要按照我們制定的規(guī)則進(jìn)行,這些規(guī)則我們稱(chēng)之為網(wǎng)絡(luò)爬蟲(chóng)算法。使用Python

語(yǔ)言可以很方便地編寫(xiě)出爬蟲(chóng)程序,進(jìn)行互聯(lián)網(wǎng)信息的自動(dòng)化檢索。

網(wǎng)絡(luò)爬蟲(chóng)由控制節(jié)點(diǎn)、爬蟲(chóng)節(jié)點(diǎn)、資源庫(kù)3部分構(gòu)成。網(wǎng)絡(luò)爬蟲(chóng)中可以有多

個(gè)控制節(jié)點(diǎn),并且每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲(chóng)節(jié)點(diǎn),控制節(jié)點(diǎn)之間可以互

相通信,不僅如此,控制節(jié)點(diǎn)和其下的各爬蟲(chóng)節(jié)點(diǎn)之間也可以進(jìn)行相互通信,

屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲(chóng)節(jié)點(diǎn)間,亦可以互相通信??刂乒?jié)點(diǎn),也稱(chēng)作

爬蟲(chóng)的中央控制器,主要負(fù)責(zé)根據(jù)URL地址來(lái)分配線程,并且調(diào)用爬蟲(chóng)節(jié)點(diǎn)進(jìn)

行具體的爬取。爬蟲(chóng)節(jié)點(diǎn)會(huì)按照相關(guān)的算法,對(duì)網(wǎng)頁(yè)進(jìn)行相應(yīng)的爬取,主要包

括下載網(wǎng)頁(yè)以及對(duì)網(wǎng)頁(yè)的文本進(jìn)行處理。爬取數(shù)據(jù)后,會(huì)將對(duì)應(yīng)的爬取結(jié)果儲(chǔ)

存到對(duì)應(yīng)的資源庫(kù)之中。

網(wǎng)絡(luò)爬蟲(chóng)按照實(shí)現(xiàn)的技術(shù)和結(jié)構(gòu)通??梢苑譃椋和ㄓ镁W(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬

蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)等類(lèi)型。而在實(shí)際的網(wǎng)絡(luò)爬蟲(chóng)中,一般是

這幾類(lèi)爬蟲(chóng)的組合體。爬蟲(chóng)的出現(xiàn),可以在一定程度上代替手工訪問(wèn)網(wǎng)頁(yè),所

以,原先我們需要人工去訪問(wèn)互聯(lián)網(wǎng)信息的操作,現(xiàn)在都可以用爬蟲(chóng)自動(dòng)化實(shí)

現(xiàn),這樣可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。

既然有網(wǎng)絡(luò)爬蟲(chóng),那么相應(yīng)的也有反爬蟲(chóng)技術(shù)。反爬蟲(chóng),指的是對(duì)掃描器中

的網(wǎng)絡(luò)爬蟲(chóng)環(huán)節(jié)進(jìn)行反制,通過(guò)一些反制策略來(lái)阻礙或者干擾爬蟲(chóng)的正常爬行,

從而間接地起到防御作用。爬蟲(chóng)的反制策略有很多種,但大體可歸為基于IP的

反爬蟲(chóng)和基于爬行的反爬蟲(chóng)兩大類(lèi)。對(duì)于基于IP的反爬蟲(chóng),主要思路就是通過(guò)

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

人為或部分策略來(lái)識(shí)別出爬蟲(chóng)的IP并進(jìn)行屏蔽、阻止、封禁等操作。對(duì)基于爬

行的反爬蟲(chóng),其思路主要是在爬蟲(chóng)的爬行中設(shè)置爬行障礙,讓其陷入死循環(huán);

或者用一些無(wú)意義的URL來(lái)填充其爬行隊(duì)列,從而阻止其對(duì)正常URL進(jìn)行后

續(xù)的漏洞審計(jì)。

2.3.2文件存取技術(shù)

Python內(nèi)置csv模塊如圖2-1顯示:

圖2-1python內(nèi)置csv模塊

2.3.3可視化技術(shù)

我們?cè)诰W(wǎng)頁(yè)爬取到數(shù)據(jù),繼續(xù)數(shù)據(jù)清洗處理后仍然不能通過(guò)這些數(shù)據(jù)直接得

出我們想要的信息?!耙粓D勝千言”,對(duì)于復(fù)雜難懂且體量龐大的數(shù)據(jù)而言,

圖表的信息量要更簡(jiǎn)潔明了,那么我們將數(shù)據(jù)統(tǒng)計(jì)分析后,怎樣以更利于人理

解的圖表將這些數(shù)據(jù)蘊(yùn)含的信息表達(dá)出來(lái)呢?——數(shù)據(jù)可視化技術(shù)。

顧名思義,數(shù)據(jù)可視化就是將數(shù)據(jù)轉(zhuǎn)換成圖表類(lèi)的形式,以一種更直觀的方

式呈現(xiàn)數(shù)據(jù),讓讀者能一眼看懂你想表達(dá)的信息。通過(guò)“可視化”的方式,復(fù)雜的

數(shù)據(jù)通過(guò)圖形化的手段進(jìn)行表達(dá),可以準(zhǔn)確高效、簡(jiǎn)潔全面地傳遞某種信息,

甚至我們幫助發(fā)現(xiàn)某種規(guī)律和特征,挖掘數(shù)據(jù)背后的價(jià)值。

數(shù)據(jù)可視化這一概念自1987年正式提出,經(jīng)過(guò)30余年的發(fā)展,逐漸形成3

個(gè)分支:科學(xué)計(jì)算可視化(scientificvisualization)、信息可視化(information

visualization)和可視分析(visualanalytics)。近些年來(lái),這3個(gè)子領(lǐng)域出現(xiàn)了逐漸

融合的趨勢(shì)。本次項(xiàng)目用到的就是信息可視化,信息可視化處理的對(duì)象是抽象

數(shù)據(jù)集合,起源于統(tǒng)計(jì)圖形學(xué),又與信息圖形、視覺(jué)設(shè)計(jì)等現(xiàn)代技術(shù)相關(guān)。其

表現(xiàn)形式通常在二維空間,因此關(guān)鍵問(wèn)題是在有限的展現(xiàn)空間中以直觀的方式

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

傳達(dá)大量的抽象信息。

本項(xiàng)目將爬取到的數(shù)據(jù)通過(guò)簡(jiǎn)單的數(shù)據(jù)可視化方法實(shí)現(xiàn)數(shù)據(jù)可視化,主要使

用python第三方模塊pyecharts實(shí)現(xiàn)數(shù)據(jù)可視化,pyecharts中包含了各種庫(kù),分

別對(duì)應(yīng)各式各樣的圖形,可以將數(shù)據(jù)蘊(yùn)含的信息用圖表清晰地表達(dá)出來(lái),輕松

得出結(jié)論。

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

我們首先使用谷歌瀏覽器打開(kāi)央視新聞網(wǎng)站(/),在圖

3-1中可發(fā)現(xiàn)央視新聞網(wǎng)對(duì)新聞做了分類(lèi),如國(guó)內(nèi),國(guó)際新聞等。進(jìn)入國(guó)內(nèi)新聞

板塊后,觀察圖3-2可發(fā)現(xiàn)URL變?yōu)椋?china/,并且在頁(yè)面

下方可以看到近期的國(guó)內(nèi)新聞。

圖3-1央視新聞網(wǎng)站頁(yè)面

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2央視國(guó)內(nèi)新聞網(wǎng)站頁(yè)面

按F12后調(diào)出開(kāi)發(fā)者工具對(duì)網(wǎng)頁(yè)進(jìn)行解析,發(fā)現(xiàn)爬取到的該網(wǎng)頁(yè)源代碼與檢

查時(shí)看到的源代碼并不相同,所以該網(wǎng)頁(yè)既有可能采用了XHR異步加載方式,

所以在network中尋找該子網(wǎng)頁(yè)正確的URL信息,對(duì)頁(yè)面刷新,network中出現(xiàn)

了我們要尋找的XHR。通過(guò)查看XHR的具體信息及所對(duì)應(yīng)的RequestURL可知,

該網(wǎng)頁(yè)確實(shí)采用了異步加載方式動(dòng)態(tài)加載數(shù)據(jù)。

3.2字段分析

進(jìn)入央視新聞國(guó)內(nèi)板塊頁(yè)面后按F12后調(diào)出開(kāi)發(fā)者工具頁(yè)面,在“預(yù)覽”中

可以找到要爬取的信息,如圖3-3??梢园l(fā)現(xiàn)每個(gè)新聞包含了title、focus_date、

keywords3個(gè)關(guān)鍵字段。我們還能知道它為get方法響應(yīng)的網(wǎng)站,所以我們可以

使用request方法中的get方法來(lái)獲取所需的數(shù)據(jù)。在央視新聞網(wǎng)站中不僅僅單

有國(guó)內(nèi)板塊,按照相同的步驟我們將依次獲取國(guó)內(nèi)、世界、社會(huì)、法治四個(gè)板

塊的數(shù)據(jù),分別存入csv文件中,以便于對(duì)數(shù)據(jù)進(jìn)行清洗。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-3央視國(guó)內(nèi)新聞網(wǎng)站開(kāi)發(fā)者工具頁(yè)面

3.3編程實(shí)現(xiàn)

使用pycharm進(jìn)行python語(yǔ)言程序編寫(xiě)如圖3-4,3-5所示:

圖3-4數(shù)據(jù)采集代碼1

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-5數(shù)據(jù)采集代碼2

4數(shù)據(jù)清洗與處理

在爬取大量數(shù)據(jù)之后我們需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,即數(shù)據(jù)清洗,檢查

爬取的數(shù)據(jù)是否含有空值,重復(fù)值,以及數(shù)據(jù)的位置是否正確,確保數(shù)據(jù)準(zhǔn)確

無(wú)誤,不會(huì)影響到后期我們對(duì)數(shù)據(jù)進(jìn)行分析與展示。

4.1數(shù)據(jù)清洗

圖4-1

我們利用isnull和duplicated方法依次檢查數(shù)據(jù)是否存在空值以及重復(fù)值,

發(fā)現(xiàn)除china.csv中的數(shù)據(jù)出現(xiàn)了重復(fù)值的情況,其他3個(gè)csv文件均未有空值

和重復(fù)值,我們使用china.drop_duplicates(inplace=True)語(yǔ)句對(duì)讀取的數(shù)據(jù)進(jìn)行

修改。

4.2數(shù)據(jù)儲(chǔ)存

數(shù)據(jù)儲(chǔ)存有許多種方法,例如最常見(jiàn)的記事本格式儲(chǔ)存(txt),或者使用其

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

他類(lèi)型文件的形式儲(chǔ)存,如csv、excel、json等,但是以上方法都有一個(gè)弊端,也

就是他們保存的數(shù)據(jù)量都普遍比較小。如果我們需要儲(chǔ)存較大的數(shù)據(jù)量就需要

使用到數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)分為關(guān)系型以及非關(guān)系型數(shù)據(jù)庫(kù)。本次項(xiàng)目我們使用了csv

儲(chǔ)存尚未清洗的數(shù)據(jù),用MySQL儲(chǔ)存清洗完成的數(shù)據(jù)。

4.3編程實(shí)現(xiàn)

創(chuàng)建數(shù)據(jù)表并導(dǎo)入于jupyternotebook中修改后的表格數(shù)據(jù)如圖4-2、4-3所

示:

圖4-2數(shù)據(jù)清洗代碼圖1

圖4-3數(shù)據(jù)清洗代碼圖2

檢查數(shù)據(jù)庫(kù)數(shù)據(jù)是否有誤如圖4-4所示:

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-4數(shù)據(jù)展示

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

打開(kāi)jupyternotebook,使用pandas對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行讀?。?/p>

圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2數(shù)據(jù)展示

5.2.1依據(jù)國(guó)內(nèi)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析

圖5-2數(shù)據(jù)展示頁(yè)面

我們對(duì)國(guó)內(nèi)新聞數(shù)據(jù)的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)出

現(xiàn)的頻率,最后生成一個(gè)列表,取排名前九的關(guān)鍵詞生成餅圖,如圖5-2所示,

可以看到‘中國(guó)現(xiàn)代化’出現(xiàn)的次數(shù)最高,再結(jié)合‘習(xí)近平’,‘十四五’兩

詞,我們不難發(fā)現(xiàn)當(dāng)下中國(guó)的主旋律是建設(shè)現(xiàn)代化的中國(guó),與十四五規(guī)劃中第

一篇開(kāi)啟全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家新征程相呼應(yīng),而習(xí)近平同志又是國(guó)家

領(lǐng)導(dǎo)人,更加表明‘中國(guó)現(xiàn)代化’的重要性。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2依據(jù)國(guó)際新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析

圖5-3數(shù)據(jù)展示頁(yè)面

我們對(duì)國(guó)際新聞數(shù)據(jù)的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)出

現(xiàn)的頻率,最后生成一個(gè)列表,取列表前十條數(shù)據(jù)生成柱狀圖進(jìn)行分析。如圖5-3

所示,‘土耳其’出現(xiàn)23次,‘?dāng)⒗麃啞霈F(xiàn)18次,‘救援隊(duì)’出現(xiàn)7次。

聯(lián)系到近期土耳其連續(xù)發(fā)生7.8級(jí)和7.5級(jí)兩次地震,且根據(jù)相關(guān)數(shù)據(jù)表明,該

次地震造成了土耳其以及敘利亞兩國(guó)近4.7萬(wàn)人遇難,在巨大災(zāi)難之下,各國(guó)聯(lián)

合發(fā)起國(guó)際救援行動(dòng)。而該次地震也讓土耳其政府發(fā)現(xiàn)了建筑安全系數(shù)問(wèn)題,

并對(duì)184名涉嫌參與建造劣質(zhì)建筑的人發(fā)出逮捕令。

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.3依據(jù)法治新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析

圖5-4數(shù)據(jù)展示頁(yè)面

我們對(duì)法治新聞數(shù)據(jù)中的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)

出現(xiàn)的頻率,最后生成一個(gè)列表,通過(guò)列表里面的數(shù)據(jù)再按照詞頻生成詞云圖。如

圖5-4所示,‘檢察機(jī)關(guān)’居中而視,結(jié)合‘中央紀(jì)委’、‘開(kāi)除黨籍’、‘違

紀(jì)違法’、‘警方’等明顯的關(guān)鍵數(shù)據(jù),可了解到當(dāng)下政府機(jī)關(guān)與共產(chǎn)黨對(duì)內(nèi)

部人員違法違紀(jì)行為非常重視,且對(duì)內(nèi)部的整治有了一定成效,政府機(jī)關(guān)工作

人員在這種形勢(shì)下也會(huì)認(rèn)識(shí)到遵紀(jì)守法的重要性,也會(huì)更好地工作、為人民服

務(wù)。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.4依據(jù)社會(huì)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析

圖5-5數(shù)據(jù)展示頁(yè)面

我們對(duì)社會(huì)新聞數(shù)據(jù)的發(fā)布時(shí)間字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)

出現(xiàn)的頻率,最后生成一個(gè)新聞當(dāng)日發(fā)布量列表,通過(guò)列表里面的數(shù)據(jù)生成折線

圖。在圖5-5中我們不難看出1月21日后新聞當(dāng)日發(fā)布量銳減,不難分析出原

因?yàn)槌εc大年初一放假,而這兩日之后新聞當(dāng)日發(fā)布量暴增,為何?自然是

因?yàn)楣?jié)日后社會(huì)類(lèi)新聞更多,各地都有其慶祝節(jié)日的方法,不盡相同。而再往

后我們也能發(fā)現(xiàn)2月6日即元宵節(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論