




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開(kāi)發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡(jiǎn)介..........................................................................................2
1.2.2MySQL簡(jiǎn)介............................................................................................3
1.2.3Jypyternotebook簡(jiǎn)介......................................................................3
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù).......................................................................................5
2.3.2文件存取技術(shù).......................................................................................6
2.3.3可視化技術(shù)...........................................................................................6
3數(shù)據(jù)采集....................................................................................................................7
3.1采集頁(yè)面分析..............................................................................................7
3.2字段分析......................................................................................................8
3.3編程實(shí)現(xiàn)......................................................................................................9
4數(shù)據(jù)清洗與處理......................................................................................................10
4.1數(shù)據(jù)清洗....................................................................................................10
4.2數(shù)據(jù)儲(chǔ)存....................................................................................................10
4.3編程實(shí)現(xiàn)....................................................................................................11
5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12
5.2數(shù)據(jù)展示....................................................................................................13
5.2.1依據(jù)國(guó)內(nèi)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................13
5.2.2依據(jù)國(guó)際新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................14
5.2.3依據(jù)法治新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................15
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.4依據(jù)社會(huì)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析.................................................16
5.3綜述............................................................................................................16
6小結(jié)..........................................................................................................................17
參考資料.........................................................................................................................18
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
央視新聞網(wǎng)站數(shù)據(jù)分析與展示
1引言
歲月如梭,光陰飛逝,距離上一次科技革命已過(guò)去多年,電子和信息技術(shù)普
及應(yīng)用開(kāi)啟了第五次科技革命之門(mén),而隨著互聯(lián)網(wǎng)技術(shù)的普及和移動(dòng)互聯(lián)網(wǎng)的
發(fā)展,全球正處于半個(gè)世紀(jì)以來(lái)的又一次重大技術(shù)周期之中,進(jìn)入21世紀(jì)以來(lái),
全球科技創(chuàng)新進(jìn)入了空前密集活躍的時(shí)期,新一輪科技革命和產(chǎn)業(yè)變革正在重
構(gòu)全球創(chuàng)新版圖、重塑全球經(jīng)濟(jì)結(jié)構(gòu)。以人工智能、量子信息、移動(dòng)通信、物
聯(lián)網(wǎng)、區(qū)塊鏈為代表的新一代信息技術(shù)加速突破應(yīng)用。
信息技術(shù)的飛速發(fā)展也讓人們不停接受各式各樣的、海量的信息數(shù)據(jù),而如
此眾多方面各異的數(shù)據(jù)也讓人眼花繚亂,不能準(zhǔn)確了解到自己需要的信息,這
個(gè)時(shí)候,如何對(duì)這海量的數(shù)據(jù)進(jìn)行開(kāi)發(fā)、分析成為關(guān)鍵的一環(huán)。所以大數(shù)據(jù)技
術(shù)也應(yīng)運(yùn)而生成為信息技術(shù)領(lǐng)域一大熱門(mén)分支。通過(guò)大數(shù)據(jù)技術(shù),我們能采集
到各類(lèi)數(shù)據(jù),并能將海量的數(shù)據(jù)儲(chǔ)存在系統(tǒng)之中,而原始的數(shù)據(jù)價(jià)值很低,需
要我們對(duì)數(shù)據(jù)進(jìn)行處理,而處理后的數(shù)據(jù)即可對(duì)有需要的人提供相關(guān)服務(wù),這
就是大數(shù)據(jù)技術(shù)。
1.1項(xiàng)目背景
自然界主要依靠信息的傳遞而自成體系,而人類(lèi)社會(huì)則通過(guò)信息傳遞的路徑
實(shí)體化,而形成最基本的社會(huì)結(jié)構(gòu),無(wú)論是遠(yuǎn)古時(shí)代的結(jié)繩時(shí)紀(jì),還是現(xiàn)代社
會(huì)的大眾媒體,信息的傳播從根本上推動(dòng)了人類(lèi)社會(huì)的發(fā)展。而新聞傳播作為
近現(xiàn)代人類(lèi)社會(huì)對(duì)信息傳遞這一概念的重新理解,在各個(gè)層面上都對(duì)現(xiàn)代社會(huì)
產(chǎn)生著非凡的影響。
其實(shí)新聞最早的起源甚至可以追溯到當(dāng)年的驛站,布告之類(lèi)的上面去,也就
是傳遞消息。從當(dāng)權(quán)者注重信息的及時(shí)性慢慢地延伸到老百姓也需要及時(shí)的消
息。比如在古代,哪里發(fā)生了戰(zhàn)亂?哪里在鬧饑荒?等,這些都是促進(jìn)新聞發(fā)
展的根本,有需要才有市場(chǎng)。新聞的本質(zhì)就是傳遞消息,當(dāng)然消息也能作假,
古代就有謊報(bào)軍情的例子,如何找到準(zhǔn)確的新聞信息呢?央視新聞網(wǎng)站,作為
官方的新聞發(fā)布網(wǎng)站,不能說(shuō)新聞是百分百無(wú)誤,但也是我們能找到準(zhǔn)確率最
高的新聞網(wǎng)站之一。
新聞是我們了解外界,開(kāi)闊眼界的重要信息來(lái)源,但新聞的作用不止于此。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
通過(guò)新聞報(bào)道,一方面可以弘揚(yáng)社會(huì)正能量,宣傳社會(huì)中正向的一面,對(duì)社會(huì)
發(fā)展,穩(wěn)定起到了進(jìn)步的作用;另一方面針對(duì)一些性質(zhì)惡劣的新聞進(jìn)行報(bào)道,
對(duì)一些心存不軌者起到警示作用。而這一般為官方新聞也就是我們本次分析的
央視新聞網(wǎng)站發(fā)布新聞的大體方向。
本項(xiàng)目就是對(duì)央視新聞近期發(fā)布的各類(lèi)新聞數(shù)據(jù)進(jìn)行爬取,然后進(jìn)行數(shù)據(jù)處
理、儲(chǔ)存和分析,最后對(duì)數(shù)據(jù)進(jìn)行可視化展示。
1.2開(kāi)發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python是一種被稱(chēng)為ABC語(yǔ)言的替代語(yǔ)言,由荷蘭和計(jì)算機(jī)科學(xué)研究協(xié)會(huì)
的GuidovonRossum(吉多·范·羅蘇姆)于20世紀(jì)90年代初創(chuàng)立,1989年圣
誕節(jié)期間,在阿姆斯特丹的Guido為了打發(fā)圣誕節(jié)的無(wú)聊時(shí)間,決心開(kāi)發(fā)一個(gè)
新的腳本解釋程序,作為ABC語(yǔ)言的一種繼承。該編程語(yǔ)言被命名為Python的
原因是20世紀(jì)70年代在英國(guó)首次播出的電視喜劇《蒙提·派森的飛行馬戲團(tuán)》
(MontyPython'sFlyingCircus)。
Python提供了一種高級(jí)高效的數(shù)據(jù)結(jié)構(gòu),也可以簡(jiǎn)單高效地編程。Python的
語(yǔ)法和動(dòng)態(tài)類(lèi)型,和解釋型語(yǔ)言的本質(zhì),使得其成為大多數(shù)平臺(tái)編寫(xiě)腳本和快
速開(kāi)發(fā)應(yīng)用程序的編程語(yǔ)言。隨著不斷編輯和添加新的語(yǔ)言功能,它逐漸被用
于獨(dú)立、大規(guī)模、大規(guī)模的項(xiàng)目開(kāi)發(fā)。
2021年10月,TIOBE人口指數(shù)開(kāi)發(fā)人員將Python評(píng)為最著名的編程語(yǔ)言。
20年來(lái),它首次位于Java、C和JavaScript中。自20世紀(jì)90年代初Python語(yǔ)
言誕生以來(lái),它已廣泛應(yīng)用于系統(tǒng)管理和Internet編程任務(wù)的開(kāi)發(fā)。
Python第三方模塊簡(jiǎn)介:
Requests:request是以python語(yǔ)音編寫(xiě),基于urllib的,采用Apache2
Licensed開(kāi)源協(xié)議的http庫(kù)。
Re:re是python的標(biāo)準(zhǔn)庫(kù),主要用于使用正則表達(dá)式匹配字符串。
Csv:csv是python的內(nèi)置模塊之一,它可以讀取csv格式的文件,或者把數(shù)
據(jù)存到csv表格之中。
NumPy:numpy庫(kù)是是一個(gè)由多維數(shù)組對(duì)象和用于處理數(shù)組的例程集合組
成的庫(kù),也是python數(shù)據(jù)分析的基礎(chǔ)。
Pymysql:pymysql是一個(gè)連接mysql數(shù)據(jù)庫(kù)的第三方模塊,可作為連接
mysql的客戶端,對(duì)數(shù)據(jù)庫(kù)進(jìn)行增、刪、改、查的操作。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
Pandas:pandas庫(kù)為python的數(shù)據(jù)分析提供了高性能、且易于使用的數(shù)據(jù)結(jié)
構(gòu),即Series(一維數(shù)組結(jié)構(gòu))與DataFrame(二維數(shù)組結(jié)構(gòu)),這兩種數(shù)據(jù)結(jié)
構(gòu)極大地增強(qiáng)了pandas的數(shù)據(jù)分析能力。
Sqlalchemy:sqlalchemy是一個(gè)python語(yǔ)言實(shí)現(xiàn)的針對(duì)關(guān)系型數(shù)據(jù)庫(kù)的orm
庫(kù)??捎糜谶B接大多數(shù)常見(jiàn)的數(shù)據(jù)庫(kù),比如Postges、MySQL、SQLite、Oracle
等。
1.2.2MySQL簡(jiǎn)介
MySQL是一個(gè)開(kāi)源的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),由瑞典MySQLAB公司1995
年開(kāi)發(fā),迅速成為最流行的開(kāi)源關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。在WEB應(yīng)用方面
MySQL是最好的RDBMS(RelationalDatabaseManagementSystem:關(guān)系數(shù)據(jù)庫(kù)
管理系統(tǒng))應(yīng)用軟件之一。
MySQL是一種關(guān)聯(lián)數(shù)據(jù)庫(kù)管理系統(tǒng),將數(shù)據(jù)保存在不同的表中,而不是將
所有數(shù)據(jù)放在一個(gè)大倉(cāng)庫(kù)內(nèi),這樣就增加了速度并提高了靈活性。
MySQL是可以定制的,采用了GPL(GNUGeneralPublicLicense)協(xié)議,
你可以修改源碼來(lái)開(kāi)發(fā)自己的MySQL系統(tǒng)。
MySQL支持大型的數(shù)據(jù)庫(kù),可以處理?yè)碛猩锨f(wàn)條記錄的大型數(shù)據(jù)庫(kù)。支
持5000萬(wàn)條記錄的數(shù)據(jù)倉(cāng)庫(kù),32位系統(tǒng)表文件最大可支持4GB,64位系統(tǒng)支
持最大的表文件為8TB。
MySQL使用標(biāo)準(zhǔn)的SQL數(shù)據(jù)語(yǔ)言形式。
MySQL可以運(yùn)行于多個(gè)系統(tǒng)上,并且支持多種語(yǔ)言。這些編程語(yǔ)言包括
C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。
1.2.3Jypyternotebook簡(jiǎn)介
JupyterNotebook是用網(wǎng)頁(yè)的形式打開(kāi),可以在網(wǎng)頁(yè)頁(yè)面中直接編寫(xiě)代碼與
運(yùn)行代碼,代碼的運(yùn)行結(jié)果也會(huì)直接在代碼塊下顯示。如果在編寫(xiě)代碼過(guò)程中
需要編寫(xiě)說(shuō)明文字,則可在同一個(gè)頁(yè)面中直接編寫(xiě),以便于作及時(shí)的說(shuō)明以及
解釋。
Jupyter的名字是它所服務(wù)的三種語(yǔ)言的縮寫(xiě),即Julia,Python還有R,但
是Jupyter遠(yuǎn)遠(yuǎn)不止支持上面的三種語(yǔ)言,目前能夠使用的語(yǔ)言他基本上都能支
持,包括C、C++、C#,java、Go等等。JupyterNotebook自開(kāi)創(chuàng)以來(lái)迅速成為
數(shù)據(jù)分析,機(jī)器學(xué)習(xí)的必備工具。因?yàn)樗茏寯?shù)據(jù)分析師們集中精神向用戶解
釋整個(gè)分析的過(guò)程。我們可以通過(guò)Jupyternotebook寫(xiě)出學(xué)習(xí)筆記等。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
Jupyter在大數(shù)據(jù)技術(shù)應(yīng)用方面應(yīng)用比較廣泛,特別適合用來(lái)對(duì)數(shù)據(jù)進(jìn)行清洗
和處理,在數(shù)據(jù)可視化方面也是非常便利好用的。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
Python是一種面向?qū)ο蟮挠?jì)算機(jī)編程語(yǔ)言,且相對(duì)其他編程語(yǔ)言更通俗易懂,
利于我們使用其編寫(xiě)程序。在本次項(xiàng)目之中,我們使用python編寫(xiě)程序以實(shí)現(xiàn)
數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)存和數(shù)據(jù)可視化。在項(xiàng)目之初爬取數(shù)據(jù)時(shí)遇到了
一個(gè)問(wèn)題,發(fā)現(xiàn)爬取到的該網(wǎng)頁(yè)源代碼與檢查時(shí)看到的源代碼并不相同,所以
我判斷該網(wǎng)頁(yè)既有可能采用了XHR異步加載方式,如我所料,修改代碼后成功
獲取到了數(shù)據(jù)。然后我們將爬取的數(shù)據(jù)暫時(shí)以csv格式儲(chǔ)存,在通過(guò)數(shù)據(jù)清洗處
理后,將準(zhǔn)確無(wú)誤的數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)之中。最后使用MySQL中的數(shù)據(jù)
進(jìn)行數(shù)據(jù)可視化并分析。
2、項(xiàng)目可行性
新聞是當(dāng)代傳播信息的重要方式之一,如何在眾多新聞之中先他人一步把握
關(guān)鍵信息是非常重要的,畢竟現(xiàn)代社會(huì),時(shí)間就是金錢(qián),我們沒(méi)有那么多時(shí)間
對(duì)新聞逐條翻閱。并且新聞是否準(zhǔn)確,是否沒(méi)有被歪曲也十分重要。
綜上,我們本次對(duì)官方新聞網(wǎng)站即央視新聞網(wǎng)站進(jìn)行分析,最大程度地保證
新聞地準(zhǔn)確性,且我們將從國(guó)內(nèi)新聞,國(guó)際新聞,社會(huì)新聞以及法治新聞板塊,
共4個(gè)分類(lèi)進(jìn)行分析。我們將主要使用新聞內(nèi)容的關(guān)鍵詞,與發(fā)布時(shí)間(精確
到年月日)進(jìn)行分析,以便于后續(xù)實(shí)現(xiàn)可視化后,我們能對(duì)圖像一目了然,分
析準(zhǔn)確。
2.2采集目標(biāo)功能分析
本項(xiàng)目的數(shù)據(jù)來(lái)自央視新聞網(wǎng)站的國(guó)內(nèi)、世界、社會(huì)和法治四個(gè)板塊,通過(guò)
python爬取四個(gè)板塊的新聞數(shù)據(jù)。粗略檢查確定數(shù)據(jù)屬于央視新聞網(wǎng)站,再通
過(guò)數(shù)據(jù)清洗最大程度上保證數(shù)據(jù)的準(zhǔn)確性,最后將準(zhǔn)確的數(shù)據(jù)存入數(shù)據(jù)庫(kù)中,
共1278條數(shù)據(jù)。
分析央視新聞網(wǎng)站網(wǎng)頁(yè)的信息,明確我們需要爬取每條新聞中的新聞標(biāo)題、
關(guān)鍵詞、發(fā)布時(shí)間數(shù)據(jù)。在對(duì)初始數(shù)據(jù)進(jìn)行清洗處理后我們將會(huì)對(duì)數(shù)據(jù)進(jìn)行分
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
析。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
隨著信息時(shí)代的到來(lái),網(wǎng)絡(luò)上充斥著各不相同的數(shù)據(jù)流,數(shù)據(jù)量之大,數(shù)據(jù)
雜糅復(fù)雜。如何自動(dòng)準(zhǔn)確高效地獲取互聯(lián)網(wǎng)中我們感興趣的需要的信息并為我
們所利用是一個(gè)重要的問(wèn)題,為了解決這些問(wèn)題,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)運(yùn)而生。且
隨著人們對(duì)數(shù)據(jù)的重視度越來(lái)越高,網(wǎng)絡(luò)爬蟲(chóng)在互聯(lián)網(wǎng)中的地位也越來(lái)越重要。
網(wǎng)絡(luò)爬蟲(chóng)也被人們稱(chēng)作網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機(jī)器人等,從這些名字中
我們就可以看出網(wǎng)絡(luò)爬蟲(chóng)在網(wǎng)絡(luò)中充當(dāng)?shù)慕巧?。網(wǎng)絡(luò)爬蟲(chóng)可以代替人們自動(dòng)地
在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理。在大數(shù)據(jù)時(shí)代,信息的采集是一項(xiàng)重
要的工作,如果單純靠人力進(jìn)行信息采集,不僅低效繁瑣,搜集的成本也會(huì)提
高。我們可以使用網(wǎng)絡(luò)爬蟲(chóng)對(duì)數(shù)據(jù)信息進(jìn)行自動(dòng)采集,當(dāng)然瀏覽信息的時(shí)候需
要按照我們制定的規(guī)則進(jìn)行,這些規(guī)則我們稱(chēng)之為網(wǎng)絡(luò)爬蟲(chóng)算法。使用Python
語(yǔ)言可以很方便地編寫(xiě)出爬蟲(chóng)程序,進(jìn)行互聯(lián)網(wǎng)信息的自動(dòng)化檢索。
網(wǎng)絡(luò)爬蟲(chóng)由控制節(jié)點(diǎn)、爬蟲(chóng)節(jié)點(diǎn)、資源庫(kù)3部分構(gòu)成。網(wǎng)絡(luò)爬蟲(chóng)中可以有多
個(gè)控制節(jié)點(diǎn),并且每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲(chóng)節(jié)點(diǎn),控制節(jié)點(diǎn)之間可以互
相通信,不僅如此,控制節(jié)點(diǎn)和其下的各爬蟲(chóng)節(jié)點(diǎn)之間也可以進(jìn)行相互通信,
屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲(chóng)節(jié)點(diǎn)間,亦可以互相通信??刂乒?jié)點(diǎn),也稱(chēng)作
爬蟲(chóng)的中央控制器,主要負(fù)責(zé)根據(jù)URL地址來(lái)分配線程,并且調(diào)用爬蟲(chóng)節(jié)點(diǎn)進(jìn)
行具體的爬取。爬蟲(chóng)節(jié)點(diǎn)會(huì)按照相關(guān)的算法,對(duì)網(wǎng)頁(yè)進(jìn)行相應(yīng)的爬取,主要包
括下載網(wǎng)頁(yè)以及對(duì)網(wǎng)頁(yè)的文本進(jìn)行處理。爬取數(shù)據(jù)后,會(huì)將對(duì)應(yīng)的爬取結(jié)果儲(chǔ)
存到對(duì)應(yīng)的資源庫(kù)之中。
網(wǎng)絡(luò)爬蟲(chóng)按照實(shí)現(xiàn)的技術(shù)和結(jié)構(gòu)通??梢苑譃椋和ㄓ镁W(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬
蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)等類(lèi)型。而在實(shí)際的網(wǎng)絡(luò)爬蟲(chóng)中,一般是
這幾類(lèi)爬蟲(chóng)的組合體。爬蟲(chóng)的出現(xiàn),可以在一定程度上代替手工訪問(wèn)網(wǎng)頁(yè),所
以,原先我們需要人工去訪問(wèn)互聯(lián)網(wǎng)信息的操作,現(xiàn)在都可以用爬蟲(chóng)自動(dòng)化實(shí)
現(xiàn),這樣可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。
既然有網(wǎng)絡(luò)爬蟲(chóng),那么相應(yīng)的也有反爬蟲(chóng)技術(shù)。反爬蟲(chóng),指的是對(duì)掃描器中
的網(wǎng)絡(luò)爬蟲(chóng)環(huán)節(jié)進(jìn)行反制,通過(guò)一些反制策略來(lái)阻礙或者干擾爬蟲(chóng)的正常爬行,
從而間接地起到防御作用。爬蟲(chóng)的反制策略有很多種,但大體可歸為基于IP的
反爬蟲(chóng)和基于爬行的反爬蟲(chóng)兩大類(lèi)。對(duì)于基于IP的反爬蟲(chóng),主要思路就是通過(guò)
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
人為或部分策略來(lái)識(shí)別出爬蟲(chóng)的IP并進(jìn)行屏蔽、阻止、封禁等操作。對(duì)基于爬
行的反爬蟲(chóng),其思路主要是在爬蟲(chóng)的爬行中設(shè)置爬行障礙,讓其陷入死循環(huán);
或者用一些無(wú)意義的URL來(lái)填充其爬行隊(duì)列,從而阻止其對(duì)正常URL進(jìn)行后
續(xù)的漏洞審計(jì)。
2.3.2文件存取技術(shù)
Python內(nèi)置csv模塊如圖2-1顯示:
圖2-1python內(nèi)置csv模塊
2.3.3可視化技術(shù)
我們?cè)诰W(wǎng)頁(yè)爬取到數(shù)據(jù),繼續(xù)數(shù)據(jù)清洗處理后仍然不能通過(guò)這些數(shù)據(jù)直接得
出我們想要的信息?!耙粓D勝千言”,對(duì)于復(fù)雜難懂且體量龐大的數(shù)據(jù)而言,
圖表的信息量要更簡(jiǎn)潔明了,那么我們將數(shù)據(jù)統(tǒng)計(jì)分析后,怎樣以更利于人理
解的圖表將這些數(shù)據(jù)蘊(yùn)含的信息表達(dá)出來(lái)呢?——數(shù)據(jù)可視化技術(shù)。
顧名思義,數(shù)據(jù)可視化就是將數(shù)據(jù)轉(zhuǎn)換成圖表類(lèi)的形式,以一種更直觀的方
式呈現(xiàn)數(shù)據(jù),讓讀者能一眼看懂你想表達(dá)的信息。通過(guò)“可視化”的方式,復(fù)雜的
數(shù)據(jù)通過(guò)圖形化的手段進(jìn)行表達(dá),可以準(zhǔn)確高效、簡(jiǎn)潔全面地傳遞某種信息,
甚至我們幫助發(fā)現(xiàn)某種規(guī)律和特征,挖掘數(shù)據(jù)背后的價(jià)值。
數(shù)據(jù)可視化這一概念自1987年正式提出,經(jīng)過(guò)30余年的發(fā)展,逐漸形成3
個(gè)分支:科學(xué)計(jì)算可視化(scientificvisualization)、信息可視化(information
visualization)和可視分析(visualanalytics)。近些年來(lái),這3個(gè)子領(lǐng)域出現(xiàn)了逐漸
融合的趨勢(shì)。本次項(xiàng)目用到的就是信息可視化,信息可視化處理的對(duì)象是抽象
數(shù)據(jù)集合,起源于統(tǒng)計(jì)圖形學(xué),又與信息圖形、視覺(jué)設(shè)計(jì)等現(xiàn)代技術(shù)相關(guān)。其
表現(xiàn)形式通常在二維空間,因此關(guān)鍵問(wèn)題是在有限的展現(xiàn)空間中以直觀的方式
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
傳達(dá)大量的抽象信息。
本項(xiàng)目將爬取到的數(shù)據(jù)通過(guò)簡(jiǎn)單的數(shù)據(jù)可視化方法實(shí)現(xiàn)數(shù)據(jù)可視化,主要使
用python第三方模塊pyecharts實(shí)現(xiàn)數(shù)據(jù)可視化,pyecharts中包含了各種庫(kù),分
別對(duì)應(yīng)各式各樣的圖形,可以將數(shù)據(jù)蘊(yùn)含的信息用圖表清晰地表達(dá)出來(lái),輕松
得出結(jié)論。
3數(shù)據(jù)采集
3.1采集頁(yè)面分析
我們首先使用谷歌瀏覽器打開(kāi)央視新聞網(wǎng)站(/),在圖
3-1中可發(fā)現(xiàn)央視新聞網(wǎng)對(duì)新聞做了分類(lèi),如國(guó)內(nèi),國(guó)際新聞等。進(jìn)入國(guó)內(nèi)新聞
板塊后,觀察圖3-2可發(fā)現(xiàn)URL變?yōu)椋?china/,并且在頁(yè)面
下方可以看到近期的國(guó)內(nèi)新聞。
圖3-1央視新聞網(wǎng)站頁(yè)面
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-2央視國(guó)內(nèi)新聞網(wǎng)站頁(yè)面
按F12后調(diào)出開(kāi)發(fā)者工具對(duì)網(wǎng)頁(yè)進(jìn)行解析,發(fā)現(xiàn)爬取到的該網(wǎng)頁(yè)源代碼與檢
查時(shí)看到的源代碼并不相同,所以該網(wǎng)頁(yè)既有可能采用了XHR異步加載方式,
所以在network中尋找該子網(wǎng)頁(yè)正確的URL信息,對(duì)頁(yè)面刷新,network中出現(xiàn)
了我們要尋找的XHR。通過(guò)查看XHR的具體信息及所對(duì)應(yīng)的RequestURL可知,
該網(wǎng)頁(yè)確實(shí)采用了異步加載方式動(dòng)態(tài)加載數(shù)據(jù)。
3.2字段分析
進(jìn)入央視新聞國(guó)內(nèi)板塊頁(yè)面后按F12后調(diào)出開(kāi)發(fā)者工具頁(yè)面,在“預(yù)覽”中
可以找到要爬取的信息,如圖3-3??梢园l(fā)現(xiàn)每個(gè)新聞包含了title、focus_date、
keywords3個(gè)關(guān)鍵字段。我們還能知道它為get方法響應(yīng)的網(wǎng)站,所以我們可以
使用request方法中的get方法來(lái)獲取所需的數(shù)據(jù)。在央視新聞網(wǎng)站中不僅僅單
有國(guó)內(nèi)板塊,按照相同的步驟我們將依次獲取國(guó)內(nèi)、世界、社會(huì)、法治四個(gè)板
塊的數(shù)據(jù),分別存入csv文件中,以便于對(duì)數(shù)據(jù)進(jìn)行清洗。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-3央視國(guó)內(nèi)新聞網(wǎng)站開(kāi)發(fā)者工具頁(yè)面
3.3編程實(shí)現(xiàn)
使用pycharm進(jìn)行python語(yǔ)言程序編寫(xiě)如圖3-4,3-5所示:
圖3-4數(shù)據(jù)采集代碼1
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖3-5數(shù)據(jù)采集代碼2
4數(shù)據(jù)清洗與處理
在爬取大量數(shù)據(jù)之后我們需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,即數(shù)據(jù)清洗,檢查
爬取的數(shù)據(jù)是否含有空值,重復(fù)值,以及數(shù)據(jù)的位置是否正確,確保數(shù)據(jù)準(zhǔn)確
無(wú)誤,不會(huì)影響到后期我們對(duì)數(shù)據(jù)進(jìn)行分析與展示。
4.1數(shù)據(jù)清洗
圖4-1
我們利用isnull和duplicated方法依次檢查數(shù)據(jù)是否存在空值以及重復(fù)值,
發(fā)現(xiàn)除china.csv中的數(shù)據(jù)出現(xiàn)了重復(fù)值的情況,其他3個(gè)csv文件均未有空值
和重復(fù)值,我們使用china.drop_duplicates(inplace=True)語(yǔ)句對(duì)讀取的數(shù)據(jù)進(jìn)行
修改。
4.2數(shù)據(jù)儲(chǔ)存
數(shù)據(jù)儲(chǔ)存有許多種方法,例如最常見(jiàn)的記事本格式儲(chǔ)存(txt),或者使用其
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
他類(lèi)型文件的形式儲(chǔ)存,如csv、excel、json等,但是以上方法都有一個(gè)弊端,也
就是他們保存的數(shù)據(jù)量都普遍比較小。如果我們需要儲(chǔ)存較大的數(shù)據(jù)量就需要
使用到數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)分為關(guān)系型以及非關(guān)系型數(shù)據(jù)庫(kù)。本次項(xiàng)目我們使用了csv
儲(chǔ)存尚未清洗的數(shù)據(jù),用MySQL儲(chǔ)存清洗完成的數(shù)據(jù)。
4.3編程實(shí)現(xiàn)
創(chuàng)建數(shù)據(jù)表并導(dǎo)入于jupyternotebook中修改后的表格數(shù)據(jù)如圖4-2、4-3所
示:
圖4-2數(shù)據(jù)清洗代碼圖1
圖4-3數(shù)據(jù)清洗代碼圖2
檢查數(shù)據(jù)庫(kù)數(shù)據(jù)是否有誤如圖4-4所示:
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-4數(shù)據(jù)展示
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
打開(kāi)jupyternotebook,使用pandas對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行讀?。?/p>
圖5-1數(shù)據(jù)準(zhǔn)備頁(yè)面
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2數(shù)據(jù)展示
5.2.1依據(jù)國(guó)內(nèi)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析
圖5-2數(shù)據(jù)展示頁(yè)面
我們對(duì)國(guó)內(nèi)新聞數(shù)據(jù)的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)出
現(xiàn)的頻率,最后生成一個(gè)列表,取排名前九的關(guān)鍵詞生成餅圖,如圖5-2所示,
可以看到‘中國(guó)現(xiàn)代化’出現(xiàn)的次數(shù)最高,再結(jié)合‘習(xí)近平’,‘十四五’兩
詞,我們不難發(fā)現(xiàn)當(dāng)下中國(guó)的主旋律是建設(shè)現(xiàn)代化的中國(guó),與十四五規(guī)劃中第
一篇開(kāi)啟全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家新征程相呼應(yīng),而習(xí)近平同志又是國(guó)家
領(lǐng)導(dǎo)人,更加表明‘中國(guó)現(xiàn)代化’的重要性。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2依據(jù)國(guó)際新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析
圖5-3數(shù)據(jù)展示頁(yè)面
我們對(duì)國(guó)際新聞數(shù)據(jù)的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)出
現(xiàn)的頻率,最后生成一個(gè)列表,取列表前十條數(shù)據(jù)生成柱狀圖進(jìn)行分析。如圖5-3
所示,‘土耳其’出現(xiàn)23次,‘?dāng)⒗麃啞霈F(xiàn)18次,‘救援隊(duì)’出現(xiàn)7次。
聯(lián)系到近期土耳其連續(xù)發(fā)生7.8級(jí)和7.5級(jí)兩次地震,且根據(jù)相關(guān)數(shù)據(jù)表明,該
次地震造成了土耳其以及敘利亞兩國(guó)近4.7萬(wàn)人遇難,在巨大災(zāi)難之下,各國(guó)聯(lián)
合發(fā)起國(guó)際救援行動(dòng)。而該次地震也讓土耳其政府發(fā)現(xiàn)了建筑安全系數(shù)問(wèn)題,
并對(duì)184名涉嫌參與建造劣質(zhì)建筑的人發(fā)出逮捕令。
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.3依據(jù)法治新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析
圖5-4數(shù)據(jù)展示頁(yè)面
我們對(duì)法治新聞數(shù)據(jù)中的關(guān)鍵詞字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)
出現(xiàn)的頻率,最后生成一個(gè)列表,通過(guò)列表里面的數(shù)據(jù)再按照詞頻生成詞云圖。如
圖5-4所示,‘檢察機(jī)關(guān)’居中而視,結(jié)合‘中央紀(jì)委’、‘開(kāi)除黨籍’、‘違
紀(jì)違法’、‘警方’等明顯的關(guān)鍵數(shù)據(jù),可了解到當(dāng)下政府機(jī)關(guān)與共產(chǎn)黨對(duì)內(nèi)
部人員違法違紀(jì)行為非常重視,且對(duì)內(nèi)部的整治有了一定成效,政府機(jī)關(guān)工作
人員在這種形勢(shì)下也會(huì)認(rèn)識(shí)到遵紀(jì)守法的重要性,也會(huì)更好地工作、為人民服
務(wù)。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.4依據(jù)社會(huì)新聞數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析
圖5-5數(shù)據(jù)展示頁(yè)面
我們對(duì)社會(huì)新聞數(shù)據(jù)的發(fā)布時(shí)間字段數(shù)據(jù)進(jìn)行匯總和處理然后統(tǒng)計(jì)各數(shù)據(jù)
出現(xiàn)的頻率,最后生成一個(gè)新聞當(dāng)日發(fā)布量列表,通過(guò)列表里面的數(shù)據(jù)生成折線
圖。在圖5-5中我們不難看出1月21日后新聞當(dāng)日發(fā)布量銳減,不難分析出原
因?yàn)槌εc大年初一放假,而這兩日之后新聞當(dāng)日發(fā)布量暴增,為何?自然是
因?yàn)楣?jié)日后社會(huì)類(lèi)新聞更多,各地都有其慶祝節(jié)日的方法,不盡相同。而再往
后我們也能發(fā)現(xiàn)2月6日即元宵節(jié)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 加層導(dǎo)致該房屋裂縫賠償合同書(shū)(4篇)
- 公眾公司監(jiān)督管理制度
- 專(zhuān)科醫(yī)生調(diào)考復(fù)習(xí)試題附答案
- 藥理學(xué)復(fù)習(xí)測(cè)試題
- 2025股東借款合同范本(16篇)
- 嵌入式開(kāi)發(fā)中的軟件版本管理試題及答案
- 2024年中韓雇傭許可制情況統(tǒng)計(jì)分析報(bào)告
- 數(shù)字媒體設(shè)計(jì)創(chuàng)意與技能測(cè)試題庫(kù)
- 現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)鏈協(xié)同發(fā)展合同書(shū)
- 農(nóng)業(yè)合作社種養(yǎng)殖項(xiàng)目合作合同
- 通向自由與智慧之路
- GB/T 18380.12-2008電纜和光纜在火焰條件下的燃燒試驗(yàn)第12部分:?jiǎn)胃^緣電線電纜火焰垂直蔓延試驗(yàn)1 kW預(yù)混合型火焰試驗(yàn)方法
- word基礎(chǔ)入門(mén)公開(kāi)課課件
- 綜合、專(zhuān)科醫(yī)院執(zhí)業(yè)校驗(yàn)標(biāo)準(zhǔn)
- 學(xué)習(xí)羅陽(yáng)青年隊(duì)故事PPT在急難險(xiǎn)重任務(wù)中攜手拼搏奉獻(xiàn)PPT課件(帶內(nèi)容)
- 稀土元素的分離方法-icaredbd課件
- 四年級(jí)下數(shù)學(xué)課件-火車(chē)過(guò)橋-通用版
- 版式設(shè)計(jì)課件3,網(wǎng)格系統(tǒng)全攻略
- 船舶防臺(tái)風(fēng)安全安全知識(shí)
- 國(guó)家開(kāi)放大學(xué)《人文英語(yǔ)3》章節(jié)測(cè)試參考答案
- 用雙棱鏡干涉測(cè)光波(20149)
評(píng)論
0/150
提交評(píng)論