




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第六章
數(shù)據(jù)可視化大數(shù)據(jù)概論及應(yīng)用實踐IntroductiontoBigDataandApplicationPractice第6章
數(shù)據(jù)可視化在大數(shù)據(jù)時代,種類繁多、數(shù)據(jù)復(fù)雜、類型多樣的信息源產(chǎn)生大量的數(shù)據(jù),龐大的數(shù)量已經(jīng)大大超出了人類的處理能力,人類大腦已經(jīng)無法從堆積如山的數(shù)據(jù)中快速發(fā)現(xiàn)核心問題,那么如何將大數(shù)據(jù)的出來信息更加直觀的呈現(xiàn)出來,以幫助人們理解數(shù)據(jù),同時找出包含在海量數(shù)據(jù)中的規(guī)律或信息就顯得尤為重要了。要解決這個問題,就需要數(shù)據(jù)可視化,根據(jù)數(shù)據(jù)的特性,通過豐富的視覺效果,以直觀、生動、易理解的方式呈現(xiàn)出來,給與人們深刻與意想不到的洞察力,可以有效提升數(shù)據(jù)分析的效率和效果。數(shù)據(jù)可視化是大數(shù)據(jù)分析的最后環(huán)節(jié),也是非常關(guān)鍵的一環(huán)。本章首先介紹可視化的概念,然后分類介紹可視化工具,最后給出幾個典型的可視化案例。目錄CONTENTS概述6.1數(shù)據(jù)可視化主要技術(shù) 6.2可視化工具6.3拓展實訓(xùn)6.4本章小結(jié)6.5習(xí)題6.6概
述PART01
海量繁瑣復(fù)雜的數(shù)據(jù)對人們來說是枯燥無趣的,相對而言,人們對圖形、大小、顏色等有更加直觀的感知。利用數(shù)據(jù)可視化平臺,講這些枯燥乏味的數(shù)據(jù)轉(zhuǎn)變成豐富生動的視覺效果,不僅有助于簡化人們的分析過程,還在很大程度上提高了分析數(shù)據(jù)的效率,發(fā)現(xiàn)數(shù)據(jù)中隱含的價值,從而實現(xiàn)簡潔高效地傳達信息。6.1.1數(shù)據(jù)可視化的概念數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的研究,是將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形、圖像形式表示,利用計算機圖形學(xué)和圖像處理技術(shù)以及利用數(shù)據(jù)分析和開發(fā)工具,進行交互處理的理論、方法和技術(shù),能夠發(fā)現(xiàn)未知的信息。數(shù)據(jù)可視化的基本思想是使人們不再局限于通過關(guān)系數(shù)據(jù)表來觀察和分析數(shù)據(jù)信息,而是將數(shù)據(jù)庫中每一個數(shù)據(jù)項以單個圖元素來表示,用大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,能夠更加明了地從不同的維度發(fā)現(xiàn)數(shù)據(jù)之間潛在的聯(lián)系,從而對數(shù)據(jù)進行更深入的觀察和分析。雖然數(shù)據(jù)可視化在數(shù)據(jù)分析領(lǐng)域并非是最具技術(shù)挑戰(zhàn)性的部分,但是在整個數(shù)據(jù)分析流程過程中最重要的一個環(huán)節(jié)。6.1.2
數(shù)據(jù)可視化的原則數(shù)據(jù)可視化是讓數(shù)據(jù)的信息變得更有意義,更好地展示數(shù)據(jù)的價值,它可以優(yōu)美地將大數(shù)據(jù)中的繁雜信息簡化成既生動有趣又富有意義的可視化圖形,讓人們可以輕松地了解數(shù)據(jù)背景,得到所需信息。因此,數(shù)據(jù)可視化的原則通常有以下幾點:
1.理解數(shù)據(jù)源及數(shù)據(jù)數(shù)據(jù)源即為數(shù)據(jù)的來源,是復(fù)雜多樣的。數(shù)據(jù)可視化關(guān)鍵的第一步是確保了解需要進行可視化的數(shù)據(jù),它可以是各種數(shù)據(jù)類型,但是數(shù)據(jù)源必須可靠、實用、完整、真是切具備更新能力。在數(shù)據(jù)可視化工作之前,首先做好一些前期準(zhǔn)備基礎(chǔ)工作,比如對數(shù)據(jù)有全局的宏觀理解,了解被采集的數(shù)據(jù)可以展現(xiàn)出什么樣的價值,只有這樣才能針對性地進行下一步工作,創(chuàng)造出既有價值又人性化的數(shù)據(jù)可視化展示。6.1.2
數(shù)據(jù)可視化的原則
2.明確數(shù)據(jù)可視化的目的好的數(shù)據(jù)可視化不僅要在形式上美觀,還要能夠幫助人們?nèi)ソ庾x之前無法觸及的內(nèi)容,并使這些內(nèi)容賦有意義和指導(dǎo)性。因此在進行數(shù)據(jù)可視化操作之前,除去了解數(shù)據(jù)源及數(shù)據(jù)之外,還必須要明確數(shù)據(jù)可視化的目的。要呈現(xiàn)的是什么樣的展示結(jié)果,是針對一個活動的分析還是針對一個發(fā)展階段的分析,是研究用戶還是研究銷量等。
3.注重數(shù)據(jù)的比較從海量數(shù)據(jù)中想要了解數(shù)據(jù)所反映的問題,就必須要進行比較。數(shù)據(jù)比較是相對,不僅在于量的呈現(xiàn),更能夠直觀的看到問題所在。一般同比或者環(huán)比使用得較多。
4.建立數(shù)據(jù)指標(biāo)在數(shù)據(jù)可視化的過程中,建立正確的數(shù)據(jù)指標(biāo)才會有對比性,才知道對比的標(biāo)準(zhǔn)在哪里,也才能更好地知道問題所在。數(shù)據(jù)指標(biāo)的設(shè)置要結(jié)合具體的業(yè)務(wù)背景,科學(xué)地進行處理,不是憑空設(shè)置。用戶可根據(jù)現(xiàn)有的數(shù)據(jù)指標(biāo)進行深層次的自我思考,而不是僅僅給用戶呈現(xiàn)一個數(shù)據(jù)形式及結(jié)果。6.1.2
數(shù)據(jù)可視化的原則
5.簡單法則數(shù)據(jù)可視化的是將數(shù)據(jù)信息以一種生動有趣的簡單直觀的方式呈現(xiàn)給用戶,而不是用戶接受冗余的信息。其關(guān)鍵就在于采用用戶第一的理念,專注簡單的設(shè)計方法,將復(fù)雜或者零散的信息變的切實可行,易于理解。
6.數(shù)據(jù)可視化的藝術(shù)性數(shù)據(jù)可視化的藝術(shù)性是指呈現(xiàn)出來的圖形圖像應(yīng)當(dāng)具有藝術(shù)性,符合審美規(guī)則以吸引讀者的注意力。數(shù)據(jù)展示的形式從總體的局部,要有一個邏輯清晰的思路,才能有針對性的解決辦法。在保證基礎(chǔ)數(shù)據(jù)被展示的同時,還要增加圖形的可讀性和生動性。只有讓數(shù)據(jù)表格或者數(shù)據(jù)圖形呈現(xiàn)的方式更加多樣化,才能更好的激發(fā)人們的興趣,提升體驗感,發(fā)揮更大的價值。6.1.3
可視化的發(fā)展歷程在很早之前,人們就引入可視化技術(shù)輔助分析問題。早在1854年的時候,倫敦發(fā)生霍亂,10天的時間里500多人死于該疾病。當(dāng)時很多人認為霍亂是通過空氣傳播的,但是JohnSnow醫(yī)師并不這么認為,于是他繪制了一張霍亂分布地鐵,并據(jù)此找到了霍亂爆發(fā)的根源應(yīng)該是一個被污染的水泵。當(dāng)人們把這個水泵處理掉以后,霍亂的發(fā)病人數(shù)就明顯開始下降。數(shù)據(jù)可視化歷史的另一經(jīng)典案例就是發(fā)生在1857年想“提燈女神”南丁格爾設(shè)計的“雞冠花圖”,又稱為“玫瑰圖”,它以圖形的方式直觀地展示了英國在克里米亞戰(zhàn)爭中犧牲展示的數(shù)量和死亡原因,有力地說明了改善軍隊醫(yī)院的條件對減少戰(zhàn)爭傷亡人數(shù)的重要性。數(shù)據(jù)可視化的發(fā)展雖然已經(jīng)經(jīng)歷數(shù)世紀(jì)之久,但是其依舊處在不斷變革的過程中。20世紀(jì)50年代,隨著計算機的出現(xiàn)以及計算機圖形學(xué)的發(fā)展,人們可以利用計算機技術(shù)繪制出各種圖形圖像圖表,可視化技術(shù)也開啟了全新的發(fā)展階段。最初,可視化技術(shù)被大量應(yīng)用于統(tǒng)計學(xué)領(lǐng)域,用來繪制統(tǒng)計圖表,如圓環(huán)圖、柱狀圖、餅圖、直方圖、時間序列圖、等高線圖、散點圖等6.1.4
可視化的重要作用隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的容量和復(fù)雜性在不斷增加,從而限制了普通用戶從大數(shù)據(jù)中直接獲取知識,不能直接從中獲取價值。即使是重要的結(jié)論,如果用戶無法理解或無法獲取有用價值,都是沒有任何意義的。數(shù)據(jù)可視化技術(shù)就是這樣一種幫著用戶分析、理解和共享信息的極好媒介。因此,數(shù)據(jù)可視化的需求越來越大,依靠可視化手段進行數(shù)據(jù)分析必將成為大數(shù)據(jù)分析流程的主要環(huán)節(jié)之一。讓海量數(shù)據(jù)以可視化的方式呈現(xiàn),讓枯燥乏味的數(shù)據(jù)以簡單友好的圖表形式展現(xiàn)出來,可以使數(shù)據(jù)變得更加通俗易懂,有助于用戶更加方便快捷的理解數(shù)據(jù)的深層次含義,有效參與復(fù)雜的數(shù)據(jù)分析過程,提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。在大數(shù)據(jù)時代,可視化技術(shù)可以支持實現(xiàn)多種不同的目標(biāo)。1.觀測、跟蹤數(shù)據(jù)從人類大腦處理信息的方式來看,人類的視覺系統(tǒng)更容易接受來自外界的信息,因而理解大量復(fù)雜數(shù)據(jù)時使用圖表要比傳統(tǒng)的查看電子表格或報表更容易。因此對于不斷變化的中的多個參數(shù)值,利用變化的數(shù)據(jù)生成實時變化的可視化圖表,可以讓人們一眼看出各種參數(shù)的動態(tài)變化過程,有效跟蹤各種參數(shù)值,參與到復(fù)雜的數(shù)據(jù)分析過程,提升數(shù)據(jù)分析效率,從而使人們從中獲得打量有價值的信息。比如,百度地圖提供實時路況服務(wù),可以查詢到全國各大城市的實時交通路況信息。6.1.4
可視化的重要作用3.輔助理解數(shù)據(jù)可視化技術(shù)可以使人們有效地利用數(shù)據(jù),使用更多的數(shù)據(jù)資源,從中獲取更多有用的信息,提出更好的解決方案。利用可視化分析的結(jié)果,能夠使人們能夠更快、更準(zhǔn)確的理解數(shù)據(jù)背后的含義,比如使用不同的顏色區(qū)分不同的對象、用動畫顯示變化過程、用圖結(jié)構(gòu)展現(xiàn)對象間的復(fù)雜關(guān)系等。這樣就能最大限度地提高生產(chǎn)力,讓信息的價值最大化。例如,微軟亞洲研究院設(shè)計開發(fā)的人立方關(guān)系搜索,能從超過10億的中文網(wǎng)頁中自動地抽取出人名、地名、機構(gòu)名以及中文短語,并通過算法自動的計算出它們之間存在關(guān)系的可能性,最終以可視化的關(guān)系圖形式呈現(xiàn)出來。6.1.4
可視化的重要作用4.增強數(shù)據(jù)吸引力枯燥的數(shù)據(jù)被制作成具有強大視覺沖擊力和說服力的圖像,可以大大增強數(shù)據(jù)對人們的吸引力,增強讀者的閱讀興趣,極大地提高了人們理解數(shù)據(jù)知識的效率??梢暬瘓D表新聞就是一個非常好的案例。在面對海量的新聞信息時,人們的時間和精力都是有限的。傳統(tǒng)單調(diào)保守的講述方式已經(jīng)不能引起人們的興趣,需要更加直觀、高效的信息呈現(xiàn)方式。因此,現(xiàn)在的新聞播報也越來越多的采用數(shù)據(jù)圖表,動態(tài)、立體化地呈現(xiàn)報道內(nèi)容,讓讀者對內(nèi)容一目了然,能夠在短時間內(nèi)迅速消化和吸收。6.1.4
可視化的重要作用PART02數(shù)據(jù)可視化
主要技術(shù)
數(shù)據(jù)可視化的方式和數(shù)據(jù)內(nèi)容是密切相關(guān)的,不同的數(shù)據(jù)類型,決定了數(shù)據(jù)內(nèi)部之間的依賴關(guān)系,也決定了需要不同的可視化映射的方法。6.2
數(shù)據(jù)可視化主要技術(shù) 數(shù)據(jù)可視化的方式和數(shù)據(jù)內(nèi)容是密切相關(guān)的,不同的數(shù)據(jù)類型,決定了數(shù)據(jù)內(nèi)部之間的依賴關(guān)系,也決定了需要不同的可視化映射的方法。數(shù)據(jù)集是數(shù)據(jù)的集合,它的基本組成單元依據(jù)不同的結(jié)構(gòu)或者數(shù)學(xué)含義,包括多個不同的屬性,比如對象、空格和空間位置等。對象是離散的個體,網(wǎng)格和空間位置則是連續(xù)的對象。因此根據(jù)不同的數(shù)據(jù)類型,數(shù)據(jù)集被劃分成結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括四個基本類型:表格數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、場數(shù)據(jù)和幾何數(shù)據(jù)。表數(shù)據(jù)包括關(guān)系型表格數(shù)據(jù)和多維數(shù)據(jù),區(qū)別在于關(guān)系型表格數(shù)據(jù)只需要一個屬性作為每個對象的標(biāo)識符,而多維數(shù)據(jù)需要多個屬性。網(wǎng)絡(luò)數(shù)據(jù)又成圖數(shù)據(jù),包含對象和對象的關(guān)系,被稱為節(jié)點和邊,節(jié)點和邊可以有各自的屬性。場數(shù)據(jù)來自對連續(xù)空間的采樣,每個采樣點成為格點。采樣點之間的數(shù)據(jù)通常需要使用插值的方法計算。6.2
數(shù)據(jù)可視化主要技術(shù) 此外還有其他一些數(shù)據(jù)集類型,將數(shù)據(jù)按照不同的方式組織起來。如聚類將相似的數(shù)據(jù)聚集在一起,集合將不重復(fù)的若干數(shù)據(jù)無序地聚集在一起,數(shù)組則允許聚集的數(shù)據(jù)重復(fù)和有序。非結(jié)構(gòu)化數(shù)據(jù),包括自然語言文本,圖片、視頻等,常需要轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)才可以便于進行可視化。根據(jù)目前通常的數(shù)據(jù)類型,接下來重點講述高維、層次、時空、網(wǎng)絡(luò)、文本和高擴展等主要數(shù)據(jù)類型。6.2.1
高維數(shù)據(jù)可視化高維數(shù)據(jù)是一種十分常見的數(shù)據(jù)類型。這種數(shù)據(jù)類型的數(shù)據(jù)擁有多個屬性,比如學(xué)生檔案,圖書館圖書的信息等。以學(xué)生檔案為例,如表6-1所示,每一列(包括“姓名”“性別”,“學(xué)號”等)稱為數(shù)據(jù)的一個維度或變量,而每一行稱為數(shù)據(jù)的一個樣本或數(shù)據(jù)對象。在笛卡爾坐標(biāo)系下,各維度數(shù)軸相互正交形成高維數(shù)據(jù)空間,每個樣本都是其中的一個數(shù)據(jù)點。為了直觀形象地展現(xiàn)出分析結(jié)果,產(chǎn)生了大量的可視化技術(shù),比如降維投影圖、子空間分析、散點圖矩陣、平行坐標(biāo)法等。1.降維投影圖在高維數(shù)據(jù)中,如何盡可能地減少維度數(shù)目,一直來都是一個重要的研究課題。降維投影是機器學(xué)習(xí)方法中最經(jīng)典而常用的方法,它通過構(gòu)造低維空間中的數(shù)據(jù)分布,來高仿展示出高維空間中的數(shù)據(jù)關(guān)系。而投影算法是近些年來被廣泛應(yīng)用于展現(xiàn)高維數(shù)據(jù)分布的各類應(yīng)用場景中,其顯著特點是直觀易懂、概括性強。按照投影空間與元數(shù)據(jù)空間的關(guān)系,投影算法可分為兩類:即線性投影和非線性投影。在線性投影中,原高維數(shù)據(jù)經(jīng)過線性變換能得到投影后的低維數(shù)據(jù)。而非線性投影中,投影前后的數(shù)據(jù)不存在線性變換關(guān)系。6.2.1
高維數(shù)據(jù)可視化為了直觀形象地展現(xiàn)出分析結(jié)果,產(chǎn)生了大量的可視化技術(shù),比如降維投影圖、子空間分析、散點圖矩陣、平行坐標(biāo)法等。1.降維投影圖線性投影的優(yōu)點在于算法結(jié)果穩(wěn)定、直觀易理解,且保留了原有的數(shù)據(jù)維度、方便用戶進行維度語義的解讀。此種方法主要適用于線下結(jié)構(gòu)較好的數(shù)據(jù)(如高維空間中的低維平面),缺乏刻畫復(fù)雜結(jié)構(gòu)的能力。非線性投影能夠更好的捕捉非線性的數(shù)據(jù)結(jié)構(gòu),包括數(shù)據(jù)聚類,數(shù)據(jù)異常、流行拓撲等。此外它對于維度增長所帶來的的維數(shù)災(zāi)難不敏感,具有更好的可擴展性。6.2.1
高維數(shù)據(jù)可視化2.平行坐標(biāo)法平行坐標(biāo)法是一種經(jīng)典的高維數(shù)據(jù)可視化的方法。它將多個維度的坐標(biāo)軸并列排放,并利用一條折線來表現(xiàn)每個數(shù)據(jù),折線在軸上的位置表示數(shù)據(jù)在各維度上的取值。通常被廣泛應(yīng)用在時間的數(shù)據(jù)分析中,其顯示形式緊湊、表達高效。平行坐標(biāo)的折線需要利用更多像素來表達每個數(shù)據(jù),因此當(dāng)數(shù)據(jù)量持續(xù)增大是,顯示空間更容易產(chǎn)生視覺混淆,只有通過適當(dāng)設(shè)置折線的不透明度才可以有限減輕視覺混淆的問題。此外,平行坐標(biāo)只能顯示相鄰兩軸之間的數(shù)據(jù)關(guān)系,不相鄰的維度很難直接進行比較??梢娋S度的順序?qū)ζ叫凶鴺?biāo)至關(guān)重要,不合理的排序很容易掩蓋重要的數(shù)據(jù)特征。6.2.1
高維數(shù)據(jù)可視化3.散點圖矩陣散點圖矩陣是雙變量散點圖在多變量情況下的拓展,展現(xiàn)各維度兩兩之間的數(shù)據(jù)關(guān)系。它是展示形式直觀易懂,且有利于進行雙變量數(shù)據(jù)分析,但是可擴展性較差,隨著維度數(shù)目的增加,散點圖的數(shù)量呈平方量級增長,每個散點圖的可視面積就迅速縮減。用戶難以分析大量三點圖,也難以看清每個視圖的數(shù)據(jù)分布。4.高緯度數(shù)據(jù)可視化的方法比較除去前面所介紹的降維投影、散點圖矩陣、平行坐標(biāo)以外,高維可視化還有許多其他的方法,比如星型坐標(biāo)、RadViz等。它們有各自的優(yōu)缺點,在應(yīng)用中需要根據(jù)數(shù)據(jù)與目標(biāo)進行相應(yīng)的選擇。6.2.1
高維數(shù)據(jù)可視化網(wǎng)絡(luò),也稱作圖,是由節(jié)點和邊組成。節(jié)點通常表示現(xiàn)實世界中的實體,邊代表的是實體之間的關(guān)聯(lián)。微信、微博等社交網(wǎng)站中的好友關(guān)系構(gòu)成社交網(wǎng)絡(luò);城市之間的往來航班形成了航空網(wǎng)絡(luò)。諸如此類的網(wǎng)絡(luò)數(shù)據(jù),其可視化關(guān)注分析網(wǎng)絡(luò)的拓撲結(jié)構(gòu)以及網(wǎng)絡(luò)的演變過程。在傳統(tǒng)的可視化方法只能分析少量的節(jié)點網(wǎng)絡(luò),而近年來涌現(xiàn)出的大量優(yōu)秀可視化化技術(shù)來應(yīng)對大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)分析帶來的挑戰(zhàn)。6.2.2
網(wǎng)絡(luò)數(shù)據(jù)可視化
1.大規(guī)模網(wǎng)絡(luò)可視化大圖,通常是指圖中包含的節(jié)點數(shù)量在萬級以上,直接布局會產(chǎn)生視覺混淆。針對大規(guī)模網(wǎng)絡(luò)可視化分析,主要介紹下布局算法。針對圖的布局算法主要有力導(dǎo)向布局和基于距離的多維尺度分析兩種。力導(dǎo)向布局是借用彈簧模型模擬布局過程,相鄰節(jié)點之間存在彈簧彈力,過近的節(jié)點會被彈開,而過遠的節(jié)點會被拉近,不相鄰的節(jié)點之間存在排斥力,通過迭代,整個系統(tǒng)達到動態(tài)平衡,趨于穩(wěn)定。其特點是易于理解、容易實現(xiàn),有較好的對稱性和局部聚合性,比較美觀。算法的交互性較好,用戶能夠觀察到整個布局逐漸趨于動態(tài)平衡的過程,對于結(jié)果更容易接受。6.2.2
網(wǎng)絡(luò)數(shù)據(jù)可視化
1.大規(guī)模網(wǎng)絡(luò)可視化對于大規(guī)模圖數(shù)據(jù),采用直接繪制的方式往往會產(chǎn)生大量的邊交叉和節(jié)點遮擋,帶來視覺混淆,既增加了繪制的難度,又影響用戶對真實數(shù)據(jù)的認知。因此,已有的研究工作可以分為兩種基本思路,一種是對拓撲進行簡化,另一種是從原始的圖結(jié)構(gòu)中提取框架。在對圖的拓撲進行簡化時,應(yīng)從節(jié)點和邊兩個方面考慮。一方面可以采用聚類等方法將節(jié)點聚合,聚合的節(jié)點用單個節(jié)點表示,同時也減少了邊的數(shù)量,這樣極大減少了網(wǎng)絡(luò)的規(guī)模。另一方面可以采用過濾的防曬,過濾掉網(wǎng)絡(luò)中不重要的節(jié)點或者邊。但是,這種圖的拓撲簡化雖然減少了圖的復(fù)雜承擔(dān),減輕了圖繪制的壓力,同時不可避免地造成了信息的丟失,無法從簡化的圖中得到原有的所有拓撲信息。6.2.2
網(wǎng)絡(luò)數(shù)據(jù)可視化
2.動態(tài)網(wǎng)絡(luò)可視化動態(tài)圖數(shù)據(jù)指會隨時間變化的網(wǎng)絡(luò)數(shù)據(jù),包括網(wǎng)絡(luò)中節(jié)點和邊的拓撲變化,以及節(jié)點和邊的屬性變化。經(jīng)典的動態(tài)圖可視化方法,根據(jù)時間映射方式的不同,可以分為兩大類:(1)時間-時間映射方法:通過動畫的方式,直接展現(xiàn)點邊圖的變化過程,但這種方法會給用戶帶來強認知負擔(dān),因為用戶需要同時關(guān)注諸多節(jié)點和邊的變化。(2)時間-空間映射方法:將每個時間步的圖以某種策略放置在可視化空間維度,可以創(chuàng)建一個靜態(tài)的包含完整圖序列的視圖。但是可視化空間有限,動態(tài)圖序列往往較長,使得這種展示方法需要考慮如何在有限空間上,展現(xiàn)盡可能多的細節(jié)信息,這樣一來,需要用戶同時關(guān)注多個圖布局,并將這些布局聯(lián)系起來,比較、分析圖的變化。6.2.2
網(wǎng)絡(luò)數(shù)據(jù)可視化
層次結(jié)構(gòu)數(shù)據(jù)是現(xiàn)實應(yīng)用中常見的一類數(shù)據(jù),其特點是在數(shù)據(jù)中的個體之間存在層次關(guān)系。層次結(jié)構(gòu)數(shù)據(jù)可以理解成樹形結(jié)構(gòu),相比于圖結(jié)構(gòu),樹形結(jié)構(gòu)中除去根節(jié)點外,每一個節(jié)點都有存在一個指向該節(jié)點的父節(jié)點,各節(jié)點之間不存在環(huán)。在樹形結(jié)構(gòu)中,最上層的節(jié)點為根節(jié)點;最下層的節(jié)點為葉節(jié)點;同一個層級且具有相同父節(jié)點的節(jié)點為兄弟節(jié)點。對于層次結(jié)構(gòu)數(shù)據(jù)最典型的應(yīng)用就是目錄,能夠清晰的展示層級及包含關(guān)系。層級結(jié)構(gòu)數(shù)據(jù)的可視化方法多種多樣,目前在用的樹形可視化形式有三百多種,按照父子關(guān)系的視覺映射方式的不同,可將層次結(jié)構(gòu)數(shù)據(jù)可視化分為顯式影射和隱式映射兩種方式。6.2.3層次結(jié)構(gòu)數(shù)據(jù)可視化
6.2.3
層次結(jié)構(gòu)數(shù)據(jù)可視化
1.顯式映射顯式映射指將層次結(jié)構(gòu)數(shù)據(jù)中的元素映射到節(jié)點上,節(jié)點之間的復(fù)雜關(guān)系映射到節(jié)點之間的連線上,即節(jié)點-鏈接的可視化方法,這種方法是目前最為普遍的可視化方法,該方法能夠直觀地表達出層次數(shù)據(jù)的拓撲結(jié)構(gòu),所展示出來的可視化圖形符合大多數(shù)人對于層次結(jié)構(gòu)數(shù)據(jù)的認知,但是該方法會導(dǎo)致空間利用率比較低。節(jié)點-鏈接方法的核心在于對于層次結(jié)構(gòu)數(shù)據(jù)中的節(jié)點進行布局。這種算法是采用自底向上的遞歸算法;在確保子樹繪制的前提下繪制上層的父節(jié)點;使用二維碼的包圍盒技術(shù)盡可能地包裹子樹的部分,并且使相鄰的兩個樹之間盡量靠攏;將父節(jié)點放置在各個子樹的中心位置處;使用Reingold-Tilford計算得到到樹可視化形式注重布局的對稱性及緊湊性,是目前最為常見的樹布局方式。然而對于大規(guī)模的層次結(jié)構(gòu),在保證下層節(jié)點不重復(fù)顯示的前提下,會導(dǎo)致上層空間的嚴(yán)重浪費。6.2.3
層次結(jié)構(gòu)數(shù)據(jù)可視化
2.隱式映射隱式映射將層次結(jié)構(gòu)數(shù)據(jù)的父子關(guān)系映射到節(jié)點的相對位置關(guān)系上。最常見的方法是將節(jié)點之間的父子關(guān)系使用矩形之間嵌套的方法進行表達,即樹圖的方法。這種方法能夠充分的利用所有的的屏幕空間,并且有效地映射節(jié)點上的屬性值信息,其中節(jié)點的面積表示節(jié)點的屬性值。樹圖的可視化方法將每個矩形按照相應(yīng)節(jié)點的子節(jié)點遞歸的進行分割,直至分割到葉節(jié)點為止。樹圖的層次結(jié)構(gòu)數(shù)據(jù)可視化研究主要針對兩個方面。一方面是針對大規(guī)模的層次結(jié)構(gòu)數(shù)據(jù),使得樹圖中的葉節(jié)點如何保證更好的長寬比,從而使得用戶容易對于樹圖中的節(jié)點進行選擇、瀏覽等交互操作;另一個方面是當(dāng)層次結(jié)構(gòu)數(shù)據(jù)發(fā)生增加、移動等改變時,樹圖的節(jié)點變化如何盡量保持穩(wěn)定,從而使得用戶能在在動態(tài)的層次結(jié)構(gòu)數(shù)據(jù)中更加容易對節(jié)點進行追蹤。對于父子關(guān)系的隱式映射,除包含關(guān)系的映射方式外,還可以采用節(jié)點之間的相鄰關(guān)系就信息映射。6.2.4時空數(shù)據(jù)可視化
隨著移動采集技術(shù)的發(fā)展,可以對物體的移動行為進行采樣,而時間是自然地存在于記錄數(shù)據(jù)中,因此就會產(chǎn)生大量的時空數(shù)據(jù)。交通、氣象、生物等領(lǐng)域同收集物體的空間位置信息來分析其潛在的運動規(guī)律。例如,在交通領(lǐng)域,通過采集車輛的移動軌跡來研究道路擁堵問題;而在社交媒體數(shù)據(jù)中往往蘊含著人們的社會活動、社會事件與空間位置之間的關(guān)聯(lián)。對于時空數(shù)據(jù),按照可視化在分析流程中位置的不同,可以分為三種方法:
①直接可視化,直接把時空信息展現(xiàn)出來,例如繪制出單個軌跡;
②聚集可視化,針對大規(guī)模的時空數(shù)據(jù),先對數(shù)據(jù)進行抽象和聚集;
③特征可視化,先計算出時空分布模式或聚集的方法繪制這些特征。6.2.5
文本數(shù)據(jù)可視化
在現(xiàn)下的多源的信息世界里,文本是最為普通交流溝通的手段。書籍、文檔、網(wǎng)頁、社交網(wǎng)絡(luò)上包含有豐富飽滿的文本信息,越來越海量化。同時也導(dǎo)致文本信息的來源越來越豐富,呈現(xiàn)出多樣化和即時化等特征。文本可視化分析是可視化分析領(lǐng)域的一個重要方向,輔以聚類、主題模型等文本挖掘手段,結(jié)合交互技術(shù)可以幫助人們根據(jù)自己的需求進行快速、深入的研究,是提高文本分析效率的一個重要途徑。文本可視化分析是大數(shù)據(jù)分析的重要方法,將大量的文本數(shù)據(jù)通過圖形的方式展示,并通過交互的手段,讓研究者以及普通用戶都可以迅速且直觀地認識數(shù)據(jù),并借助人類敏銳的視覺能力在短時間發(fā)現(xiàn)數(shù)據(jù)中有趣的特征和模式。6.2.5
文本數(shù)據(jù)可視化
1.整體可視化分析標(biāo)簽云是一種最典型的文本可視化技術(shù)。這個方法把對象文本數(shù)據(jù)中的關(guān)鍵字根據(jù)出現(xiàn)的頻率等規(guī)則進行統(tǒng)計,然后進行布局排列,利用顏色、大小等視覺屬性編碼器頻率信息,該技術(shù)可以幫助用戶對大規(guī)模文本數(shù)據(jù)有一個概覽,目前次技術(shù)已被廣泛應(yīng)用在眾多的網(wǎng)站和博客中,來引導(dǎo)用戶快速地了解其中的內(nèi)容。聚類分析也是文本可視化技術(shù)常見的一種方法。它是將抽象的對象按照其相似性進行分組分析的技術(shù)。通常情況下,文本聚類技術(shù)是在劃分類別未知的情況下,將文本數(shù)據(jù)按照其內(nèi)容或其他維度特征分成不同的簇的過程。它可以很好地將大量的文本數(shù)據(jù)劃分為若干類,每一類中的文檔都有一些相似的特征,這可以很大程度上幫助人們進行海量數(shù)據(jù)的分析。6.2.5
文本數(shù)據(jù)可視化
2.特定維度可視化分析文本數(shù)據(jù)中還包含有時間、地點等其他維度的信息,這些維度信息與文本的形成和變化密切相關(guān)。在文本通過可視化表達本身語義的同時,還可以結(jié)合文本的空間、時間等屬性信息。時間屬性使得人們可以分析信息的演化過程。比如,在新聞報道中,所涉及的事件從發(fā)生到結(jié)束總是在時間維度上展開;而隨著微博等新興社交媒體的反正,信息的實時性也得到了極大的提高,很多時候可以利用社交媒體中的時間信息進行態(tài)勢的感知。因此,時間維度是文本可視化中一個重要的原始,充分利用文本數(shù)據(jù)中的時間屬性,可以幫助分析事件隨著時間的發(fā)展?fàn)顟B(tài)。地理信息分布模型將比通過傳統(tǒng)信息收集方法建立起來的模型提供更多的信息,支持更深入地分析,可以快速地感知到突發(fā)時間,并對事件的發(fā)展態(tài)勢進行追蹤。將文本信息映射到地理空間中,是使用基于地理位置的標(biāo)簽云的一種常見而有效的方法。6.2.5
文本數(shù)據(jù)可視化
2.特定維度可視化分析另外,文本數(shù)據(jù)中可能存在大量的人名、地名、組織等實體。隨著文本數(shù)量的逐漸增加,文檔中的實體集也變得越來越大,使得研究人員的分析和評估更加困難。因此,探究實體之間的關(guān)系,進而分析不同文本數(shù)據(jù)之間的關(guān)系并進行可視化就非常有意義。ListView是一種十分直觀地通過連接關(guān)系的方式來探究實體關(guān)系,并通過多種交互方式來進行可視化分析的控件。目前,對社交媒體數(shù)據(jù)進行的大數(shù)據(jù)分析是一個重要的研究領(lǐng)域。社交媒體情感分析是文本大數(shù)據(jù)分析的典型應(yīng)用之一,通過對大量的社交媒體文本數(shù)據(jù)進行情感分析來預(yù)測和推薦的工作也越來越多。6.2.6
高擴展可視化
分析數(shù)據(jù)時,不僅需要組合不同的可視化方法,還要考慮可擴展的問題。數(shù)據(jù)可視化中的擴展性可以理解為可視化算法隨著數(shù)據(jù)處理規(guī)模和復(fù)雜性的增長,仍然保持良好的效率。數(shù)據(jù)可視化的高擴展性涉及多個方面。在科學(xué)可視化領(lǐng)域,需要處理的數(shù)據(jù)量非常大,這些數(shù)據(jù)需要采取良好的管理策略,以便可以滿足并行可視化處理算法對數(shù)據(jù)的快速訪問要求。另一方面,高擴展性還可以針對數(shù)據(jù)結(jié)構(gòu)和訪問方法進行改進,從而提高數(shù)據(jù)的訪問和交互需求的效率。在最終的可視化上,設(shè)計的交互手段也需要進一步擴展。一般來講,初始的可視化只能展示數(shù)據(jù)的全局信息,對數(shù)據(jù)進一步細節(jié)信息的可視化需要利用合理的交互方式來實現(xiàn),幫助用戶進行多層次的切換也是需要考慮的。同時,考慮到減小用戶在這一過程中探索的負擔(dān),不同細節(jié)層次的切換也是需要考慮的問題,即如何對概覽信息和用戶感興趣的焦點信息同時進行可視化和交互式探索。6.2.6
高擴展可視化
1.科學(xué)可視化中的高擴展性高擴展的可視化技術(shù)首先在科學(xué)領(lǐng)域涌現(xiàn)。超級計算的飛速發(fā)展極大地推動了計算科學(xué)的進步,使得科學(xué)家們在進行物理仿真等處理時可以得到之前難以獲取的細節(jié),因此可視化和繪制主要是基于并行算法設(shè)計的技術(shù),即合理利用有限的計算資源,通過高效的并行處理來分析特定數(shù)據(jù)集的性質(zhì)。在很多情況下,通常會結(jié)合多分辨率等方法,以獲得足夠的互動性能。主要涉及四種基本技術(shù):數(shù)據(jù)流線化、任務(wù)并行化、管道并行化和數(shù)據(jù)并行化。6.2.6
高擴展可視化
2.支持高效的存儲和檢索的可視化隨著數(shù)據(jù)量越來越大,人們對時空數(shù)據(jù)的實時處理和探索需求也越來越高。試想一下,假如有一個微博的數(shù)據(jù)集,記錄了每條微博發(fā)布的時間、地點和發(fā)布設(shè)備。那么,我們?nèi)绾慰梢钥焖俚刂牢⒉┑牡乩矸植寄??是北京還是山東的用戶發(fā)的微博更多呢?是工作日里發(fā)的微博多還是周末發(fā)的多?是IOS還是Andriod?在2012年的時候是什么情況?在2022年這種情況發(fā)生了什么變化?這些問題涉及到各個維度上的聚合統(tǒng)計,并且在時間和維度還涉及了不同的顆粒度。那么回答這些問題,最簡單的方法或許是掃描一遍數(shù)據(jù)集,然后獲得統(tǒng)計值,但是在日益增長的數(shù)據(jù)量和實時性的要求下,這種方法顯然不適用。6.2.6
高擴展可視化
3.支持可擴展可視化的交互手段伴隨著當(dāng)代的電子設(shè)備多種多樣,但是不論怎樣設(shè)備,其顯示空間總是有限的,自然不可能容納無限多的信息。當(dāng)數(shù)據(jù)規(guī)模超出顯示空間的信息容量時,不管設(shè)計得如何精妙,一個靜態(tài)的可視化視圖不可能同時展現(xiàn)所有數(shù)據(jù),這就需要具有良好的可交互性。用戶通過交互表達自身需求,再由計算機有針對性地給予反饋,既節(jié)省了計算機資源,又能夠提高效率。在可視化環(huán)境下,這就意味著任何交互的視圖都無須展現(xiàn)所有數(shù)據(jù)。用戶通過交互提起信息查詢的需求,再由視圖給予響應(yīng),能夠大大提高可視化的可擴展性。6.2.6
高擴展可視化
(1)視覺信息搜索準(zhǔn)則視覺信息搜索準(zhǔn)則是指先瀏覽全貌,然后平移視線、篩選關(guān)注點,最后放大并進行細致的觀察,被廣泛應(yīng)用于可視化設(shè)計中,以支持可擴展的數(shù)據(jù)展現(xiàn)與交互。大規(guī)模數(shù)據(jù)的可視化往往提供了多個細節(jié)層次的數(shù)據(jù)展示。比如在大規(guī)模動態(tài)圖的可視化中,可以用散點圖的形式作為概覽、展現(xiàn)圖數(shù)據(jù)的演變規(guī)律,其中每個點表現(xiàn)一個時間步的圖,點之間的連線表示時間順序,距離則表現(xiàn)圖之間的結(jié)構(gòu)差異。用戶在散點圖中觀察到有趣的數(shù)據(jù)區(qū)域,可進入更細致的層次并觀察具體的結(jié)構(gòu)。6.2.6
高擴展可視化
(2)焦點+上下文多層次的細節(jié)展示能夠有效地容納大量數(shù)據(jù)與信息。但是,不同層次之間的切換頗為考驗用戶的短時記憶,用戶也難以直觀比較不同局部的信息。為此,可以利用“焦點+上下文”的方式,允許用戶在觀察局部焦點的同時,仍能看到全局的概覽信息(即上下文)。魚眼透鏡是應(yīng)用這一策略的典型技術(shù)。比如在點邊圖中,每個節(jié)點代表一個城市,不同節(jié)點之間的連邊代表城市之間的主要運輸關(guān)系,在如此繁多的結(jié)點賬,用戶很難具體查看其中某個節(jié)點而不丟失全局背景信息。魚眼透鏡技術(shù)通過放大視圖中的特定局部,壓縮其他不被關(guān)注的節(jié)點與連邊,來達到兼容背景與上下文的目的。PART03可視化工具
目前已經(jīng)有很多數(shù)據(jù)可視化工具供用戶選擇使用,其中大部分都是免費使用的,可以滿足各種可視化需求。如何選擇哪一種工具才最為合適,這將取決于數(shù)據(jù)本身以及用戶進行數(shù)據(jù)可視化的目的。6.3
可視化工具在大數(shù)據(jù)時代,可視化工具必須具有以下幾個特征:(1)實時簡單。數(shù)據(jù)可視化工具必須能高效地收集和分析數(shù)據(jù),并對數(shù)據(jù)信息進行實時更新,并且滿足快速開發(fā)、易于操作的特性,能適應(yīng)互聯(lián)網(wǎng)時代信息多變的特點。(2)多種數(shù)據(jù)源。數(shù)據(jù)可視化工具應(yīng)該能夠幫助用戶在進行可視化分析時方便接入各種系統(tǒng)和數(shù)據(jù)文件,包括文本文件、數(shù)據(jù)庫以及其他外部文件。(3)數(shù)據(jù)處理。用戶往往會在數(shù)據(jù)處理環(huán)節(jié)耗費大量時間,在大多數(shù)情況下,采集到的數(shù)據(jù)常常包含許多噪聲、不完整,甚至不一致的數(shù)據(jù),。(4)分析能力。數(shù)據(jù)可視化工具必須具有數(shù)據(jù)分析能力,用戶可以通過數(shù)據(jù)可視化實現(xiàn)對圖表的支持及擴展,并在此基礎(chǔ)上數(shù)據(jù)的鉆取、交互和高級分析等。(5)協(xié)作能力。在越來越重視團隊協(xié)作的今天,用戶不僅需要簡單、易用、靈活的可視化工具,更需要一個可以共享數(shù)據(jù)、協(xié)同完成數(shù)據(jù)分析流程的平臺,以便管理者可以基于該平臺進行問題溝通并做出相應(yīng)決策。6.3.1
入門級工具MicrosoftExcel是微軟的辦公軟件Office的系列軟件之一,是目前最受歡迎的辦公軟件之一。它可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,已經(jīng)廣泛應(yīng)用于管理、統(tǒng)計、金融等領(lǐng)域。Excel是日常數(shù)據(jù)分析工作中最常用的工具,簡單易用,用戶不需要復(fù)雜的學(xué)習(xí)就可以輕松使用。它是創(chuàng)建電子表格并進行快速分析及處理的理想工具,可以自動計算表格里面的整列數(shù)字,也可以根據(jù)用戶輸入的簡單表格或者軟件內(nèi)置的更加復(fù)雜的公式進行其他計算,也能創(chuàng)建供內(nèi)部使用的數(shù)據(jù)圖,將數(shù)據(jù)轉(zhuǎn)換成各種形式的圖表。但是,Excel在顏色、線條和樣式上可選擇的范圍較為有限。6.3.2
信息圖表工具信息圖表是信息、數(shù)據(jù)、知識等的視覺化表達,它利用人腦對于圖形信息比對于文字信息更容易理解的特點,更高效、直觀、清晰地傳遞信息,在計算機科學(xué)、數(shù)學(xué)以及統(tǒng)計學(xué)領(lǐng)域有著廣泛的應(yīng)用。1.EChartsECharts是由百度前端數(shù)據(jù)可視化團隊研發(fā)的圖表庫,可以流暢地運行在PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(如IE、Chrome、Furefox、Safari等),底層依賴輕量級的、Canvas類庫ZRender,可以提供直觀、生動、可交互、可高度個性化定制的數(shù)據(jù)可視化圖表。Echarts提供了豐富的圖表類型,包括常規(guī)的折線圖、柱狀圖、散點圖、餅圖、K線圖,用于統(tǒng)計的盒形圖,用于地理數(shù)據(jù)可視化的地圖、熱力圖、線圖,用于關(guān)系數(shù)據(jù)可視化的關(guān)系圖、treemap,用于多維數(shù)據(jù)可視化的平行坐標(biāo),以及用于BI的漏斗圖、儀表盤,并且支持圖與圖之間的混搭,能夠滿足用戶絕大部分分析數(shù)據(jù)時的圖表制作需求。6.3.2
信息圖表工具2.浪潮云大數(shù)據(jù)平臺數(shù)據(jù)治理工具(DMP)是浪潮集團自主研發(fā),純WEB一站式數(shù)據(jù)功能集成,用戶可通過數(shù)據(jù)源管理、數(shù)據(jù)加工廠、數(shù)據(jù)服務(wù)、數(shù)據(jù)門戶形成完整的企業(yè)數(shù)據(jù)加工鏈條,更好的支持企業(yè)數(shù)據(jù)分析和挖掘應(yīng)用以及可參考的數(shù)據(jù)標(biāo)準(zhǔn)。DMP提供數(shù)據(jù)模型檢測,內(nèi)置數(shù)據(jù)倉庫分層結(jié)構(gòu),支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集,提供200+ETL組件。同時,簡潔直觀的圖形化用戶界面,拖拽式操作,便于用戶快速上手。面對企業(yè)數(shù)據(jù)據(jù)科學(xué)客戶及開發(fā)者,平臺封裝了30+機器學(xué)習(xí)建模、包括決策樹分類訓(xùn)練組件、決策樹分類預(yù)測組件和得分器組件,能夠快速生成AI算法模型。支持模型訓(xùn)練和預(yù)測,滿足優(yōu)化、預(yù)測、預(yù)警等不同AI應(yīng)用場景。地圖工具在數(shù)據(jù)可視化中較為常見,它在展現(xiàn)數(shù)據(jù)基于空間或地理分布上有很強的表現(xiàn)力,可以直觀地展現(xiàn)各分析指標(biāo)的分布、區(qū)域等特征。當(dāng)指標(biāo)數(shù)據(jù)要表達的主題跟地域有關(guān)聯(lián)時,就可以選擇以地圖作為大背景,從而幫助用戶更加直觀地了解整體的數(shù)據(jù)情況,同時可以根據(jù)地理位置快速地定位到某一地區(qū)來查看詳細數(shù)據(jù)。1.ModestMapsModestMaps是一個小型、可擴展、交互式的免費卡,提供了一套查看衛(wèi)星地圖的API,只有10KB大小,是目前最小的可用地圖庫。它也是一個開源項目,有強大的社區(qū)支持,是在網(wǎng)站中整合地圖應(yīng)用的理想選擇。2.LeafletLeaflet是一個小型化的地圖框架,通過小型化和輕量化來滿足移動網(wǎng)頁的需求。6.3.3
地圖工具2、基于機器學(xué)習(xí)的數(shù)據(jù)分析時間線是表現(xiàn)數(shù)據(jù)在時間維度的演變的有效方式,它通過互聯(lián)網(wǎng)技術(shù),依照時間順序,把一方面或多方面的事件串聯(lián)起來,形成相對完整的記錄體系,再運用圖文的形式呈現(xiàn)給用戶。時間線可以運用于不同領(lǐng)域,其最大的作用就是把過去的事物系統(tǒng)化、完整化、精確化。Xtimeline是一個免費的繪制時間線的在線工具網(wǎng)站,操作簡便,用戶可以通過添加事件日志的形式構(gòu)建時間表,同時也可給日志配上相應(yīng)的圖表。不同于Timetoast的是,Xtimeline是一個社區(qū)類型的時間軸網(wǎng)站,其中加入了組群功能和更多的社會化因素,除了可以分享和評論時間軸外,還可以建立組群討論所制作的時間軸。6.3.4
時間線工具1.PythonPython是一門跨平臺、開源、免費通用性面向?qū)ο蟮慕忉屝愿呒墑討B(tài)編程語言。它擁有高級數(shù)據(jù)結(jié)構(gòu),語法簡潔清晰、干凈易讀,能夠用簡單而又高效的方式進行編程。同時它也是一種很好的可視化工具,可以開發(fā)出各種可視化效果圖,Python可視化庫可以大致分為:基于Matplotib的可視化庫,基于JavaScript的可視化庫,基于上述兩者或其他組合功能的庫。2.R語言R語言是一個用于統(tǒng)計計算、圖形繪制的開源編程語言和操作環(huán)境,屬于GUN系統(tǒng)的一個自由、免費、開源的軟件,是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具,使用難度較高。R語言包括數(shù)據(jù)存儲和處理系統(tǒng)、數(shù)組運算工具、完整連貫的統(tǒng)計分析工具、優(yōu)秀的統(tǒng)計制圖功能、簡便而強大的編程語言,可操作數(shù)據(jù)的輸入和輸出,實現(xiàn)分支、循環(huán)以及用戶自定義功能等,通常用于大數(shù)據(jù)的統(tǒng)計與分析。6.3.5
高級分析工具
數(shù)據(jù)可視化—期間費用可視化拓展實訓(xùn)PART04數(shù)據(jù)可視化—期間費用可視化
案例介紹:
D公司成立于1960年,總部坐落在山東省臨沂市,是一家主要經(jīng)營原煤、洗選煤、洗精煤的開采、加工和銷售的煤炭企業(yè)。D公司管理層要求每年的年底分析該年度期間費用的變動趨勢,期間費用是指企業(yè)日常活動發(fā)生的不能計入特定核算對象的成本,而應(yīng)計入發(fā)生當(dāng)期損益的費用,是企業(yè)為組織和管理整個經(jīng)營活動所發(fā)生的費用,屬于與可以確定特定成本核算對象的材料采購、產(chǎn)成品生產(chǎn)等沒有直接關(guān)系的費用支出,因而期間費用不計入有關(guān)核算對象的成本,而是直接計入當(dāng)期損益。6.4
拓展實訓(xùn)案例實驗步驟一(數(shù)據(jù)集定義)【操作步驟】第一步,新增“編號+財務(wù)大數(shù)據(jù)”系統(tǒng)。第二步,新增“編號+學(xué)生姓名”模塊。第三步,新增“編號+期間費用分析”分組。第四步,新增“編號+期間費用同比”數(shù)據(jù)集。在“【BI參數(shù)模板”窗口,選擇“財務(wù)大數(shù)據(jù)】”-“【期間費用分析”下的“期間費用分析-年度月份】”參數(shù)模板,點擊【確定】。在返回的“數(shù)據(jù)集定義”頁面,點擊【配置數(shù)據(jù)集】,進入“SQL”頁面,寫sql語句,進行測試,保存預(yù)覽頁面,如圖實6-1所示。第五步,參照第四步新增“編號+期間費用累計”數(shù)據(jù)集,將D公司總的期間費用本年累計數(shù)據(jù)從后臺數(shù)據(jù)庫進行歸集,以下數(shù)據(jù)同上。6.4
拓展實訓(xùn)案例實驗步驟二(部件定義)定義D公司期間費用分析最終展現(xiàn)界面中的部件,新增內(nèi)容如表實6-4所示?!静僮鞑襟E】第一步,按照表實6-3信息,依次新增“編號+財務(wù)大數(shù)據(jù)”系統(tǒng),新增“編號+學(xué)生姓名”模塊,新增“編號+期間費用分析”分組,新增“編號+期間費用同比表格”部件,進入“BI參數(shù)模板”窗口,進行部件配置,依次如圖實6-2、圖實6-3、圖實6-4、圖實6-5、圖實6-6、圖實6-7所示。第二步,新增“編號+期間費用累計柱型圖”部件,基于“編號+期間費用累計”數(shù)據(jù)集,將D公司總的期間費用本年累計數(shù)制作成柱型圖部件用于展現(xiàn)D公司期間費用的累計情況。選中“編號+期間費用分析”分組,點擊【新增】-【新增部件】,輸入“編號”“名稱”,“部件類型”選擇“圖形部件”,點擊“數(shù)據(jù)集”空白框右側(cè)的在彈出的“公共幫助”窗口。6.4
拓展實訓(xùn)在返回的“部件定義”頁面勾選“自動刷新”,點擊【部件配置】,按照表實6-4配置相關(guān)內(nèi)容。在彈出的“圖形部件配置”窗口中按照表實6-4進行設(shè)置,設(shè)置完成后點擊【保存】,依次如圖實6-9、圖實6-10、圖實6-11、圖實6-12
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CECS 10082-2020混凝土用鈣鎂復(fù)合膨脹劑
- T/CCS 02-2020智能化采煤工作面分類、分級技術(shù)條件與評價指標(biāo)體系
- T/CBMMA 6-2022固體危險廢物焚燒用回轉(zhuǎn)窯
- T/CASTEM 1007-2022技術(shù)經(jīng)理人能力評價規(guī)范
- T/CAS 745-2023鄉(xiāng)村管道天然氣工程技術(shù)規(guī)程
- T/CAQI 22-2016廢水生物增強前處理高效催化反應(yīng)器
- 成都泛微網(wǎng)絡(luò)java開發(fā)面試題及答案
- 電信招聘考試題及答案
- 戶外游戲面試題及答案
- 海洋信息面試題及答案
- 高考期間食品安全
- 2025黑河學(xué)院輔導(dǎo)員考試題庫
- 分娩質(zhì)量管理的相關(guān)制度
- 光伏電廠防洪防汛應(yīng)急預(yù)案演練方案
- 鄉(xiāng)鎮(zhèn)環(huán)境保護工作制度
- 現(xiàn)場實名制管理制度
- 浙江大學(xué)《分子生物學(xué)原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 人教部編版道德與法治八年級下冊:2.2 《加強憲法監(jiān)督 》聽課評課記錄
- 煤礦主通風(fēng)機電控系統(tǒng)變頻改造裝置安裝方案
- 2025年“美好生活民法典相伴”主題宣傳月活動總結(jié)(2篇)
- 移動通信網(wǎng)絡(luò)流量分析與優(yōu)化策略制定
評論
0/150
提交評論