38-大數據大數據概念與應用_第1頁
38-大數據大數據概念與應用_第2頁
38-大數據大數據概念與應用_第3頁
38-大數據大數據概念與應用_第4頁
38-大數據大數據概念與應用_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

會計學大數據大數據概念與應用第一章 大數據概念與應用大數據的概念與意義大數據的來源大數據應用場景大數據處理方法習題of401.1大數據的概念與意義第一章大數據概念與應用1.從“數據”到“大數據”時至今日,“數據”變身“大數據”,“開啟了一次重大的時代轉型”。

“大數據”這一概念的形成,有三個標志性事件:of404

V特征VV大數據與傳統數據相比,數據來源廣、維度多、類型雜,各種機器儀表在自動產生數據的同時,人自身的生活行為也在不斷創(chuàng)造數據;不僅有企業(yè)組織內部的業(yè)務數據,還有海量相關的外部數據。V隨著現代感測、互聯網、計算機技術的發(fā)展,數據生成、儲存、分析、處理的速度遠遠超出人們的想象力,這是大數據區(qū)別于傳統數據或小數據的顯著特征。V大數據有巨大的潛在價值,但同其呈幾何指數爆發(fā)式增長相比,某一對象或模塊數據的價值密度較低,這無疑給我們開發(fā)海量數據增加了難度和成本。第一章大數據概念與應用從2013年至2020年,人類的數據規(guī)模將擴大50倍,每年產生的數據量將增長到44萬億GB,相當于美國國家圖書館of40數據量的數百萬倍,且每18個月翻一番。1.1大數據的概念與意義第一章大數據概念與應用大數據數據源整合進行存儲、清洗、挖掘、分析后得出結果直到優(yōu)化企業(yè)管理提高效率云計算、硬件性價比的提高以及軟件技術的進步智能設備、傳感器的普及,推動物聯網、人工智能的發(fā)展計算運行、計算速度越來越快存儲存儲成本下降智能實現信息對等解放腦力,機器擁有人的智慧1.1大數據的概念與意義of402.大數據的技術支撐第一章大數據概念與應用1.1大數據的概念與意義1)存儲:存儲成本的下降云計算出現之前云計算出現之后在云計算出現之前,數據存儲的成本是非常高的。例如,公司要建設網站,需要購置和部署服務器,安排技術人員維護服務器,保證數據存儲的安全性和數據傳輸的暢通性,還會定期清理數據,騰出空間以便存儲新的數據,機房整體的人力和管理成本都很高。云計算出現后,數據存儲服務衍生出了新的商業(yè)模式,數據中心的出現降低了公司的計算和存儲成本。例如,公司現在要建設網站,不需要去購買服務器,不需要去雇用技術人員維護服務器,可以通過租用硬件設備的方式解決問題。of40存儲成本的下降,也改變了大家對數據的看法,更加愿意把1年、2年甚至更久遠的歷史數

據保存下來,有了歷史數據的沉淀,才可以通過對比,發(fā)現數據之間的關聯和價值。正是由于存儲成本的下降,才能為大數據搭建最好的基礎設施。第一章大數據概念與應用1.1大數據的概念與意義of402)計算:運算速度越來越快海量數據從原始數據源到產生價值,期間會經過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,很多事情是無法實現的。所以,在大數據的發(fā)展過程中,計算速度是非常關鍵的因素。分布式系統基礎架構Hadoop的出現,為大數據帶來了新的曙光;

HDFS為海量的數據提供了存儲;MapReduce則為海量的數據提供了并行計算,從而大大提高了計算效率;

Spark、Storm、Impala等各種各樣的技術進入人們的視野。第一章大數據概念與應用1.1大數據的概念與意義3)智能:機器擁有理解數據的能力大數據帶來的最大價值就是“智慧”,大數據讓機器變得有智慧,同時人工智能進一步提升了處理和理解數據的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預測出《我是歌手》的總決賽歌王12iPhone上智能化語音機器人Siri微信上與大家聊天的微軟小冰34of40第一章大數據概念與應用美國著名管理學家愛德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數據來說話?!?.1大數據的概念與意義of403.大數據的意義有數據可說在大數據時代,“萬物皆數”,“量化一切”,“一切都將被數據化”。人類生活在一個海量、動態(tài)、多樣的數據世界中,數據無處不在、無時不有、無人不用,數據就像陽光、空氣、水分一樣常見,好比放大鏡、望遠鏡、顯微鏡那般重要。說數據可靠大數據中的“數據”真實可靠,它實質上是表征事物現象的一種符號語言和邏輯關系,其可靠性的數理哲學基礎是世界同構原理。世界具有物質統一性,統一的世界中的一切事物都存在著時空一致性的同構關系。這意味著任何事物的屬性和規(guī)律,只要通過適當編碼,均可以通過統一的數字信號表達出來。因此,“用數據說話”、“讓數據發(fā)聲”,已成為人類認知世界的一種全新方法。1.1從“數據”到“大數據”第一章大數據概念與應用風馬??上嗉霸诖髷祿尘跋拢蚝A繜o限、包羅萬象的數據存在,讓許多看似毫不相干的現象之間發(fā)生一定的關聯,使人們能夠更簡捷、更清晰地認知事物和把握局勢。大數據的巨大潛能與作用現在難以進行估量,但揭示事物的相關關系無疑是其真正的價值所在。經典案例:(1)啤酒與尿布(2)谷歌與流感of40第一章 大數據概念與應用大數據的概念與意義大數據的來源大數據應用場景大數據處理方法習題of401.2大數據的來源第一章大數據概念與應用of40全球數據總量圖杰姆·格雷(Jim

Gray)提出著名的“新摩爾定律”,即人類有史以來的數據總量,每過

18個月就會翻一番。(EB)(年份)為什么全球數據量增長如此之快?1.2大數據的來源第一章大數據概念與應用互聯網每天產生的全部內容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數據網民每天在Facebook上要花費

234億分鐘,被移動互聯網使用者發(fā)送和接收的數據高達44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到YouTube,足夠一個人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息,假設10秒就瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年大數據到底有多大?of40以上一組互聯網數據1.2大數據的來源第一章大數據概念與應用來自大量傳感器的機器數據科學研究及行業(yè)多結構專業(yè)數據來自“大人群”泛互聯網數據發(fā)微博、發(fā)微信of40其他互聯網數據海量的數據的產生智能終端拍照、拍視頻隨著人類活動的進一步擴展,數據規(guī)模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內的各行業(yè)累積的數據量越來越大,數據類型也越來越多、越來越復雜,已經超越了傳統數據管理系統、處理模式的能力范圍,于是“大數據”這樣一個概念才會應運而生。1.2大數據的來源第一章大數據概念與應用按產生數據的主體劃分1)少量企業(yè)應用產生的數據如關系型數據庫中的數據和數據倉庫中的數據等。

2)大量人產生的數據如推特、微博、通信軟件、移動通信數據、電子商務在線交易日志數據、企業(yè)應用的相關評論數據等。3)巨量機器產生的數據如應用服務器日志、各類傳感器數據、圖像和視頻監(jiān)控數據、二維碼和條形碼(條碼)掃描數據等。01of401.2大數據的來源第一章大數據概念與應用按數據來源的行業(yè)劃分1)以BAT為代表的互聯網公司百度公司數據總量超過了千PB級別,阿里巴巴公司保存的數據量超過了百PB級別,擁有90%以上的電商數據,騰訊公司總存儲數據量經壓縮處理以后仍然超過了百PB級別,數據量月增加達到10%。2)電信、金融、保險、電力、石化系統電信行業(yè)數據年度用戶數據增長超過10%,金融每年產生的數據超過數十PB,保險系統的數據量也超過了PB級別,電力與石化方面,僅國家電網采集獲得的數據總量就達到了數十PB,石油化工領域每年產生和保存下來的數據量也將近百PB級別。3)公共安全、醫(yī)療、交通領域一個中、大型城市,一個月的交通卡口記錄數可以達到3億條;整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數據就可達到數百

PB級別;航班往返一次產生的數據就達到TB級別;列車、水

陸路運輸產生的各種視頻、文本類數據,每年保存下來的也達到數十PB。02of404)氣象、地理、政務等領域中國氣象局保存的數據將近10PB,每年約增數百TB;各種地圖和地理位置信息每年約數十PB;政務數據則涵蓋了旅游、教育、交通、醫(yī)療等多個門類,且多為結構化數據。5)制造業(yè)和其他傳統行業(yè)制造業(yè)的大數據類型以產品設計數據、企業(yè)生產環(huán)節(jié)的業(yè)務數據和生產監(jiān)控數據為主。其中產品設計數據以文件為主,非結構化,共享要求較高,保存時間較長;企業(yè)生產環(huán)節(jié)的業(yè)務數據主要是數據庫結構化數據,而生產監(jiān)控數據則數據量非常大。在其他傳統行業(yè),雖然線下商業(yè)銷售、農林牧漁業(yè)、線下餐飲、食品、科研、物流運輸等行業(yè)數據量劇增,但是數據量還處于積累期,整體體量都不算大,多則達到PB級別,少則數十TB或數百TB級別。1.2大數據的來源第一章大數據概念與應用按數據存儲的形式劃分大數據不僅僅體現在數據量大,還體現在數據類型多。如此海量的數據中,僅有20%左右屬于結構化的數據,80%的數據屬

于廣泛存在于社交網絡、物聯網、電子商務等領域的非結構化數據。結構化數據簡單來說就是數據庫,如企業(yè)ERP、財務系統、醫(yī)療HIS數據庫、教育一卡通、政府行政審批、其他核心數據庫等數據。非結構化數據包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等數據。03of401.2大數據的來源第一章大數據概念與應用常用的大數據獲取途徑1)系統日志采集可以使用海量數據采集工具,用于系統日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構,能滿足大數據的日志數據采集和傳輸需求。04of403)APP移動端數據采集APP是獲取用戶移動端數據的一種有效方法,APP中的

SDK插件可以將用戶使用APP的信息匯總給指定服務器,即便用戶在沒有訪問時,也能獲知用戶終端的相關信息,包括安裝應用的數量和類型等。單個APP用戶規(guī)模有限,數據量有限;但數十萬APP用戶,獲取的用戶終端數據和部分行為數據也會達到數億的量級。4)與數據服務機構進行合作數據服務機構通常具備規(guī)范的數據共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數據。而對于企業(yè)生產經營數據或學科研究數據等保密性要求較高的數據,也可以通過與企業(yè)或研究機構合作,使用特定系統接口等相關方式采集數據。2)互聯網數據采集通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息,該方法可以數據從網頁中抽取出來,將其存儲為統一的本地數據文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。除了網站中包含的內容之外,還可以使用DPI或DFI等帶寬管理技術實現對網絡流量的采集。第一章 大數據概念與應用大數據的概念與意義大數據的來源大數據應用場景大數據處理方法習題of401.3大數據應用場景第一章大數據概念與應用環(huán)境教育行業(yè)醫(yī)療行業(yè)農業(yè)智慧城市零售行業(yè)金融行業(yè)of401.3大數據應用場景第一章大數據概念與應用零售行業(yè)零售行業(yè)大數據應用有兩個層面,一個層面是零售行業(yè)可以了解客戶的消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一個層面是依據客戶購買的產品,為客戶提供可能購買的其他產品,擴大銷售額,也屬于精準營銷范疇。未來考驗零售企業(yè)的是如何挖掘消費者需求,以及高效整合供應鏈滿足其需求的能力,因此,信息技術水平的高低成為獲得競爭優(yōu)勢的關鍵要素。金融行業(yè)1)銀行數據應用場景利用數據挖掘來分析出一些交易數據背后的商業(yè)價值。2)保險數據應用場景用數據來提升保險產品的精算水平,提高利潤水平和投資收益。3)證券數據應用場景對客戶交易習慣和行為分析可以幫助證券公司獲得更多的收益。of401.3大數據應用場景第一章大數據概念與應用醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報告、治愈方案、藥物報告等,通過對這些數據進行整理和分析將會極大地輔助醫(yī)生提出治療方案,幫助病人早日康復。可以構建大數據平臺來收集不同病例和治療方案,以及病人的基本特征,建立針對疾病特點的數據庫,幫助醫(yī)生進行疾病診斷。醫(yī)療行業(yè)的大數據應用一直在進行,但是數據并沒有完全打通,基本都是孤島數據,沒辦法進行大規(guī)模的應用。未來可以將這些數據統一采集起來,納入統一的大數據平臺,為人類健康造福。教育行業(yè)信息技術已在教育領域有了越來越廣泛的應用,教學、考試、師生互動、校園安全、家校關系等,只要技術達到的地方,各個環(huán)節(jié)都被數據包裹。通過大數據的分析來優(yōu)化教育機制,也可以作出更科學的決策,這將帶來潛在的教育革命,在不久的將來,個性化學習終端將會更多地融入學習資源云平臺,根據每個學生的不同興趣愛好和特長,推送相關領域的前沿技術、資訊、資源乃至未來職業(yè)發(fā)展方向。of401.3大數據應用場景第一章大數據概念與應用農業(yè)行業(yè)環(huán)境行業(yè)借助于大數據提供的消費能力和趨勢報告,政府可為農業(yè)生產進行合理引導,依據需求進行生產,避免產能過剩造成不必要的資源和社會財富浪費。通過大數據的分析將會更精確地預測未來的天氣,幫助農民做好自然災害的預防工作,幫助政府實現農業(yè)的精細化管理和科學決策。借助于大數據技術,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災害如龍卷風,通過大數據計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力。大數據技術可以了解經濟發(fā)展情況、各產業(yè)發(fā)展情況、消費支出和產品銷售情況等,依據分析結果,科學地制定宏觀政策,平衡各產業(yè)發(fā)展,避免產能過剩,有效利用自然資源和社會資源,提高社會生產效率。大數據技術也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監(jiān)督財政支出。智慧城市of40第一章 大數據概念與應用大數據的概念與意義大數據的來源大數據應用場景大數據處理方法習題of401.4大數據處理方法第一章大數據概念與應用大數據正帶來一場信息社會的變革。大量的結構化數據和非結構化數據的廣泛應用,致使人們需要重新思考已有的IT模式;與此同時,大數據將推動進行又一次基于信息革命的業(yè)務轉型,使社會能夠借助大數據獲取更多的社會效益和發(fā)展機會;龐大的數據需要我們進行剝離、整理、歸類、建模、分析等操作,通過這些動作后,我們開始建立數據分析的維度,通過對不同的維度數據進行分析,最終才能得到想到的數據和信息。因此,如何進行大數據的采集、導入/預處理、統計/分析和大數據挖掘,是“做”好大數據的關鍵基礎。of401.4大數據處理方法第一章大數據概念與應用大數據的采集1大數據的采集通常采用多個數據庫來接收終端數據,包括智能硬件端、多種傳感器端、網頁端、移動APP應用端等,并且可以使用數據庫進行簡單的處理工作。常用的數據采集的方式主要包括以下幾種:數據抓取01數據導入02物聯網傳感設備自動信息采集03of401.4大數據處理方法第一章大數據概念與應用2

導入/預處理雖然采集端本身有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些數

據導入到一個集中的大型分布式數據庫或者分布式存儲集群當中,同時,在導入的基礎上完成數

據清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業(yè)務的實時計算需求?,F實世界中數據大體上都是不完整、不一致的“臟”數據,無法直接進行數據挖掘,或挖掘結果差強人意,為了提高數據挖掘的質量,產生了數據預處理技術。of40主要是達到數據格式標準化、異常數據清除、數據錯誤糾正、重復數據的清除等目標。是將多個數據源中的數據結合起來并統一存儲,建立數據倉庫。過平滑聚集、數據概化、規(guī)范化等方式將數據轉換成適用于數據挖掘的形式。尋找依賴于發(fā)現目標的數據的有用特征,縮減數據規(guī)模,最大限度地精簡數據量。1.4大數據處理方法第一章大數據概念與應用統計與分析3of40統計與分析主要是利用分布式數據庫,或分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總,以滿足大多數常見的分析需求,在這些方面可以使用R語言。R語言是用于統計分析、繪圖的語言和操作環(huán)境,屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優(yōu)秀工具。R語言在國際和國內的發(fā)展差異非常大,國際上R語言已然是專業(yè)數據分析領域的標準,但在國內依舊任重而道遠,這固然有數據學科地位的原因,國內很多人版權概念薄弱,以及學術領域相對閉塞也是原因。R語言是一套完整的數據處理、計算和制圖軟件系統。R語言的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創(chuàng)造出符合需要的新的統計計算方法。在大數據的統計與分析過程中,主要面對的挑戰(zhàn)是分析涉及的數據量太大,其對系統資源,特別是I/O會有極大的占用。1.4大數據處理方法第一章大數據概念與應用大數據挖掘4數據挖掘是創(chuàng)建數據挖掘模型的一組試探法和計算方法,通過對提供的數據進行分析,查找特定類型的模式和趨勢,最終形成創(chuàng)建模型。分類樸素貝葉斯算法一種重要的數據分析形式,根據重要數據類的特征向量值及其他約束條件,構造分類函數或分類模型,目的是根據數據集的特點把未知類別的樣本映射到給定類別中。支持向量機SVM算法 AdaBoost算法 C4.5算法 CART算法聚類目的在于將數據集內具有相似特征屬性的數據聚集在一起,同一個數據群中的數據特征要盡可能相似,不同的數據群中的數據特征要有明顯的區(qū)別。BIRCH算法

K-Means算法 期望最大化算法(EM算法)

K近鄰算法關聯規(guī)則Apriori算法索系統中的所有數據,找出所有能把一組事件或數據項與另一組事件或數據項聯系起來的規(guī)則,以獲得預先未知的和被隱藏的,不能通過數據庫的邏輯操作或統計的方法得出的信息。FP-Growth算法預測模型序貫模式挖掘SPMGC算法of40一種統計或數據挖掘的方法,包括可以在結構化與非結構化數據中使用以確定未來結果的算法和技術,可為預測、優(yōu)化、預報和模擬等許多業(yè)務系統所使用。含義是什么的?新摩

定大數數如何是怎么哪來源有 些?6.挖哪些習題:感謝聆聽第一章 大數據概念與應用of40大數據的概念與意義大數據的來源大數據應用場景大數據處理方法習題為什么全球數據量增長如此之快?1.2大數據的來源第一章大數據概念與應用按數據存儲的形式劃分大數據不僅僅體現在數據量大,還體現在數據類型多。如此海量的數據中,僅有20%左右屬于結構化的數據,80%的數據屬

于廣泛存在于社交網絡、物聯網、電子商務等領域的非結構化數據。結構化數據簡單來說就是數據庫,如企業(yè)ERP、財務系統、醫(yī)療HIS數據庫、教育一卡通、政府行政審批、其他核心數據庫等數據。非結構化數據包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等數據。03of401.3大數據應用場景第一章大數據概念與應用農業(yè)行業(yè)環(huán)境行業(yè)借助于大數據提供的消費能力和趨勢報告,政府可為農業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論