大數(shù)據(jù)營(yíng)銷(xiāo) 課件 第3、4章 營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理、營(yíng)銷(xiāo)大數(shù)據(jù)分析_第1頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo) 課件 第3、4章 營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理、營(yíng)銷(xiāo)大數(shù)據(jù)分析_第2頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo) 課件 第3、4章 營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理、營(yíng)銷(xiāo)大數(shù)據(jù)分析_第3頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo) 課件 第3、4章 營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理、營(yíng)銷(xiāo)大數(shù)據(jù)分析_第4頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo) 課件 第3、4章 營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理、營(yíng)銷(xiāo)大數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章

營(yíng)銷(xiāo)大數(shù)據(jù)采集及預(yù)處理本章內(nèi)容

第1節(jié)

數(shù)據(jù)采集

第2節(jié)

數(shù)據(jù)預(yù)處理學(xué)習(xí)目標(biāo)

了解大數(shù)據(jù)的類(lèi)型和數(shù)據(jù)來(lái)源

了解數(shù)據(jù)采集過(guò)程,培育正確的信息隱私觀

了解大數(shù)據(jù)采集方法

掌握數(shù)據(jù)預(yù)處理的方法,以及每種方法對(duì)應(yīng)處理的問(wèn)題類(lèi)型導(dǎo)入案例

喜茶:“私域流量”時(shí)代的數(shù)字化奶茶2020年3月初小程序下單比2月同期增長(zhǎng)774%,創(chuàng)下了線上銷(xiāo)售新高。這一切,主要?dú)w功于“數(shù)字化”與“私域流量”。在用戶分析上,喜茶利用會(huì)員數(shù)據(jù)可以進(jìn)行精準(zhǔn)的用戶喜好評(píng)估。挖掘出用戶的細(xì)分需求,就能獲取產(chǎn)品研發(fā)的靈感,推出更貼近用戶的獨(dú)特的新品。通過(guò)自動(dòng)化推薦,喜茶讓營(yíng)銷(xiāo)更個(gè)性化和定制化。自動(dòng)化的千人千面營(yíng)銷(xiāo),不僅可靈活控制庫(kù)存,還能有效提高銷(xiāo)量,提升用戶的使用體驗(yàn),第一時(shí)間把需要的信息與產(chǎn)品呈現(xiàn)在用戶面前。喜茶利用大數(shù)據(jù)為創(chuàng)意營(yíng)銷(xiāo)策略提供方向性指導(dǎo),不斷實(shí)踐著跨界聯(lián)名、社區(qū)活動(dòng)等新鮮玩法。這背后,其實(shí)也依靠會(huì)員系統(tǒng)數(shù)據(jù)的支撐。本章知識(shí)結(jié)構(gòu)數(shù)據(jù)類(lèi)型數(shù)據(jù)來(lái)源數(shù)據(jù)預(yù)處理營(yíng)銷(xiāo)數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)采集方法結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)搜索引擎、電子商務(wù)平臺(tái)、社交媒體平臺(tái)系統(tǒng)日志、感知設(shè)備、網(wǎng)絡(luò)爬蟲(chóng)、市場(chǎng)調(diào)查數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題一、數(shù)據(jù)類(lèi)型第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指關(guān)系模型數(shù)據(jù),即以關(guān)系數(shù)據(jù)庫(kù)形式管理的數(shù)據(jù),可計(jì)算、可查詢、可定義。結(jié)構(gòu)化數(shù)據(jù)能夠形式化存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)表示,它被歸類(lèi)為定量數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不便于用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),在技術(shù)上比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)數(shù)據(jù)之間的一種結(jié)構(gòu)化數(shù)據(jù)形式。因其比較特殊,所以單獨(dú)列出來(lái),但本質(zhì)還是結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。數(shù)據(jù)三大類(lèi)型數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題二、數(shù)據(jù)來(lái)源第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集數(shù)據(jù)來(lái)源

搜索引擎搜索數(shù)據(jù)和網(wǎng)站的點(diǎn)擊瀏覽數(shù)據(jù)來(lái)源于搜索引擎,搜索平臺(tái)擁有龐大的用戶行為數(shù)據(jù)。利用點(diǎn)擊和瀏覽數(shù)據(jù)對(duì)消費(fèi)者進(jìn)行分析,可以找到用戶的關(guān)注點(diǎn)、興趣點(diǎn),利用這些信息,企業(yè)可以對(duì)用戶進(jìn)行個(gè)性化推送,精準(zhǔn)營(yíng)銷(xiāo),極大提高了廣告的效率。電子商務(wù)平臺(tái)商品的搜索數(shù)據(jù)、瀏覽數(shù)據(jù)、交易數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)以及對(duì)應(yīng)的用戶數(shù)據(jù)來(lái)源于電子商務(wù)平臺(tái)。通過(guò)對(duì)商業(yè)大數(shù)據(jù)的分析,能夠更直接地了解消費(fèi)者的動(dòng)態(tài)。通過(guò)用戶的點(diǎn)評(píng)數(shù)據(jù),企業(yè)能夠分析出用戶滿意或者不滿意的地方,這些因素就是企業(yè)存在的優(yōu)勢(shì)和劣勢(shì)。收集、分析用戶的點(diǎn)評(píng)數(shù)據(jù)還有一個(gè)重要之處就是傾聽(tīng)用戶的意見(jiàn)、了解用戶的真實(shí)需求。半結(jié)構(gòu)化數(shù)據(jù)用戶屬性標(biāo)簽、用戶生成內(nèi)容(UGC)、用戶間社交網(wǎng)絡(luò)數(shù)據(jù)來(lái)源于社交媒體平臺(tái)。通過(guò)對(duì)社交網(wǎng)絡(luò)的研究,企業(yè)可以跟蹤信息傳播路徑?;谟脩舻男袨楹蛯傩詷?biāo)簽,可以生成用戶畫(huà)像,從而了解用戶喜好,企業(yè)根據(jù)分析結(jié)果來(lái)開(kāi)展精準(zhǔn)營(yíng)銷(xiāo)。數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

系統(tǒng)日志系統(tǒng)日志數(shù)據(jù)采集主要是收集公司業(yè)務(wù)平臺(tái)日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線大數(shù)據(jù)分析系統(tǒng)使用。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具用于系統(tǒng)日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求。數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

感知設(shè)備感知設(shè)備數(shù)據(jù)采集是指通過(guò)傳感器、攝像頭和其它智能終端自動(dòng)采集信號(hào)、圖片或錄像來(lái)獲取數(shù)據(jù)。在智能制造、可穿戴設(shè)備、物聯(lián)網(wǎng)愈發(fā)普及的今天,高速、可靠的數(shù)據(jù)采集技術(shù)是當(dāng)前需要重點(diǎn)突破的方向??萍伎焖侔l(fā)展,技術(shù)創(chuàng)新給大數(shù)據(jù)采集提供了新的方法,比如基于眼動(dòng)(EM)、腦電圖(EEG)、事件相關(guān)電位(ERP)、皮膚電反應(yīng)(GSR)、肌電(EMG)、心電圖(ECG)等前沿科技來(lái)采集數(shù)據(jù)。通過(guò)感知設(shè)備對(duì)生物數(shù)據(jù)進(jìn)行采集的方式在廣告、消費(fèi)者評(píng)論領(lǐng)域均有很強(qiáng)的應(yīng)用價(jià)值,逐漸成為營(yíng)銷(xiāo)領(lǐng)域研究者的“新寵”。數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是指按照一定規(guī)則在搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序或腳本,又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人。傳統(tǒng)爬蟲(chóng)從獲得一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的停止條件后結(jié)束。從嚴(yán)格意義上來(lái)說(shuō),爬蟲(chóng)更像一種數(shù)據(jù)下載邏輯,很多軟件都具備爬蟲(chóng)的功能(如Python、R、“火車(chē)頭”、“八爪魚(yú)”等)。數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

市場(chǎng)調(diào)查利用上文所說(shuō)的信息化手段收集資料非常方便,但對(duì)于有些數(shù)據(jù),如顧客需求及偏好、顧客滿意度、市場(chǎng)環(huán)境和行情信息、競(jìng)爭(zhēng)對(duì)手信息以及戰(zhàn)略合作伙伴方的情況等無(wú)法通過(guò)信息化手段取得資料時(shí),則需要通過(guò)市場(chǎng)調(diào)查或科學(xué)的實(shí)驗(yàn)方法來(lái)獲取一手?jǐn)?shù)據(jù)。市場(chǎng)調(diào)查分為線下、線上兩種。線下即傳統(tǒng)人與人面對(duì)面的調(diào)查方式;線上即網(wǎng)絡(luò)在線調(diào)查方式,相比線下方式可以在投入較少人力、時(shí)間和資金的情況下獲取更大規(guī)模數(shù)據(jù),許多企業(yè)和市場(chǎng)調(diào)研機(jī)構(gòu)越來(lái)越多地采用線上網(wǎng)絡(luò)市場(chǎng)調(diào)研的方式進(jìn)行網(wǎng)絡(luò)營(yíng)銷(xiāo)數(shù)據(jù)采集。數(shù)據(jù)類(lèi)型丨數(shù)據(jù)來(lái)源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問(wèn)題四、大數(shù)據(jù)采集面臨的問(wèn)題第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集數(shù)據(jù)獲取渠道缺乏項(xiàng)目二數(shù)據(jù)質(zhì)量難以保證項(xiàng)目三隱私安全問(wèn)題凸顯缺少數(shù)據(jù)獲取渠道,是數(shù)據(jù)分析面臨的一大難題。很多行業(yè)和企業(yè)并沒(méi)有積累數(shù)據(jù)的意識(shí),導(dǎo)致很多數(shù)據(jù)存在空白。此外,大數(shù)據(jù)包含大量信息,可能涉及到用戶的隱私和公司的機(jī)密,企業(yè)和政府不愿意分享數(shù)據(jù)?;ヂ?lián)網(wǎng)時(shí)代,在線活動(dòng)與在線交易不斷增多,用戶數(shù)據(jù)與隱私泄露事件時(shí)有發(fā)生,網(wǎng)絡(luò)安全威脅更為嚴(yán)峻。數(shù)據(jù)挖掘一方面可以被企業(yè)有效利用,增強(qiáng)營(yíng)銷(xiāo)活動(dòng)的精準(zhǔn)度,提升營(yíng)銷(xiāo)效率;但另一方面,如果缺乏有效監(jiān)管,用戶數(shù)據(jù)被不法分子得到,將會(huì)帶來(lái)嚴(yán)重的損失與危害。大數(shù)據(jù)的“大”是指全體樣本,而非單指數(shù)據(jù)量大。現(xiàn)有平臺(tái)數(shù)據(jù)質(zhì)量參差不齊,大數(shù)據(jù)采集能力有待提升,實(shí)踐中很難獲得全樣本數(shù)據(jù),龐雜的數(shù)據(jù)中充斥著大量無(wú)效的干擾性數(shù)據(jù)、缺失內(nèi)容,如何讓收集到的數(shù)據(jù)樣本豐富全面,是大數(shù)據(jù)給營(yíng)銷(xiāo)變革帶來(lái)的挑戰(zhàn)之一。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗概念:數(shù)據(jù)清洗主要是通過(guò)填寫(xiě)缺失值對(duì)“臟數(shù)據(jù)”進(jìn)行處理,識(shí)別或刪除離群點(diǎn),將數(shù)據(jù)庫(kù)中所存數(shù)據(jù)精細(xì)化,并使剩余數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)可接受格式的過(guò)程,以達(dá)到格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)消除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)清除等目的。原始數(shù)據(jù)中的“臟數(shù)據(jù)”指源系統(tǒng)中不在給定的范圍內(nèi)、對(duì)于實(shí)際業(yè)務(wù)毫無(wú)意義、數(shù)據(jù)格式非法、存在不規(guī)范的編碼和含糊業(yè)務(wù)邏輯的數(shù)據(jù)。在數(shù)據(jù)清洗步驟中,主要解決數(shù)據(jù)出現(xiàn)遺漏值、噪聲、異常值等問(wèn)題。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗遺漏值(missing

value)遺漏值(missing

value)為數(shù)據(jù)遺漏、缺失的情況,如某客戶的月消費(fèi)數(shù)據(jù)缺失。在數(shù)據(jù)搜集階段,由于設(shè)備故障或人為失誤均有可能導(dǎo)致數(shù)據(jù)的遺漏,應(yīng)將數(shù)據(jù)補(bǔ)全。處理遺漏數(shù)據(jù)最簡(jiǎn)單直接的方法是直接刪去該變量值,但當(dāng)數(shù)據(jù)遺漏比例很大時(shí),此方法將造成大量數(shù)據(jù)流失;第二種方法是使用一個(gè)常數(shù)或該字段所有數(shù)據(jù)的平均值統(tǒng)一替換遺漏值,例如用其他用戶消費(fèi)均值替換某客戶消費(fèi)指標(biāo)的遺漏值,此方法缺點(diǎn)是不具客觀性,當(dāng)數(shù)據(jù)本身具有類(lèi)別或等級(jí)之分時(shí),容易高估或低估數(shù)據(jù);最后還可利用數(shù)據(jù)挖掘模式來(lái)填充遺漏值,使用回歸分析、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘推導(dǎo)工具來(lái)推測(cè)填補(bǔ)遺漏值。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗噪聲(noise)噪聲(noise)表示數(shù)據(jù)中的隨機(jī)誤差或干擾項(xiàng)。在數(shù)據(jù)收集、整理的過(guò)程中,會(huì)產(chǎn)生大量的噪聲數(shù)據(jù),即“離群點(diǎn)”。比如在年齡收入曲線中,出現(xiàn)個(gè)別遠(yuǎn)離曲線的極端點(diǎn)。因?yàn)樵肼晹?shù)據(jù)不在合理的數(shù)據(jù)域內(nèi),所以分析、挖掘過(guò)程中輸入和輸出數(shù)據(jù)的質(zhì)量難以保證,容易造成后續(xù)的挖掘結(jié)果不準(zhǔn)確、不可靠。常用的消除噪聲數(shù)據(jù)的方法分為兩種。一種是噪聲平滑方法(datapolishing),常用分箱法處理,即將預(yù)處理數(shù)據(jù)分布到不同的箱中,通過(guò)參考周?chē)鷮?shí)例平滑噪聲數(shù)據(jù)。具體的分箱技術(shù)包括:平均值平滑,中位數(shù)平滑,按設(shè)定的箱邊界平滑。另一種是噪聲過(guò)濾(datafilters),利用聚類(lèi)方法對(duì)離群點(diǎn)進(jìn)行分析、過(guò)濾。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗異常值(abnormal

value)若某一些數(shù)據(jù)的表現(xiàn)與其他數(shù)據(jù)差距很大時(shí),這些數(shù)據(jù)稱為異常值(abnormal

value),如數(shù)據(jù)顯示某用戶的月消費(fèi)金額基本在3000~5000元范圍內(nèi),若賬單有一條30000元的記錄,即為異常值。異常值可通過(guò)經(jīng)驗(yàn)判斷、標(biāo)準(zhǔn)分?jǐn)?shù)(或法則)、箱線圖等方法來(lái)判斷。對(duì)于異常值的處理需根據(jù)具體情況分析,若該異常值擁有特殊意義,則需保留;若由于儀器工具或人工失誤導(dǎo)致,可根據(jù)情況考慮直接刪除該數(shù)據(jù),或用其它數(shù)值更替,將數(shù)據(jù)的范圍歸一化。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成概念:數(shù)據(jù)清洗后方可進(jìn)行數(shù)據(jù)集成,數(shù)據(jù)集成是將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并,統(tǒng)一存放在一個(gè)數(shù)據(jù)庫(kù)中。由于描述同一個(gè)概念的屬性在不同數(shù)據(jù)庫(kù)可能有不同的名字,在進(jìn)行數(shù)據(jù)集成時(shí)常會(huì)引起數(shù)據(jù)的不一致和冗余。命名的不一致常常也會(huì)導(dǎo)致同一屬性值的內(nèi)容不同。使用數(shù)據(jù)量太大的數(shù)據(jù)進(jìn)行分析不僅會(huì)降低數(shù)據(jù)挖掘速度,也會(huì)誤導(dǎo)數(shù)據(jù)挖掘進(jìn)程。因此進(jìn)行數(shù)據(jù)清洗之后,在數(shù)據(jù)集成中還需要注意消除數(shù)據(jù)的不一致、重復(fù)和冗余。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)不一致數(shù)據(jù)不一致是指兩條及以上數(shù)據(jù)出現(xiàn)數(shù)據(jù)的矛盾性或不相容性的情況。由于整合數(shù)據(jù)后,不同來(lái)源的數(shù)據(jù)屬性可能不同,在數(shù)據(jù)表達(dá)、比例定義或編碼上也會(huì)有所不同,因此產(chǎn)生數(shù)值或字段不一致的狀況。例如在兩個(gè)不同的數(shù)據(jù)表中,用戶在線時(shí)長(zhǎng)分別用小時(shí)和分鐘兩種單位來(lái)記錄。為使數(shù)據(jù)保持一致,需要先確定作為標(biāo)準(zhǔn)的字段,然后對(duì)另外的字段進(jìn)行單位的換算或者修改來(lái)保持?jǐn)?shù)據(jù)一致。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)重復(fù)重復(fù)數(shù)據(jù)是指重復(fù)出現(xiàn)的數(shù)值或字段。對(duì)于重復(fù)數(shù)據(jù)的處理方法也需根據(jù)實(shí)際情況進(jìn)行判斷:如因數(shù)據(jù)庫(kù)信息有重合,在數(shù)據(jù)整合后發(fā)生的數(shù)據(jù)重復(fù),刪除多余記錄只保留一條即可;如確實(shí)為幾條不同的記錄,如同一用戶對(duì)同一規(guī)格的產(chǎn)品、下單兩次,則兩條均需保留。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)冗余數(shù)據(jù)冗余是指數(shù)據(jù)之間的重復(fù),也可以說(shuō)是同一數(shù)據(jù)存儲(chǔ)在不同數(shù)據(jù)文件中的現(xiàn)象。屬性命名的不一致,也有可能導(dǎo)致集中的冗余數(shù)據(jù)。數(shù)據(jù)冗余的處理主要是針對(duì)具有相同意義或彼此間存在已知數(shù)學(xué)關(guān)系的字段,也就是此變量的屬性或代表的意義可由另一變量推導(dǎo)而得,如數(shù)據(jù)中含有用戶1-12月的“月消費(fèi)金額”及全年的“年消費(fèi)金額”,“年消費(fèi)金額”完全可以由每月消費(fèi)金額累加得出,即為數(shù)據(jù)冗余。為使數(shù)據(jù)更加簡(jiǎn)潔,可將該字段剔除。若數(shù)據(jù)冗余因?qū)傩悦灰恢聦?dǎo)致,需經(jīng)具體判斷后處理或保留。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約三、數(shù)據(jù)變換概念:數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于各種數(shù)據(jù)挖掘模式的形式,以轉(zhuǎn)換原始數(shù)據(jù)或重新編碼的方式提升數(shù)據(jù)價(jià)值,其中可能涉及數(shù)據(jù)數(shù)值與數(shù)據(jù)類(lèi)別的轉(zhuǎn)換。例如,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為離散型的類(lèi)別數(shù)據(jù),根據(jù)領(lǐng)域知識(shí)將舊變量合并成新的變量,或?qū)?shù)據(jù)歸一化以避免尺度的差異,常見(jiàn)如人工神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的歸一化。對(duì)于數(shù)據(jù)的數(shù)值轉(zhuǎn)換,可采取歸一化和標(biāo)準(zhǔn)化方法,歸一化(normalization)是將屬性數(shù)據(jù)按比例縮放到一個(gè)特定的區(qū)間,如[-1,1]或[0,1],標(biāo)準(zhǔn)化(standardization)則是依據(jù)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于數(shù)據(jù)的屬性轉(zhuǎn)換,可視情況將離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù),如將顧客評(píng)論中“比較滿意”“滿意”“非常滿意”轉(zhuǎn)化為數(shù)值8、9、10,或是將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),例如按照顧客的價(jià)值評(píng)分把顧客分為白銀貴賓、黃金貴賓、鉑金貴賓、鉆石貴賓。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約四、數(shù)據(jù)規(guī)約概念:數(shù)據(jù)歸約的主要目的是得到與原始數(shù)據(jù)具有相同信息但較精簡(jiǎn)的數(shù)據(jù)集。數(shù)據(jù)挖掘時(shí)數(shù)據(jù)量往往非常大,數(shù)據(jù)歸約技術(shù)通過(guò)選擇替代的、較少的數(shù)據(jù)來(lái)減少數(shù)據(jù)量,可以有效縮減數(shù)據(jù)規(guī)模,在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量,使得大數(shù)據(jù)挖掘更精準(zhǔn)高效。企業(yè)根據(jù)現(xiàn)實(shí)情況主要進(jìn)行維度規(guī)約和數(shù)值規(guī)約兩方面的處理。數(shù)據(jù)維度歸約常用于分類(lèi)或預(yù)測(cè)問(wèn)題,最直接的方式是以目標(biāo)變量作為比較基準(zhǔn),利用特征選取法將變量維度中與目標(biāo)變量不相關(guān)的屬性刪除,或利用主成分分析法將變量作線性轉(zhuǎn)換,只留下提供較多信息的幾個(gè)主成分,以縮小變量維度。數(shù)值規(guī)約通過(guò)選擇替代的、較少的數(shù)據(jù)來(lái)減少數(shù)據(jù)量,包括有參數(shù)方法和無(wú)參數(shù)方法。參數(shù)方法可采用回歸模型與對(duì)數(shù)線性模型來(lái)實(shí)現(xiàn),非參數(shù)化方法包括直方圖、聚類(lèi)、抽樣、數(shù)據(jù)立方體聚集等方法。案例3-1擁抱大數(shù)據(jù):1號(hào)店的電商營(yíng)銷(xiāo)之道大數(shù)據(jù)時(shí)代的到來(lái),顛覆了傳統(tǒng)的市場(chǎng)營(yíng)銷(xiāo)模式與理念,要求市場(chǎng)營(yíng)銷(xiāo)不能再僅憑嗅覺(jué)和感覺(jué)做事,也要依靠科技和分析洞察能力。近年來(lái)隨著我國(guó)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,越來(lái)越多的國(guó)內(nèi)企業(yè)投身到這場(chǎng)變革的浪潮中來(lái)。1號(hào)店作為中國(guó)電子商務(wù)行業(yè)最早的“網(wǎng)上超市”,是最早將大數(shù)據(jù)融入到營(yíng)銷(xiāo)中的企業(yè)之一。1號(hào)店的大數(shù)據(jù)營(yíng)銷(xiāo)主要有以下舉措:建立營(yíng)銷(xiāo)系統(tǒng),實(shí)現(xiàn)全自動(dòng)化構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),挖掘用戶價(jià)值立足產(chǎn)品特點(diǎn),打造產(chǎn)品推薦抓住用戶個(gè)性,提高用戶體驗(yàn)利用網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)自動(dòng)調(diào)價(jià)基本概念

結(jié)構(gòu)化數(shù)據(jù)(StructuredData)

半結(jié)構(gòu)化數(shù)據(jù)(Semi-StructuredData)

數(shù)據(jù)整合(DataIntegration)

數(shù)據(jù)歸約(DataReduction)

非結(jié)構(gòu)化數(shù)據(jù)(UnstructuredData)

數(shù)據(jù)清理(DataCleaning)數(shù)據(jù)轉(zhuǎn)換(DataTransformation)思考題簡(jiǎn)述大數(shù)據(jù)分析的流程及每一步的主要任務(wù)。舉例說(shuō)明大數(shù)據(jù)的類(lèi)型,分別有什么特點(diǎn)?營(yíng)銷(xiāo)實(shí)踐中,可以通過(guò)哪些渠道收集用戶數(shù)據(jù),如何確保隱私保護(hù)等問(wèn)題?數(shù)據(jù)預(yù)處理的流程是什么,對(duì)于大數(shù)據(jù)分析有什么作用?THANKS!

第4章

營(yíng)銷(xiāo)大數(shù)據(jù)分析本章內(nèi)容

第1節(jié)

預(yù)測(cè)分析

第2節(jié)

文本分析

第3節(jié)

社交網(wǎng)絡(luò)分析

第4節(jié)

數(shù)據(jù)分析工具學(xué)習(xí)目標(biāo)

理解并掌握預(yù)測(cè)分析的內(nèi)容、作用及分析方法

理解并掌握文本分析的內(nèi)容、作用及分析流程

理解并掌握社交網(wǎng)絡(luò)分析的內(nèi)容、作用及分析指標(biāo)

了解數(shù)據(jù)分析常用工具及其特點(diǎn)導(dǎo)入案例

大數(shù)據(jù)助力京東物流顧客享受分鐘級(jí)收貨體驗(yàn)“購(gòu)物車(chē)還沒(méi)清空,就接到了配送的電話”,“京東物流速度簡(jiǎn)直不可思議”……京東物流數(shù)據(jù)顯示,2021年618期間,最快僅4分鐘就將快遞送至客戶手中。618當(dāng)日,京東穩(wěn)定履約背后的技術(shù)數(shù)據(jù)也首次公開(kāi):全國(guó)日均單量預(yù)測(cè)準(zhǔn)確率超過(guò)95.5%,32座亞洲一號(hào)護(hù)航,機(jī)器人倉(cāng)單日訂單處理量超過(guò)100%,智能快遞車(chē)送達(dá)業(yè)務(wù)量同比增長(zhǎng)24倍。通過(guò)大數(shù)據(jù),京東能夠有效分析出消費(fèi)者的偏好,將消費(fèi)者的訂貨需求準(zhǔn)確傳達(dá)給最近的倉(cāng)庫(kù),精準(zhǔn)高速配送的同時(shí)也不會(huì)發(fā)生送錯(cuò)現(xiàn)象。京東物流“預(yù)測(cè)式發(fā)貨(AnticipatoryShipping)”正是利用大數(shù)據(jù)預(yù)測(cè),直接鎖定潛在客戶需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。根據(jù)預(yù)測(cè)結(jié)果,京東物流將貨物運(yùn)送至距離潛在客戶最近的物流網(wǎng)點(diǎn),實(shí)現(xiàn)“單未下貨先行”;消費(fèi)者下單后,直接從距離最近的倉(cāng)庫(kù)調(diào)撥貨物,讓消費(fèi)者購(gòu)買(mǎi)商品實(shí)現(xiàn)“即買(mǎi)即得”。本章知識(shí)結(jié)構(gòu)預(yù)測(cè)分析文本分析數(shù)據(jù)分析工具營(yíng)銷(xiāo)大數(shù)據(jù)分析社交網(wǎng)絡(luò)分析分析內(nèi)容:用戶行為、偏好、關(guān)系、價(jià)值預(yù)測(cè)分析方法:回歸、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、KNN算法等分析內(nèi)容:用戶特征、情感、需求分析分析流程:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析社交網(wǎng)絡(luò)核心概念及相關(guān)理論分析內(nèi)容:營(yíng)銷(xiāo)推薦網(wǎng)絡(luò)、用戶間關(guān)系、用戶與企業(yè)互動(dòng)分析分析指標(biāo):網(wǎng)絡(luò)密度、中心度、凝聚子群等EXCEL、SPSS、SAS、R、Python、MATLAB、Tableau等預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法一、預(yù)測(cè)分析概述第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析的內(nèi)容

用戶行為預(yù)測(cè)從大量的歷史用戶數(shù)據(jù)中挖掘出用戶的特定行為及其規(guī)律,快速準(zhǔn)確地預(yù)測(cè)未來(lái)一定時(shí)間內(nèi)即將發(fā)生的用戶行為,如瀏覽、搜索、點(diǎn)擊、收藏、購(gòu)買(mǎi)、流失、違約等未來(lái)行為動(dòng)向。用戶偏好預(yù)測(cè)基于歷史數(shù)據(jù)對(duì)用戶品類(lèi)偏好、價(jià)格偏好、渠道偏好、品牌偏好等進(jìn)行預(yù)測(cè),挖掘用戶興趣,為用戶提供“投其所好”的個(gè)性化產(chǎn)品和服務(wù),增強(qiáng)用戶粘性及對(duì)企業(yè)的忠誠(chéng)度。用戶關(guān)系預(yù)測(cè)基于用戶數(shù)據(jù)(如微博中的用戶基本信息、所在位置、微博內(nèi)容、粉絲用戶、關(guān)注用戶等屬性數(shù)據(jù))進(jìn)行預(yù)測(cè)分析,挖掘用戶間潛在的鏈接關(guān)系,降低網(wǎng)絡(luò)稀疏性、提高營(yíng)銷(xiāo)效率。用戶價(jià)值預(yù)測(cè)結(jié)合交易數(shù)據(jù)預(yù)測(cè)用戶整個(gè)生命周期的購(gòu)買(mǎi)力,識(shí)別和重點(diǎn)維護(hù)高價(jià)值用戶。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法一、預(yù)測(cè)分析概述第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析在營(yíng)銷(xiāo)中的作用

識(shí)別潛在客戶項(xiàng)目三項(xiàng)目二項(xiàng)目四企業(yè)通過(guò)大數(shù)據(jù)預(yù)測(cè)分析,能夠有效識(shí)別高質(zhì)量潛在客戶,并以高效、針對(duì)性地吸引和觸達(dá)客戶,使?fàn)I銷(xiāo)活動(dòng)更具目標(biāo)性,從而大幅降低成本。增強(qiáng)客戶粘性提升客戶價(jià)值減少客戶流失文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析企業(yè)通過(guò)大數(shù)據(jù)預(yù)測(cè)分析,能夠?yàn)榭蛻籼峁└鼉?yōu)惠便捷的產(chǎn)品或服務(wù)選擇,創(chuàng)造極致顧客體驗(yàn),增強(qiáng)客戶粘性,鞏固客戶關(guān)系,提高客戶忠誠(chéng)度。企業(yè)通過(guò)大數(shù)據(jù)預(yù)測(cè)分析,能夠識(shí)別客戶價(jià)值,從而對(duì)高價(jià)值目標(biāo)客戶重點(diǎn)營(yíng)銷(xiāo),同時(shí)提升低價(jià)值客戶貢獻(xiàn)度,充分挖掘現(xiàn)有客戶的潛力,獲取最大價(jià)值回報(bào)。企業(yè)通過(guò)大數(shù)據(jù)預(yù)測(cè)分析,預(yù)測(cè)顧客隱藏的趨勢(shì)與行為,識(shí)別潛在流失客戶,便于主動(dòng)出擊,實(shí)施挽回計(jì)劃,減少客戶流失,最大限度降低損失。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法

回歸分析(RegressionAnalysis)回歸分析是在自變量和因變量間關(guān)系的基礎(chǔ)上建立回歸方程,并將該方程作為預(yù)測(cè)模型,根據(jù)自變量在預(yù)測(cè)期的值來(lái)預(yù)測(cè)因變量數(shù)值的分析方法。按照自變量個(gè)數(shù)分類(lèi),分為一元回歸和多元回歸分析;按照自變量和因變量間關(guān)系分類(lèi),分為線性回歸和非線性回歸。如谷歌在

2014年發(fā)布的通過(guò)電影相關(guān)搜索量數(shù)據(jù)提前預(yù)測(cè)電影上映首周票房收入的預(yù)測(cè)模型,采用的就是最為簡(jiǎn)單的線性回歸方法,但其預(yù)測(cè)準(zhǔn)確度高達(dá)94%。線性模型雖然表面上看起來(lái)簡(jiǎn)單,精準(zhǔn)度卻很高。越是簡(jiǎn)單的模型越容易被人們理解和分析,簡(jiǎn)單且效果好是實(shí)際應(yīng)用中一直追求的目標(biāo)。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法決策樹(shù)是一種樹(shù)形結(jié)構(gòu),由3個(gè)主要部分組成:根節(jié)點(diǎn)、分支和葉子節(jié)點(diǎn)。最頂部的是根節(jié)點(diǎn),表示一個(gè)待分類(lèi)的數(shù)據(jù)類(lèi)別或?qū)傩?,從根結(jié)點(diǎn)開(kāi)始分支分裂,直到葉子節(jié)點(diǎn)給出結(jié)果。三種經(jīng)典算法:ID3、C4.5和CART算法,不同算法會(huì)根據(jù)不同標(biāo)準(zhǔn)選擇最優(yōu)的分裂屬性,進(jìn)而生成一棵完整的決策樹(shù)。右圖為一棵構(gòu)建好的決策樹(shù)。決策樹(shù)(DecisionTrees)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法隨機(jī)森林通過(guò)建立多棵隨機(jī)生成的決策樹(shù)而形成。通俗來(lái)講,隨機(jī)森林是若干決策樹(shù)進(jìn)行“投票表決”的過(guò)程:每棵決策樹(shù)給出“投票結(jié)果”,隨機(jī)森林的輸出結(jié)果則是將若干單個(gè)決策樹(shù)的“投票結(jié)果”整合后的“最終投票結(jié)果”。仍以決策樹(shù)的分類(lèi)問(wèn)題為例,如果隨機(jī)森林中包含1000棵決策樹(shù),有892棵決策樹(shù)的預(yù)測(cè)結(jié)果為“有購(gòu)買(mǎi)意向”,108棵決策樹(shù)的預(yù)測(cè)結(jié)果為“無(wú)購(gòu)買(mǎi)意向”,經(jīng)過(guò)1000棵決策樹(shù)的“投票表決”,判斷結(jié)果為該用戶有購(gòu)買(mǎi)意向。隨機(jī)森林(RandomForest)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法以一個(gè)經(jīng)典的單層神經(jīng)網(wǎng)絡(luò)為例,包含輸入層、中間層(也叫隱藏層)、輸出層三個(gè)層次。類(lèi)比生物神經(jīng)元的工作原理,在人工神經(jīng)網(wǎng)絡(luò)中,一個(gè)神經(jīng)元有n個(gè)輸入,每一個(gè)輸入對(duì)應(yīng)一個(gè)權(quán)值w,神經(jīng)元內(nèi)會(huì)對(duì)輸入與權(quán)重做乘法后求和,求和的結(jié)果與偏置做差,最終將結(jié)果放入激活函數(shù)中,由激活函數(shù)給出最后的輸出結(jié)果。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法支持向量機(jī)的基本思想是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。SVM和線性回歸的思想有相似之處,兩者都是尋找一條最佳直線,但定義方法不同,線性回歸要求直線到各個(gè)點(diǎn)的距離最近,而SVM要求直線離兩邊點(diǎn)距離盡量大。如下圖,SVM劃分直線使得圓形和三角形分離盡量大。支持向量機(jī)(Support

Vector

Machine)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析第1節(jié)

預(yù)測(cè)分析預(yù)測(cè)分析概述丨預(yù)測(cè)分析方法二、預(yù)測(cè)分析方法KNN算法的思路正如其名,是借助樣本點(diǎn)附近的K個(gè)“Neighbors”是什么類(lèi)別來(lái)判斷該樣本的所屬類(lèi)別。以經(jīng)典示意圖進(jìn)行說(shuō)明。有兩類(lèi)已知標(biāo)簽的數(shù)據(jù)(藍(lán)方塊和紅三角),綠圓圈是需要進(jìn)行分類(lèi)判斷的樣本點(diǎn)。如果K=3(判斷范圍為小圓區(qū)域),范圍內(nèi)紅三角多,則綠圓圈屬于紅三角類(lèi)別;而如果K=5(判斷范圍為大圓區(qū)域),范圍內(nèi)藍(lán)方塊多,則綠圓圈屬于藍(lán)方塊類(lèi)別。KNN(K-NearestNeighbors)文本分析(TextAnalysis)又稱文本挖掘(TextMining),是指從大量非結(jié)構(gòu)化文本數(shù)據(jù)中抽取特征詞進(jìn)行量化以表示文本信息。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程一、文本分析概述文本分析可以回答“是什么?”“為什么?”揭示出非結(jié)構(gòu)化文本信息中的人物、事件、時(shí)間、地點(diǎn)等內(nèi)容反映用戶購(gòu)買(mǎi)和使用產(chǎn)品的潛在動(dòng)機(jī)和真實(shí)需求為客戶體驗(yàn)、市場(chǎng)研究、用戶調(diào)查以及數(shù)據(jù)分析和媒體測(cè)量提供關(guān)鍵解決方案社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程這里是文本這里是文本這里是文本這里是文本數(shù)據(jù)采集數(shù)據(jù)分析二、文本分析流程數(shù)據(jù)預(yù)處理數(shù)據(jù)分析用戶交流記錄客戶投訴意見(jiàn)用戶產(chǎn)品評(píng)論用戶搜索記錄……分詞清洗剔除停止詞拼寫(xiě)檢查詞干化關(guān)鍵詞抽取語(yǔ)義網(wǎng)絡(luò)分析情感傾向分析主題建模……社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程一、文本分析概述用戶特征分析對(duì)用戶在社交網(wǎng)絡(luò)平臺(tái)發(fā)表觀點(diǎn)、撰寫(xiě)文章、與朋友互動(dòng)等活動(dòng)產(chǎn)生的文本進(jìn)行分析,得到能夠表達(dá)用戶日常行為的主題詞,進(jìn)而得知用戶特征。用戶情感分析用戶評(píng)論信息中包含著豐富的情感色彩和情感傾向,如喜、怒、哀、樂(lè)、批評(píng)、贊揚(yáng)等。基于這些帶有主觀色彩的評(píng)論,企業(yè)識(shí)別出用戶文本背后蘊(yùn)含的情緒或情感。用戶需求分析通過(guò)對(duì)用戶在社交平臺(tái)、購(gòu)物網(wǎng)站上在線交流、分享經(jīng)驗(yàn)、發(fā)表評(píng)價(jià)等活動(dòng)生成的內(nèi)容進(jìn)行文本分析,能夠快速、準(zhǔn)確地捕捉用戶需求。文本分析的內(nèi)容在計(jì)算機(jī)找出輸入或識(shí)別等錯(cuò)誤后,根據(jù)檢查結(jié)果決定是否進(jìn)行改正將英文單詞的派生形式或中文詞語(yǔ)的同義詞提取和還原為對(duì)應(yīng)詞干對(duì)僅具有語(yǔ)言學(xué)的意義,而對(duì)所表達(dá)的內(nèi)容沒(méi)有太大意義的詞進(jìn)行過(guò)濾對(duì)文本中的HTML標(biāo)簽、URL地址、圖像等沒(méi)有實(shí)質(zhì)性意義的內(nèi)容進(jìn)行清洗按照一定規(guī)則對(duì)文本語(yǔ)料中的基本詞匯進(jìn)行劃分社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(一)數(shù)據(jù)采集(二)數(shù)據(jù)預(yù)處理分詞清洗停用詞過(guò)濾拼寫(xiě)檢查詞干化營(yíng)銷(xiāo)文本數(shù)據(jù)來(lái)源渠道豐富,如社交平臺(tái)上的用戶交流記錄、客戶意見(jiàn)建議、在線口碑、用戶評(píng)論、搜索引擎中的用戶搜索記錄、用戶發(fā)表的微博等自媒體內(nèi)容等。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析關(guān)鍵詞抽取關(guān)鍵詞抽?。↘eywordsExtraction)可以精煉文本信息,讀者通過(guò)幾個(gè)關(guān)鍵詞便可領(lǐng)略文本大意。在提取得到關(guān)鍵詞后,還可對(duì)每個(gè)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),并制作個(gè)性化詞云圖。應(yīng)用:右圖為2021年鴻星爾克河南捐款事件網(wǎng)友評(píng)論的詞云圖,展示方法美觀、易視,看出關(guān)鍵詞有鴻星爾克、買(mǎi)、加油、鞋子、好、爾克、支持等,體現(xiàn)消費(fèi)者的積極態(tài)度。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析主題抽取主題抽?。═opicExtraction),或主題建模(TopicModeling),用來(lái)挖掘文本中隱含的主題以及各個(gè)主題間關(guān)聯(lián)變化。常用技術(shù)有LDA、LSA、PLSA等。應(yīng)用:以微博營(yíng)銷(xiāo)為例,微博用戶標(biāo)簽常被用作內(nèi)容推薦的依據(jù),然而自定義標(biāo)簽數(shù)量有限。企業(yè)可對(duì)用戶微博文本數(shù)據(jù)進(jìn)行主題抽取,分析得出用戶習(xí)慣、偏好等屬性標(biāo)簽,產(chǎn)生用戶畫(huà)像,對(duì)用戶進(jìn)行商品個(gè)性化推薦。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析關(guān)系抽取關(guān)系抽?。≧elationExtraction)是指基于社會(huì)網(wǎng)絡(luò)對(duì)文本中不同的詞語(yǔ)進(jìn)行分析,提取語(yǔ)義關(guān)系。應(yīng)用:如基于小米手機(jī)正面評(píng)論語(yǔ)義網(wǎng)絡(luò)圖,可以看出用戶評(píng)論的關(guān)注點(diǎn)(如“效果”、“屏幕”、“速度”、“拍照”等),還可以看出它們之間的關(guān)系(如“效果”與“待機(jī)時(shí)間”、“拍照”、“音效”、“速度”等性能密切相關(guān))。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)社交網(wǎng)絡(luò)(SocialNetwork),又稱社會(huì)網(wǎng)絡(luò)、社會(huì)化網(wǎng)絡(luò),是指?jìng)€(gè)體成員之間通過(guò)社交關(guān)系結(jié)成的網(wǎng)絡(luò)體系。個(gè)體,又稱節(jié)點(diǎn)(Node),可以是組織、個(gè)人、網(wǎng)絡(luò)ID等不同含義的實(shí)體或虛擬個(gè)體。六度分隔理論強(qiáng)關(guān)系弱關(guān)系頓巴數(shù)貝肯數(shù)社交網(wǎng)絡(luò)中的基礎(chǔ)理論及關(guān)鍵概念社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)數(shù)貝肯數(shù)名稱內(nèi)容結(jié)論營(yíng)銷(xiāo)啟示六度分隔理論最多通過(guò)六個(gè)人,即可認(rèn)識(shí)任意一個(gè)陌生人。任何兩位素不相識(shí)的人之間總能夠產(chǎn)生必然聯(lián)系或關(guān)系。充分發(fā)揮社交網(wǎng)絡(luò)強(qiáng)勢(shì)傳播的杠桿作用,使信息擴(kuò)散更加高效順暢。強(qiáng)關(guān)系弱關(guān)系強(qiáng)關(guān)系是穩(wěn)定但范圍有限的社會(huì)關(guān)系,如親人;弱關(guān)系是關(guān)系較淺但更為廣泛的社會(huì)關(guān)系,如網(wǎng)友。強(qiáng)關(guān)系網(wǎng)絡(luò)成員互動(dòng)頻率較高,更容易產(chǎn)生信任;弱關(guān)系促成信息流動(dòng),可以獲得更豐富的信息。強(qiáng)關(guān)系、弱關(guān)系分別通過(guò)用戶間的聯(lián)系深度和廣度,在成員的活躍維護(hù)方面和規(guī)模擴(kuò)張方面發(fā)揮重要作用。頓巴數(shù)頓巴教授研究得出,人類(lèi)擁有穩(wěn)定社交關(guān)系的人數(shù)是148人,四舍五入為150人。大多數(shù)人只能與150人建立起實(shí)質(zhì)關(guān)系,超過(guò)一定數(shù)量后,個(gè)體間的交互及影響減弱很多。與客戶保持密切聯(lián)系,加強(qiáng)信任,建立起穩(wěn)定的社交關(guān)系;對(duì)擁有高價(jià)值資源的重點(diǎn)客戶加強(qiáng)聯(lián)系,實(shí)現(xiàn)人脈資源擴(kuò)張和資源價(jià)值放大。貝肯數(shù)貝肯一類(lèi)普通演員與明星大腕發(fā)生聯(lián)系所需要的中間人數(shù)量在2.6-3之間?!靶∪宋铩币材芊浅=咏W(wǎng)絡(luò)中心;隔離高鏈接性人物,即可阻斷兩個(gè)網(wǎng)絡(luò)之間的鏈接。不僅大V值得關(guān)注,像貝肯這樣的用戶也應(yīng)給予重視;高鏈接節(jié)點(diǎn)用戶流失可能造成整個(gè)網(wǎng)絡(luò)崩潰。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)社交網(wǎng)絡(luò)通常以關(guān)系圖的形式表示。下圖表示一個(gè)由10個(gè)節(jié)點(diǎn)組成的小型網(wǎng)絡(luò)。節(jié)點(diǎn)間的連線表示個(gè)體間存在關(guān)系,連線越多表示聯(lián)系越密切。圖形表示對(duì)用戶間關(guān)系進(jìn)行分析,確定用戶社交圈及在社交圈中的地位、判斷社交圈中的信息擴(kuò)散速度等內(nèi)容利用營(yíng)銷(xiāo)事件或產(chǎn)品的推薦網(wǎng)絡(luò)圖,分析網(wǎng)絡(luò)傳播的結(jié)構(gòu)、推薦路徑,找到熱點(diǎn)事件或產(chǎn)品,進(jìn)行有效營(yíng)銷(xiāo)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)二、社交網(wǎng)絡(luò)分析概述社交網(wǎng)絡(luò)分析(SocialNetworkAnalysis)是基于信息學(xué)、數(shù)學(xué)、社會(huì)學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的理論和方法,理解人類(lèi)各種社交關(guān)系的形成、行為特點(diǎn)以及信息傳播規(guī)律的一種可計(jì)算分析方法。內(nèi)容營(yíng)銷(xiāo)推薦網(wǎng)絡(luò)分析用戶間關(guān)系分析觀察用戶對(duì)企業(yè)品牌、產(chǎn)品及促銷(xiāo)優(yōu)惠活動(dòng)的情緒及反應(yīng),制定實(shí)時(shí)社交網(wǎng)絡(luò)回應(yīng)決策,優(yōu)化調(diào)整營(yíng)銷(xiāo)策略用戶與企業(yè)互動(dòng)分析根據(jù)社交網(wǎng)絡(luò)分析識(shí)別出的用戶社交關(guān)系,將相關(guān)產(chǎn)品信息推廣和擴(kuò)散至目標(biāo)用戶,有效拓展?jié)撛诳蛻糍Y源企業(yè)在進(jìn)行營(yíng)銷(xiāo)時(shí),僅通過(guò)將信息告知少量KOL,足以使信息最大限度在社交網(wǎng)絡(luò)上進(jìn)行傳播并影響其他用戶定位KOL加速信息傳播社交推薦拓展客戶資源對(duì)社交媒體平臺(tái)的用戶生成內(nèi)容和行為進(jìn)行分析,精準(zhǔn)識(shí)別客戶需求,實(shí)現(xiàn)客戶和資源的精準(zhǔn)匹配識(shí)別需求實(shí)現(xiàn)精準(zhǔn)匹配作用社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)網(wǎng)絡(luò)密度網(wǎng)絡(luò)密度為網(wǎng)絡(luò)中實(shí)際存在邊數(shù)與可容納邊數(shù)上限的比值。網(wǎng)絡(luò)密度=當(dāng)前關(guān)系數(shù)÷理論最大關(guān)系數(shù)0≤網(wǎng)絡(luò)密度≤1以微信群為例:家庭群,群成員均為家庭成員,彼此非常熟悉,網(wǎng)絡(luò)密度為1;微商群,成員彼此間幾乎不認(rèn)識(shí),網(wǎng)絡(luò)密度幾乎接近于0;社區(qū)團(tuán)購(gòu)群,群成員同住一個(gè)社區(qū),彼此存在一定聯(lián)系,網(wǎng)絡(luò)密度在0-1之間。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)中心度接近中心度ClosenessCentrality表示某節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的接近程度中介中心度BetweenCentrality以經(jīng)過(guò)某節(jié)點(diǎn)最短路徑的數(shù)目來(lái)刻畫(huà)節(jié)點(diǎn)重要性點(diǎn)度中心度

DegreeCentrality對(duì)一個(gè)節(jié)點(diǎn)單獨(dú)價(jià)值的衡量,是刻畫(huà)中心度最直接的指標(biāo)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識(shí)丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)凝聚子群“人以類(lèi)聚,物以群分”網(wǎng)絡(luò)中某些行動(dòng)者之間的關(guān)系特別緊密,以至于能結(jié)合成一個(gè)次級(jí)團(tuán)體時(shí),這樣的團(tuán)體為凝聚子群。如果網(wǎng)絡(luò)存在凝聚子群,并且凝聚子群的密度較高,說(shuō)明這個(gè)凝聚子群內(nèi)部的行動(dòng)者間聯(lián)系緊密,在信息分享和合作方面交往頻繁。(圖片來(lái)自網(wǎng)絡(luò))社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具常用的分析工具繁多,根據(jù)功能主要分為:數(shù)據(jù)獲取、數(shù)據(jù)處理、建模和可視化四大類(lèi)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具操作簡(jiǎn)便,數(shù)據(jù)分析入門(mén)級(jí)工具工作表方式管理數(shù)據(jù),數(shù)據(jù)一目了然,數(shù)據(jù)處理和管理更直觀、方便強(qiáng)大的數(shù)據(jù)處理和分析功能,如描述性統(tǒng)計(jì)、相關(guān)系數(shù)、概率分布、均值推斷、回歸分析、分類(lèi)、聚類(lèi)等支持可視化制圖,如折線圖、條形圖、散點(diǎn)圖、餅圖、圓環(huán)圖及一些立體圖形但也有其短板,如不能非常有效地處理大型數(shù)據(jù)集;無(wú)法進(jìn)行復(fù)雜處理,有更高數(shù)據(jù)分析要求時(shí)需要使用專(zhuān)業(yè)分析工具一、Excel社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具二、SPSS最早的統(tǒng)計(jì)分析軟件操作界面極為友好,大多數(shù)操作可通過(guò)菜單和鼠標(biāo)拖曳來(lái)完成提供各種統(tǒng)計(jì)分析方法,如數(shù)據(jù)探索性分析、統(tǒng)計(jì)描述、列聯(lián)表分析、相關(guān)分析、方差分析、非參數(shù)檢驗(yàn)、回歸分析等輸出結(jié)果美觀漂亮,以統(tǒng)一、規(guī)范的界面展現(xiàn)編程方便,無(wú)需通曉各種算法,只要了解統(tǒng)計(jì)分析原理,即可得到所需統(tǒng)計(jì)分析結(jié)果社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS

|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具三、SAS也是較早開(kāi)發(fā)的一款統(tǒng)計(jì)分析軟件編程語(yǔ)句簡(jiǎn)潔、短小,只需幾句簡(jiǎn)短語(yǔ)句即可完成復(fù)雜運(yùn)算分析方法齊、全、新,幾乎囊括了所有最新方法,分析技術(shù)先進(jìn)可靠分析方法的實(shí)現(xiàn)通過(guò)過(guò)程調(diào)用完成,同時(shí)提供多種算法和選項(xiàng)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具四、R是一種編程語(yǔ)言(不是統(tǒng)計(jì)軟件),官方描述為“用于統(tǒng)計(jì)計(jì)算和圖形的語(yǔ)言和環(huán)境”分析方法豐富,不僅包括經(jīng)典通用統(tǒng)計(jì)方法,還擁有大量前沿模型算法操作較為簡(jiǎn)便,可通過(guò)調(diào)用現(xiàn)有模型算法解決一般性問(wèn)題,也可自行編寫(xiě)程序解決特殊性問(wèn)題有開(kāi)放的網(wǎng)絡(luò)社區(qū)化平臺(tái),不斷吸引更多專(zhuān)家學(xué)者成為開(kāi)發(fā)者,不斷吸引更多、更有效、更前沿的方法融入社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python

|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具五、Python功能非常強(qiáng)大,如數(shù)據(jù)爬取、數(shù)據(jù)處理、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、圖像處理等極簡(jiǎn)主義,幾乎沒(méi)有多余的符號(hào),使用的是簡(jiǎn)單易懂的英語(yǔ)名稱,語(yǔ)法簡(jiǎn)潔而清晰擁有豐富且成熟的標(biāo)準(zhǔn)庫(kù),如Numpy(數(shù)學(xué)計(jì)算)、Pandas(數(shù)據(jù)處理)、Matplotlib(圖形繪制)、Scikit-learn(機(jī)器學(xué)習(xí))等,現(xiàn)成可直接使用強(qiáng)大的聯(lián)接功能,把不同語(yǔ)言(尤其是C/C++)編寫(xiě)的程序無(wú)縫拼接,更好地發(fā)揮不同語(yǔ)言和工具的優(yōu)勢(shì)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測(cè)分析Excel丨SPSS丨SAS|R丨Python|MATLAB

|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具六、MATLABMATLAB(MatrixLaboratory,矩陣實(shí)驗(yàn)室),是一款數(shù)學(xué)軟件,具有卓越的數(shù)值計(jì)算能力編程簡(jiǎn)單,允許數(shù)學(xué)形式語(yǔ)言編寫(xiě)程序,又被稱為“演算紙式科學(xué)算法語(yǔ)言”快速排除輸入程序中的書(shū)寫(xiě)、語(yǔ)法等錯(cuò)誤,加快用戶編寫(xiě)、修改和調(diào)試程序的速度繪圖操作方便,只需調(diào)用繪圖函數(shù)即可但也有一定劣勢(shì),如程序執(zhí)行速度較慢,因此選擇MATLAB是編程效率和運(yùn)行效率兩者之間的權(quán)衡

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論