Python數(shù)據(jù)分析與實(shí)戰(zhàn)(微課版)課件 第7章 競賽網(wǎng)站用戶分群_第1頁
Python數(shù)據(jù)分析與實(shí)戰(zhàn)(微課版)課件 第7章 競賽網(wǎng)站用戶分群_第2頁
Python數(shù)據(jù)分析與實(shí)戰(zhàn)(微課版)課件 第7章 競賽網(wǎng)站用戶分群_第3頁
Python數(shù)據(jù)分析與實(shí)戰(zhàn)(微課版)課件 第7章 競賽網(wǎng)站用戶分群_第4頁
Python數(shù)據(jù)分析與實(shí)戰(zhàn)(微課版)課件 第7章 競賽網(wǎng)站用戶分群_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

競賽網(wǎng)站用戶行為分析1預(yù)處理競賽網(wǎng)站用戶訪問數(shù)據(jù)目錄競賽網(wǎng)站用戶行為分析的背景和方法2對競賽網(wǎng)站用戶進(jìn)行分群3

隨著大數(shù)據(jù)的興起,以及各種大數(shù)據(jù)產(chǎn)品企業(yè)層出不窮,網(wǎng)站的訪問量出現(xiàn)了小幅度的下降。在信息時代,訪問量的降低對于運(yùn)營商的影響是巨大的。本案例的研究對象是廣東泰迪智能科技股份有限公司旗下的“泰迪杯”競賽網(wǎng)站。傳統(tǒng)的用戶分群主要根據(jù)用戶的注冊資料,包括性別、年齡、區(qū)域等信息,但這種分群方式是“粗獷”的,未能考慮到用戶的行為特征和興趣偏好,分群結(jié)果會出現(xiàn)較大偏差,難以為差異化服務(wù)提供決策的支持。競賽網(wǎng)站背景1.

分析競賽網(wǎng)站現(xiàn)狀競賽網(wǎng)站運(yùn)營商想要對網(wǎng)站用戶進(jìn)行差異化服務(wù)以增加訪問量,但想在多種多樣的互聯(lián)網(wǎng)用戶中精確定位到各種用戶存在一定的困難。本案例依據(jù)用戶的歷史訪問記錄,研究用戶的興趣偏好,分析需求并發(fā)現(xiàn)用戶的興趣點(diǎn),從而將用戶分成不同群體。后續(xù)可以針對不同群體提供差異化的服務(wù),提高用戶的使用體驗(yàn)。競賽網(wǎng)站背景競賽網(wǎng)站的系統(tǒng)數(shù)據(jù)庫中積累了大量的用戶訪問數(shù)據(jù)。當(dāng)用戶訪問網(wǎng)站時,系統(tǒng)將會自動記錄用戶訪問網(wǎng)站的日志。本案例主要對提取的競賽網(wǎng)站2024年1月共200196條數(shù)據(jù)進(jìn)行分析,用戶訪問表特征說明如表所示。競賽網(wǎng)站背景2.

了解競賽網(wǎng)站數(shù)據(jù)的基本情況特征名稱特征說明示例page_path網(wǎng)址/ts/578.jhtmluserid用戶ID4187ipIP地址12sessionid單次訪問ID8C6E30E3355675932AA9EF78AAF87346date_time訪問時間2024/1/10:00:00uniqueVisitorId唯一訪問ID9db6b30b-9443-071d-edbf-5d3a20e6148b用戶行為分析的意義在于,通過分析用戶行為數(shù)據(jù),運(yùn)營商能夠制定穩(wěn)定已有用戶和增加新用戶的策略。分析用戶訪問網(wǎng)站的內(nèi)容和時間,可以了解用戶的習(xí)慣和偏好。此外用戶的性別、年齡、職位等基本屬性也在用戶行為中有所體現(xiàn)。為了減少用戶流失,可以根據(jù)用戶行為制訂精準(zhǔn)的營銷方案。例如,對可能成為穩(wěn)定用戶的對象及時進(jìn)行電話跟進(jìn),對已經(jīng)穩(wěn)定的用戶也要偶爾進(jìn)行滿意度調(diào)查,以保持他們的長期穩(wěn)定。用戶行為主要表現(xiàn)為用戶在競賽網(wǎng)站的訪問行為。用戶訪問網(wǎng)頁的類別體現(xiàn)了他們的關(guān)注點(diǎn),用戶在網(wǎng)站中的下意識操作更能反映他們的真實(shí)感受。認(rèn)識用戶行為分析競賽網(wǎng)站用戶行為分析主要包括以下步驟,流程如圖所示。從數(shù)據(jù)庫中讀取競賽網(wǎng)站的用戶訪問數(shù)據(jù)。對數(shù)據(jù)進(jìn)行用戶識別、數(shù)據(jù)清洗、網(wǎng)頁分類,得到擁有用戶唯一標(biāo)識和網(wǎng)頁分類的數(shù)據(jù),并進(jìn)行特征構(gòu)造,構(gòu)建用戶訪問不同類別網(wǎng)頁的次數(shù)的特征。使用K-Means聚類算法根據(jù)構(gòu)造的特征對用戶進(jìn)行分群。對不同的分類人群進(jìn)行分析并提出建議。競賽網(wǎng)站用戶行為分析的步驟與流程1預(yù)處理競賽網(wǎng)站用戶訪問數(shù)據(jù)目錄競賽網(wǎng)站用戶行為分析的背景和方法2對競賽網(wǎng)站用戶進(jìn)行分群3用戶識別的前提是原始數(shù)據(jù)擁有區(qū)分用戶的特征。因此,用戶識別的作用在于構(gòu)建唯一識別用戶的特征。在原始的特征中,ip代表用戶的IP地址,但使用同一局域網(wǎng)訪問的用戶擁有相同的ip,僅用ip作為用戶唯一標(biāo)識并不嚴(yán)謹(jǐn)。sessionid表示單次訪問的id,關(guān)閉網(wǎng)頁又重新打開網(wǎng)頁后sessionid會發(fā)生變化,同一ip對應(yīng)不同的sessionid的示例如表所示,選sessionid作為用戶的唯一標(biāo)識會將同一用戶在不同時間段內(nèi)的訪問記錄識別成不同的用戶的訪問記錄。用戶識別ipSessionid3A784AEA509EA8DC60DB8B3DC18A31F64377E3EDBB70FF89B185F6A18AF56D2A763E3D8840029B49481A74F7C1732CCEBDCuserid可以作為注冊用戶的唯一標(biāo)識,但非注冊用戶的userid為NA,因此它不能作為非注冊用戶的唯一標(biāo)識。uniqueVisitorId是用戶的唯一訪問ID,但在原始數(shù)據(jù)中uniqueVisitorId特征有較多的缺失值,單獨(dú)作為識別非注冊用戶的標(biāo)識也并不嚴(yán)謹(jǐn)。用戶識別userid和uniqueVisitorId中空值與非空值占比如圖所示。綜合考慮,最終選取ip、userid、uniqueVisitorId這3個特征構(gòu)建用戶的唯一標(biāo)識reallID。用戶識別具體的構(gòu)建規(guī)則如下。當(dāng)userid不為NA時,使用userid作為用戶唯一標(biāo)識。當(dāng)userid為NA且uniqueVisitorId不為NA時,使用uniqueVisitorId作為用戶唯一標(biāo)識。當(dāng)userid與uniqueVisitorId都為NA時,使用ip作為用戶的唯一標(biāo)識。用戶識別點(diǎn)擊網(wǎng)頁數(shù)可以反映用戶對網(wǎng)站的興趣度。一般情況下,點(diǎn)擊網(wǎng)頁數(shù)越高,說明用戶對網(wǎng)站的興趣度越高。點(diǎn)擊網(wǎng)頁數(shù)越低,說明用戶對網(wǎng)站的興趣度越低。數(shù)據(jù)清洗根據(jù)用戶的唯一標(biāo)識得到用戶點(diǎn)擊網(wǎng)頁數(shù),并繪制用戶點(diǎn)擊網(wǎng)頁數(shù)柱形圖,如圖所示。由圖可知,大部分的用戶點(diǎn)擊網(wǎng)頁數(shù)為1,點(diǎn)擊網(wǎng)頁數(shù)在35以上的共有328人。數(shù)據(jù)清洗對點(diǎn)擊網(wǎng)頁數(shù)為1的用戶點(diǎn)擊的網(wǎng)頁進(jìn)行統(tǒng)計,得到訪問記錄中有超過100000條的記錄為“/”,這種記錄可能與分析目標(biāo)不符。數(shù)據(jù)清洗在只訪問一個網(wǎng)頁的情況下用戶很難獲得所需的全部知識,同時只根據(jù)一個網(wǎng)頁確定用戶的喜好有較高的局限性,因此這部分用戶不參與分析。對于點(diǎn)擊網(wǎng)頁數(shù)在35次以內(nèi)的用戶,不同點(diǎn)擊網(wǎng)頁數(shù)的用戶的平均點(diǎn)擊間隔如圖所示。數(shù)據(jù)清洗點(diǎn)擊網(wǎng)頁數(shù)為21的某用戶的部分用戶訪問表如表所示。數(shù)據(jù)清洗date_timereallIDdate_timereallID2024-01-1621:09:580362……54582024-01-2020:35:570362……54582024-01-1621:25:160362……54582024-01-2020:36:200362……54582024-01-1621:25:160362……54582024-01-2020:37:030362……54582024-01-1621:25:190362……54582024-01-2020:52:500362……54582024-01-1621:26:460362……54582024-01-2020:52:510362……5458點(diǎn)擊網(wǎng)頁數(shù)為21的某用戶的部分用戶訪問表如表所示(續(xù)表)。數(shù)據(jù)清洗date_timereallIDdate_timereallID2024-01-1621:26:460362……54582024-01-2020:52:540362……54582024-01-2020:32:570362……54582024-01-2020:53:040362……54582024-01-2020:32:580362……54582024-01-2020:53:040362……54582024-01-2020:33:240362……54582024-01-2315:21:080362……54582024-01-2020:35:390362……54582024-01-2315:21:080362……54582024-01-2020:35:570362……5458數(shù)據(jù)中的page_path特征為用戶點(diǎn)擊的網(wǎng)址。無法直接從網(wǎng)址中獲取用戶的行為習(xí)慣。因此,還需對page_path特征進(jìn)行結(jié)構(gòu)化處理。競賽網(wǎng)站的網(wǎng)頁大致可以劃分為6個類別。主頁教學(xué)資源競賽新聞動態(tài)項(xiàng)目與合作優(yōu)秀作品但由于主頁主要起導(dǎo)航作用,不具有分析意義,所以本小節(jié)不介紹其網(wǎng)頁信息。同時,在進(jìn)行網(wǎng)頁分類前,需要刪除清洗后的page_path數(shù)據(jù)中的主頁內(nèi)容,即含有“bdracem/”“bdrace/”的數(shù)據(jù)。網(wǎng)頁分類網(wǎng)址的具體形式為“前綴/欄目符號/具體內(nèi)容號.擴(kuò)展名”。網(wǎng)址的欄目符號是對網(wǎng)頁進(jìn)行分類的主要依據(jù),欄目符號的字段和所屬類別已經(jīng)整理在網(wǎng)頁相關(guān)信息表中。部分網(wǎng)頁相關(guān)信息表如表所示。網(wǎng)頁分類字段說明分類tj/圖書配套資料教學(xué)資源zytj/教學(xué)資源教學(xué)資源jmgj/建模工具教學(xué)資源ganhuofenxiang/“干貨”分享教學(xué)資源information/案例教程教學(xué)資源rcfh/人才孵化項(xiàng)目與合作tzjingsai/競賽通知競賽jingsa/競賽競賽youxiuzuopin/優(yōu)秀作品優(yōu)秀作品notices/公告與通知新聞動態(tài)stpj/獲獎名單新聞動態(tài)rmpx/培訓(xùn)信息新聞動態(tài)news/新聞與動態(tài)新聞動態(tài)對網(wǎng)頁進(jìn)行分類主要包括以下4個步驟。刪除網(wǎng)址中網(wǎng)頁前綴的字段。因?yàn)榫W(wǎng)頁前綴無法用于網(wǎng)頁分類,并會對網(wǎng)頁分類造成一定的影響。刪除主頁的字段。刪除含有“bdracem/”“bdrace/”的字段。提取分類所需字段。在剩余的字段中,網(wǎng)頁分類所需的欄目符號字段均在“/”前,使用正則表達(dá)式匹配所有“/”前的字段,即可提取出所需的欄目符號字段。獲得分類。使用網(wǎng)頁相關(guān)信息表與提取的欄目符號劃分網(wǎng)頁類別。網(wǎng)頁分類可以根據(jù)用戶關(guān)注各個類型網(wǎng)頁的興趣度將用戶分群,而用戶點(diǎn)擊網(wǎng)頁數(shù)可以體現(xiàn)用戶對網(wǎng)頁的興趣度。對每位用戶按訪問的各類別網(wǎng)頁進(jìn)行計數(shù),使用訪問計數(shù)作為建模特征,最終得到建模所需的數(shù)據(jù)。建模數(shù)據(jù)為每個用戶對各類別網(wǎng)頁的訪問次數(shù),可以初步看出用戶的喜好,根據(jù)建模數(shù)據(jù)可以將用戶按喜好分成不同群體。構(gòu)造特征1預(yù)處理競賽網(wǎng)站用戶訪問數(shù)據(jù)目錄競賽網(wǎng)站用戶行為分析的背景和方法2對競賽網(wǎng)站用戶進(jìn)行分群3K-Means聚類算法是一種迭代求解的聚類分析算法。K-Means聚類算法的步驟如下。首先確定一個K值,即需要將數(shù)據(jù)集經(jīng)過聚類得到K個集合。從數(shù)據(jù)集中隨機(jī)選擇K個數(shù)據(jù)點(diǎn)作為聚類中心。對數(shù)據(jù)集中每一個點(diǎn),計算其與每一個聚類中心的距離(如歐氏距離),劃分該點(diǎn)到距離最近的聚類中心所屬的集合。劃分集合完畢后重新計算每個集合的聚類中心。如果新計算出來的聚類中心和原來的聚類中心之間的距離小于某一個設(shè)置的閾值,那么可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果,算法終止。否則迭代步驟二~步驟五。K-Means聚類算法1.基本原理K-Means聚類算法通??梢詰?yīng)用于維數(shù)、數(shù)據(jù)都很小且數(shù)據(jù)連續(xù)的數(shù)據(jù)集,在隨機(jī)分布的事物集合中對相同事物進(jìn)行分組。在沒有類別標(biāo)簽的情況下,K-Means聚類算法不僅可以用于得到數(shù)據(jù)可能存在的類別數(shù)以及每條記錄的所屬類別,還可以用于在數(shù)據(jù)預(yù)處理中發(fā)現(xiàn)異常值。這些對象的行為特征與一般的數(shù)據(jù)對象不一致,通過K-Means聚類算法可以快速將其識別出來。K-Means聚類算法2.適用場景K-Means聚類算法的優(yōu)點(diǎn)。原理較為簡單,可以輕松實(shí)現(xiàn)。對算法進(jìn)行調(diào)參時只需調(diào)整K的大小。算法的計算速度較快,聚類效果優(yōu)良,聚類結(jié)果的可解釋性強(qiáng)。K-Means聚類算法的缺點(diǎn)。難以確定K的值,采用迭代的方式容易導(dǎo)致模型陷入局部最優(yōu)解,而且對于噪聲和異常值十分敏感。K-Means聚類算法3.優(yōu)缺點(diǎn)sklearn庫的KMeans類實(shí)現(xiàn)了K-Means聚類算法,KMeans類的基本使用格式如下。K-Means聚類算法4.KMeans類的主要參數(shù)介紹classsklearn.cluster.KMeans(n_clusters=8,*,init='k-means++',n_init=10,max_iter=300,tol=0.0001,verbose=0,random_state=None,copy_x=True,algorithm='lloyd')KMeans類的常用參數(shù)及其說明如表所示。K-Means聚類算法參數(shù)名稱參數(shù)說明n_clusters接收int。表示聚類數(shù)。默認(rèn)為8init接收“k-means++”“random”和ndarray。表示產(chǎn)生初始聚類中心的方法。默認(rèn)為k-means++n_init接收int。表示用不同的初始聚類中心運(yùn)行算法的次數(shù)。默認(rèn)為10max_iter接收int。表示最大迭代次數(shù)。默認(rèn)為300tol接收float。表示容忍的最小誤差。當(dāng)誤差小于tol時算法將會退出迭代。默認(rèn)為0.0001verbose接收int。表示是否輸出詳細(xì)信息。默認(rèn)為0random_state接收int、numpy.RandomState。表示用于初始化聚類中心的生成器。若值為一個整數(shù),則確定一個種子。默認(rèn)為Nonecopy_x接收bool。表示是否提前計算距離。默認(rèn)為Truealgorithm接收“l(fā)loyd”“elkan”“auto”“full”。表示優(yōu)化算法的選擇。默認(rèn)為lloyd對構(gòu)建特征后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,采用K-Means聚類算法對數(shù)據(jù)進(jìn)行用戶分群。根據(jù)網(wǎng)頁的分類和聚類中心數(shù)值,使用自定義函數(shù)繪制雷達(dá)圖,如圖所示。使用K-Means聚類算法進(jìn)行用戶分群續(xù)上圖可知各群體的特點(diǎn)如下。用戶群1在優(yōu)秀作品上有最大取值,對項(xiàng)目與合作和教學(xué)資源的關(guān)注量也不低,這類用戶可能為正處于學(xué)習(xí)階段的數(shù)據(jù)挖掘?qū)W習(xí)者。用戶群2在各個分類上的取值都很小,關(guān)注度較高的是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論