




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 高端車潛在用戶的發(fā)現(xiàn) 基于線下線上數(shù)據(jù)的研究PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載: 目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究概述全文思路目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究理論基礎(chǔ)數(shù)據(jù)挖掘理論基礎(chǔ)邏輯回歸分析 邏輯回歸用于估計(jì)某事物的可能性。 邏輯回歸模型是一個(gè)定性響應(yīng)變量(因變量Y)的預(yù)測模型。 邏輯模型中的
2、定性響應(yīng)變量其實(shí)又是一個(gè)二值變量(binary)。 = (/ )=+ +理論基礎(chǔ)決策樹理論基礎(chǔ)關(guān)聯(lián)規(guī)則 支持度和信任度是兩個(gè)最基本和最重要的衡量規(guī)則強(qiáng)弱的指標(biāo)。X-Y的支持度:指的是集合T中包含XY事件的百分比,即P(XY)的估計(jì)。 如果支持度很小,那么就可以說該規(guī)則的發(fā)生并沒有必然性。 X-Y的置信度:指X和Y同時(shí)發(fā)生的事件數(shù)量占所有X事件發(fā)生數(shù)量的百分比。即P(Y|X)的估計(jì)。 置信度決定了關(guān)聯(lián)規(guī)則的可預(yù)測度。如果一條關(guān)聯(lián)規(guī)則的置信度很低,那么從X就很難可靠地推出Y。目錄概述01理論基礎(chǔ)02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究線下數(shù)據(jù)的研究基于邏輯回歸模型的研究返回返回理論假設(shè) 用戶購買高
3、端車行為的影響因素: 購車方式 用戶的性別 預(yù)期保險(xiǎn)費(fèi)用 預(yù)期裝設(shè)費(fèi)用 已有車品牌 收入情況線下數(shù)據(jù)的研究基于邏輯回歸模型的研究理論假設(shè) 對(duì)影響用戶購買高端車行為的因素提出的假設(shè): H1:若用戶曾經(jīng)使用全款方式來購車,那么其購買高端車的概率會(huì)低; H2:男性用戶相比于女性用戶,其購買高端車的概率會(huì)高;H3:用戶的預(yù)期保險(xiǎn)費(fèi)用越高,那么其購買高端車的概率越大;H4:用戶的預(yù)期裝設(shè)費(fèi)用越高,那么其購買高端車的概率越大; H5:若用戶已擁有寶馬品牌的車,那么相比于沒有車或沒有寶馬車的用戶,其購買高端車的概率會(huì)高。 H6:若用戶的收入越高,那么其購買高端車的概率會(huì)越高。 線下數(shù)據(jù)的研究基于邏輯回歸模型
4、的研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源“來自國內(nèi)某汽車經(jīng)銷商后臺(tái)的ERP系統(tǒng),總數(shù)據(jù)量超過50萬條線下數(shù)據(jù)的研究基于邏輯回歸模型的研究數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)預(yù)處理根據(jù)客戶id、訂單id、產(chǎn)品id等主鍵將上述5張表連接成一張總表(“寬表”)缺失值處理3.定義高端車用戶本文將選擇汽車的價(jià)格作為高端車的定義標(biāo)準(zhǔn),高于60萬元的汽車將被標(biāo)注為高端車。(在“寬表”后面添加因變量字段“是否購買高端車”,取值為“是”和“否”)線下數(shù)據(jù)的研究基于邏輯回歸模型的研究數(shù)據(jù)準(zhǔn)備4.變量設(shè)置因變量Y為 “是否購買高端車”(對(duì)字符型變量進(jìn)行啞變量的變換): “1”-“是”;“0”-“否” 。自變量X是“寬表”中的任意字段,比如客戶性別、
5、年齡、購買意向、訂單詳情等。線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證1.公式解釋線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證1.公式解釋找出那些較大的影響因素以及其系數(shù)。通過反函數(shù)將得出用戶購買高端車的概率P:線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果逐步回歸:每次都選擇對(duì)因變量影響最顯著的自變量進(jìn)入模型,同時(shí)對(duì)所有已經(jīng)被選擇進(jìn)入模型的變量進(jìn)行逐一檢查,將不顯著的自變量剔除。線下數(shù)據(jù)的研究基于邏輯回歸模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果-2.8818線下數(shù)據(jù)的研究基于邏輯回歸模型的研究3.結(jié)果討論C1:用戶如果使用全款方式購車,那么其購買高端車的概率
6、將較小,如果使用分期付款方式購車,那么其購買高端車的概率會(huì)比較大。這個(gè)結(jié)論驗(yàn)證了假設(shè)H1。 C2:用戶如果為男性,那么其購買高端車的概率會(huì)高一點(diǎn)。這個(gè)結(jié)論驗(yàn)證了假設(shè)H2。C3:用戶預(yù)期保險(xiǎn)費(fèi)用越高,其購買高端車的概率越大。這個(gè)結(jié)論驗(yàn)證了假設(shè)H3。C4:用戶預(yù)期裝設(shè)費(fèi)用越高,其購買高端車的概率越大。這個(gè)結(jié)論驗(yàn)證了假設(shè)H4。C5:用戶如果已經(jīng)擁有寶馬系列的車,那么其再次購車會(huì)選擇高端車的概率會(huì)較大。這個(gè)結(jié)論驗(yàn)證了假設(shè)H5。C6:用戶收入水平最終沒有被選入模型,所以無法驗(yàn)證假設(shè)H6。線下數(shù)據(jù)的研究基于決策樹模型的研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源:在Logistic回歸模型中使用的數(shù)據(jù)是同一組數(shù)據(jù)2.數(shù)據(jù)預(yù)處
7、理(與Logistic回歸模型中基本相同)第一,決策樹模型不需要對(duì)字符型變量進(jìn)行啞變量的變換。第二,決策樹模型不需要對(duì)缺失值進(jìn)行填充、刪除等操作。線下數(shù)據(jù)的研究基于決策樹模型的研究模型的構(gòu)建與實(shí)證1.決策樹停止生長問題的確定(兩種方法)“錯(cuò)誤率”指標(biāo)法:即選擇最低驗(yàn)證集錯(cuò)誤率的時(shí)候,同時(shí)葉子節(jié)點(diǎn)最少時(shí)的葉子數(shù)量作為最終模型的葉子節(jié)點(diǎn)數(shù)量。同時(shí)參考了25%滲透率下的響應(yīng)率。選擇7個(gè)葉子作為決策樹葉子節(jié)點(diǎn)數(shù)!線下數(shù)據(jù)的研究基于決策樹模型的研究模型的構(gòu)建與實(shí)證2.模型結(jié)果線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則解釋與分析1.規(guī)則解釋規(guī)則一:規(guī)則二:線下數(shù)據(jù)的研究基于決策樹模型的研究1.規(guī)則解釋規(guī)則三:
8、規(guī)則四:線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則分析1.引入負(fù)面規(guī)則來剔除低概率用戶。R1: 當(dāng)保險(xiǎn)金額在3200與12000之間,且裝飾金額小于5000,且保修金額小于48000的時(shí)候,該用戶購買高端車的概率極低只有2%。 R2: 當(dāng)用戶使用貸款方式購車、且保險(xiǎn)金額高于12000,且裝飾金額小于5000,且保修金額小于48000的時(shí)候,該用戶購買高端車的概率同樣極低只有5%。線下數(shù)據(jù)的研究基于決策樹模型的研究規(guī)則分析2.引入正面規(guī)則來選擇高概率用戶。R3:當(dāng)保修金額大于48000,那么用戶有93%的概率購買高端車。R4:當(dāng)裝飾金額大于38000,且保修金額小于48000,那么該用戶可能購買高端
9、車的概率是80%。線下數(shù)據(jù)的研究邏輯回歸模型與決策樹模型的比較結(jié)果對(duì)比Logistic模型的結(jié)果選入了5個(gè)變量進(jìn)入模型,按照他們對(duì)因變量影響程度從大到小排列如下:付款方式(是否全款)、性別(是否男性)、預(yù)期保險(xiǎn)費(fèi)用、預(yù)期裝設(shè)費(fèi)用、已有車品牌(是否已有寶馬車)。決策樹模型最終進(jìn)入模型的變量有4個(gè):保修金額、裝設(shè)金額、保險(xiǎn)金額、金融貸款還款期限,這4個(gè)自變量與Logistic模型中的5個(gè)自變量完全不同。 兩個(gè)模型的結(jié)果不一樣的根本原因是兩個(gè)模型的原理不一樣。線下數(shù)據(jù)的研究邏輯回歸模型與決策樹模型的比較響應(yīng)率對(duì)比兩個(gè)模型由于建模原理不同,對(duì)自變量的選擇也不同,但是模型效果卻相似。目錄概述01理論基礎(chǔ)
10、02線下數(shù)據(jù)的研究0304線上數(shù)據(jù)的研究線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)準(zhǔn)備1.數(shù)據(jù)來源 本文用以實(shí)證的線上數(shù)據(jù)均來自于汽車之家論壇。 28,708位用戶 42,603的條對(duì)應(yīng)關(guān)系 用爬蟲程序獲得的數(shù)據(jù)經(jīng)過整理形成三張表線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)預(yù)處理 根據(jù)用戶ID、車輛ID等主鍵將上述表連接成一張綜合表。 綜合表的記錄中不含缺失值,因此不需要考慮缺失值的處理。線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化1.以品牌為粒度的分析與可視化線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化1.以品牌為粒度的分析與可視化這8類關(guān)注率遠(yuǎn)高于當(dāng)前車輛擁有率的車品牌中,大部分是高端車
11、品牌。 線上數(shù)據(jù)的研究數(shù)據(jù)可視化研究數(shù)據(jù)的初步分析與可視化2.以原產(chǎn)地為粒度的分析與可視化 無論是從目前的市場占有還是未來的發(fā)展?jié)摿砜矗?、德、日三國產(chǎn)的汽車在中國都是遙遙領(lǐng)先,德國車的未來發(fā)展勢頭強(qiáng)勁,有望取代國產(chǎn)車成為國內(nèi)市場的龍頭。 線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析描述性統(tǒng)計(jì)量1.數(shù)據(jù)來源:與可視化分析所用的數(shù)據(jù)一致(包含四個(gè)字段:擁有車原產(chǎn)地、關(guān)注車原產(chǎn)地、擁有車品牌、關(guān)注車品牌)。2.數(shù)據(jù)預(yù)處理:刪除同一粒度下同一種類之間的數(shù)據(jù)(此類數(shù)據(jù)關(guān)聯(lián)度很高,無研究意義)例如:關(guān)注寶馬車與擁有寶馬的關(guān)聯(lián)度采集到的數(shù)據(jù)不含缺失值,因此不需要考慮缺失值的處理。線上數(shù)據(jù)的研究基于汽車不
12、同屬性的關(guān)聯(lián)規(guī)則分析描述性統(tǒng)計(jì)量3.最終獲得的描述性統(tǒng)計(jì)量線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對(duì)品牌屬性進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(最小支持度為0.02,置信度為0.1, 提升為1,數(shù)據(jù)量為100,)1. 擁有品牌關(guān)注品牌大眾汽車在國內(nèi)廣受歡迎,許多其他品牌的車主都有購買大眾汽車的可能性。而大眾車主則關(guān)注著奧迪、寶馬。 線上數(shù)據(jù)的研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對(duì)品牌屬性進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(最小支持度為0.001,置信度為0.1, 數(shù)據(jù)量為100)2. 關(guān)注品牌擁有品牌大眾車主對(duì)各種車都感興趣,并且更關(guān)注斯柯達(dá)、奧迪、奔馳、寶馬等品牌。另外豐田車主更關(guān)注雷克薩斯,寶馬車主關(guān)注保時(shí)捷。 線上數(shù)據(jù)的
13、研究基于汽車不同屬性的關(guān)聯(lián)規(guī)則分析對(duì)原產(chǎn)地屬性進(jìn)行關(guān)聯(lián)則發(fā)現(xiàn)(最小支持度為0.02,置信度為0.1, 提升為1,數(shù)據(jù)量為100)1. 擁有產(chǎn)地關(guān)注產(chǎn)地德國車受到各種車主的普遍關(guān)注。除此之外,國產(chǎn)車車主對(duì)日本車有很高的關(guān)注度,日本車的潛在客戶是國產(chǎn)車車主和德國車車主。 線上數(shù)據(jù)的研究基于線上數(shù)據(jù)研究的結(jié)果討論基于品牌屬性的結(jié)果A1:由已有車的品牌推導(dǎo)出關(guān)注車的品牌的規(guī)則; 應(yīng)用A1規(guī)則,我們可以根據(jù)用戶已擁有車的品牌來預(yù)測其關(guān)注某品牌高端車可能性,并判斷其是否是該品牌高端車的潛在用戶。A2:由關(guān)注車的品牌推導(dǎo)出已有車的品牌的規(guī)則; 應(yīng)用A2規(guī)則,同樣可以幫助汽車銷售商進(jìn)行高端用戶發(fā)現(xiàn)。線上數(shù)據(jù)的研究基于線上數(shù)據(jù)研究的結(jié)果討論A1規(guī)則的利用模型顯示:大眾車的品牌在最國內(nèi)最受歡迎,大都數(shù)品牌的車主都關(guān)注著大眾車,尤其是斯柯達(dá)的車主。啟示:大眾品牌的高端車的潛在高端用戶分布于各個(gè)品牌的車主,尤其是斯柯達(dá)的車主購買大眾品牌的高端車的可能性更大。A2規(guī)則的利用模型顯示:多品牌車的粉絲中都有大眾車主,尤其是斯柯達(dá)車和奧迪車更受大眾車主的喜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建平潭綜合實(shí)驗(yàn)區(qū)交通投資集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 全國各地中考真題:四川省綿陽市2021年中考語文試題(原卷版)
- 2025年中國調(diào)度總機(jī)市場調(diào)查研究報(bào)告
- 2025年中國螺柱焊機(jī)市場調(diào)查研究報(bào)告
- 2025年中國藥包金屬保護(hù)涂料數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國舒筋活血丸項(xiàng)目投資可行性研究報(bào)告
- 2025年中國腫脹節(jié)市場現(xiàn)狀分析及前景預(yù)測報(bào)告
- 2025年中國美膚機(jī)市場現(xiàn)狀分析及前景預(yù)測報(bào)告
- 2025年中國給排水項(xiàng)目投資可行性研究報(bào)告
- 2025年中國緯編針織布市場調(diào)查研究報(bào)告
- 醫(yī)務(wù)科依法執(zhí)業(yè)自查表
- 學(xué)習(xí)“建設(shè)生態(tài)環(huán)境保護(hù)鐵軍的基本要求”心得體會(huì)1
- 梁若瑜著-十二宮六七二象書增注版
- 防洪堤初步設(shè)計(jì)報(bào)告
- 貴州機(jī)加工公司機(jī)加工項(xiàng)目安全預(yù)評(píng)價(jià)
- 汽輪機(jī)冷端優(yōu)化治理的幾種方法
- 最新結(jié)構(gòu)新舊混凝土結(jié)構(gòu)設(shè)計(jì)規(guī)范對(duì)比
- 旅游資源單體調(diào)查表樣表
- Hypermesh與Nastran模態(tài)分析詳細(xì)教程
- 電梯產(chǎn)品數(shù)據(jù)表
- 工廠經(jīng)營管理考核方案.doc
評(píng)論
0/150
提交評(píng)論