數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、0/192022-5-27商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析1/192022-5-27第第1515章章 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用 15.1 應(yīng)用概述應(yīng)用概述 15.2 主要應(yīng)用領(lǐng)域主要應(yīng)用領(lǐng)域 15.3 案例案例1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦 15.4 案例案例2:協(xié)同過(guò)濾技術(shù)在電影推薦上的簡(jiǎn)單應(yīng)用:協(xié)同過(guò)濾技術(shù)在電影推薦上的簡(jiǎn)單應(yīng)用2/192022-5-2715.1 應(yīng)用概述 l電子商務(wù)(E-Commerce,簡(jiǎn)稱(chēng)EC)是指在互聯(lián)網(wǎng)(Internet)、企業(yè)內(nèi)部網(wǎng)(Intranet)和增值網(wǎng)(Value Added Net

2、work,簡(jiǎn)稱(chēng)VAN)上以電子交易方式進(jìn)行交易及其它相關(guān)服務(wù)活動(dòng),它是傳統(tǒng)商業(yè)活動(dòng)各環(huán)節(jié)的電子化和網(wǎng)絡(luò)化。電子商務(wù)包括電子貨幣交換、供應(yīng)鏈管理、電子交易市場(chǎng)、網(wǎng)絡(luò)營(yíng)銷(xiāo)、在線事務(wù)處理、電子數(shù)據(jù)交換、存貨管理和自動(dòng)數(shù)據(jù)收集系統(tǒng)等方面。l隨著互聯(lián)網(wǎng)的迅速普及,電子商務(wù)已如雨后春筍般地迅速發(fā)展壯大起來(lái)。目前很多大型企業(yè)都擁有自己的商務(wù)網(wǎng)站。但是,電子商務(wù)在給人們帶來(lái)方便快捷的同時(shí),也給人們帶來(lái)了不少的難題和挑戰(zhàn)。對(duì)企業(yè)來(lái)說(shuō),需要從海量的交易信息中找出有用的、有潛在價(jià)值的信息,制定更好的經(jīng)營(yíng)策略;對(duì)消費(fèi)者來(lái)說(shuō),需要花費(fèi)大量的時(shí)間和精力來(lái)瀏覽網(wǎng)上海量的商品信息,并從中比較和選購(gòu)商品。數(shù)據(jù)挖掘技術(shù)可以從海量

3、的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識(shí)、模型或規(guī)則,從而為企業(yè)或消費(fèi)者提供決策支持。例如,企業(yè)可以采用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分、高價(jià)值客戶挖掘和客戶流失預(yù)測(cè),還可以進(jìn)行個(gè)性化推薦以改善用戶體驗(yàn),從而提升用戶從點(diǎn)擊到購(gòu)買(mǎi)的轉(zhuǎn)化率。3/192022-5-2715.2 主要應(yīng)用領(lǐng)域15.2.1 網(wǎng)絡(luò)客戶關(guān)系管理15.2.2 網(wǎng)站設(shè)計(jì)優(yōu)化15.2.3 推薦系統(tǒng)4/192022-5-2715.2.1 網(wǎng)絡(luò)客戶關(guān)系管理l網(wǎng)絡(luò)客戶關(guān)系管理(Electronic Customer Relationship Management,簡(jiǎn)稱(chēng)E-CRM)是企業(yè)在信息化中基于Internet平臺(tái)的客戶關(guān)系管理,其核心思想是在

4、電子商務(wù)環(huán)境中,CRM具有在企業(yè)與客戶、供應(yīng)商及業(yè)務(wù)伙伴之間建立無(wú)縫的協(xié)作能力,通過(guò)包括Web在內(nèi)的多種渠道來(lái)跟蹤和管理與客戶進(jìn)行的交流和交易,從而實(shí)現(xiàn)企業(yè)與每位客戶的最大程度與最大自由的互動(dòng)。l數(shù)據(jù)挖掘可在客戶獲取、客戶細(xì)分和客戶保留三方面優(yōu)化網(wǎng)絡(luò)客戶關(guān)系管理質(zhì)量。5/192022-5-2715.2.2 網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化l從網(wǎng)站的用戶瀏覽日志文件中挖掘客戶訪問(wèn)頁(yè)面的使用模式,可以為改良網(wǎng)站的內(nèi)容布局提供良好的建議。l對(duì)Web站點(diǎn)的優(yōu)化可以從兩方面來(lái)考慮:一是發(fā)現(xiàn)客戶訪問(wèn)頁(yè)面的相關(guān)性,在密切相關(guān)的網(wǎng)頁(yè)之間增加互通鏈接;二是發(fā)現(xiàn)用戶的期望位置,如果在期望位置的訪問(wèn)頻率高于對(duì)實(shí)際位置的訪問(wèn)頻率,可考慮

5、在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接。以著名的電子商務(wù)平臺(tái)亞馬遜為例,其Web站點(diǎn)優(yōu)化主要體現(xiàn)在以下幾方面:(1)產(chǎn)品搜索和在線采購(gòu)(2)相關(guān)產(chǎn)品展示(3)基于歷史行為的產(chǎn)品推薦(4)可定制的推薦記錄(5)全面的導(dǎo)航條6/192022-5-2715.2.3 推薦系統(tǒng) (1)l電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘中的推薦技術(shù)應(yīng)用到電子商務(wù)領(lǐng)域的范例。隨著電子商務(wù)活動(dòng)的開(kāi)展,電子商務(wù)平臺(tái)可以收集到大量用戶相關(guān)數(shù)據(jù),如用戶交易數(shù)據(jù)、用戶注冊(cè)數(shù)據(jù)、用戶評(píng)分?jǐn)?shù)據(jù)、用戶咨詢數(shù)據(jù)等。這些數(shù)據(jù)中蘊(yùn)含著豐富的用戶偏好信息,推薦系統(tǒng)可以對(duì)用戶行為和個(gè)人信息進(jìn)行分析處理,從中獲取用戶興趣信息并進(jìn)行推薦。l協(xié)同過(guò)濾推薦是目前

6、研究最多應(yīng)用最廣泛的推薦算法,包括基于內(nèi)容的協(xié)同過(guò)濾方法、基于模型的協(xié)同過(guò)濾。其他推薦方法還包括基于效用的推薦和基于知識(shí)的推薦等。協(xié)同過(guò)濾在電子商務(wù)中多用于在線動(dòng)態(tài)推薦,而關(guān)聯(lián)分析則常用于離線靜態(tài)推薦。l目前,大型電子商務(wù)系統(tǒng),如Amazon、eBay和Dangdang,都不同程度地使用了電子商務(wù)推薦系統(tǒng)。以著名的電子商務(wù)網(wǎng)站淘寶網(wǎng)為例,其推薦功能體現(xiàn)在以下幾方面:7/192022-5-2715.2.3 推薦系統(tǒng) (2)圖15-3 “掌柜熱賣(mài)”推薦示例圖15-4 “基于瀏覽記錄的推薦”示例圖15-5 “猜你喜歡的”推薦示例8/192022-5-2715.3 案例1: 基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦1

7、5.2.1 商業(yè)理解15.2.2 數(shù)據(jù)理解階段15.2.3 數(shù)據(jù)準(zhǔn)備階段15.2.4 建模階段9/192022-5-2715.2.1 商業(yè)理解l面對(duì)電子商務(wù)網(wǎng)站上海量和紛繁多樣的商品,很多用戶感到無(wú)所適從,他們需要花費(fèi)大量時(shí)間來(lái)挑選自己需要或者感興趣的商品。網(wǎng)上銷(xiāo)售與傳統(tǒng)的店面銷(xiāo)售不同,沒(méi)有售貨員提供現(xiàn)場(chǎng)咨詢服務(wù)。但是,網(wǎng)上銷(xiāo)售可以利用互聯(lián)網(wǎng)的優(yōu)勢(shì),為用戶提供更優(yōu)質(zhì)的服務(wù)。由于服務(wù)器會(huì)記錄用戶在瀏覽電子商務(wù)網(wǎng)站時(shí)的所有行為,因此,企業(yè)很容易收集用戶的瀏覽記錄、交易信息及偏好數(shù)據(jù)。l在個(gè)性化推薦技術(shù)的關(guān)聯(lián)規(guī)則分析中,最典型的例子是購(gòu)物籃分析,其目標(biāo)是發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品之間的聯(lián)系強(qiáng)度,挖掘用

8、戶潛在購(gòu)買(mǎi)模式,并將這些模式所對(duì)應(yīng)的服務(wù)或產(chǎn)品展示給用戶,為其提供參考,從而提高用戶的滿意度及購(gòu)買(mǎi)率。10/192022-5-2715.2.2 數(shù)據(jù)理解階段 屬 性 名屬 性 意 義交易號(hào)ID唯一標(biāo)識(shí)每一次用戶的交易商品名購(gòu)買(mǎi)的商品名數(shù)量購(gòu)買(mǎi)的每一樣商品的數(shù)量單價(jià)購(gòu)買(mǎi)商品的單價(jià)表15-1 數(shù)據(jù)集屬性信息ID商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)1女裝T恤279短裙2118休閑男裝199連衣裙1352女裝T恤179短裙1118傘115 3女裝T恤179短裙255高跟鞋163連衣裙1354女裝T恤1119短裙155高跟鞋163 5女裝T恤2119短裙145高跟鞋163 6女裝T恤

9、1119短裙145高跟鞋263洗發(fā)水285表15-2 部分?jǐn)?shù)據(jù)實(shí)例l本案例采用淘寶網(wǎng)的用戶交易數(shù)據(jù)進(jìn)行分析,每條交易記錄包括記錄號(hào)和顧客購(gòu)買(mǎi)的商品,表15-1給出了數(shù)據(jù)集中各屬性名及意義,表15-2為部分交易實(shí)例數(shù)據(jù)示例。11/192022-5-2715.2.3 數(shù)據(jù)準(zhǔn)備階段 (1) 交 易 號(hào)商品1商品2商品名3商品名41女裝T恤短裙休閑男裝連衣裙2女裝T恤短裙傘 3女裝T恤短裙高跟鞋連衣裙4女裝T恤短裙高跟鞋 5女裝T恤短裙高跟鞋 6女裝T恤短裙高跟鞋洗發(fā)水表15-3 部分預(yù)處理后的數(shù)據(jù)l原始數(shù)據(jù)集可能包含了一些冗余的數(shù)據(jù)、空值和零值等,這種格式不能作為關(guān)聯(lián)規(guī)則分析算法的輸入,需要對(duì)數(shù)據(jù)進(jìn)

10、行預(yù)處理。本案例的預(yù)處理中包括過(guò)濾掉原始數(shù)據(jù)集中的商品數(shù)量和單價(jià)這兩個(gè)屬性。同時(shí)為了保護(hù)顧客的隱私,過(guò)濾了用戶名屬性,并且用交易號(hào)來(lái)唯一表示顧客的每一次交易。處理后的數(shù)據(jù)集如表15-3所示。12/192022-5-2715.2.3 數(shù)據(jù)準(zhǔn)備階段 (2) 交 易 號(hào)女裝T恤短 裙電 腦 配 件男裝牛仔褲休 閑 男 裝1TTFFT2TTFFF3TTFFF表15-4 布爾矩陣格式數(shù)據(jù)集交 易 號(hào)女裝T恤1女裝T恤1短裙1休閑男裝2女裝T恤2短裙3女裝T恤3短裙表15-5 事務(wù)處理格式數(shù)據(jù)集l在Clementine軟件進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),必須把數(shù)據(jù)格式轉(zhuǎn)換成Clementine軟件能處理的格式。通常有

11、兩種格式:一種是布爾矩陣形式,即每行表示一條交易記錄,列中的T/F值表示該商品是否有在相應(yīng)的交易記錄中出現(xiàn),T表示有出現(xiàn),F(xiàn)表示沒(méi)有出現(xiàn)(表15-4列出轉(zhuǎn)換后的前3條記錄信息);一種是事務(wù)處理格式,即每行對(duì)應(yīng)一個(gè)交易號(hào)和一個(gè)商品項(xiàng)(表15-5列出了前3個(gè)事務(wù)對(duì)應(yīng)的事務(wù)處理格式)13/192022-5-2715.2.4 建模階段 Consequent規(guī)則后件Antecedent規(guī)則前件Support %支持度Confidence %置信度Lift提升度高跟鞋=T洗發(fā)水=T1.172.72715.474童裝=T玩具=T文具=T1.573.33312.865家具=T地毯=T2.050011.364玩

12、具=T童裝=T文具=T2.250.010.638童裝=T玩具=T4.759.57410.452女裝T恤=T短裙=T高跟鞋=T1.250.010.417表15-6 Apriori算法運(yùn)行結(jié)果l利用Clementine中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析,設(shè)定最小支持度1%,最小置信度50%,輸入為布爾矩陣格式的交易數(shù)據(jù)(如表15-4),輸出商品的關(guān)聯(lián)規(guī)則及相應(yīng)的支持度、置信度和提升度信息(如表15-6)。表中顯示“高跟鞋”和“洗發(fā)水”、“童裝”和“玩具”、“文具”經(jīng)常被一起購(gòu)買(mǎi)。14/192022-5-2715.3 案例2: 協(xié)同過(guò)濾技術(shù)在電影推薦上的簡(jiǎn)單應(yīng)用15.3.1 商業(yè)理解15.3.2

13、 數(shù)據(jù)理解與準(zhǔn)備15.3.3 建模階段15.3.4 模型評(píng)估與部署15/192022-5-2715.3.1 商業(yè)理解l在本案例中,關(guān)聯(lián)規(guī)則分析主要是從大量的電影評(píng)論記錄中提取出穩(wěn)定的電影間的關(guān)聯(lián)規(guī)則,它表示對(duì)應(yīng)的電影經(jīng)常被同時(shí)評(píng)價(jià),這個(gè)組合通常是穩(wěn)定的,一般可用于捆綁推薦等靜態(tài)推薦。而協(xié)同過(guò)濾則是結(jié)合當(dāng)前用戶及其他用戶的交易或打分記錄進(jìn)行推薦。l例如,對(duì)于指定用戶的電影評(píng)分記錄,可找到與其評(píng)分相似的其他用戶,并根據(jù)這些用戶對(duì)其他電影的評(píng)分來(lái)預(yù)測(cè)該用戶的評(píng)分,以此對(duì)該用戶進(jìn)行推薦評(píng)分較高的電影。而電影推薦網(wǎng)站積累的電影記錄數(shù)據(jù)量巨大,不同用戶的評(píng)分也時(shí)刻更新變化,因此電影推薦網(wǎng)站適合采用協(xié)同過(guò)濾

14、技術(shù)來(lái)進(jìn)行此類(lèi)更新頻率較快的動(dòng)態(tài)推薦,以滿足用戶對(duì)獲取最新電影推薦的需求。16/192022-5-2715.3.2 數(shù)據(jù)理解與準(zhǔn)備 UserIDItemIDRatingTimestamp1962423881250949186302389171774222118788871162443288060692316651886397596表15-8 MovieLens的u.data表部分?jǐn)?shù)據(jù)l本案例使用GroupLens Research的經(jīng)典數(shù)據(jù)集MovieLens,該數(shù)據(jù)集包含3個(gè)重要的數(shù)據(jù)表,分別是u.data、u.item和u.user,其中u.data記錄了943個(gè)用戶對(duì)1682部電影的10

15、0000個(gè)評(píng)分,u.item記錄了1682部電影的信息,u.user描述了943個(gè)用戶的相關(guān)信息。我們主要用到u.data表的UserID、ItemID和Rating屬性,表15-7給出了u.data部分?jǐn)?shù)據(jù)示例。17/192022-5-2715.3.3 建模階段 (1)l采用開(kāi)源的Apache Mahout項(xiàng)目中的協(xié)同過(guò)濾軟件包c(diǎn)f來(lái)對(duì)MovieLens數(shù)據(jù)集進(jìn)行分析預(yù)測(cè)。主要有以下4個(gè)步驟:(1)構(gòu)建模型u針對(duì)電影評(píng)分?jǐn)?shù)據(jù),構(gòu)建適合分析的數(shù)據(jù)模型,用于存儲(chǔ)用戶,電影和評(píng)分。這里我們用的是文件u.data,去掉Timestamp屬性,建立FileDataModel。(2)計(jì)算用戶相似度u為了

16、確定所分析用戶的相鄰用戶集,要先經(jīng)過(guò)用戶相似度的計(jì)算。這里采用夾角余弦的相似度計(jì)算方法來(lái)計(jì)算相似度。(3)查找K個(gè)相鄰用戶u經(jīng)過(guò)用戶相似度計(jì)算,接著要確定選取哪些用戶為最相似用戶。通常相似度較高的用戶,都?xì)w到相鄰用戶集。這里K值的設(shè)定依賴(lài)于實(shí)際數(shù)據(jù)特點(diǎn)或主觀經(jīng)驗(yàn)。為簡(jiǎn)單起見(jiàn),我們?nèi)∽钕嗨频?個(gè)用戶作為相鄰用戶集。(4)構(gòu)建推薦引擎18/192022-5-2715.3.3 建模階段 (2)表15-9 前6個(gè)用戶預(yù)測(cè)評(píng)分最高的5部電影推薦l通過(guò)以上4個(gè)步驟,借助Apache Mahout項(xiàng)目的cf包,我們可以簡(jiǎn)單地構(gòu)建一個(gè)基于用戶協(xié)同過(guò)濾的推薦引擎,并為每個(gè)用戶提供電影推薦。推薦結(jié)果如表15-8所示。UserID(Top 5)ItemID & Rating1881,5.00880,4.00292,4.00301,4.00315,4.002116,5.0083,5.00179,5.008,5.00172,5.003172,4.67174,4.6722,4.6789,4.6750,4.50489,5.0098, 4.50318,4.5079,4.50474,4.055347,5.00329,4.50242,4.50310,4.00299,4.006292,4.50313,4.50328,4.33288,4。25872,4.0119/

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論