




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)發(fā)掘之引薦算法入門阿里大數(shù)據(jù)競(jìng)賽參賽閱歷蔡珉星廈門大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室2019級(jí)碩士研討生指點(diǎn)教師:林子雨2019年11月1日遇到的問(wèn)題遇到的問(wèn)題目錄什么是引薦系統(tǒng)阿里巴巴大數(shù)據(jù)競(jìng)賽引薦算法入門Part 1什么是引薦系統(tǒng) 協(xié)助用戶從大量信息中找到本人感興趣的信息。 比如他今天想下載一部電影看看,但當(dāng)他翻開(kāi)某個(gè)下載網(wǎng)站,面對(duì)100年來(lái)發(fā)行的數(shù)不勝數(shù)的電影,他會(huì)手足無(wú)措,不知道該看哪一部。 引薦系統(tǒng)可以根據(jù)他以往的觀影記錄,為他引薦相關(guān)的電影。 引薦可以兩方面入手:基于內(nèi)容的引薦 - 相關(guān)導(dǎo)演、演員的其他作品;基于協(xié)同過(guò)濾的引薦 - 找到與本人歷史興趣一樣的用戶群,引薦該
2、用戶群喜歡的電影。 什么是引薦系統(tǒng)什么是引薦系統(tǒng) 電影運(yùn)用豆瓣電影:的引薦的引薦引薦構(gòu)成:導(dǎo)演、演員其他作品;同類型電影。引薦構(gòu)成:導(dǎo)演、演員其他作品;同類型電影。什么是引薦系統(tǒng) 音樂(lè)運(yùn)用蝦米音樂(lè):引薦構(gòu)成:喜歡的歌曲所屬專輯的其他曲目;風(fēng)格類似的曲目。引薦構(gòu)成:喜歡的歌曲所屬專輯的其他曲目;風(fēng)格類似的曲目。什么是引薦系統(tǒng) 電商運(yùn)用京東商城:引薦構(gòu)成:協(xié)同過(guò)濾、屬性類似的商品。引薦構(gòu)成:協(xié)同過(guò)濾、屬性類似的商品。的引薦的引薦什么是引薦系統(tǒng) 引薦系統(tǒng)的本質(zhì)經(jīng)過(guò)一定的方式將用戶與物品聯(lián)絡(luò)起來(lái)。Part 2阿里巴巴大數(shù)據(jù)競(jìng)賽阿里巴巴大數(shù)據(jù)競(jìng)賽7000+參賽隊(duì)伍,凸顯了如今大數(shù)據(jù)方向的搶手參賽隊(duì)伍,凸
3、顯了如今大數(shù)據(jù)方向的搶手 賽題引見(jiàn)賽題引見(jiàn) 在天貓,每天都會(huì)有數(shù)千萬(wàn)的用戶經(jīng)過(guò)品牌發(fā)現(xiàn)本人喜歡的商品,在天貓,每天都會(huì)有數(shù)千萬(wàn)的用戶經(jīng)過(guò)品牌發(fā)現(xiàn)本人喜歡的商品,品牌是聯(lián)接消費(fèi)者與商品最重要的紐帶。本屆賽題的義務(wù)就是根據(jù)用戶品牌是聯(lián)接消費(fèi)者與商品最重要的紐帶。本屆賽題的義務(wù)就是根據(jù)用戶4個(gè)月在天貓的行為日志,建立用戶的品牌偏好,并預(yù)測(cè)他們?cè)谖磥?lái)一個(gè)月個(gè)月在天貓的行為日志,建立用戶的品牌偏好,并預(yù)測(cè)他們?cè)谖磥?lái)一個(gè)月內(nèi)對(duì)品牌下商品的購(gòu)買行為。內(nèi)對(duì)品牌下商品的購(gòu)買行為。 數(shù)據(jù):數(shù)據(jù): 行為日志:用戶行為日志:用戶id、品牌、品牌id、用戶對(duì)品牌的行為、行為時(shí)間。、用戶對(duì)品牌的行為、行為時(shí)間。 用戶行為
4、:點(diǎn)擊、購(gòu)買、參與購(gòu)物車、收藏。用戶行為:點(diǎn)擊、購(gòu)買、參與購(gòu)物車、收藏。阿里巴巴大數(shù)據(jù)競(jìng)賽 競(jìng)賽方式競(jìng)賽方式 設(shè)計(jì)一個(gè)引薦算法,基于算法和已有數(shù)據(jù)得出第五個(gè)月用戶能夠設(shè)計(jì)一個(gè)引薦算法,基于算法和已有數(shù)據(jù)得出第五個(gè)月用戶能夠購(gòu)買的品牌。購(gòu)買的品牌。 訓(xùn)練集:用于建立模型;訓(xùn)練集:用于建立模型;驗(yàn)證集:用于評(píng)價(jià)模型。驗(yàn)證集:用于評(píng)價(jià)模型。 例如可以用例如可以用 1-2月月 的數(shù)據(jù)作為訓(xùn)練集,的數(shù)據(jù)作為訓(xùn)練集,3月的數(shù)據(jù)作為驗(yàn)證集,月的數(shù)據(jù)作為驗(yàn)證集,以此來(lái)檢驗(yàn)算法的效果。然后再用以此來(lái)檢驗(yàn)算法的效果。然后再用 3-4月月 的數(shù)據(jù)作為訓(xùn)練集,得出引薦的數(shù)據(jù)作為訓(xùn)練集,得出引薦結(jié)果。最終提交引薦結(jié)果,
5、由系統(tǒng)給出分?jǐn)?shù)。結(jié)果。最終提交引薦結(jié)果,由系統(tǒng)給出分?jǐn)?shù)。 評(píng)價(jià)目的評(píng)價(jià)目的 預(yù)測(cè)的品牌準(zhǔn)確率越高越好,也希望覆蓋的用戶和品牌越多越好。預(yù)測(cè)的品牌準(zhǔn)確率越高越好,也希望覆蓋的用戶和品牌越多越好。阿里巴巴大數(shù)據(jù)競(jìng)賽 參賽成果:第60名 競(jìng)賽時(shí)間較長(zhǎng),繼續(xù)4個(gè)月,比較耗時(shí)間。后勁缺乏,沒(méi)有到達(dá)預(yù)期的成果。 經(jīng)過(guò)競(jìng)賽,對(duì)引薦算法的入門有了深化的了解與實(shí)際。阿里巴巴大數(shù)據(jù)競(jìng)賽Part 3引薦算法入門 阿里大數(shù)據(jù)競(jìng)賽提供的數(shù)據(jù):阿里大數(shù)據(jù)競(jìng)賽提供的數(shù)據(jù):行為日志:用戶行為日志:用戶id、品牌、品牌id、用戶對(duì)品牌的行為、行為時(shí)間。、用戶對(duì)品牌的行為、行為時(shí)間。用戶行為:點(diǎn)擊、購(gòu)買、參與購(gòu)物車、收藏。用戶行
6、為:點(diǎn)擊、購(gòu)買、參與購(gòu)物車、收藏。 對(duì)數(shù)據(jù)的處置:提取特征對(duì)數(shù)據(jù)的處置:提取特征 特征:引薦算法所思索的要素,如特征:引薦算法所思索的要素,如 用戶過(guò)去一個(gè)月對(duì)品牌的點(diǎn)擊次數(shù)用戶過(guò)去一個(gè)月對(duì)品牌的點(diǎn)擊次數(shù) 用戶過(guò)去一個(gè)月對(duì)品牌的購(gòu)買次數(shù)用戶過(guò)去一個(gè)月對(duì)品牌的購(gòu)買次數(shù) 品牌過(guò)去一個(gè)月的總銷量品牌過(guò)去一個(gè)月的總銷量.引薦算法原始數(shù)據(jù)處置后的特征數(shù)據(jù) 算法1:簡(jiǎn)單的推測(cè)規(guī)律點(diǎn)擊次數(shù)多,購(gòu)買能夠性較大;參與購(gòu)物車、收藏,購(gòu)買能夠性較大;最近有閱讀過(guò)的品牌,購(gòu)買能夠性較大;.引薦算法點(diǎn)擊次數(shù)與能否購(gòu)買的關(guān)系 算法算法1:簡(jiǎn)單的推測(cè):簡(jiǎn)單的推測(cè)規(guī)律規(guī)律 首先將數(shù)據(jù)轉(zhuǎn)化為特征值:首先將數(shù)據(jù)轉(zhuǎn)化為特征值:點(diǎn)擊
7、次數(shù)點(diǎn)擊次數(shù) click參與購(gòu)物車參與購(gòu)物車 is_cart收藏收藏 is_fav幾天前有閱讀過(guò)幾天前有閱讀過(guò) days 實(shí)現(xiàn)實(shí)現(xiàn)1:直接利用規(guī)律:直接利用規(guī)律 if ( this.days = 10) then recommend(this); if ( this.is_cart & days = 3 ) then recommend(this); .引薦算法簡(jiǎn)單粗暴且有效,只需規(guī)律找的好,效果還是可以的簡(jiǎn)單粗暴且有效,只需規(guī)律找的好,效果還是可以的 算法算法1:簡(jiǎn)單的推測(cè):簡(jiǎn)單的推測(cè)規(guī)律規(guī)律點(diǎn)擊次數(shù)點(diǎn)擊次數(shù) click參與購(gòu)物車參與購(gòu)物車 is_cart收藏收藏 is_fav幾天前
8、有閱讀過(guò)幾天前有閱讀過(guò) days 實(shí)現(xiàn)實(shí)現(xiàn)2:設(shè)定權(quán)值,并計(jì)算分值經(jīng)過(guò)驗(yàn)證集找到較優(yōu)權(quán)值:設(shè)定權(quán)值,并計(jì)算分值經(jīng)過(guò)驗(yàn)證集找到較優(yōu)權(quán)值 W = w1 * click + w2 * is_cart + w3 * is_fav + w4 * 1/days 例如得到一個(gè)較有權(quán)值例如得到一個(gè)較有權(quán)值: w1 = 0.1, w2 = 0.2, w3 = 0.2, w4 = 0.5引薦算法簡(jiǎn)單有效,實(shí)現(xiàn)方便,有一定效果簡(jiǎn)單有效,實(shí)現(xiàn)方便,有一定效果用戶用戶品牌品牌交互數(shù)據(jù)交互數(shù)據(jù)得分得分1133click = 2, is_cart = 1, is_fav = 0, days = 11.42133click
9、= 10, is_cart = 0, is_fav = 0, days = 5 1.1 算法2:邏輯回歸(Logistic regression) Logistic regression 邏輯回歸是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計(jì)某事件的能夠性。如某用戶購(gòu)買某商品的能夠性、廣告被某用戶點(diǎn)擊的能夠性等。引薦算法公式定義將能夠性限定在0和1之間 算法2:邏輯回歸(Logistic regression) 組成1:回歸 回歸是對(duì)知公式的未知參數(shù)進(jìn)展估計(jì)。 如知公式是y = a*x + b,未知參數(shù)是 a 和 b。我們?nèi)缃裼泻芏嗾鎸?shí)的(x,y)數(shù)據(jù)訓(xùn)練樣本,回歸就是利用這些數(shù)據(jù)對(duì) a 和 b
10、的取值去自動(dòng)估計(jì)。引薦算法 算法2:邏輯回歸(Logistic regression)組成2:線性回歸 如鞋子定價(jià)與鞋子銷量的問(wèn)題。y = a*x + b,x是價(jià)錢,y是銷售量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確的a, b取值,使 y = a * x + b 在一切樣本集上誤差最小。引薦算法線性回歸例如 算法算法2:邏輯回歸:邏輯回歸(Logistic regression)組成組成2:線性回歸:線性回歸 如鞋子定價(jià)與鞋子銷量的問(wèn)題。如鞋子定價(jià)與鞋子銷量的問(wèn)題。y = a*x + b,x是價(jià)錢,是價(jià)錢,y是銷售是銷售量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確
11、的量。假設(shè)它們滿足線性關(guān)系,線性回歸即根據(jù)往年數(shù)據(jù)找出最正確的a, b取值,使取值,使 y = a * x + b 在一切樣本集上誤差最小。在一切樣本集上誤差最小。 一元變量關(guān)系比較直觀,但假設(shè)是多元就難以直觀的看出來(lái)了。一元變量關(guān)系比較直觀,但假設(shè)是多元就難以直觀的看出來(lái)了。比如說(shuō)除了鞋子的價(jià)錢外,鞋子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人比如說(shuō)除了鞋子的價(jià)錢外,鞋子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人流量都會(huì)影響銷量,我們想得到這樣的公式:流量都會(huì)影響銷量,我們想得到這樣的公式:sell = a*x + b*y + c*z + d* + e。這個(gè)時(shí)候畫圖就畫不出來(lái)了,規(guī)律也非常難找,這時(shí)就得
12、交給。這個(gè)時(shí)候畫圖就畫不出來(lái)了,規(guī)律也非常難找,這時(shí)就得交給線性回歸程序去完成。線性回歸程序去完成。引薦算法 算法2:邏輯回歸(Logistic regression)組成3:Logsitic方程 上面提到的 sell 計(jì)算出來(lái)是一個(gè)數(shù)值,但我們需求的是一個(gè)0, 1,類似概率的值,于是引入了 Logistic 方程,來(lái)做歸一化。 所以邏輯回歸就是一個(gè)被Logistic方程歸一化后的線性回歸。引薦算法線性回歸邏輯回歸 算法2:邏輯回歸(Logistic regression) 實(shí)現(xiàn):運(yùn)用算法庫(kù) R言語(yǔ)、Python等都有邏輯回歸的算法庫(kù),運(yùn)用方便。最重要的還是要提取相關(guān)特征,邏輯回歸的效果直接取
13、決于特征的選取當(dāng)然,追求更好的效果就需求去優(yōu)化算法的實(shí)現(xiàn)。引薦算法邏輯回歸代碼例如 算法算法3:協(xié)同過(guò)濾:協(xié)同過(guò)濾(Collaborative Filtering) 基于用戶的協(xié)同過(guò)濾算法是引薦系統(tǒng)中最古老的算法。可以不夸張基于用戶的協(xié)同過(guò)濾算法是引薦系統(tǒng)中最古老的算法。可以不夸張地說(shuō),這個(gè)算法的誕生標(biāo)志了引薦系統(tǒng)的誕生。地說(shuō),這個(gè)算法的誕生標(biāo)志了引薦系統(tǒng)的誕生。 在個(gè)性化引薦系統(tǒng)中,當(dāng)用戶在個(gè)性化引薦系統(tǒng)中,當(dāng)用戶A需求個(gè)性化引薦時(shí),可以先找到和需求個(gè)性化引薦時(shí),可以先找到和他有類似興趣的其他用戶,然后把那些類似興趣用戶喜歡的、而用戶他有類似興趣的其他用戶,然后把那些類似興趣用戶喜歡的、而用
14、戶A沒(méi)沒(méi)有聽(tīng)說(shuō)過(guò)的物品引薦給有聽(tīng)說(shuō)過(guò)的物品引薦給A。這種方法稱為基于用戶的協(xié)同過(guò)濾算法。這種方法稱為基于用戶的協(xié)同過(guò)濾算法。 基于用戶的協(xié)同過(guò)濾算法主要包括兩個(gè)步驟。基于用戶的協(xié)同過(guò)濾算法主要包括兩個(gè)步驟。找到和目的用戶興趣類似的用戶集合。找到和目的用戶興趣類似的用戶集合。將這個(gè)集合中用戶喜歡的,且目的用戶沒(méi)有聽(tīng)說(shuō)過(guò)的物品引薦給目的用將這個(gè)集合中用戶喜歡的,且目的用戶沒(méi)有聽(tīng)說(shuō)過(guò)的物品引薦給目的用戶。戶。 相對(duì)應(yīng)的,還有基于物品的協(xié)同過(guò)濾算法,比如給喜歡相對(duì)應(yīng)的,還有基于物品的協(xié)同過(guò)濾算法,比如給喜歡的用戶引薦的用戶引薦,由于這兩部作品都是武俠小說(shuō),且作者都,由于這兩部作品都是武俠小說(shuō),且作者都
15、是金庸。是金庸。引薦算法 算法3:協(xié)同過(guò)濾(Collaborative Filtering) 協(xié)同過(guò)濾算法的中心是計(jì)算類似度,以基于物品的協(xié)同過(guò)濾為例:引薦算法 左邊每一行代表一個(gè)用戶感興趣的物品集合 中間是某用戶感興趣物品的類似矩陣 右側(cè)是一切用戶感興趣物品類似矩陣相加的結(jié)果 最后進(jìn)展歸一化就可得到一個(gè)0,1的物品類似度矩陣 算法3:協(xié)同過(guò)濾(Collaborative Filtering) 引薦算法基于用戶的協(xié)同過(guò)濾User CF(用戶A和用戶C都喜歡物品A、C)基于物品的協(xié)同過(guò)濾基于物品的協(xié)同過(guò)濾Item CF(喜歡物品喜歡物品A的人也喜歡物品的人也喜歡物品C)基于物品的協(xié)同過(guò)濾引薦例如
16、 給用戶引薦,是由于這本書和和都類似,類似度分別為 0.4 和 0.5。 而用戶對(duì)的興趣度是1.3,對(duì)的興趣度是0.9,那么用戶對(duì)的興趣度就是1.3 0.4 + 0.90.5 = 0.97。 邏輯回歸與協(xié)同過(guò)濾的比較邏輯回歸與協(xié)同過(guò)濾的比較 最主要的一個(gè)區(qū)別是運(yùn)用場(chǎng)景不同:邏輯回歸針對(duì)的是已有交互的最主要的一個(gè)區(qū)別是運(yùn)用場(chǎng)景不同:邏輯回歸針對(duì)的是已有交互的物品,而協(xié)同過(guò)濾那么主要針對(duì)沒(méi)有交互過(guò)的物品。物品,而協(xié)同過(guò)濾那么主要針對(duì)沒(méi)有交互過(guò)的物品。 如購(gòu)物網(wǎng)站的引薦系統(tǒng),如購(gòu)物網(wǎng)站的引薦系統(tǒng),邏輯回歸可以引薦給用戶,其閱讀過(guò)且較有能夠購(gòu)買的商品;邏輯回歸可以引薦給用戶,其閱讀過(guò)且較有能夠購(gòu)買的商品;協(xié)同過(guò)濾那么可以引薦給用戶,其未閱讀過(guò)但能夠感興趣的商品。協(xié)同過(guò)濾那么可以引薦給用戶,其未閱讀過(guò)但能夠感興趣的商品。 引薦算法亞馬遜的圖書引薦主要運(yùn)用了協(xié)同過(guò)濾。 其他引薦算法: 隨機(jī)森林(Logistic regression) 支持向量機(jī)SVM 神經(jīng)網(wǎng)絡(luò) Slope One.引薦算法 總結(jié):總結(jié):引見(jiàn)了阿里
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 滑坡三維地質(zhì)模型構(gòu)建及位移預(yù)測(cè)預(yù)報(bào)研究
- 面向公路隧道節(jié)能的照明控制技術(shù)研究
- 2025大班下學(xué)期教師培訓(xùn)與發(fā)展計(jì)劃
- 2025年公司項(xiàng)目部管理人員安全培訓(xùn)考試試題【全優(yōu)】
- 2024-2025班組安全培訓(xùn)考試試題附參考答案【研優(yōu)卷】
- 2025年公司級(jí)員工安全培訓(xùn)考試試題及參考答案(黃金題型)
- 幼兒園大班2025下學(xué)期職業(yè)體驗(yàn)計(jì)劃
- 四年級(jí)下冊(cè)科學(xué)探索活動(dòng)教學(xué)計(jì)劃
- 藝術(shù)教師年度教學(xué)與發(fā)展計(jì)劃
- 內(nèi)科2025年規(guī)范化治療方案總結(jié)及計(jì)劃
- 中西文化鑒賞智慧樹(shù)知到期末考試答案章節(jié)答案2024年鄭州大學(xué)
- 關(guān)節(jié)黏連松解手術(shù)
- 招標(biāo)代理服務(wù) 投標(biāo)方案(技術(shù)方案)
- 校園超市經(jīng)營(yíng)投標(biāo)方案(技術(shù)方案)
- 關(guān)于調(diào)整市中醫(yī)院醫(yī)保管理領(lǐng)導(dǎo)小組和科室醫(yī)保管理小組的通知
- Unit9SectionA(1a-2d)教案人教版八年級(jí)英語(yǔ)下冊(cè)
- eras在婦科圍手術(shù)
- 下課了助農(nóng)直播-大學(xué)生助農(nóng)電商實(shí)踐平臺(tái)(簡(jiǎn)略版)
- 霧化吸入評(píng)分標(biāo)準(zhǔn)
- 第13課《警惕可怕的狂犬病》 課件
- 口腔器械消毒滅菌技術(shù)操作規(guī)范
評(píng)論
0/150
提交評(píng)論