




已閱讀5頁(yè),還剩76頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)軟件與理論專業(yè)論文)協(xié)同過(guò)濾優(yōu)化算法的研究與實(shí)現(xiàn).pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
11 j 1 分類號(hào) udc 學(xué)位 論文 協(xié)同過(guò)濾優(yōu)化算法的研究與實(shí)現(xiàn) 作者姓名 陳玲玲 指導(dǎo)教師 王大玲教授 東北大學(xué)信息科學(xué)與工程學(xué)院 二申請(qǐng)學(xué)位級(jí)別 碩士 學(xué)科類別 工學(xué) 學(xué)科專業(yè)名稱 計(jì)算機(jī)軟件與理論 論文提交日期 2 0 0 8 年6 月15 日論文答辯日期 2 0 0 8 學(xué)位授予日期 功卯乎 7 答懶讎 申德 評(píng)閱人 概碗春 孝砣老 東北大學(xué) 2 0 0 8 年6 月 年7 月1 日 熒 一 l at h e s i si nc o m p u t e rs o f t w a r ea n dt h e o r y r e s e a r c ha n di m p l e m e n t a t i o nf o rc o l l a b o r a t i v ef i l t e r i n g o p t i m i z a t i o na l g o r i t h m b yc h e nl i n g l i n g s u p e r v i s o r p r o f e s s o rw a n g d a l i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 0 l j p 一 獨(dú)創(chuàng)性聲明 本人聲明 所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的 論文中取得 的研究成果除加以標(biāo)注和致謝的地方外 不包含其他人己經(jīng)發(fā)表或撰寫過(guò) 的研究成果 也不包括本人為獲得其他學(xué)位而使用過(guò)的材料 與我一同工 作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說(shuō)明并表示謝 意 學(xué)位論文作者簽名 e t 期 加彥 f 勿 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留 使用學(xué)位論 文的規(guī)定 即學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和 磁盤 允許論文被查閱和借閱 本人同意東北大學(xué)可以將學(xué)位論文的全部 或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索 交流 作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后 半年屹 一年口一年半口兩年口 學(xué)位論文作者簽名 觴仝 簽字日期 鈾 留 f 功 導(dǎo)師簽名 諺玄 簽字日期 加肋寥 多 p 一 囊 t 東北大學(xué)碩士學(xué)位論文 摘要 協(xié)同過(guò)濾優(yōu)化算法的研究與實(shí)現(xiàn) 摘要 隨著互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展 電子商務(wù)推薦系統(tǒng)逐漸成為一個(gè)重要研究?jī)?nèi)容 得 到了研究者越來(lái)越多的關(guān)注 其中 協(xié)同過(guò)濾推薦技術(shù)是目前推薦系統(tǒng)中應(yīng)用最早和最 為成功的技術(shù)之一 是個(gè)性化推薦領(lǐng)域重點(diǎn)研究的課題 本文通過(guò)分析了協(xié)同過(guò)濾推薦技術(shù)目前存在的問(wèn)題 指出隨著電子商務(wù)系統(tǒng)用戶數(shù) 目和商品數(shù)目的日益增加 整個(gè)項(xiàng)目空間上用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏 傳統(tǒng)的相似性度量 方法沒(méi)有強(qiáng)調(diào)項(xiàng)目所屬類別對(duì)相似性計(jì)算的影響 因而計(jì)算結(jié)果不夠準(zhǔn)確 針對(duì)該問(wèn)題 提出了項(xiàng)目類型信息參與相似性計(jì)算的思想 將此思想分別應(yīng)用于基于項(xiàng)目協(xié)同過(guò)濾算 法和基于用戶協(xié)同過(guò)濾算法中 前者使用項(xiàng)目類型矩陣計(jì)算類型部分 后者使用由項(xiàng)目 類型矩陣與用戶評(píng)分矩陣得到的用戶 項(xiàng)目類型矩陣進(jìn)行計(jì)算類型部分 并將其 與各自相應(yīng)的傳統(tǒng)相似性計(jì)算結(jié)果線性結(jié)合一并作為項(xiàng)目間和用戶間的相似性 實(shí)驗(yàn)結(jié) 果表明 在基于項(xiàng)目和基于用戶協(xié)同過(guò)濾算法中 該方法不同程度地提高了預(yù)測(cè)的精確 度 本文還就傳統(tǒng)協(xié)同過(guò)濾算法無(wú)法反映用戶對(duì)不同類項(xiàng)目的關(guān)注度的不同問(wèn)題 提出 一種改進(jìn)的基于用戶的協(xié)同過(guò)濾算法 該算法利用組合推薦方法思想 結(jié)合了基于項(xiàng)目 和基于用戶協(xié)同過(guò)濾算法 該算法以基于用戶協(xié)同過(guò)濾算法為主體 使用基于項(xiàng)目協(xié)同 過(guò)濾算法得出待預(yù)測(cè)項(xiàng)目的鄰居項(xiàng)目 對(duì)基于項(xiàng)目協(xié)同過(guò)濾算法產(chǎn)生的目標(biāo)用戶的鄰居 集合進(jìn)行再次選擇 它能考慮到用戶在不同類項(xiàng)目的興趣差異 找到針對(duì)每個(gè)類項(xiàng)目與 用戶 真正 的鄰居用戶 實(shí)驗(yàn)結(jié)果表明 算法能有效避免傳統(tǒng)方法的弊端 提高預(yù)測(cè) 精度 從而提高了協(xié)同過(guò)濾系統(tǒng)的推薦質(zhì)量 關(guān)鍵詞 推薦系統(tǒng) 協(xié)同過(guò)濾 項(xiàng)目 用戶 優(yōu)化 組合推薦 一i i 東北大學(xué)碩士學(xué)位論文 a b s t r a c t r e s e a r c ha n di m p l e m e n t a t i o nf o rc o l l a b o r a t i v ef i l t e r i n g o p t i m i z a t i o na l g o r i t h m a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n de c o m m e r c e t h er e c o m m e n d e rs y s t e mh a s g r a d u a l l yb e c o m ea l li m p o r t a n tr e s e a r c hf i e l do fe c o m m e r c et e c h n o l o g y a n da t t r a c t sm a n y r e s e a r c h e r s a t t e n t i o n c o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g yi so n eo fe a r l i e s ta p p l i e da n dm o s t s u c c e s s f u lt e c h n o l o g i e si nr e c o m m e n d e rs y s t e m a n di ti st h em a i nr e s e a r c hi s s u e si nt h ef i e l d o fp e r s o n a l i z e dr e c o m m e n d a t i o n a n di nt h i sp a p e rw ef o c u so b rr e s e a r c ho ni t i nt h i st h e s i s i ti sp o i n t e do u tt h a t 謝t l lt h ed e v e l o p m e n to fe c o m m e r c e t h em a g n i t u d e s o fu s e r sa n dc o m m o d i t i e sg r o wr a p i d l y w h i c hr e s u l t e di nt h ee x t r e m es p a r s i t yo fu s e rr a t i n g d a t ab ya n a l y z i n gt h ep r o b l e m st h a te x i s ti nt o d a y sc o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g y f o r e m p h a s i z i n gt h ei m p a c to fi t e m sg e n r e so ns i m i l a r i t yc o m p u t i n g t h et r a d i t i o n a ls i m i l a r i t y m e a s u r em e t h o d sw o r ki n a c c u r a t e l yi nt h i ss i t u a t i o n f o rt h i sp r o b l e m a l li d e ao fm a k i n g i t e m sg e n r ei n f o r m a t i o nt a k ep a r ti ns i m i l a r i t yc o m p u t i n gi sp r o p o s e d i ti sa p p l i e di n i t e m b a s e da n du s e r b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m sr e s p e c f i v e l y t h ef o r m e ru s e st h e m a t r i xo fi t e ma n di t e m sg e n r ef o rg e n r ep a r t t h el a t t e ru s e st h em a t r i xo fu s e ra n di t e m s g e n r eg a i n e df r o mt h em a t r i xo fu s e rr a t i n ga n dt h em a t r i xo fi t e ma n di t e m g e n r ef o rt h a t p a r t t h e ni t i sc o m b i n e dw i t l le a c hc o r r e s p o n d i n go r i g i n a ls i m i l a r i t yv i al i n e a ra p p r o a c ht o b e c o m es i m i l a r i t yb e t w e e ni t e m sa n db e t w e e nu s e r s e x p e r i m e n t ss h o wi ti n c r e a s e sa c c u r a c y o fp r e d i c t i o na td i f f e r e n tl e v e l sb o t hi ni t e m b a s e da n du s e r b a s e dc o l l a b o r a t i v ef i l t e r i n g a n dt h e nam o d i f i e du s e r b a s e dc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mi sp r o p o s e df o rs o l v i n g t h ep r o b l e mt h a tt h et r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n gc a l l tr e f l e c tt h ed i f f e r e n c eo fu s e r a t t e n t i o nt od i f f e r e n tk i n d so fi t e m s t h ea l g o r i t h mc o m b i n e si t e m b a s e da n du s e r b a s e d c o l l a b o r a t i v e f i l t e r i n ga c c o r d i n g t oc o m b i n e dr e c o m m e n d a t i o n t h i sa l g o r i t h mr e g a r d s u s e r b a s e dc o l l a b o r a t i v ef i l t e r i n ga st h em a i nb o d y u s i n gn e i g h b o r so fi t e mt ob ep r e d i c t e d p r o d u c e df r o mi t e m b a s e dc o l l a b o r a t i v ef i l t e r i n gt os e l e c tn e a r e s tn e i g h b o r so fa c t i v eu s e rg o t f r o mu s e r b a s e dc o l l a b o r a t i v ef i l t e r i n ga g a i n i ti sa b l et ot a k et h ed i f f e r e n c eo fu s e r si n t e r e s t i nd i f f e r e n tk i n d so fi t e m sa n df i n d r e a l n e i g h b o r so fa c t i v eu s e r sr e g a r d i n ge v e r yk i n do f i t e m s e x p e r i m e n t ss h o w i tc a r le f f e c t i v e l ya v o i dt h es h o r t c o m i n g so ft r a d i t i o n a lm e t h o d sa n d i m p r o v et h ea c c u r a c yo fp r e d i c t i o n t h e r e b ye n h a n c i n gt h ec o l l a b o r a t i v ef i l t e r i n gs y s t e mo n t h er e c o m m e n d a t i o nq u a l i t y k e y w o r d s r e c o m m e n d e rs y s t e m c o l l a b o r a t i v ef i l t e r i n g i t e m u s e r o p t i m i z a t i o n h y b r i dr e c o m m e n d a t i o n i i i 東北大學(xué)碩士學(xué)位論文 目錄 目錄 獨(dú)創(chuàng)性聲明 i 摘要 i i a b s t r a c t i i i 第一章緒論 1 1 1 研究背景 1 1 2 本文主要研究?jī)?nèi)容 2 1 3 本文的組織結(jié)構(gòu) 2 第二章相關(guān)理論與技術(shù) 5 2 1 電子商務(wù)推薦系統(tǒng)簡(jiǎn)介 5 2 1 1 電子商務(wù)推薦系統(tǒng)的構(gòu)成 5 2 1 2 電子商務(wù)推薦系統(tǒng)的作用 7 2 1 3 電子商務(wù)推薦系統(tǒng)與個(gè)性化服務(wù) 8 2 2 電子商務(wù)推薦系統(tǒng)中推薦技術(shù) 8 2 2 1 協(xié)同過(guò)濾 9 2 2 2 關(guān)聯(lián)規(guī)則 9 2 2 3 聚類 1 0 2 2 4 貝葉斯 b e y e s i a n 絡(luò) 1 1 2 2 5h o r t i n g 圖 1 l 2 3 協(xié)同過(guò)濾介紹 1 l 2 3 1 協(xié)同過(guò)濾系統(tǒng)簡(jiǎn)單描述 1 1 2 3 2 協(xié)同過(guò)濾技術(shù)的分類 1 3 2 3 3 現(xiàn)有的協(xié)同過(guò)濾推薦系統(tǒng) 1 3 2 4 協(xié)同過(guò)濾存在問(wèn)題以及現(xiàn)有解決方法 1 4 2 4 1 協(xié)同過(guò)濾在應(yīng)用中存在的問(wèn)題 1 4 2 4 2 現(xiàn)有的解決辦法 1 6 2 5 小結(jié) 2 0 第三章基于項(xiàng)目協(xié)同過(guò)濾的類型優(yōu)化算法 2 1 3 1 傳統(tǒng)基于項(xiàng)目協(xié)同過(guò)濾算法 2 1 3 1 1 相似度計(jì)算 2 2 3 1 2 最近鄰居 2 2 一 一 東北大學(xué)碩士學(xué)位論文目錄 3 1 3 產(chǎn)生推薦 2 2 3 2 基于項(xiàng)目協(xié)同過(guò)濾的類型優(yōu)化算法 2 3 3 2 1 問(wèn)題的提出 2 3 3 2 2 相關(guān)工作 2 4 3 2 3 項(xiàng)目類型矩陣 2 4 3 2 4 類型優(yōu)化 2 5 3 3 評(píng)價(jià)標(biāo)準(zhǔn) 2 6 3 4 數(shù)據(jù)集 2 7 3 5 實(shí)驗(yàn)與分析 2 7 3 5 1 實(shí)驗(yàn)方案 2 7 3 5 2 實(shí)驗(yàn)結(jié)果 2 8 3 5 3 實(shí)驗(yàn)結(jié)果分析 3 0 3 6 爿 結(jié) 3 0 第四章基于用戶協(xié)同過(guò)濾的類型優(yōu)化算法 3 1 4 1 傳統(tǒng)基于用戶協(xié)同過(guò)濾算法 3 l 4 1 1 相似度計(jì)算 3 2 4 1 2 最近鄰居 3 2 4 1 3 產(chǎn)生推薦 3 3 4 2 基于用戶協(xié)同過(guò)濾的類型優(yōu)化算法 3 3 4 2 1 問(wèn)題提出 3 3 4 2 2 用戶 類型矩陣 3 4 4 2 3 類型優(yōu)化 3 5 4 3 實(shí)驗(yàn)與分析 3 6 4 3 1 實(shí)驗(yàn)方案 3 6 4 3 2 實(shí)驗(yàn)結(jié)果 3 6 4 3 3 實(shí)驗(yàn)結(jié)果分析 3 8 4 4 進(jìn)一步的構(gòu)想 4 0 4 5d 結(jié) 4 0 第五章改進(jìn)的基于用戶協(xié)同過(guò)濾算法 4 3 5 1 組合推薦 4 3 5 1 1 組合推薦技術(shù) 4 3 5 1 2 基于項(xiàng)目和基于用戶協(xié)同過(guò)濾算法組合推薦 4 3 5 2 改進(jìn)的基于用戶協(xié)同過(guò)濾算法 4 5 5 2 l 算法的提出 4 5 一v 一 查 壟蘭塑主蘭堡笙查一 旦 5 2 2 相關(guān)工作 一j 5 2 3 改進(jìn)的基于用戶的協(xié)同過(guò)濾算法 4 0 5 2 4 算法分析 帥 5 3 實(shí)驗(yàn)與分析 4 y 5 3 1 實(shí)驗(yàn)方案 刊 5 3 2 實(shí)驗(yàn)結(jié)果 例 5 3 3 實(shí)驗(yàn)結(jié)果分析 5 4 小結(jié) 5 4 第六章結(jié)論與展望 5 7 6 1 本文主要內(nèi)容總結(jié) 5 7 6 2 未來(lái)工作 5 7 參考文獻(xiàn) 5 9 致謝 6 3 攻碩期間參加的項(xiàng)目和發(fā)表的論文 6 5 一v i 東北大學(xué)碩士學(xué)住論文 第一章緒論 第一章緒論弟一早三百t 匕 1 1 研究背景 近年來(lái) 隨著互聯(lián)網(wǎng)的普及和w e b 技術(shù)的日新月異促進(jìn)了電子商務(wù)的快速發(fā)展 電 子商務(wù)的日益繁榮改變了傳統(tǒng)的貿(mào)易行為 它的逐步建立和完善使傳統(tǒng)的商務(wù)運(yùn)作擺脫 了已有規(guī)則的束縛 對(duì)相關(guān)的商業(yè)形態(tài) 交易形式 流通方式以及營(yíng)銷方式等都產(chǎn)生的 巨大的影響 在這一潮流趨勢(shì)下 企業(yè)和用戶都面臨了新的形勢(shì) 對(duì)企業(yè)而言 電子商務(wù)為企業(yè) 發(fā)展提供了新的商業(yè)入口 同時(shí)也提供了大量的產(chǎn)品信息 創(chuàng)造了更多的商業(yè)機(jī)會(huì) 全 球信息化使企業(yè)原本擁有的傳統(tǒng)的地域性優(yōu)勢(shì)和由于信息不對(duì)稱帶來(lái)的信息優(yōu)勢(shì)在很 大程度上被削弱 同時(shí)又使企業(yè)能夠獲得更廣闊的原料來(lái)源和市場(chǎng)選擇 網(wǎng)絡(luò)也為企業(yè) 提供了廉價(jià) 方便快捷 手段多樣的市場(chǎng)調(diào)研環(huán)境和營(yíng)銷手段 可以更有效地與用戶接 觸交流 對(duì)用戶而言 電子商務(wù)為他們提供了前所未有的產(chǎn)品選擇空間和購(gòu)物便利 在 這個(gè)能輕松得到各種資訊的信息海洋里 用戶卻從一開(kāi)始的驚喜 變得有些無(wú)所適從 如何在茫茫的信息海洋中找到自己要的東西 已經(jīng)成為令企業(yè)和個(gè)人用戶頭疼的問(wèn)題 雖然搜索引擎 信息檢索等能為用戶提供一定的幫助 但是它為每個(gè)用戶提供的服務(wù)都 是一樣的 而且反饋的信息量也比較大 l 不能從根本上幫助用戶解決這個(gè)問(wèn)題 產(chǎn)品 種類的極大豐富使得用戶的購(gòu)買目的從單純的滿足對(duì)物質(zhì)的需要更多地轉(zhuǎn)變?yōu)轶w現(xiàn)個(gè) 性特征和滿足個(gè)性化需求 因此 為滿足用戶和企業(yè)共同的迫切需要 重視用戶的個(gè)體需求 致力于滿足不同 用戶的不同偏好的電子商務(wù)個(gè)性化推薦系統(tǒng) p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mf o r e c o m m e r c e 應(yīng)運(yùn)而生 目前 幾乎所有大型的電子商務(wù)系統(tǒng) 如a m a z o n e b a y 阿 里巴巴等 都不同程度的使用了各種形式的推薦系統(tǒng) 為了保證推薦系統(tǒng)實(shí)時(shí)性條件下產(chǎn)生相對(duì)精確的推薦 研究者提出了多種不同的推 薦算法 如協(xié)同過(guò)濾技術(shù) 聚類技術(shù) 關(guān)聯(lián)規(guī)則技術(shù) h o r t i n g 圖技術(shù)等 2 j 其中協(xié)同過(guò) 濾技術(shù) 構(gòu)成了現(xiàn)有電子商務(wù)個(gè)性化推薦系統(tǒng)的基礎(chǔ) 協(xié)同過(guò)濾的出發(fā)點(diǎn)是 興趣相近 的用戶可能會(huì)對(duì)同樣的東西感興趣 所以只要維護(hù)關(guān)于用戶喜好的數(shù)據(jù) 從中分析得出 具有相似口味的用戶 然后就可以根據(jù)相似客戶的意見(jiàn)來(lái)向其進(jìn)行推薦 另一種可能的 出發(fā)點(diǎn)是 用戶可能較偏愛(ài)與其已購(gòu)買的東西相類似的商品 可以根據(jù)用戶對(duì)各種東西 的評(píng)價(jià)來(lái)判斷商品之間的相似程度 然后推薦與用戶興趣最接近的那些商品 前一種思路 以客戶與客戶之間的關(guān)系為中心 而后一種思路則以項(xiàng)目與項(xiàng)目之間的關(guān)系為著眼點(diǎn) 協(xié)同過(guò)濾在國(guó)內(nèi)外尤其是國(guó)外各個(gè)大型電子商務(wù)網(wǎng)站的推薦系統(tǒng)中都得到了不同 一 一 東北大學(xué)碩士學(xué)位論文第一章緒論 程度的應(yīng)用 像g r o u p l e n s 過(guò)濾網(wǎng)上新聞的系統(tǒng) r i n g o 推薦音樂(lè)的系統(tǒng) v i d e o r e c o m m e n d e r 和m o v i e l e n s 推薦電影的系統(tǒng) j c s t c 推薦笑話的系統(tǒng)等 其后 該 技術(shù)的商業(yè)應(yīng)用也不斷的擴(kuò)大 如a m a z o n c o r n c d n o w c o m 等 都使用了協(xié)同過(guò)濾技 術(shù)向顧客推薦產(chǎn)品 因而協(xié)同過(guò)濾推薦技術(shù)是個(gè)性化推薦領(lǐng)域重點(diǎn)研究的課題 1 2 本文主要研究?jī)?nèi)容 本文通過(guò)對(duì)電子商務(wù)推薦系統(tǒng)中的協(xié)同過(guò)濾推薦技術(shù)以及其存在的問(wèn)題等的研究 分析電子商務(wù)推薦中的實(shí)際問(wèn)題與需求 針對(duì)協(xié)同過(guò)濾推薦算法的一些缺陷 并結(jié)合當(dāng) 前個(gè)性化服務(wù)推薦技術(shù)的前沿 主要進(jìn)行以下工作 在傳統(tǒng)協(xié)同過(guò)濾基于用戶評(píng)分矩陣的計(jì)算的基礎(chǔ)上 考慮到用戶評(píng)分?jǐn)?shù)據(jù)稀疏性和 項(xiàng)目分類信息對(duì)項(xiàng)目以及對(duì)用戶相似性的影響 引入項(xiàng)目類型信息參與傳統(tǒng)協(xié)同過(guò)濾中 相似度的計(jì)算 本文采用線性結(jié)合方式將通過(guò)用戶評(píng)分矩陣計(jì)算的傳統(tǒng)相似度和通過(guò)項(xiàng) 目類型信息計(jì)算的相似度結(jié)合一并作為事物的相似度 本文分別就此想法在基于項(xiàng)目協(xié) 同過(guò)濾和基于用戶協(xié)同過(guò)濾中的具體的實(shí)現(xiàn)進(jìn)行了說(shuō)明 并進(jìn)行了相應(yīng)的實(shí)驗(yàn) 通過(guò)實(shí) 驗(yàn)驗(yàn)證采用本文提出的方法計(jì)算相似性 它在基于項(xiàng)目和基于用戶的協(xié)同過(guò)濾算法中的 應(yīng)用對(duì)推薦的質(zhì)量都有不同程度的改善和提高 本文還就傳統(tǒng)的協(xié)同過(guò)濾推薦算法無(wú)法反映用戶對(duì)不同類的項(xiàng)目的偏好差異 使得 推薦時(shí)缺少個(gè)性 推薦質(zhì)量不高等問(wèn)題 利用組合推薦思想 結(jié)合基于項(xiàng)目和基于用戶 二種協(xié)同過(guò)濾推薦算法而提出了改進(jìn)的基于用戶協(xié)同過(guò)濾算法 該算法利用基于項(xiàng)目協(xié) 同過(guò)濾產(chǎn)生的待預(yù)測(cè)項(xiàng)目的最近鄰居集合對(duì)基于用戶協(xié)同過(guò)濾產(chǎn)生的目標(biāo)用戶的最近 鄰居用戶進(jìn)行再選擇 淘汰沒(méi)有對(duì)待預(yù)測(cè)項(xiàng)目的最近鄰居集合中任何項(xiàng)目評(píng)分的用戶 找到在每一類項(xiàng)目上真正與目標(biāo)用戶相似的用戶 以期提高預(yù)測(cè)評(píng)分精度和改善推薦質(zhì) 量 通過(guò)進(jìn)行一系列實(shí)驗(yàn)驗(yàn)證算法能否達(dá)到預(yù)期效果 進(jìn)一步提高推薦系統(tǒng)的推薦質(zhì)量 和體現(xiàn)推薦的個(gè)性化 1 3 本文的組織結(jié)構(gòu) 本文各章的結(jié)構(gòu)安排如下 第一章為緒論 主要介紹本課題的研究背景 本文研究?jī)?nèi)容 第二章為相關(guān)技術(shù)理論與技術(shù) 首先簡(jiǎn)單介紹了電子商務(wù)推薦系統(tǒng)概念構(gòu)成及其作 用 并進(jìn)一步介紹了目前電子商務(wù)推薦系統(tǒng)中的主要的協(xié)同過(guò)濾技術(shù) 接著著重介紹協(xié) 同過(guò)濾的基本思想 實(shí)現(xiàn)過(guò)程 現(xiàn)有的協(xié)同過(guò)濾推薦系統(tǒng)和分類 認(rèn)識(shí)和了解協(xié)同過(guò)濾 技術(shù) 接著重點(diǎn)介紹基于協(xié)同過(guò)濾的推薦系統(tǒng)面臨的挑戰(zhàn) 研究和分析協(xié)同過(guò)濾算法存 在的問(wèn)題及目前比較典型的解決問(wèn)題的方法 并對(duì)它們優(yōu)缺點(diǎn)進(jìn)行了分析 第三章為基于項(xiàng)目的協(xié)同過(guò)濾的類型優(yōu)化算法 這一章通過(guò)分析項(xiàng)目類型信息對(duì)項(xiàng) 一2 一 東北大學(xué)碩士學(xué)位論文 第一章緒論 目相似性度量的重要影響 提出在傳統(tǒng)基于項(xiàng)目協(xié)同過(guò)濾推薦算法只利用用戶評(píng)分?jǐn)?shù)據(jù) 的基礎(chǔ)上引入項(xiàng)目類型信息 利用該信息參與計(jì)算項(xiàng)目間的相似度的想法 并通過(guò)實(shí)驗(yàn) 測(cè)試其是否能改善推薦質(zhì)量 第四章為基于用戶協(xié)同過(guò)濾的類型優(yōu)化算法 通過(guò)分析傳統(tǒng)基于用戶協(xié)同過(guò)濾推薦 算法中的不足 說(shuō)明項(xiàng)目類型對(duì)探究用戶深層興趣以及用戶相似性度量中的作用 提出 在基于用戶協(xié)同過(guò)濾推薦算法計(jì)算用戶相似步驟中性引入項(xiàng)目類型信息 并通過(guò)實(shí)驗(yàn)驗(yàn) 證算法的有效性 第五章為改進(jìn)的基于用戶的協(xié)同過(guò)濾算法 該章首先介紹組合推薦思想和相應(yīng)研究 成果 接著分析了傳統(tǒng)協(xié)同過(guò)濾算法存在的不足以及相關(guān)工作 提出改進(jìn)的基于用戶協(xié) 同過(guò)濾算法 該算法通過(guò)結(jié)合基于項(xiàng)目協(xié)同過(guò)濾算法 對(duì)傳統(tǒng)的基于用戶協(xié)同過(guò)濾算法 產(chǎn)生用戶的最近鄰居進(jìn)行再選擇 以期提高預(yù)測(cè)水平 并通過(guò)實(shí)驗(yàn)驗(yàn)證 它能提高推薦 質(zhì)量 使推薦更具個(gè)性化 最后是結(jié)論與展望 總結(jié)全文內(nèi)容并提出進(jìn)一步研究的方向 一3 一 一4 一 東北大學(xué)碩士學(xué)位論文 第二章相關(guān)理論與技術(shù) 第二章相關(guān)理論與技術(shù) 2 1 電子商務(wù)推薦系統(tǒng)簡(jiǎn)介 隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的高速發(fā)展 互聯(lián)網(wǎng)已成為一個(gè)分布廣泛的全球性信 息服務(wù)中心和人們獲取信息的一個(gè)重要途徑 然而隨著網(wǎng)絡(luò)信息的快速增長(zhǎng) 人們卻常 常面臨 信息爆炸 的尷尬處境 不得不花費(fèi)大量的時(shí)間去搜索 瀏覽自己需要的信息 在電子商務(wù)的虛擬環(huán)境下 商家所提供的商品種類和數(shù)量非常多 用戶不可能通過(guò)一個(gè) 小小的計(jì)算機(jī)屏幕一眼就知道所有的商品 用戶也不可能象在物理環(huán)境下那樣檢查挑選 商品 因此 需要商家提供一些智能化的選購(gòu)指導(dǎo) 根據(jù)用戶的興趣愛(ài)好推薦用戶可能 感興趣或是滿意的商品 使用戶能夠很方便地得到自己所需要得到的商品 而且 從現(xiàn) 實(shí)經(jīng)驗(yàn)來(lái)看 用戶的需求經(jīng)常是不明確的 模糊的 可能會(huì)對(duì)某類商品有著潛在的需求 但并不清楚什么商品能滿足自己的模糊需求 這時(shí) 如果商家能夠把滿足用戶模糊需求 的商品推薦給用戶 就可以把用戶的潛在需求轉(zhuǎn)化為現(xiàn)實(shí)的需求 從而提高產(chǎn)品的銷售 量 在這種背人們對(duì)信息個(gè)性化的要求越來(lái)越高 為了滿足用戶個(gè)性化的需求 電子商 務(wù)推薦系統(tǒng)應(yīng)運(yùn)而生 電子商務(wù)推薦系統(tǒng)一正式的定義是r e s n i e k v a r i a n 在1 9 9 7 年給出的 它在電 子商務(wù)系統(tǒng)中向客戶提供商品信息和建議 幫助客戶決定購(gòu)買何種商品 模擬銷售人員 向客戶推薦商品完成購(gòu)買的過(guò)程 現(xiàn)在這個(gè)定義己被廣泛引用 推薦系統(tǒng)推薦何種商 品是在電子商務(wù)網(wǎng)站整體商品的購(gòu)買情況 客戶的人數(shù)統(tǒng)計(jì)或者對(duì)客戶購(gòu)買的歷史記錄 上進(jìn)行分析產(chǎn)生的 廣義上講 這些因素的考慮使電子商務(wù)具有了個(gè)性化的色彩 而且 對(duì)于不同的客戶 具有推薦系統(tǒng)的電子商務(wù)網(wǎng)站表現(xiàn)出了一定的自適應(yīng)性 2 1 1 電子商務(wù)推薦系統(tǒng)的構(gòu)成 一般 電子商務(wù)推薦系統(tǒng)都可分為三個(gè)模塊輸入模塊 推薦算法模塊 輸出模塊 1 輸入模塊主要負(fù)責(zé)推薦系統(tǒng)數(shù)據(jù)源的收集和更新 數(shù)據(jù)主要來(lái)源于用戶信息 用戶可以是客戶個(gè)人和社團(tuán)群體兩部分 客戶個(gè)人輸入主要指推薦系統(tǒng)的用戶為了獲得 推薦而對(duì)一些項(xiàng)目進(jìn)行評(píng)價(jià) 以表達(dá)自己的偏好 社團(tuán)群體輸入主要指集體形式的評(píng)價(jià) 數(shù)據(jù) 電子商務(wù)推薦系統(tǒng)的輸入形式多種多樣 主要包括以下幾種方式 1 用戶注冊(cè)信息輸入 用戶在電子商務(wù)站點(diǎn)注冊(cè)的時(shí)候 需要輸入一些個(gè)人信息 這些信息可以是用戶的年齡 性別 職業(yè)基本信息等 也可以是用戶明確表達(dá)的喜好興 趣 這類信息是電子商務(wù)推薦系統(tǒng)收集到的關(guān)于特定用戶的最初的信息 一5 一 東北大學(xué)碩士學(xué)位論文第二章相關(guān)理論與技術(shù) 2 用戶隱式瀏覽輸入 將用戶訪問(wèn)電子商務(wù)站點(diǎn)的瀏覽行為作為推薦系統(tǒng)的輸入 這些由用戶瀏覽行為提取出的信息并不需要用戶刻意地對(duì)推薦系統(tǒng)進(jìn)行配合 是在用戶 不察覺(jué)的情況下被存儲(chǔ)的 用戶當(dāng)前正在瀏覽的產(chǎn)品 用戶放入購(gòu)物籃中的產(chǎn)品 用戶 的瀏覽路徑等都可以作為隱式瀏覽輸入信息 3 用戶顯式瀏覽輸入 這也是將用戶的瀏覽行為作為電子商務(wù)推薦系統(tǒng)的輸入 但與隱式瀏覽輸入不同的是 用戶的顯式瀏覽輸入是有目的地向電子商務(wù)推薦系統(tǒng)提供 自己的興趣愛(ài)好 例如 電子商務(wù)系統(tǒng)提供一系列熱門產(chǎn)品供用戶選擇 用戶只選擇瀏 覽自己感興趣的產(chǎn)品列表 電子商務(wù)系統(tǒng)根據(jù)用戶的瀏覽行為向其提供個(gè)性化的推薦服 務(wù) 4 關(guān)鍵字 產(chǎn)品屬性輸入 用戶在搜索引擎中輸入關(guān)鍵字作為推薦系統(tǒng)的輸入 或 將用戶當(dāng)前正在瀏覽的產(chǎn)品類別作為推薦系統(tǒng)的輸入 這種類型的輸入不同于用戶隨意 的瀏覽行為 用戶的輸入目的就是在電子商務(wù)系統(tǒng)中搜索自己需要的產(chǎn)品 5 用戶評(píng)分輸入 將用戶對(duì)產(chǎn)品的數(shù)值評(píng)分?jǐn)?shù)據(jù)作為推薦系統(tǒng)的輸入 電子商務(wù) 推薦系統(tǒng)列出一系列產(chǎn)品讓用戶評(píng)分 用戶的評(píng)分可以是一個(gè)數(shù)值 數(shù)值的大小表示用 戶對(duì)該產(chǎn)品的喜好程度 也可以是一個(gè)布爾值 0 代表不喜歡 1 代表喜歡 6 用戶文本評(píng)價(jià)輸入 用戶對(duì)已經(jīng)購(gòu)買的產(chǎn)品或自己熟悉的產(chǎn)品以文本的形式進(jìn) 行個(gè)人評(píng)價(jià) 推薦系統(tǒng)本身并不能判斷這些評(píng)價(jià)的好壞 但用戶在瀏覽該產(chǎn)品時(shí) 可以 通過(guò)其他用戶對(duì)產(chǎn)品的文本評(píng)價(jià)信息來(lái)評(píng)判產(chǎn)品的好壞 7 編輯推薦輸入 將領(lǐng)域?qū)<覍?duì)特定產(chǎn)品的評(píng)價(jià)作為推薦系統(tǒng)的輸入 領(lǐng)域?qū)<?對(duì)產(chǎn)品的性能特點(diǎn)進(jìn)行全面詳細(xì)的介紹 用戶通過(guò)專家的專業(yè)介紹 可以對(duì)自己并不熟 悉的產(chǎn)品加深認(rèn)識(shí) 從而決定是否購(gòu)買該產(chǎn)品 8 用戶購(gòu)買歷史輸入 推薦系統(tǒng)將用戶的購(gòu)買歷史作為隱式評(píng)分?jǐn)?shù)據(jù) 一旦用戶 購(gòu)買了特定產(chǎn)品 則認(rèn)為用戶喜歡該產(chǎn)品 推薦系統(tǒng)根據(jù)用戶的購(gòu)買歷史記錄產(chǎn)生相應(yīng) 推薦 但是用戶購(gòu)買了某件產(chǎn)品并不代表用戶真正喜歡該產(chǎn)品 所以在精確的推薦系統(tǒng) 中 用戶可以對(duì)購(gòu)買的產(chǎn)品進(jìn)行重新評(píng)分 從而使推薦系統(tǒng)產(chǎn)生更精確的推薦 2 輸出模塊主要負(fù)責(zé)把推薦系統(tǒng)產(chǎn)生的推薦集輸出給用戶 電子商務(wù)推薦系統(tǒng)的 輸出主要包括以下幾種方式 1 相關(guān)產(chǎn)品輸出 推薦系統(tǒng)根據(jù)用戶表現(xiàn)出來(lái)的行為特征或電子商務(wù)系統(tǒng)的銷售 情況向用戶產(chǎn)生產(chǎn)品推薦 這種方式是電子商務(wù)推薦系統(tǒng)中最為普遍的一種輸出 相關(guān) 產(chǎn)品輸出可以基于簡(jiǎn)單的銷售排行向用戶推薦熱門產(chǎn)品 也可以基于對(duì)用戶行為特征的 深入分析 發(fā)現(xiàn)用戶的購(gòu)買模式 從而產(chǎn)生個(gè)性化的推薦 2 個(gè)體文本評(píng)價(jià)輸出 電子商務(wù)推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對(duì)產(chǎn)品的文本 評(píng)價(jià)信息 個(gè)體文本評(píng)價(jià)一般是非個(gè)性化的 對(duì)單個(gè)產(chǎn)品而言 所有用戶得到的個(gè)體文 一6 一 東北大學(xué)碩士學(xué)位論文第二章相關(guān)理論與技術(shù) 本評(píng)價(jià)都是相同的 3 個(gè)體評(píng)分輸出 電子商務(wù)推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對(duì)產(chǎn)品的數(shù)值評(píng)分 信息 個(gè)體評(píng)分輸出沒(méi)有大量的文本描述信息 因而更加簡(jiǎn)潔明了 個(gè)體評(píng)分輸出比較 適合于個(gè)體數(shù)值評(píng)分?jǐn)?shù)據(jù)比較少的場(chǎng)合 4 平均數(shù)值評(píng)分輸出 電子商務(wù)推薦系統(tǒng)向用戶提供其他用戶對(duì)產(chǎn)品的數(shù)值評(píng)分 的平均值 這種輸出形式具有簡(jiǎn)潔明了的優(yōu)點(diǎn) 用戶可以立即獲得對(duì)該產(chǎn)品的總體評(píng)價(jià) 5 電子郵件輸出 電子商務(wù)推薦系統(tǒng)通過(guò)電子郵件的形式向用戶提供產(chǎn)品的最新 信息 這種輸出形式可以吸引用戶再次訪問(wèn)電子商務(wù)站點(diǎn) 從而達(dá)到吸引用戶關(guān)注度 防止用戶流失的目的 3 推薦方法模塊是推薦系統(tǒng)的核心部分 負(fù)責(zé)由輸入如何得到輸出 決定著推薦 系統(tǒng)的性能優(yōu)劣 推薦方法模塊以推薦技術(shù)和算法為技術(shù)支撐 具體的推薦技術(shù)將在2 2 節(jié)詳細(xì)介紹 2 1 2 電子商務(wù)推薦系統(tǒng)的作用 電子商務(wù)推薦系統(tǒng) 3 就是利用統(tǒng)計(jì)和知識(shí)發(fā)現(xiàn)技術(shù)來(lái)解決與目標(biāo)用戶交互時(shí)提供商 品推薦問(wèn)題的系統(tǒng) 它在電子商務(wù)系統(tǒng)中模擬銷售人員向客戶提供商品信息和建議 幫 助用戶決定購(gòu)買何種商品 向用戶推薦商品 完成購(gòu)買的過(guò)程 推薦系統(tǒng)推薦何種商品 是根據(jù)電子商務(wù)網(wǎng)站上整體商品的購(gòu)買情況 所有用戶的購(gòu)買歷史記錄等進(jìn)行分析產(chǎn)生 的 它根據(jù)分析得到的各個(gè)用戶的興趣愛(ài)好 分別推薦用戶愛(ài)好的商品 因此也稱為個(gè) 性化推薦系統(tǒng) p e r s o n a l i z er e c o m m e n d a t i o ns y s t e m 電子商務(wù)推薦系統(tǒng)的作用主要表現(xiàn)在以下幾個(gè)方面 1 將更多的電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)樯唐返馁?gòu)買者 電子商務(wù)網(wǎng)站的訪問(wèn)者 往往沒(méi)有購(gòu)買欲望 通過(guò)預(yù)測(cè)用戶的購(gòu)買行為 主動(dòng)為用戶提供他們可能感興趣的商品 信息 從而促成交易 2 提高了用戶對(duì)電子商務(wù)網(wǎng)站的忠誠(chéng)度 與傳統(tǒng)的商務(wù)模式相比 電子商務(wù)系統(tǒng) 使得用戶擁有越來(lái)越多的選擇 用戶更換商家極其方便 只需要點(diǎn)擊一兩次鼠標(biāo)就可以 在不同的電子商務(wù)系統(tǒng)之間跳轉(zhuǎn) 推薦系統(tǒng)分析用戶的購(gòu)買習(xí)慣 根據(jù)用戶需求向用戶 提供有價(jià)值的商品推薦 如果推薦系統(tǒng)的推薦質(zhì)量很高 那么用戶會(huì)對(duì)該推薦系統(tǒng)產(chǎn)生 依賴 因此 電子商務(wù)推薦系統(tǒng)不僅能夠?yàn)橛脩籼峁﹤€(gè)性化的推薦服務(wù) 而且能與用戶 建立長(zhǎng)期穩(wěn)定的關(guān)系 從而有效保留客戶 提高客戶的忠誠(chéng)度 防止客戶流失 3 提高電子商務(wù)網(wǎng)站的交叉銷售能力 電子商務(wù)推薦系統(tǒng)在用戶購(gòu)買過(guò)程中向用 戶提供其他有價(jià)值的商品推薦 用戶能夠從系統(tǒng)提供的推薦列表中購(gòu)買自己確實(shí)需要但 在購(gòu)買過(guò)程中沒(méi)有想到的商品 從而有效提高電子商務(wù)系統(tǒng)的交叉銷售 為電子商務(wù)企 一7 一 東北大學(xué)碩士學(xué)位論文第二章相關(guān)理論與技術(shù) 業(yè)贏得了更多的發(fā)展機(jī)會(huì) 例如用戶購(gòu)買了筆記本 網(wǎng)站為用戶推薦筆記本鎖 目前 推薦系統(tǒng)已廣泛運(yùn)用到各行業(yè)中 推薦項(xiàng)目包括書籍 音像 網(wǎng)頁(yè) 文章 新聞等 在日趨激烈的競(jìng)爭(zhēng)環(huán)境下 個(gè)性化推薦系統(tǒng)能有效的保留客戶 提高電子商務(wù) 系統(tǒng)的服務(wù)能力 成功的推薦系統(tǒng)會(huì)帶來(lái)巨大的效益 目前 幾乎所有大型的電子商務(wù) 系統(tǒng)都不同程度的使用了各種形式的推薦系統(tǒng) 如互聯(lián)網(wǎng)上最大的書店一a m a z o n t o m 互聯(lián)網(wǎng)上最大的商店一c d n o w c o m 互聯(lián)網(wǎng)上最大訪問(wèn)量之一的電影網(wǎng)站一 m o v i e f i n d e r c o m 等 2 1 3 電子商務(wù)推薦系統(tǒng)與個(gè)性化服務(wù) 所謂個(gè)性化服務(wù) 就是根據(jù)每個(gè)用戶的不同喜好 為他們提供不同的服務(wù) 例如根 據(jù)用戶喜愛(ài)的頁(yè)面 確定當(dāng)前頁(yè)面的下一級(jí)連接 網(wǎng)站在為用戶提供個(gè)性化服務(wù)的同時(shí) 根據(jù)對(duì)用戶興趣的累積分析不斷調(diào)整自己來(lái)適應(yīng)用戶興趣的變化 使得每個(gè)用戶都有是 該站點(diǎn)唯一用戶的感覺(jué) 4 5 1 電子商務(wù)推薦系統(tǒng)使得電子商務(wù)系統(tǒng)主動(dòng)適應(yīng)每一個(gè)用戶的 特定需求 為每一個(gè)用戶創(chuàng)建一個(gè)適應(yīng)該用戶的電子商店 從而為每一個(gè)用戶提供完全 不同的個(gè)性化購(gòu)物體驗(yàn) 因此屬于w e b 站點(diǎn)個(gè)性化服務(wù)的范疇 不同電子商務(wù)推薦系統(tǒng)的個(gè)性化程度各不相同 根據(jù)電子商務(wù)推薦系統(tǒng)的個(gè)性化程 度 可以將電子商務(wù)推薦系統(tǒng)分為如下三類 6 l 1 非個(gè)性化推薦系統(tǒng) 對(duì)每個(gè)用戶產(chǎn)生的推薦都是相同的 這種推薦系統(tǒng)可以基于站點(diǎn)工作人員的手工推 薦 或者基于統(tǒng)計(jì)分析技術(shù)等 我們經(jīng)常見(jiàn)到的一些站點(diǎn)的銷售排行 站長(zhǎng)推薦 客戶 評(píng)論等 都屬于非個(gè)性化電子商務(wù)推薦系統(tǒng) 2 半個(gè)性化推薦系統(tǒng) 根據(jù)用戶當(dāng)前的行為產(chǎn)生相應(yīng)的推薦 這種推薦系統(tǒng)根據(jù)用戶當(dāng)前的瀏覽行為或用 戶當(dāng)前的購(gòu)物籃信息產(chǎn)生推薦結(jié)果 一般使用關(guān)聯(lián)規(guī)則等技術(shù) 不同用戶得到的推薦結(jié) 果各不相同 半個(gè)性化推薦系統(tǒng)的個(gè)性化程度比非個(gè)性化推薦系統(tǒng)要高 3 完全個(gè)性化推薦系統(tǒng) 推薦系統(tǒng)保存用戶的各種歷史信息 如歷史瀏覽信息 歷史數(shù)值評(píng)分信息 用戶注 冊(cè)信息等 根據(jù)這些歷史信息 結(jié)合用戶當(dāng)前的行為 以及其他用戶的歷史信息 為用 戶產(chǎn)生完全個(gè)性化的推薦服務(wù) 這種推薦系統(tǒng)一般只能對(duì)注冊(cè)用戶提供服務(wù) 個(gè)性化程 度最高 2 2 電子商務(wù)推薦系統(tǒng)中推薦技術(shù) 為了使系統(tǒng)產(chǎn)生精確的推薦 保證推薦系統(tǒng)是實(shí)時(shí)性要求 電子商務(wù)推薦系統(tǒng)中目 前已使用的技術(shù)主要有 7 協(xié)同過(guò)濾 c o l l a b o r a t i v ef i l t e r i n g 關(guān)聯(lián)規(guī)貝l j a s s o c i a t i o n 一8 一 東北大學(xué)碩士學(xué)位論文第二章相關(guān)理論與技術(shù) r u l e s 3 1 聚類 c l u s t e r i n g e s 9 1 貝葉斯網(wǎng)絡(luò) b a y e s i a i ln e t w o r k h o r t i n g h o r t i n gg r a p h 1 0 等技術(shù) 2 2 1 協(xié)同過(guò)濾 協(xié)同過(guò)濾推薦 c o l l a b o r a t i v ef i l t e r i n gr e c o m m e n d a t i o n 是目前研究最多的個(gè)性化推薦 技術(shù) 一般采用最近鄰技術(shù) 早期的協(xié)同過(guò)濾利用用戶的歷史信息計(jì)算他們之間的距離 再利用目標(biāo)用戶的最近鄰居對(duì)商品評(píng)價(jià)的加權(quán)平均值來(lái)預(yù)測(cè)他對(duì)目標(biāo)項(xiàng)的喜好程度 系 統(tǒng)根據(jù)這一喜好程度來(lái)對(duì)目標(biāo)用戶進(jìn)行推薦 而近些年 研究者 l i j 也有計(jì)算等項(xiàng)目間相 似性 通過(guò)用戶對(duì)相關(guān)項(xiàng)目的評(píng)分預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分 協(xié)同過(guò)濾最大優(yōu)點(diǎn)是 對(duì)推薦對(duì)象沒(méi)有特殊的要求 能處理非結(jié)構(gòu)化的復(fù)雜對(duì)象 如音樂(lè) 電影等 目前有許多網(wǎng)站采用了該技術(shù)的推薦系統(tǒng)如表2 1 此外由微軟研究院開(kāi)發(fā)的協(xié)同 過(guò)濾工具己被集成在微軟的c o m m e r c es e r v e r 產(chǎn)品中 并被許多站點(diǎn)使用 表2 1 采用協(xié)同過(guò)濾技術(shù)的網(wǎng)站 t a b l e2 1s i t e su s i n gc o l l a b o r a t i v ef i l t e r i n g 有關(guān)協(xié)同過(guò)濾的進(jìn)一步介紹 見(jiàn)2 3 節(jié) 2 2 2 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則技術(shù)在零售業(yè)得到了廣泛的應(yīng)用 關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售 過(guò)程中的相關(guān)性 關(guān)聯(lián)規(guī)則挖掘 就是發(fā)現(xiàn)數(shù)據(jù)集中項(xiàng)集之間有趣的關(guān)聯(lián)或者相互聯(lián)系 它是數(shù)據(jù)挖掘領(lǐng)域的 個(gè)重要分支 關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過(guò)程中的相 關(guān)性 基于關(guān)聯(lián)規(guī)則的推薦 a s s o c i a t i o nr u l e b a s e dr e c o m m e n d a t i o n 1 2 1 是以關(guān)聯(lián)規(guī)則 一9 一 東北大學(xué)碩士學(xué)位論文 第二章相關(guān)理論與技術(shù) 為基礎(chǔ) 把已購(gòu)商品作為規(guī)則頭 規(guī)則體為推薦對(duì)象 根據(jù)關(guān)聯(lián)規(guī)則尋找相關(guān)項(xiàng)目 并 對(duì)項(xiàng)目排序產(chǎn)生推薦 l 引 所謂關(guān)聯(lián)規(guī)則 即在一個(gè)交易數(shù)據(jù)庫(kù)中統(tǒng)計(jì)購(gòu)買了商品集x 的交易中有多大比例的 交易同時(shí)購(gòu)買了商品集y 得到的關(guān)聯(lián)規(guī)則表示為x y s c s 表示關(guān)聯(lián)規(guī)則的支 持度 c 表示關(guān)聯(lián)規(guī)則的置信度 其直觀的意義就是用戶在購(gòu)買某些商品的時(shí)候有多大 傾向去購(gòu)買另外一些商品 比如購(gòu)買牛奶的同時(shí)很多人會(huì)同時(shí)購(gòu)買面包 即把已購(gòu)商品 作為規(guī)則頭 推薦對(duì)象為規(guī)則體 簡(jiǎn)單的關(guān)聯(lián)規(guī)則推薦算法過(guò)程如下 1 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法 找出電子商務(wù)系統(tǒng)中滿足最小支持度和最小置信度的 關(guān)聯(lián)規(guī)則r 關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法很多 如a p f i o f i a p r i o r i t i d d h p f p t r e e 等 2 在r 中找出被目標(biāo)用戶支持的關(guān)聯(lián)規(guī)則r 1 即規(guī)則左邊的項(xiàng)目集是被目標(biāo)用戶 購(gòu)買過(guò)的項(xiàng)目集 3 找出被關(guān)聯(lián)規(guī)則r 1 所預(yù)測(cè)且沒(méi)有被目標(biāo)用戶購(gòu)買的所有商品p 4 根據(jù)p 中商品在關(guān)聯(lián)規(guī)則r 1 中的置信度排序 挑選前n 個(gè)商品作為算法輸出 如果某商品被多個(gè)規(guī)則預(yù)測(cè) 則取置信度最大者作為排序依據(jù) 算法的第一步關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)最為關(guān)鍵且最耗時(shí) 是算法的瓶頸 但可以離線進(jìn)行 因此可保證有效地推薦系統(tǒng)的實(shí)時(shí)性要求 其次 商品名稱的同義性問(wèn)題也是關(guān)聯(lián)規(guī)則 的一個(gè)難點(diǎn) 2 2 3 聚類 聚類就是將數(shù)據(jù)對(duì)象歸類 分為多個(gè)簇 這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似 而與其他簇中的對(duì)象相異 1 4 聚類方法常用于協(xié)同過(guò)濾系統(tǒng)中 聚類法將有相似愛(ài)好的 用戶聚成組 完成聚類分析后 對(duì)當(dāng)前用戶的推薦可以通過(guò)和當(dāng)前用戶同類的其他用戶 的選擇或觀點(diǎn)進(jìn)行平均化處理來(lái)得到 聚類方法推薦的結(jié)果通常比其它方法個(gè)性化要差 些 在一些情況下 聚類結(jié)果比最近鄰算法的精確度要低 但是 聚類一旦完成 最終 效果可能會(huì)很好 因?yàn)檫@時(shí)要分析的組數(shù)要小很多 聚類方法可以用在最近鄰法中作為 第一步 來(lái)縮小候選集 雖然將總體分為多個(gè)類可能會(huì)影響精確度或者推薦結(jié)果 但 是 聚類法是值得在精確度與效率之間進(jìn)行權(quán)衡的 由于聚類過(guò)程可以離線進(jìn)行 所以 在線的推薦算法產(chǎn)生推薦的速度比較快 l i 等人 采用基于項(xiàng)目的最近鄰方法 先用 k m s a l l s 算法將項(xiàng)目進(jìn)行聚類 選擇活動(dòng)用戶已打分并且與目標(biāo)項(xiàng)目在同一聚類中的項(xiàng) 目 即將鄰居限制在與目標(biāo)項(xiàng)目在同一聚類的項(xiàng)目中 分別計(jì)算這些項(xiàng)目與目標(biāo)項(xiàng)目之 間的相似度 然后根據(jù)最近鄰法求出活動(dòng)用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分預(yù)測(cè)值 r e c 船e 1 6 1 7 與這種方法類似 只是它是基于用戶的方法 先將用戶進(jìn)行聚類 選擇與活動(dòng)用戶在同 一10 東北大學(xué)碩士學(xué)位論文 第二章相關(guān)理論與技術(shù) 一聚類的那些用戶作為潛在的鄰居 然后根據(jù)這些用戶與活動(dòng)用戶之間的相似度選擇鄰 居 2 2 4 貝葉斯 b e y e s i a n l 網(wǎng)絡(luò) 貝葉斯網(wǎng)絡(luò) b a y e s i a nn e t w o r k s 是一種對(duì)不確定知識(shí)進(jìn)行表達(dá)和推理的拓?fù)浣Y(jié)構(gòu) 1 8 1 是人工智能 概率理論 圖論 決策理論相結(jié)合的產(chǎn)物 它借助于圖的直觀表示和 變換 清楚的表示變量之間的依存關(guān)系 在貝葉斯網(wǎng)絡(luò)中 每一個(gè)節(jié)點(diǎn)表示一個(gè)變量 即一個(gè)事件 各變量之間的弧表示事件發(fā)生的直接因果關(guān)系 由于貝葉斯網(wǎng)絡(luò)模仿了人 的推理機(jī)制 所以它能很好的表達(dá)知識(shí)的不確定性 并且能夠?qū)崿F(xiàn)快速推理 因而在人 工智能 目標(biāo)識(shí)別 決策評(píng)估和信息融合等領(lǐng)域中得到廣泛的應(yīng)用 l 引 推薦系統(tǒng)中應(yīng)用的貝葉斯網(wǎng)絡(luò)技術(shù)是利用用戶歷史信息創(chuàng)建相應(yīng)的模型 其中模型 用決策樹(shù)表示 節(jié)點(diǎn)和邊表示用戶信息 模型的建立可以離線進(jìn)行 因?yàn)榻r(shí)間比較 長(zhǎng) 一般需要數(shù)小時(shí)或數(shù)天 而由此得到的模型可以非常小 對(duì)模型的使用非???但 隨著用戶的不斷增多以及用戶興趣愛(ài)好的變化 即數(shù)據(jù)集的變化 貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)過(guò) 程也要重新進(jìn)行 因此這種方法適合用戶的興趣愛(ài)好變化比較慢的場(chǎng)合 2 2 5h o r t i n g 圖 電子商務(wù)推薦系統(tǒng)中的h o n i n g 圖技術(shù)是一種基于圖的方法 l o 節(jié)點(diǎn)代表用戶 邊 代表兩個(gè)用戶之間的相似度 在圖中尋找近鄰節(jié)點(diǎn) 然后綜合近鄰節(jié)點(diǎn)的觀點(diǎn)形成最后 的推薦 h o r t i n g 圖技術(shù)可以跳過(guò)中間節(jié)點(diǎn)尋找最近鄰居 考慮了節(jié)點(diǎn)之間的傳遞相似 關(guān)系 因此推薦精度優(yōu)于最近鄰協(xié)同過(guò)濾技術(shù) 2 3 協(xié)同過(guò)濾介紹 在電子商務(wù)個(gè)性化推薦系統(tǒng)的各種算法中 協(xié)同過(guò)濾算法是應(yīng)用最為成功的一類算 法 在國(guó)內(nèi)外尤其是國(guó)外各個(gè)大型電子商務(wù)網(wǎng)站的推薦系統(tǒng)中都得到了不同程度的應(yīng) 用 因而協(xié)同過(guò)濾推薦技術(shù)是個(gè)性化推薦領(lǐng)域重點(diǎn)研究的課題 協(xié)同過(guò)濾 其原始基本思想是基于其他類似用戶的興趣來(lái)產(chǎn)生針對(duì)目標(biāo)用戶的興趣 推薦或預(yù)測(cè) 這個(gè)基本思想和現(xiàn)在頗為流行的 口碑傳播 w o r d o f m o u t h 有點(diǎn)兒類似 隨著后來(lái)研究工作者的對(duì)協(xié)同過(guò)濾的不斷深入研究 s a r w a d l l 等人提出的基于項(xiàng)目的協(xié) 同過(guò)濾推薦算法 這一思想又得到進(jìn)一步擴(kuò)展 通過(guò)收集其他相似用戶或相似項(xiàng)目的信 息來(lái)預(yù)測(cè)當(dāng)前用戶的興趣 2 3 1 協(xié)同過(guò)濾系統(tǒng)簡(jiǎn)單描述 協(xié)同過(guò)濾系統(tǒng)可以由輸入 協(xié)同過(guò)濾引擎以及輸出三個(gè)部分組成 2 0 1 即用戶輸入評(píng) 東北大學(xué)碩士學(xué)位論文第二章相關(guān)理論與技術(shù) 價(jià)信息 協(xié)同過(guò)濾引擎根據(jù)用戶輸入的信息產(chǎn)生預(yù)測(cè)或推薦 輸出結(jié)果這三個(gè)步驟 一 般來(lái)說(shuō) 預(yù)測(cè)引擎對(duì)用戶來(lái)說(shuō)是個(gè) 黑盒 用戶是不知道給他的推薦結(jié)果是怎樣得到 的 第一步為用戶輸入他對(duì)一些項(xiàng)目的評(píng)價(jià) 正如上一章所提到的 推薦系統(tǒng)的輸入的 用戶評(píng)價(jià)可以是顯示和隱式 但是隱式評(píng)價(jià)對(duì)數(shù)據(jù)分析難度較大 準(zhǔn)確性 有待進(jìn)一步 提高 所以協(xié)同過(guò)濾領(lǐng)域研究主要以顯示評(píng)價(jià)為主 這里我們假定某一個(gè)推薦系統(tǒng)有m 個(gè)用戶和 1 個(gè)項(xiàng)目 使用所x 刀矩陣r 來(lái)表示用戶評(píng)分信息 矩陣中的每一個(gè)評(píng)分吒 表 示用戶f 對(duì)項(xiàng)目 的評(píng)分 f 實(shí)際評(píng)分 如果用戶f 對(duì)項(xiàng)目投票 2 t o 如果用戶f 對(duì)項(xiàng)目沒(méi)有投票 2 1 對(duì)于推薦要預(yù)測(cè)的用戶本文稱作目標(biāo)用戶 在圖2 1 中的目標(biāo)用戶是f 要預(yù)測(cè)的是 其對(duì)項(xiàng)目 評(píng)分 要預(yù)測(cè)的項(xiàng)目 項(xiàng)目1 浮h ji 項(xiàng)目n 用戶l 積簸三二 目三二忿 蚤鑊 用戶m覯一 目標(biāo)用戶 輸入 評(píng)分矩陣r 預(yù)測(cè) 推薦 磁戮繳繳黝 j 預(yù)測(cè)目標(biāo)用戶i j 對(duì)項(xiàng)目j 的評(píng)分 t l t 2 t t o p n 一向目標(biāo)用戶推薦項(xiàng)目 協(xié)同過(guò)濾
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 玻璃幕墻供貨及安裝合同
- 銀行柜員個(gè)人工作總結(jié)
- 2024放射醫(yī)學(xué)知識(shí)題庫(kù)
- 糖尿病酮癥的護(hù)理查房
- 走出自卑心理健康
- 兒科支原體肺炎診療與護(hù)理
- 兒科臨床護(hù)理病例分享
- 自主游戲的培訓(xùn)
- 安全班委培訓(xùn)
- 裝修市場(chǎng)培訓(xùn)方案
- 部編人教版小學(xué)語(yǔ)文1-6年級(jí)詞語(yǔ)表
- 2025屆山東省青島市超銀中學(xué)英語(yǔ)八下期末綜合測(cè)試試題含答案
- 工地切割樁頭合同協(xié)議書
- 手術(shù)室環(huán)境衛(wèi)生管理要求
- 2025-2030中國(guó)激光噴碼機(jī)行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資前景研究報(bào)告
- 《鐵路旅客運(yùn)輸組織(活頁(yè)式)》課件 7.3 旅客傷害應(yīng)急處置
- 通信光纜割接施工方案
- 農(nóng)村生活污水治理專項(xiàng)施工方案
- 2024北京西城區(qū)四年級(jí)(下)期末英語(yǔ)試題及答案
- 菌菇供貨合同協(xié)議
- 2025屆新高考志愿填報(bào)指南課件
評(píng)論
0/150
提交評(píng)論