(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf_第1頁
(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf_第2頁
(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf_第3頁
(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf_第4頁
(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

(計算機(jī)軟件與理論專業(yè)論文)基于用戶興趣的協(xié)同過濾算法研究.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要 摘要 因特網(wǎng)的厚炸式成長和電子商務(wù)的出現(xiàn)導(dǎo)致了推薦系統(tǒng)的發(fā)展。推薦系統(tǒng)是 一種個性化信息過濾技術(shù),它被用來預(yù)測某個用戶是否喜歡某個項目( 預(yù)測問 題) ,或被用來確定某個用戶最感興趣的個項目( t o p 一推薦問題) 。近年來, 推薦系統(tǒng)被廣泛應(yīng)用于很多不同領(lǐng)域,比如向顧客推薦他很可能購買的產(chǎn)品,向 用戶推薦他喜歡的電影、電視節(jié)目或音樂,確定用戶感興趣的網(wǎng)頁,甚至向用戶 提供一種搜索信息的不同方式。 本文主要研究了個性化推薦系統(tǒng)和協(xié)同過濾推薦算法。協(xié)同過濾算法是目前 最成功的一種推薦算法,它能夠基于其他用戶的觀點幫助人們做出選擇。由于傳 統(tǒng)的協(xié)同過濾算法沒有考慮用戶興趣變化問題,當(dāng)用戶興趣發(fā)生變化時將導(dǎo)致它 的推薦質(zhì)量較差。為了解決該問題,本文提出了一種基于逐步遺忘策略的協(xié)同過 濾算法:首先,本文借鑒了心理學(xué)中的遺忘規(guī)律,分別設(shè)計了線性和非線性遺忘 函數(shù),旨在降低用戶舊興趣影響下的評分的重要性。然后,用遺忘函數(shù)賦予推薦 系統(tǒng)中每項評分一個不同的權(quán)重,利用加權(quán)后的評分確定不同用戶之間的相似 度,使得用戶之間的相似度計算更加準(zhǔn)確。最后,利用基于用戶的協(xié)同過濾算法 為目標(biāo)用戶確定鄰居用戶并形成推薦。 基于m o v i e l e n s 數(shù)據(jù)集,我們對基于逐步遺忘策略的協(xié)同過濾算法進(jìn)行了測 試,實驗結(jié)果表明:當(dāng)用戶興趣發(fā)生變化時,基于逐步遺忘策略的協(xié)同過濾算法 在準(zhǔn)確性方面優(yōu)于傳統(tǒng)的協(xié)同過濾算法。 關(guān)鍵詞:推薦系統(tǒng),協(xié)同過濾,興趣變化,逐步遺忘 a b s t r a c t a b s t r a e t t h ee x p l o s i v eg r o w t ho ft h ew o r l d w i d e w e ba n dt h ee m e r g e n c eo fe c o m m e r c e h a v el e dt ot h ed e v e l o p m e n to fr e c o m m e n d e rs y s t e m s r e c o m m e n d e rs y s t e m sa r e p e r s o n a l i z e di n f o r m a t i o nf i l t e r i n gt e c h n o l o g yu s e dt oe i t h e rp r e d i c tw h e t h e ra p a r t i c u l a ru s e rw i l ll i k eap a r t i c u l a ri t e mp r e d i c t i o np r o b l e m ) o rt oi d e n t i f yas e to fn i t e m st h a tw i l lb eo fi n t e r e s tt oac e i - t a i nu s e r ( t o p nr e c o m m e n d a t i o np r o b l e m ) i n r e c e n ty e a r s ,r e c o m m e n d e r s y s t e m sh a v e b e e nu s e d i nan u m b e ro fd i f f e r e n t a p p l i c a t i o n ss u c ha sr e c o m m e n d i n gp r o d u c t sac u s t o m e rw i l lm o s tl i k e l yb u y ;m o v i e s , t vp r o g r a m s ,o rm u s i cau s e rw i l lf i n de n j o y a b l e ;i d e n t i f y i n gw e b p a g e st h a tw i l lb e o fi n t e r e s t ;o re v e ns u g g e s t i n ga l t e r n a t ew a y so f s e a r c h i n gf o ri n f o r m a t i o n p e r s o n a l i z e dr e c o m m e n d m i o n s y s t e m a n dc o l l a b o r a t i v e f i l t e r i n g r e c o m m e n d a t i o n a l g o r i t h m a r e e x p l o r e d i n t h i st h e s i s c o l l a b o r a t i v ef i l t e r i n g r e c o m m e n d a t i o na l g o r i t h mc a r lm a k ec h o i c e sb a s e do nt h eo p i n i o n so fo t h e rp e o p l e i t i st h em o s ts u c c e s s f u lt e c h n o l o g yf o rb u i l d i n gr e c o m m e n d e rs y s t e m st od a t e u n f o r t u n a t e l y , t r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h m d o e sn o tc o n s i d e rt h e p r o b l e mo fd r i f t i n g u s e r s i n t e r e s t sa n do f t e nl e a d st ob a dr e c o m m e n d a t i o nw h e n u s e r s i n t e r e s t sa r e c h a n g e d t o a d d r e s st h i s p r o b l e m ,ag r a d u a lf o r g e t t i n g c o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mi n s p i r e db yt h ef o r g e t t i n gl a wo fp s y c h o l o g yi s p r o p o s e d :f i r s t l y ,w ed e s i g nl i n e a ra n dn o n - l i n e a rf o r g e t t i n gf u n c t i o nr e s p e c t i v e l yi n o r d e rt od i m i n i s ht h ei m p o r t a n c eo ft h e s er a t e so nw h i c hu s e r s p a s ti n t e r e s th a v e i n f l u e n c e do n s e c o n d l y ,w eg i v ee a c hr a t ei nt h er e c o m m e n d e rs y s t e mad i f f e r e n t w e i g h ta c c o r d i n gt ot h ef o r g e t t i n gf u n c t i o nm e n t i o n e da b o v e t h e n ,b a s e do nt h e w e i g h t e dr a t ew ed e t e r m i n et h es i m i l a r i t i e sb e t w e e nd i f f e r e n tu s e r sa n dw h i c hw o u l d b em o r ea c c u r a t e l a s t l y ,w ed e t e r m i n et h en e i g h b o r so ft a r g e tu s e ra n dm a d e r e c o m m e n d a t i o nf o rh i mb a s e do nt r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n g t h ee x p e r i m e n tu s i n gm o v i e l e n sd a t a s e ts h o w st h a tt h ep r o p o s e da l g o r i t h mi s m o r ea c c u r a t et h a nt r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mw h e nu s e r s i n t e r e s t s a r ec h a n g e d k e y w o r d s :r e c o m m e n d a t i o ns y s t e m s ,c o l l a b o r a t i v ef i l t e r i n g ,i n t e r e s td r i f t ,g r a d u a l f o r g e t t i n g 引言 1 1 推薦系統(tǒng)的引入 第一章引言 1 9 6 9 年美國a r p a 網(wǎng)的誕生標(biāo)志著人類進(jìn)入計算機(jī)網(wǎng)絡(luò)時代,i n t e r n e t 和 電子商務(wù)隨后都得到了迅猛的發(fā)展。電子商務(wù)網(wǎng)站的建立改變了傳統(tǒng)的貿(mào)易行 為,它對傳統(tǒng)的商業(yè)形態(tài)、交易形式、流通方式以及營銷方式等都產(chǎn)生了巨大的 影響,企業(yè)和用戶也都因此而面臨很多新的問題 1 。 首先,對企業(yè)而言,信息的全球化是一把雙刃劍。一方面,電子商務(wù)網(wǎng)站 的日益繁榮為企業(yè)提供了一個更為廣闊的市場和更多的商業(yè)機(jī)會,具體表現(xiàn)在: 企業(yè)的原材料來源和市場選擇比以前更為廣闊了,計算機(jī)網(wǎng)絡(luò)為企業(yè)提供了方便 快捷、廉價多樣的市場調(diào)研和營銷手段,計算機(jī)網(wǎng)絡(luò)為企業(yè)與用戶之間的溝通和 交流提供了更為方便有效的途徑。另一方面,在面對一個更加廣闊、更加具有選 擇性的巨大市場時,企業(yè)原本擁有的地域優(yōu)勢和由于信息不對稱造成的信息優(yōu)勢 在很大程度上又被削弱了。其次,對用戶而言,電子商務(wù)網(wǎng)站為用戶提供了前所 未有的巨大的產(chǎn)品選擇空問,給人們的生活帶來了極大的便利。伴隨電子商務(wù)網(wǎng) 站中產(chǎn)品極大豐富的同時,用戶的個性化產(chǎn)品需求也日益顯現(xiàn)。為找到自己需要 的商品,用戶必須花費大量的時間瀏覽很多無關(guān)的信息,從而出現(xiàn)了信息過載 ( i n f o r m a t i o no v e r l o a d ) 的現(xiàn)象。 雖然電子商務(wù)網(wǎng)站為用戶提供的產(chǎn)品選擇范圍擴(kuò)大了,用戶的選擇機(jī)會也 增多了,但是用戶的信息處理負(fù)擔(dān)卻越來越重。電子商務(wù)網(wǎng)站中包含了大量的信 息,用戶不得不花費越來越多的時間搜尋他們所需要的產(chǎn)品,因為電子商務(wù)網(wǎng)站 中的很多信息與用戶的興趣是不相關(guān)的。此外,網(wǎng)絡(luò)的虛擬性使得用戶不可能像 現(xiàn)實中的商場購物那樣直接觸摸產(chǎn)品以檢查它的外觀和質(zhì)量。因此,用戶迫切地 希望電子商務(wù)網(wǎng)站能夠提供一種類似購物助手的功能,可以根據(jù)用戶的興趣愛好 推薦他們滿意的產(chǎn)品。對企業(yè)來說,用戶的滿意度和忠誠度是電子商務(wù)網(wǎng)站獲取 競爭優(yōu)勢的關(guān)鍵。為了得到用戶對電子商務(wù)網(wǎng)站的信任,企業(yè)需要獲知用戶信息, 分析用戶的購物偏好以幫助他們購買到滿足各自興趣的產(chǎn)品。只有充分地滿足和 適應(yīng)用戶的需求,企業(yè)才能在電子商務(wù)競爭中立于不敗之地。 引言 j o ep i n e 在大規(guī)模定制一書中提出:現(xiàn)代企業(yè)應(yīng)該從大規(guī)模生產(chǎn)( 以 標(biāo)準(zhǔn)化的產(chǎn)品、統(tǒng)一的市場規(guī)劃、長時間的產(chǎn)品生命期和開發(fā)周期為特征) 向大 規(guī)模定制轉(zhuǎn)變( 為不同顧客提供多樣和定制的產(chǎn)品) 。p i n e 指出:公司必須跳出 商品化陷阱,方式之一就是根據(jù)個人需求定制產(chǎn)品。 由于信息過載,電子商務(wù)網(wǎng)站在實施大規(guī)模定制時不能僅僅是提供更多的 產(chǎn)品選擇,同樣重要的是以何種方式來提供這些選擇,方法之一就是構(gòu)建電子商 務(wù)推薦系統(tǒng) 2 。 通過構(gòu)建電子商務(wù)推薦系統(tǒng)可以解決上述問題。電子推薦系統(tǒng)根據(jù)用戶的 興趣愛好向他們推薦感興趣的產(chǎn)品或服務(wù),有利于促進(jìn)交易的進(jìn)行,有利于提高 服務(wù)的質(zhì)量。推薦系統(tǒng)幫助用戶節(jié)省了尋找信息的時間,企業(yè)也可以利用推薦系 統(tǒng)收集和反饋的信息改進(jìn)企業(yè)的營銷策略,吸引更多的忠實客戶。 下面我們介紹推薦系統(tǒng)在電子商務(wù)中的重要作用。 1 2 推薦系統(tǒng)的作用 電子商務(wù)推薦系統(tǒng)向用戶提供商品信息和購買建議,模擬銷售人員幫助客 戶完成購買過程。電子商務(wù)推薦系統(tǒng)可以基于電子商務(wù)系統(tǒng)的銷售排行、用戶以 前的購買行為和用戶表現(xiàn)出來的興趣愛好等產(chǎn)生推薦。電子商務(wù)推薦系統(tǒng)的作用 表現(xiàn)在五個方面 1 2 3 : ( 1 ) 幫助用戶檢索信息:對于購物目標(biāo)明確的用戶,利用電子商務(wù)網(wǎng)站提 供的檢索功能可以迅速地找出他所需要的產(chǎn)品,免除用戶在產(chǎn)品目錄中依次查找 的勞苦。但是對于沒有明確購物目標(biāo)的用戶,檢索系統(tǒng)就無法發(fā)揮它的作用了。 ( 2 ) 變?yōu)g覽者為購買者:網(wǎng)站的瀏覽者通常只是瀏覽信息而沒有購買意向。 如果推薦系統(tǒng)能夠有針對性地向瀏覽者提供高質(zhì)量的推薦信息,就可能激發(fā)瀏覽 者的購買興趣,從而將他由瀏覽者轉(zhuǎn)變?yōu)橘徺I者。 ( 3 ) 增加交叉銷售能力:例如推薦系統(tǒng)可以根據(jù)顧客當(dāng)前購物車中的商品, 向顧客推薦他沒有想到但可能會購買的與之相關(guān)的一些商品。推薦系統(tǒng)如果能夠 向顧客推薦額外有價值的商品,將提高網(wǎng)站的交叉銷售能力。 引言 ( 4 ) 提供個性化的服務(wù):一個成功的電子商務(wù)推薦系統(tǒng)要能夠為用戶提供 個性化的商品和服務(wù),能夠根據(jù)每位用戶的興趣特點,為他構(gòu)建一個個性化的商 品庫,實現(xiàn)“一對一”銷售。 ( 5 ) 構(gòu)建用戶的忠誠度:在電子商務(wù)環(huán)境下,建立用戶的忠誠度是電子商 務(wù)網(wǎng)站成功的關(guān)鍵點之一,因為用戶更換交易商家極其便捷,只需要幾次鼠標(biāo)點 擊操作便可。如果每次購買商品的時候,推薦系統(tǒng)都可以進(jìn)行高效的商品推薦, 無疑會吸引顧客再次在該網(wǎng)站上選購商品。此外,推薦系統(tǒng)還可以學(xué)習(xí)顧客之間 的購買行為,幫助興趣相似的用戶建立聯(lián)系,于是便有更多的用戶受益于推薦系 統(tǒng)的個性化服務(wù),從而有助于提高用戶對該網(wǎng)站的忠誠度。 本小節(jié)介紹了推薦系統(tǒng)在電子商務(wù)中的五個作用,下面介紹電子商務(wù)推薦系 統(tǒng)的研究和應(yīng)用現(xiàn)狀。 1 3 推薦系統(tǒng)的現(xiàn)狀 隨著互聯(lián)網(wǎng)的迅速普及和電子商務(wù)的快速發(fā)展,個性化推薦系統(tǒng)得到了越來 越多的研究者和企業(yè)的關(guān)注,正逐漸成為電子商務(wù)領(lǐng)域中的一個重要的研究方 向。1 9 9 7 年r e s n i e k 和v a r i a n 給出了電子商務(wù)推薦系統(tǒng)的定義 4 :“電子商務(wù) 推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向用戶提供產(chǎn)品信息和相關(guān)建議,幫助用戶決定購 買什么產(chǎn)品,通過模擬銷售人員幫助用戶完成購物過程的系統(tǒng)”。 推薦系統(tǒng)的使用者稱為當(dāng)前用戶( a c t i v e u s e r ) 或目標(biāo)用戶( t a r g e t u s e r ) , 推薦的對象稱為項目( i t e m ) ,項目是推薦系統(tǒng)提供給用戶的產(chǎn)品或服務(wù),也就 是最終的推薦內(nèi)容。推薦系統(tǒng)的項目主要有兩種:一種項目為網(wǎng)頁鏈接,推薦系 統(tǒng)運用w e b 挖掘技術(shù),推薦符合用戶興趣的網(wǎng)頁;另一種項目為產(chǎn)品,推薦系 統(tǒng)在電子商務(wù)購物環(huán)境下,幫助用戶找出想要購買的產(chǎn)品。 1 3 1 推薦系統(tǒng)的研究現(xiàn)狀 a c m 從1 9 9 9 年開始每年召開一次關(guān)于電子商務(wù)的研討會,每年的會議論文 中都有很多關(guān)于電子商務(wù)推薦系統(tǒng)的研究報告。a c m 下屬的數(shù)據(jù)挖掘特別興趣研 究組s i g k d d 于1 9 9 9 年設(shè)立w e b k d d 研討組,主題集中在電子商務(wù)中的w e b 挖掘 引告 技術(shù)。a c m 下屬的信息檢索特別興趣研究組s i g i r 在其召開的第2 4 屆研究和發(fā) 展會議上,專門把推薦系統(tǒng)作為一個研究主題。第7 屆國際人工智能聯(lián)合會議則 把e - b u s i n e s sa n dt h ei n t e l l i g e n tw e b 作為一個獨立的研討小組。1 9 9 9 年召 開的人機(jī)界面會議c h l 9 9 專門設(shè)立推薦系統(tǒng)特別興趣組。第一屆知識管理應(yīng)用會 議p a k m 、9 6 年協(xié)同工作會議c s c w 9 6 也都將電子商務(wù)推薦系統(tǒng)作為研究主題。其 它一些與數(shù)據(jù)挖掘和w e b 系統(tǒng)相關(guān)的會議也都將電子商務(wù)推薦系統(tǒng)列入研究主 題 5 6 。 自1 9 9 2 年以來,電子商務(wù)推薦系統(tǒng)和協(xié)同過濾技術(shù)受到國際學(xué)術(shù)界的廣泛 關(guān)注,并被逐漸應(yīng)用于各個行業(yè)。然而,傳統(tǒng)的協(xié)同過濾技術(shù)存在的稀疏性、可 擴(kuò)展性等問題嚴(yán)重影響了推薦系統(tǒng)的性能,協(xié)同過濾技術(shù)的研究在學(xué)術(shù)領(lǐng)域占有 重要的地位。 推薦系統(tǒng)的研究熱點主要是高質(zhì)量、高效率推薦算法的研究。推薦算法是推 薦系統(tǒng)的核心部分,它直接影響推薦系統(tǒng)的質(zhì)量和性能。目前最為成功的推薦算 法是協(xié)同過濾,它能夠利用與當(dāng)前用戶興趣相似的顧客群體的觀點進(jìn)行推薦。 國內(nèi)針對電子商務(wù)推薦系統(tǒng)的研究處于起步階段,目前只有少量的報道和相 關(guān)文獻(xiàn)。清華大學(xué)的蔡登博士較早地闡述了協(xié)同過濾的本質(zhì)和常用算法,并探討 了協(xié)同過濾的發(fā)展方向 g 。復(fù)旦大學(xué)在推薦系統(tǒng)研究方面所做的工作相對較多, 如鄧愛林博士針對推薦系統(tǒng)中用戶評分?jǐn)?shù)據(jù)極端稀疏情況下,傳統(tǒng)的相似性度量 方法存在的不足,提出了一種基于項目評分預(yù)測的協(xié)同過濾算法,可以有效提高 推薦系統(tǒng)的質(zhì)量 i 2 。 1 3 2 推薦系統(tǒng)的應(yīng)用現(xiàn)狀 在實際應(yīng)用方面,電子商務(wù)推薦系統(tǒng)對于企業(yè)而言具有很高的經(jīng)濟(jì)價值。顧 客是利潤的來源,為了贏得市場,企業(yè)必須向用戶提供更好、更滿意、更具個性 化的產(chǎn)品和服務(wù)。正如1 1 節(jié)所述,電子商務(wù)模式使用戶從物理購物環(huán)境向虛擬 購物環(huán)境轉(zhuǎn)變的同時,對企業(yè)的客戶服務(wù)工作提出了許多新的、更高的要求,包 括購物的便利、付款的方便、質(zhì)量的保證等等。其中的一個重要方面就是如何滿 足不同顧客對不同商品的個性化需求,這正是企業(yè)價值鏈的源頭和市場營銷的起 引占 點 6 。 據(jù)因特網(wǎng)研究機(jī)構(gòu)j u p i t e rc o m m u n i c a t i o n s 對2 5 個電子商務(wù)網(wǎng)站進(jìn)行的研究 表明:電子商務(wù)網(wǎng)站在提供了推薦系統(tǒng)的第一年內(nèi),客戶平均增加了4 7 ,利潤 同比增加了5 2 。此外,據(jù)因特網(wǎng)咨詢公司a p p i a n 的估計,隨著電子商務(wù)智能 化程度的提高,由此帶來的利潤將大幅度增加。成功的電子商務(wù)推薦系統(tǒng)將會產(chǎn) 生巨大的經(jīng)濟(jì)社會效益。 近幾年來,電子商務(wù)推薦系統(tǒng)快速發(fā)展,成為電子商務(wù)中的主流發(fā)展方向。 在國外,幾乎所有的大型電子商務(wù)網(wǎng)站都已不同程度地使用了各種推薦系統(tǒng),如 a m a z o n ( w w w a m z z o n c o m ) ,n 刪( w w w e d n o w c o m ) ,e b a y ( 椰w e b 研c o m ) , m o v i e f i n d e r ( w w w m o v i e f i n d e r c o m ) ,r e e l ( w w w r e e l e o m ) 。 在國內(nèi),一些著名的電子商務(wù)網(wǎng)站都通過推薦系統(tǒng)來提高電子商務(wù)的競爭 力,個性化推薦系統(tǒng)已有初步的應(yīng)用。國內(nèi)的新浪商城、網(wǎng)易商城、s o h u 在線 購物和當(dāng)當(dāng)網(wǎng)上書店也都采用了符合自身特色的推薦系統(tǒng)。 1 3 3 推薦系統(tǒng)的常用方法 通過對a m a z o n c o m 、c d n o w 、當(dāng)當(dāng)?shù)葒鴥?nèi)外知名電子商務(wù)網(wǎng)站的研究 5 , 目前電子商務(wù)網(wǎng)站推薦系統(tǒng)使用的推薦方法主要有以下五種: ( 1 ) 用戶搜索:用戶輸入關(guān)鍵字,網(wǎng)站返回該關(guān)鍵字相關(guān)的產(chǎn)品,大多數(shù) 電子商務(wù)網(wǎng)站都支持該方法。但嚴(yán)格來說,這種類似搜索引擎的方法還不能夠稱 為推薦系統(tǒng)。 ( 2 ) 人工挑選:網(wǎng)站的工作人員事先精心挑選,然后向用戶推薦商品列表 和評論。該方法反映了專業(yè)人士的權(quán)威評價,有一定的主觀性。 ( 3 ) 統(tǒng)計分析:網(wǎng)站將產(chǎn)品的購買或評分信息統(tǒng)計后呈現(xiàn)給顧客,作為顧 客購買商品的參考信息。它具有客觀以及計算方便的優(yōu)點,但是沒有考慮每個顧 客的不同需求。 ( 4 ) 關(guān)聯(lián)規(guī)則:網(wǎng)站以諸如“購買本商品的人可能還會對以下商品感興 趣”的形式向顧客提供經(jīng)常同時購買的商品的信息。網(wǎng)站還可能根據(jù)顧客購 引言 物籃中的商品向顧客推薦。 ( 5 ) 協(xié)同過濾:用戶對一些有代表性的商品評分,系統(tǒng)根據(jù)和該用戶評分 相近的顧客群體的偏好進(jìn)行推薦。協(xié)同過濾最具個性化和針對性,真正做到了一 對一營銷,應(yīng)用前景最為看好。該過程是由計算機(jī)自動處理完成的,我們稱之為 自動推薦系統(tǒng)。在沒有歧義的情況下,我們通常用推薦系統(tǒng)代替自動推薦系統(tǒng)。 個性化服務(wù)技術(shù)與電子商務(wù)推薦系統(tǒng)密切相關(guān),因此,我們在下面的小節(jié)中 介紹個性化服務(wù)技術(shù)的相關(guān)概念。 1 4 個性化服務(wù)技術(shù) 網(wǎng)絡(luò)已成為人們獲取信息的一個重要途徑,但由于網(wǎng)絡(luò)信息的龐大,人們不 得不花費大量的時間去搜索、瀏覽自己感興趣的信息。搜索引擎( s e a r c he n g i n e ) 是最常用的信息檢索工具,比如傳統(tǒng)的搜索引擎a l t a v i s t a ,y a h o o 和新一代的搜 索引擎g o o g l e 等。信息檢索技術(shù)滿足了人們一定的需要,但由于其通用的性質(zhì), 仍不能滿足不同背景、不同目的和不同時期的查詢請求。個性化服務(wù)技術(shù)就是針 對這個問題而提出的,它為不同用戶提供不同的服務(wù),以滿足不同的需求。個性 化服務(wù)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,從而實現(xiàn)主動推薦的 目的。個性化服務(wù)技術(shù)能夠提高站點的服務(wù)質(zhì)量和訪問效率,從而吸引更多的訪 問者 9 。 個性化服務(wù)技術(shù)在國內(nèi)外己漸成潮流,它在電子商務(wù)中的價值很大,成為電 子商務(wù)發(fā)展的重要推動力 6 。對于電子商務(wù)而言,個性化服務(wù)技術(shù)不僅在理論 上而且在實踐中都是值得重視和發(fā)展的。個性化服務(wù)技術(shù)能夠根據(jù)用戶的不同情 況提供有針對性的服務(wù)。比如當(dāng)用戶瀏覽網(wǎng)站時,系統(tǒng)應(yīng)盡可能地適應(yīng)每位用戶 的瀏覽興趣并通過不斷的調(diào)整來適應(yīng)用戶瀏覽興趣的變化。個性化服務(wù)技術(shù)通過 獲取用戶的相關(guān)知識,建立用戶的信息需求模型,有針對性地幫助用戶獲取或篩 選信息資源,同時能夠?qū)W習(xí)用戶需求信息的變化。個性化信息推薦服務(wù)的關(guān)鍵點 包括: ( 1 ) 推薦的準(zhǔn)確性:信息推薦系統(tǒng)提供的信息要盡可能地滿足用戶的需求, 為此必須準(zhǔn)確把握用戶的需求、信息的內(nèi)容和它們之間的相關(guān)性。 引言 ( 2 ) 推薦的實時性:電子商務(wù)系統(tǒng)中的用戶數(shù)量和產(chǎn)品數(shù)量往往是成千上 萬的,而且還在不斷的增加之中,因此系統(tǒng)的計算量非常巨大。但是,即使面對 大量用戶的信息需求,推薦系統(tǒng)也要能夠及時響應(yīng)用戶的請求。 ( 3 ) 以用戶為中心:推薦系統(tǒng)要以服務(wù)用戶為中心,要便于用戶使用。例 如:系統(tǒng)主動把信息推薦給用戶,用戶可以方便地表達(dá)自己的需求,系統(tǒng)要能夠 及時地適應(yīng)用戶需求的變化。 根據(jù)個性化程度的高低,我們可以把電子商務(wù)推薦系統(tǒng)分成三種 6 】: ( 1 ) 非個性化推薦系統(tǒng):推薦系統(tǒng)先計算所有用戶對項目的平均評分,然 后選擇平均評分最高的前個項目作為推薦的結(jié)果。該類推薦系統(tǒng)根據(jù)所有用戶 的評分信息產(chǎn)生推薦所有用戶在同一時間得到的推薦都是相同的,因此稱為非 個性化推薦系統(tǒng)。 ( 2 ) 個性化協(xié)同過濾推薦系統(tǒng):t a p e s t r y 1 6 是第一個協(xié)同過濾推薦系統(tǒng), 它要求用戶之間必須了解對方的興趣愛好,因此t a p e s t r y 推薦系統(tǒng)只適用于用戶 群體比較小的場合。 ( 3 ) 自動個性化協(xié)同過濾推薦系統(tǒng):隨著電子商務(wù)系統(tǒng)規(guī)模的不斷增大, 推薦系統(tǒng)的計算復(fù)雜性迅速增長,因此,研究者提出了自動個性化協(xié)同過濾推薦 系統(tǒng)。該推薦系統(tǒng)自動識別用戶的最近鄰居,然后根據(jù)最近鄰居對項目的評價產(chǎn) 生推薦。自動個性化協(xié)同過濾推薦系統(tǒng)主要有: g r o u p l e n s 是由m i t 開發(fā)的自動個性化協(xié)同過濾推薦系統(tǒng),用于從大量的 新聞中搜索用戶感興趣的新聞列表。 m o v i e l e n s 是由明尼蘇達(dá)大學(xué)開發(fā)的自動個性化協(xié)同過濾推薦系統(tǒng),用于 向用戶推薦電影。 v i d e o 自動個性化協(xié)同過濾推薦系統(tǒng)和r i n g o 自動個性化協(xié)同過濾推薦系 統(tǒng)分別用于推薦電影和音樂唱片。 p h o a k s ( p e o p l e h e l p i n g o n e a n o t h e r k n o ws t u f f ) 系統(tǒng)使用用戶隱式評分 進(jìn)行推薦,該系統(tǒng)根據(jù)新聞貼的發(fā)表和閱讀情況分析出每個新聞組中最受用戶歡 迎的站點。 m y c d n o w 采用基于隱式評分和顯式評分的混合評分模式提供c d 唱片 推薦。當(dāng)用戶請求系統(tǒng)推薦時,m y c d n o w 推薦系統(tǒng)自動搜索用戶的最近鄰居, 然后根據(jù)最近鄰居的評分信息向用戶提供六個推薦結(jié)果。 1 5 本文的研究工作 本文主要研究的是電子商務(wù)推薦系統(tǒng)中的協(xié)同過濾算法,論文的主要工作與 特色包括: ( 1 ) 分析了現(xiàn)有的典型推薦方法的特點及適用范圍,并重點研究了用戶興 趣變化對協(xié)同過濾算法的推薦質(zhì)量的影響。 ( 2 ) 針對推薦系統(tǒng)中的用戶興趣變化問題,提出了基于逐步遺忘策略的協(xié) 同過濾算法。當(dāng)用戶興趣發(fā)生變化時,基于逐步遺忘策略的協(xié)同過濾算法在準(zhǔn)確 性方面優(yōu)于傳統(tǒng)的協(xié)同過濾算法。 論文針對推薦系統(tǒng)中的用戶興趣變化問題,借鑒心理學(xué)中遺忘理論的成果, 分別設(shè)計了線性和非線性逐步遺忘函數(shù),用于降低用戶舊興趣影響下的評分的重 要性:然后,用遺忘函數(shù)賦予推薦系統(tǒng)中每項評分個不同的權(quán)重,基于加權(quán)后 的評分,利用改進(jìn)的皮爾森相關(guān)系數(shù)確定用戶問的相似度:最后,利用基于用戶 的協(xié)同過濾算法,為當(dāng)前用戶確定鄰居用戶并形成推薦。 ( 3 ) 對皮爾森相關(guān)系數(shù)進(jìn)行了修正,對其中的用戶評分用遺忘函數(shù)賦予了 不同的權(quán)重,使得當(dāng)用戶興趣發(fā)生變化時,用戶之間的相似性計算更加準(zhǔn)確。 1 6 本文的內(nèi)容安排 本文共分五章,文章結(jié)構(gòu)和各章的內(nèi)容安排如下: 第一章引言。首先介紹了電子商務(wù)推薦系統(tǒng)和個性化服務(wù)技術(shù),然后介紹 了本文的研究工作,最后給出了本文的內(nèi)容安排。 第二章推薦系統(tǒng)綜述。介紹了主要的推薦算法,同時指出了各自的優(yōu)缺點。 第三章基于逐步遺忘策略的協(xié)同過濾算法。介紹了本文設(shè)計的基于逐步遺 忘策略的協(xié)同過濾算法的基本思想,并對該算法進(jìn)行了詳細(xì)的描述。 引言 第四章實驗設(shè)計和結(jié)果分析。比較了基于逐步遺忘策略的協(xié)同過濾算法和 傳統(tǒng)的協(xié)同過濾算法的性能,并對實驗結(jié)果進(jìn)行了分析。 第五章結(jié)束語??偨Y(jié)全文,指出了本文的研究成果和后續(xù)工作。 9 推薦系統(tǒng)綜述 第二章推薦系統(tǒng)綜述 電子商務(wù)推薦系統(tǒng)是在電子商務(wù)網(wǎng)站中針對不同用戶的不同需求,提供個性 化信息服務(wù)的智能系統(tǒng)。本章主要介紹電子商務(wù)個性化推薦系統(tǒng)的研究內(nèi)容、推 薦系統(tǒng)的整體框架和構(gòu)成、以及目前電子商務(wù)推薦系統(tǒng)中常用的推薦技術(shù)和推薦 算法。 2 1 推薦系統(tǒng)的研究內(nèi)容 推薦系統(tǒng)的研究內(nèi)容很多,主要包括以下六個方面 ( 1 ) 推薦方法的研究:目前主要的推薦方法有基于內(nèi)容的過濾和協(xié)同過濾 兩種,其中協(xié)同過濾是當(dāng)前研究的主流。協(xié)同過濾的一個優(yōu)點是不需要分析對象 的屬性,它對推薦對象沒有特殊的要求,能夠處理非結(jié)構(gòu)化的復(fù)雜對象,例如音 樂和電影等,這是基于內(nèi)容的過濾難以做到的。 ( 2 ) 實時性研究:由于大型電子商務(wù)網(wǎng)站的規(guī)模越來越龐大,推薦系統(tǒng)的 可伸縮性和實時性要求越來越難以保證,如何滿足推薦系統(tǒng)的實時性要求便成為 研究的重點。 ( 3 ) 推薦質(zhì)量的研究:在大型電子商務(wù)網(wǎng)站中,用戶評分的數(shù)據(jù)是相當(dāng)稀 疏的,導(dǎo)致無法產(chǎn)生有效的推薦,推薦系統(tǒng)的質(zhì)量難以保證。因此,提高推薦系 統(tǒng)質(zhì)量的研究顯得格外重要。 ( 4 ) 信息集成的研究:當(dāng)前的電子商務(wù)推薦系統(tǒng)只利用了部分的可用信息 來進(jìn)行推薦,為了提高推薦的質(zhì)量,電子商務(wù)推薦系統(tǒng)應(yīng)該收集多種類型的數(shù)據(jù), 有效集成多種推薦技術(shù),充分挖掘和利用各種有用的信息。 ( 5 ) 數(shù)據(jù)挖掘技術(shù)在推薦系統(tǒng)中的應(yīng)用研究:推薦系統(tǒng)主要利用數(shù)據(jù)挖掘 等技術(shù)發(fā)現(xiàn)用戶的興趣模式,然后產(chǎn)生個性化的信息推薦。數(shù)據(jù)挖掘技術(shù)在推薦 系統(tǒng)中的應(yīng)用非常廣泛,進(jìn)行數(shù)據(jù)挖掘技術(shù)在推薦系統(tǒng)中的應(yīng)用研究十分必要。 ( 6 ) 系統(tǒng)性能評價的研究:要讓推薦系統(tǒng)為廣大用戶所接受,必須對推薦 系統(tǒng)做出客觀的評價,需要從準(zhǔn)確性、個性化、安全性和用戶滿意度等多方面進(jìn) 推薦系統(tǒng)綜述 行評價。但是目前推薦系統(tǒng)的評價指標(biāo)僅僅是準(zhǔn)確率和召回率,沒有對整個推薦 系統(tǒng)進(jìn)行綜合評價的標(biāo)準(zhǔn)。 在介紹完了推薦系統(tǒng)的研究內(nèi)容之后,下面我們介紹推薦系統(tǒng)的整體框架和 推薦系統(tǒng)的構(gòu)成。 2 2 推薦系統(tǒng)的整體框架 推薦系統(tǒng)的整體框架主要有操作數(shù)據(jù)庫、推薦模型庫、推薦引擎、人機(jī)交互 界面等組成,如圖2 1 所示。 ( 1 ) 操作數(shù)據(jù)庫:操作數(shù)據(jù)庫存儲與用戶操作密切相關(guān)的數(shù)據(jù),包括產(chǎn)品 數(shù)據(jù)庫、用戶數(shù)據(jù)庫、銷售數(shù)據(jù)庫等。 ( 2 ) 推薦模型庫:主要用來存儲各種推薦算法。 ( 3 ) 推薦引擎:主要功能是接受推薦請求、執(zhí)行推薦策略和產(chǎn)生推薦結(jié)果。 推薦引擎對內(nèi)為推薦算法提供統(tǒng)的運行環(huán)境,方便推薦算法的編制,對外提供 統(tǒng)一的推薦服務(wù)接口。 ( 4 ) 人機(jī)交互界面:接受用戶的推薦請求并返回推薦結(jié)果。 電子商務(wù)推薦系統(tǒng)需要完成從信息收集到信息推薦的完整流程,具體來說, 包括以下幾個方面: ( 1 ) 數(shù)據(jù)整理:從操作數(shù)據(jù)庫中獲得的數(shù)據(jù)需要經(jīng)過加工處理成為規(guī)整數(shù) 據(jù)。選擇什么樣的數(shù)據(jù)是由具體的推薦應(yīng)用決定的,如用戶評分模型需要用戶評 分?jǐn)?shù)據(jù),關(guān)聯(lián)規(guī)則模型需要用戶的交易數(shù)據(jù)。 ( 2 ) 模型生成:根據(jù)具體的推薦應(yīng)用,選擇相應(yīng)的規(guī)整數(shù)據(jù),生成合適的 推薦模型,存儲在模型庫中。 ( 3 ) 形成推薦:電子商務(wù)系統(tǒng)向推薦引擎提供當(dāng)前用戶的相關(guān)信息,請求 使用指定的推薦策略產(chǎn)生推薦列表。推薦引擎便使用指定的推薦策略為當(dāng)前用戶 產(chǎn)生合適的推薦結(jié)果。 ( 4 ) 更新數(shù)據(jù):由于有新用戶新產(chǎn)品不斷加入電子商務(wù)系統(tǒng),用戶也不斷 1 1 推薦系統(tǒng)綜述 地有新的活動,因此操作數(shù)據(jù)庫中的數(shù)據(jù)需要及時更新。 操作數(shù)據(jù)庫 圖2 1 推薦系統(tǒng)整體框架 電子商務(wù)個性化推薦系統(tǒng)的流程是一個不斷循環(huán)的過程,當(dāng)操作數(shù)據(jù)庫變化 到一定程度的時候,推薦模型等需要更新以及時反映當(dāng)前用戶行為的變化。 2 3 推薦系統(tǒng)的構(gòu)成 推薦系統(tǒng)主要由以下三個模塊組成:輸入模塊、推薦算法模塊和輸出模塊。 輸入模塊 輸入模塊主要負(fù)責(zé)用戶信息的收集和更新,推薦系統(tǒng)的輸入包括多種形式, 主要有以下八種形式 2 : ( 1 ) 用戶注冊信息輸入:用戶在注冊電子商務(wù)站點的時候需要輸入一些個 人信息,這些信息可以是用戶的年齡、性別和職業(yè)等,用戶也可以明確地表達(dá)自 己的興趣偏好。這些信息是推薦系統(tǒng)收集到的關(guān)于用戶的最初信息。 推薦系統(tǒng)綜述 ( 2 ) 隱式瀏覽輸入:將用戶訪問電子商務(wù)站點的瀏覽行為作為推薦系統(tǒng)的 輸入,用戶的瀏覽行為與訪問一般的網(wǎng)站沒有什么區(qū)別,用戶并不知道推進(jìn)系統(tǒng) 的存在,不會額外增加用戶的負(fù)擔(dān)。用戶當(dāng)前正在瀏覽的產(chǎn)品、用戶購物籃中選 擇的產(chǎn)品、用戶的瀏覽路徑等都可以作為隱式瀏覽輸入信息。 ( 3 ) 顯示瀏覽輸入:與隱式瀏覽輸入不同的是,用戶的顯示瀏覽輸入是用 戶向推薦系統(tǒng)明確地表達(dá)自己的興趣偏好。例如,電子商務(wù)系統(tǒng)提供一系列熱門 產(chǎn)品供用戶選擇,用戶只選擇瀏覽自己感興趣的產(chǎn)品列表,電子商務(wù)系統(tǒng)便可根 據(jù)用戶的瀏覽行為向其提供個性化的信息推薦服務(wù)。 ( 4 ) 關(guān)鍵字產(chǎn)品屬性輸入:用戶在搜索引擎中輸入關(guān)鍵字作為推薦系統(tǒng)的 輸入,或?qū)⒂脩舢?dāng)前正在瀏覽的產(chǎn)品類別作為推薦系統(tǒng)的輸入。不同于用戶隨意 的瀏覽行為,用戶輸入關(guān)鍵字的目的就是要在電子商務(wù)系統(tǒng)中搜索自己需要的產(chǎn) 品。 ( 5 ) 用戶評分輸入:將用戶對產(chǎn)品的數(shù)值評分?jǐn)?shù)據(jù)作為推薦系統(tǒng)的輸入。 推薦系統(tǒng)列出一系列產(chǎn)品讓用戶評分,用戶評分可以是一個數(shù)值,數(shù)值的大小反 、 映了用戶對該產(chǎn)品的喜好程度,也可以是一個布爾值,0 表示不喜歡,l 表示喜 歡。這些評分?jǐn)?shù)據(jù)便于推薦系統(tǒng)向用戶提供個性化的信息推薦服務(wù)。 ( 6 ) 用戶文本評價輸入:用戶對已經(jīng)購買的產(chǎn)品或自己熟悉的產(chǎn)品以文本 的形式進(jìn)行個人評價。雖然推薦系統(tǒng)本身不能處理這些評價信息,但是當(dāng)用戶瀏 覽產(chǎn)品時,可以看到其他用戶對該產(chǎn)品的文本評價信息。 ( 7 ) 編輯推薦輸入:將專家對特定產(chǎn)品的評價作為推薦系統(tǒng)的輸入,用戶 通過專家的評點可以加深對特定產(chǎn)品的認(rèn)識,從而決定是否購買。 ( 8 ) 用戶購買歷史輸入:推薦系統(tǒng)將用戶的購買歷史作為隱式評分?jǐn)?shù)據(jù), 如果用戶購買了特定產(chǎn)品,則認(rèn)為用戶喜歡該產(chǎn)品,于是推薦系統(tǒng)便可根據(jù)用戶 的購買歷史產(chǎn)生推薦。 推薦算法模塊 推薦算法模塊是整個推薦系統(tǒng)的核心部分,推薦算法的優(yōu)劣直接影響整個推 薦系統(tǒng)的性能,推薦算法的詳細(xì)討論見2 3 小節(jié)。 推薦系統(tǒng)綜述 輸出模塊 輸出模塊負(fù)責(zé)將推薦結(jié)果呈現(xiàn)給用戶,電子商務(wù)推薦系統(tǒng)的輸出形式主要 包括以下六種形式 2 : ( 1 ) 相關(guān)產(chǎn)品輸出:推薦系統(tǒng)根據(jù)用戶表現(xiàn)出來的行為特征或系統(tǒng)的銷售 情況向用戶進(jìn)行產(chǎn)品推薦,這是推薦系統(tǒng)最為普遍的一種輸出形式??梢曰诤?單的銷售排行向用戶推薦熱門產(chǎn)品,也可以深入分析用戶行為特征,發(fā)現(xiàn)用戶的 購買行為模式,從而進(jìn)行個性化推薦。 ( 2 ) 文本評價輸出:推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對產(chǎn)品的文本評價 信息。文本評價信息是非個性化的,所有用戶得到的評價信息是相同的。 ( 3 ) 個體評分輸出:推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對產(chǎn)品的數(shù)值評分 信息,這種輸出形式簡潔。 ( 4 ) 平均評分輸出:推薦系統(tǒng)向目標(biāo)用戶提供其他用戶對產(chǎn)品的平均評分 信息,該輸出形式便于用戶立即獲得對該產(chǎn)品的總體評價。 ( 5 ) 電子郵件輸出:推薦系統(tǒng)通過電子郵件的形式向目標(biāo)用戶提供產(chǎn)品的 相關(guān)信息,它有助于防止用戶流失。 ( 6 ) 編輯推薦輸出:推薦系統(tǒng)向目標(biāo)用戶提供專家對產(chǎn)品的評價信息,用 戶通過專家的評點可以加深對特定產(chǎn)品的認(rèn)識,從而決定是否購買。 上面兩小節(jié)我們介紹了推薦系統(tǒng)的整體框架和構(gòu)成,下面介紹推薦系統(tǒng)中的 常用推薦技術(shù)。 2 4 常用的推薦技術(shù) 電子商務(wù)推薦系統(tǒng)是一種大型的w e b 智能系統(tǒng),它包含了很多的子模塊, 具有多種功能,集成了數(shù)據(jù)倉庫、信息檢索、信息過濾、數(shù)據(jù)挖掘等不同的技術(shù)。 由于每種技術(shù)都有自己的優(yōu)勢和不足,因此只有綜合集成不同技術(shù)的優(yōu)點,電 子商務(wù)個性化推薦系統(tǒng)才能產(chǎn)生高效率、高質(zhì)量的信息推薦。 推薦系統(tǒng)綜述 2 4 1 數(shù)據(jù)倉庫 數(shù)據(jù)倉庫( d a t aw a r e h o u s e ) 是個面向主題的、集成的、非易失的,隨時 間變化的用來支持管理人員決策的數(shù)據(jù)集合 2 7 。數(shù)據(jù)倉庫的查詢通常是復(fù)雜 的,它涉及大量數(shù)據(jù)在匯總級的計算,可能需要特殊的數(shù)據(jù)組織、存取方法和基 于多維視圖的實現(xiàn)方法,它與操作數(shù)據(jù)庫在功能和數(shù)據(jù)類型上很不相同。在電子 商務(wù)推薦系統(tǒng)中不但涉及大量對操作數(shù)據(jù)庫的操作,通常還涉及很多用戶的歷史 信息,這些信息隱藏著用戶的興趣。由于操作數(shù)據(jù)庫不維護(hù)用戶的歷史信息,所 以需要建立數(shù)據(jù)倉庫來存放這些結(jié)構(gòu)復(fù)雜的多維數(shù)據(jù) 1 。 2 4 2 信息檢索 信息檢索( i n f o r m a t i o nr e t r i e v a l ) 和信息過濾( i n f o r m a t i o nf i l t e r i n g ) 是構(gòu)建推薦系統(tǒng)的兩種關(guān)鍵技術(shù),信息檢索和信息過濾有相似之處,但是他們完 成的任務(wù)不同 8 。 信息檢索一般是根據(jù)用戶需求,從大規(guī)模相對靜止的數(shù)據(jù)庫中檢索用戶需 要的信息,主要滿足用戶瞬時的信息需求。信息檢索研究的內(nèi)容主要包括索引技 術(shù)和查詢技術(shù)。索引技術(shù)是對資源內(nèi)容進(jìn)行分析,從而將資源內(nèi)容表示為計算機(jī) 可以處理的數(shù)據(jù)結(jié)構(gòu)的過程。查詢技術(shù)則是根據(jù)用戶需求,為用戶查找需要的資 源信息,主要的研究內(nèi)容包括查詢語言設(shè)計研究、可視化查詢接口研究、用戶的 請求與資源的匹配研究。查詢技術(shù)和索引技術(shù)是交叉的,查詢技術(shù)依賴于資源信 息所采用的索引結(jié)構(gòu)。 信息檢索的界面主要包括兩種形式,傳統(tǒng)的信息檢索主要使用關(guān)鍵字查詢 接口,用戶輸入關(guān)鍵字信息,信息檢索系統(tǒng)根據(jù)用戶提交的關(guān)鍵字進(jìn)行查詢,最 后向用戶返回信息檢索結(jié)果。現(xiàn)在越來越多的信息檢索系統(tǒng)提供動態(tài)查詢。動態(tài) 查詢向用戶提供一系列的信息主題,然后根據(jù)用戶的選擇提供下一層的主題,直 至用戶檢索到自己需要的信息為止。動態(tài)查詢不斷與用戶交互,便于用戶檢索到 所需信息。 推薦系統(tǒng)根據(jù)用戶需求,運用信息檢索技術(shù)搜索產(chǎn)品數(shù)據(jù)庫,最后返回用 戶需要的信息。 推薦系統(tǒng)綜述 2 4 3 信息過濾 信息過濾不同于信息檢索,信息過濾主要是對動態(tài)信息進(jìn)行篩選,著重于 排除無關(guān)信息,具有即時性。信息過濾一般用于用戶需求相對不變,但信息更新 比較頻繁的場合,主要處理的是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),為用戶提供長期的 信息需求服務(wù)。信息過濾技術(shù)可以分為基于內(nèi)容的過濾( c o n t e n t b a s e d f i l t e r i n g ) 技術(shù)和協(xié)同過濾( c o l l a b o r a t i v ef i i t e r i n g ) 技術(shù)。 基于內(nèi)容的過濾技術(shù)通過比較資源和用戶描述文件后推薦信息。用戶的興 趣模型可以用用戶描述( p r o f i l e ) 文件的形式表示,信息過濾系統(tǒng)將動態(tài)信息 與用戶描述文件進(jìn)行匹配,然后根據(jù)匹配結(jié)果返回用戶需要的信息。基于內(nèi)容過 濾技術(shù)的關(guān)鍵問題是相似度的計算,對于矢量空間模型來說,通常采用余弦度量。 如果用戶描述文件沒有正確描述用戶的興趣和行為,那么該方法返回給用戶的結(jié) 果可能不符合用戶的真正興趣。基于內(nèi)容的過濾技術(shù)主要集中在文本信息推薦領(lǐng) 域,它的不足有二點:僅能獲得推薦對象的部分信息,主要是文本信息,其它 信息如圖形、圖像、音頻、視頻等都被忽略了。推薦的信息過于狹窄,系統(tǒng)盡 可能向用戶推薦最符合他的描述文件的信息,因此推薦信息局限于和用戶以前瀏 覽過的資料類似的信息。 協(xié)同過濾,又稱社會過濾( s o c i a lf i i t e r i n g ) ,是至今為止最為成功的 個性化推薦技術(shù),它被應(yīng)用到很多領(lǐng)域中。協(xié)同過濾技術(shù)為當(dāng)前用戶在用戶群體 中尋找和他興趣相似的用戶,然后綜合這些用戶對某一信息的評價,預(yù)測當(dāng)前用 戶對該信息的喜好程度。協(xié)同過濾基于這樣的認(rèn)識:如果若干用戶對某些項目的 評分相似( 表明他們的興趣相投) ,則他們對其它項目的評分也應(yīng)相似。與基于 內(nèi)容的過濾技術(shù)相比較,協(xié)同過濾有三個優(yōu)點 9 :能夠過濾機(jī)器難以分析的 信息,如藝術(shù)品和音樂等等。利用他人的經(jīng)驗避免內(nèi)容分析的不準(zhǔn)確,并且能 夠基于一些復(fù)雜的概念( 如信息質(zhì)量和品味等) 進(jìn)行過濾。具有推薦新信息的 能力( s e r e n d i p i t o u sr e c o m m e n d a t i o n ) 。 2 4 4 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘( d a t am i n i n g ) ,也稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)( k d d ,k n o w l e d g e 推薦系統(tǒng)綜述 d i s c o v e r yi nd a t a b a s e ) ,是從大量的數(shù)據(jù)中抽取潛在的、不為人知的有用信息、 模式和趨勢。數(shù)據(jù)挖掘綜合運用數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、人 工智能、信息檢索等眾多學(xué)科的知識。數(shù)據(jù)挖掘不只是計算機(jī)算法和相關(guān)技術(shù)的 應(yīng)用,它是一個商業(yè)智能過程,可以和信息技術(shù)一起支持商業(yè)決策 2 9 。典型的 數(shù)據(jù)挖掘系統(tǒng)包括:數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫、數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器、 知識庫、數(shù)據(jù)挖掘引擎、模式評估模塊和圖形用戶界面。 數(shù)據(jù)挖掘過程一般主要由三個階段組成:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、挖掘結(jié) 果的表達(dá)和解釋。數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清洗和數(shù)據(jù)集成,數(shù)據(jù)挖掘階段 對預(yù)處理過的數(shù)據(jù)進(jìn)行挖掘以發(fā)現(xiàn)各種模式,挖掘結(jié)果的表達(dá)和解釋階段對得到 的模式進(jìn)行評價,抽取有價值的知識予以保存。 從1 9 8 9 年數(shù)據(jù)挖掘概念的提出到目前為止,數(shù)據(jù)挖掘技術(shù)在理論和應(yīng)用 上都得到了巨大的發(fā)展。數(shù)據(jù)挖掘能夠從關(guān)系數(shù)據(jù)、對象關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、 多媒體數(shù)據(jù)、時間序列、空間數(shù)據(jù)、異質(zhì)數(shù)據(jù)等多種數(shù)據(jù)源中挖掘知識。數(shù)據(jù)挖 掘知識包括關(guān)聯(lián)、分類、聚類、趨勢、偏差、異常檢測等多種類型。數(shù)據(jù)挖掘在 零售業(yè)、通信業(yè)、銀行業(yè)、保險業(yè)、生物信息、w e b 挖掘等領(lǐng)域都得到了應(yīng)用。 數(shù)據(jù)挖掘技術(shù)已經(jīng)成功應(yīng)用于電子商務(wù)推薦系統(tǒng)中,推薦系統(tǒng)利用數(shù)據(jù)挖 掘技術(shù)學(xué)習(xí)用戶行為和用戶屬性,從中獲取有價值的知識,然后進(jìn)行個性化的推 薦。 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘一般分為描述性挖掘和預(yù)測性挖掘。描述性挖掘刻畫數(shù)據(jù)庫中數(shù) 據(jù)的一般特性,預(yù)測性挖掘在當(dāng)前數(shù)據(jù)上推斷以進(jìn)行預(yù)測。數(shù)據(jù)挖掘可以發(fā)現(xiàn)的 模式類型有以下六種: ( 1 ) 概念類描述( c o n c e p t c 1 a s sd e s c r i p t i o n ) 數(shù)據(jù)可以與類或概念相關(guān)聯(lián),可以用數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分的方法得到。 數(shù)據(jù)特征化是目標(biāo)數(shù)據(jù)的一般特征或特性的匯總,數(shù)據(jù)區(qū)分是將目標(biāo)對象的一 般特性和對比對象的一般特性比較。 ( 2 ) 關(guān)聯(lián)分析( a s s o c i a t i o na n a l y s i s ) 推薦系統(tǒng)綜述 關(guān)聯(lián)分析可以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則( a s s o c i a t i o nr u l e ) ,關(guān)聯(lián)規(guī)則給出屬性一 值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)規(guī)則是形如x j y ,即 “4 i 4 。j b - 島”的規(guī)則,其中a ( f l , ) ,b j ( j 1 ,月 ) 是屬性 一值對。關(guān)聯(lián)規(guī)則并jy 解釋為“滿足中條件的數(shù)據(jù)庫元組多半也滿足l ,中 的條件”。 ( 3 ) 分類( c 1 a s s i f i c a t i o n ) 和預(yù)測( p r e d i c t i o n ) 分類是找出描述并區(qū)分?jǐn)?shù)據(jù)類的模型,以便能夠使用模型預(yù)測類標(biāo)記未知 的對象的過程。當(dāng)被預(yù)測的值是數(shù)值數(shù)據(jù)時,通常稱之為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論