




已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于web使用挖掘技術(shù)的應(yīng)用研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,以及網(wǎng)絡(luò)在社會(huì)生活中的廣泛使用,使得網(wǎng)絡(luò)上的信息資源越來越多,人類交互信息已不可避免地海量化,而巨量、無組織的信息給用戶尋找感興趣的信息增加了困難。面對(duì)巨大的網(wǎng)絡(luò)信息,如何發(fā)現(xiàn)用戶所需信息? 為了解決這個(gè)難題,w e b 挖掘技術(shù)應(yīng)運(yùn)而生。w e b 使用挖掘是w e b 數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)重要方面,它是通過挖掘w e b 服務(wù)器日志記錄以發(fā)現(xiàn)用戶訪問w e b 頁面的模式,挖掘有用模式和預(yù)測用戶瀏覽行為的技術(shù)。本文對(duì)w e b 使用挖掘進(jìn)行了系統(tǒng)、全面地歸納與分析。并在分析和總結(jié)國內(nèi)外相關(guān)資料的基礎(chǔ)上,深入研究了w e b 使用挖掘的二個(gè)階段:( 1 ) 通過對(duì)w e b 使用挖掘的數(shù)據(jù)預(yù)處理過程的研究,提出了結(jié)合網(wǎng)頁內(nèi)容與網(wǎng)站結(jié)構(gòu)進(jìn)行預(yù)處理的方法。具體實(shí)現(xiàn)過程是利用i p + a g e n 什參考頁面+ 網(wǎng)站拓樸結(jié)構(gòu)識(shí)別用戶,然后利用用戶訪問的網(wǎng)頁內(nèi)容進(jìn)行事務(wù)處理。利用這種方法對(duì)數(shù)據(jù)預(yù)處理后,結(jié)果具有較高的精確性。( 2 ) 采用蟻群混合聚類算法進(jìn)行用戶聚類分析。即利用蟻群聚類算法進(jìn)行初始聚類獲得初始聚類中心,然后用k 均值聚類算法改進(jìn)聚類的結(jié)果。在利用蟻群混合聚類算法實(shí)現(xiàn)用戶聚類算法中,考慮到用戶訪問行為以及內(nèi)容對(duì)用戶興趣的影響,改進(jìn)了蟻群混合聚類算法的相似性計(jì)算公式。改進(jìn)后的算法充分結(jié)合了兩種聚類算法的優(yōu)點(diǎn),解決了傳統(tǒng)聚類算法所面臨的一些問題,能產(chǎn)生比較理想的聚類結(jié)果,從而提高了聚類質(zhì)量。關(guān)鍵詞w e b 使用挖掘,預(yù)處理,用戶聚類,蟻群混合聚類算法a bs t r a c tw i t ht h er a p i dd e v e l o p m e n to fi n t e m e ta n di t sw i d eu s ei ns o c i a ll i f e ,t h e r ea r em o r ea n dm o r ei n f o r m a t i o nr e s o u r c e so ni n t e r n e t s ot h ei n f o r m a t i o nf o rp e o p l et oc o m m u n i c a t ei si n e v i t a b l yl a r g e r , b u tt h eh u g ea n du n o r g a n i z e di n f o r m a t i o nm a k e sp e o p l eh a r dt of i n dt h eo n et h e ya r ei n t e r e s t e di n t os o l v et h i sp r o b l e m ,w e bm i n i n gt e c h n i q u ee m e r g e s t h i st e c h n o l o g yi sa ni m p o r t a n tp a r ti nt h er e s e a r c hf i e l do fw e bm i n i n g i tm i n e st h eu s e f u lm o d ea n dp r e d i c t sb e h a v i o r so fu s e r s b r o w s i n gb ym i n i n gt h ew e bs e r v e rl o gt of i n dw e bp a g e su s e r sv i s i t t h i sp a p e rs u m m a r i z e sa n da n a l y z e sw e bu s a g em i n i n gs y s t e m a t i c a l l ya n dc o m p r e h e n s i v e l y , a n db a s e do na n a l y z i n gt h er e l e v a n tr e f e r e n c e sa th o m ea n da b r o a d ,i ta l s od i s c u s s e st h et w os t a g e so ft h et e c h n o l o g ya sf o l l o w s :( 1 ) t h ef n - s ts t a g ep r o p o s e st oc o m b i n ew e bc o n t e n ta n ds i t es t r u c t u r ep r e t r e a t m e n tm e t h o d sb yp r e p r o c e s s i n go fw e bu s a g em i n i n gd a t a t h i sp r o c e s su s e si p + a g e n t + r e f e r e n c ep a g e + s i t et o p o l o g yt oi d e n t i f yau s e r , a n dt h e nd e a lw i t ht h eb u s i n e s su s i n gw e bc o n t e n tu s e r sv i s i t a f t e rp r e p r o c e s s i n gt h ed a t ai nt h i sw a y , w ef i n dt h er e s u l t sa r ec o m p a r a t i v e l ya c c u r a t e ( 2 ) t h es e c o n ds t a g ei st ou s ea n tm i x e dc l u s t e r i n ga l g o r i t h mf o ru s e r sc l u s t e ra n a l y s i s t h a ti st os a y , w eu s ea n tc l u s t e r i n ga l g o r i t h mt og e ti n i t i a lc l u s t e rc e n t e r , t h e nu s ek - m e a n sc l u s t e r i n ga l g o r i t h mt oi m p r o v ec l u s t e rr e s u l t s i na c h i e v i n gu s e r sc l u s t e r i n ga l g o r i t h m ,t a k i n gu s e r s a c c e s sa n dt h ec o n t e n t i m p a c to nt h ei n t e r e s t so fu s e r s w ei m p r o v et h es i m i l a rf o r m u l ao f a n tm i x e dc l u s t e r i n ga l g o r i t h m t h ei m p r o v e da l g o r i t h mf u l l yc o m b i n e st h ea d v a n t a g e so fb o t hc l u s t e r i n ga l g o r i t h ma n ds o l v e ss o m ep r o b l e m so ft h et r a d i t i o n a lc l u s t e r i n ga l g o r i t h m ,w h i c hc a ng e tm o r ed e s i r a b l ec l u s t e r i n gr e s u l t s ,t h e r e f o r ei m p r o v et h eq u a l i t yo fc l u s t e r i n g k e yw o r d sw e bu s a g em i n i n g ,a n tm i x e dc l u s t e r i n ga l g o r i t h md a t ap r e p r o c e s s i n g ,u s e rc l u s t e r i n g ,原創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了論文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得中南大學(xué)或其他單位的學(xué)位或證書而使用過的材料。與我共同工作的同志對(duì)本研究所作的貢獻(xiàn)均已在在論文中作了明確的說明。作者簽名:童至圭圭日期:魚生7 一年旦月蘭日關(guān)于學(xué)位論文使用授權(quán)說明本人了解中南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留學(xué)位論文,允許學(xué)位論文被查閱和借閱:學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以采用復(fù)印、縮印或其它手段保存學(xué)位論文;學(xué)??筛鶕?jù)國家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文。作者簽名:莖生蔓色導(dǎo)師簽名亟 【之羔日期:衛(wèi)壘衛(wèi)年衛(wèi)月上細(xì)碩士學(xué)位論文第一章緒論1 1 研究課題背景第一章緒論隨著網(wǎng)絡(luò)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)成為一個(gè)巨大的、分布廣泛的、全球性的信息服務(wù)中心,它涉及到新聞、廣告、金融管理、教育、電子政務(wù)、電子商務(wù)等各方面的信息服務(wù)。如今的互聯(lián)網(wǎng)已經(jīng)是人們生產(chǎn)、生活中不可缺少的一部分。隨著互聯(lián)網(wǎng)被廣泛使用的同時(shí),人們對(duì)它的要求也越來越高。許多研究者將互聯(lián)網(wǎng)的研究集中在如何從海量數(shù)據(jù)和信息中高效地獲取有用知識(shí),如何從海量的信息中及時(shí)地獲取最新信息,如何提高信息檢索與推薦的智能水平,以及如何滿足各種用戶不同的個(gè)性化需求等方面,而解決這些問題的關(guān)鍵在于w e b使用挖掘技術(shù)。w e b 使用挖掘是w r e b 數(shù)據(jù)挖掘的一類,旨在通過對(duì)w e b 服務(wù)器日志文件進(jìn)行有效的數(shù)據(jù)預(yù)處理,發(fā)掘隱藏在日志數(shù)據(jù)背后的規(guī)律和模式,如關(guān)聯(lián)關(guān)系,時(shí)序關(guān)系,頁面類屬關(guān)系等。通過對(duì)w e b 日志文件的挖掘和對(duì)用戶訪問行為、頻度、訪問內(nèi)容等方面的分析,找出頻繁訪問路徑和用戶聚類,將挖掘結(jié)果應(yīng)用于網(wǎng)站中,能夠更好地理解用戶,發(fā)現(xiàn)用戶隱藏的興趣和群體用戶的行為規(guī)律,從而改進(jìn)我們的w e b 站點(diǎn)設(shè)計(jì),按照用戶的個(gè)性化信息進(jìn)行主動(dòng)式的推薦服務(wù),提高網(wǎng)站質(zhì)量。由于w e b 日志數(shù)據(jù)很多是不完整的、冗余的、錯(cuò)誤的數(shù)據(jù),造成w e b 使用挖掘預(yù)處理數(shù)據(jù)不夠精確,將網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)與預(yù)處理過程相結(jié)合,對(duì)預(yù)處理進(jìn)行改進(jìn),已成為當(dāng)前的熱點(diǎn)研究之一。另外w e b 服務(wù)器上的用戶訪問記錄數(shù)據(jù)的速度增長,要想在數(shù)量龐大的w e b 中快速提取出需要的信息成為人們面臨的一大難題,這給w r e b 使用挖掘帶來了新的發(fā)展機(jī)遇和技術(shù)挑戰(zhàn)。本文研究了將網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)相結(jié)合的數(shù)據(jù)預(yù)處理方法,得到預(yù)處理數(shù)據(jù);然后結(jié)合w e b 用戶瀏覽行為和瀏覽頁面內(nèi)容,采用蟻群混合聚類算法對(duì)結(jié)果進(jìn)行聚類分析,提高用戶聚類的質(zhì)量和效率。1 2 國內(nèi)外研究現(xiàn)狀早在1 9 9 6 年就有學(xué)者m s c h e n ,hm a n n i l a ,t y a n 提出了可以將數(shù)據(jù)挖掘方法用于w e b 研究領(lǐng)域使用。并將w e b 挖掘分為w e b 內(nèi)容挖掘、w e b 結(jié)構(gòu)挖掘和w e b 使用挖掘。最近幾年,w e b 使用挖掘發(fā)展迅速,主要經(jīng)歷了如下階段:碩十學(xué)位論文第一章緒論c h e n 等首先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于w e b 服務(wù)器同志,發(fā)現(xiàn)用戶的瀏覽模式。提出最大向前引用( m f r ) 的概念。將用戶會(huì)話分割成一系列的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁的瀏覽路徑;i b m 公司的w a t s o n 實(shí)驗(yàn)室開發(fā)的s p e e d t r a c e r 就是對(duì)c h e n 等算法的應(yīng)用。h a n 等人將w e b 服務(wù)器日志保存為數(shù)據(jù)立方體,然后在其上執(zhí)行o l a p 的各種操作,用于發(fā)現(xiàn)用戶的訪問模式1 2 】;并給出了關(guān)于w r e b 日志挖掘系統(tǒng)w e bl o g m i n e r 。yj x i e 首先提出w e b 使用的挖掘由過去的單用戶轉(zhuǎn)移到用戶組的分析上,并用聚類的方法分析相似的用戶組會(huì)話【3 1 。a b r a h a m 基于模糊聚類( f c m ) 構(gòu)建一個(gè)i - m i n e rw e b 使用挖掘系統(tǒng)【4 1 。為了改進(jìn)聚類的質(zhì)量,l a b r o c h e 、a b r a h a m 又提出引入了蟻群聚類的方法【5 l 。西安交大沈均毅教授等人提出以w e b 站點(diǎn)的u r l 為行、以u(píng) s e r i d 為列,建立u r l u s e r l d 關(guān)聯(lián)矩陣,元素值為用戶訪問次數(shù),然后對(duì)列向量進(jìn)行相似性分析得到相似客戶群體,對(duì)行向量進(jìn)行相似度量獲得相關(guān)的w e b 頁面,對(duì)相關(guān)頁面進(jìn)行下一步處理,以發(fā)現(xiàn)頻繁訪問路徑。提出了w e b 頁面和客戶群體的模糊聚類算法,在該算法中,首先根據(jù)客戶站點(diǎn)的瀏覽情況分別建立w e b 頁面和客戶的模糊聚類集,在此基礎(chǔ)上根據(jù)m a x m i i l 模糊相似度量規(guī)則構(gòu)造相應(yīng)的模糊相似矩陣,然后根據(jù)模糊相似矩陣直接進(jìn)行聚類【6 1 。西安交大的陸麗娜教授等人,采用基于事務(wù)的方法,提出了一種基于擴(kuò)展有向樹模型進(jìn)行用戶瀏覽模式識(shí)別的w e b 日志挖掘方法| 7 】。中國科技大學(xué)王熙法教授等人提出基于神經(jīng)網(wǎng)絡(luò)的w e b 用戶行為聚類分析方法。上海交大尤晉元教授等人引入w e b ,提出了基于頁面內(nèi)容和站點(diǎn)結(jié)構(gòu)的頁面聚類改進(jìn)算法【引。1 3 研究的目的與意義w e b 使用挖掘的結(jié)果可以客觀反映w e b 的組成、內(nèi)容和訪問頻度等重要信息,也能幫助理解用戶的網(wǎng)上訪問行為。利用這些信息,研究人員和網(wǎng)站開發(fā)者建立了一系列的應(yīng)用。( 1 ) w 曲個(gè)性化服務(wù)個(gè)性化服務(wù)1 9 l ( 也稱推薦系統(tǒng)) 就是盡可能使每個(gè)客戶在瀏覽網(wǎng)站時(shí),都有自己就網(wǎng)站的唯一客戶的感覺。盡可能地迎合每個(gè)客戶的瀏覽興趣,并且定期調(diào)整自己米適應(yīng)用戶瀏覽興趣的變化。個(gè)性化服務(wù)的表現(xiàn)形式有:推薦的超鏈接列碩士學(xué)位論文第一章緒論表,推薦的商品列表,推薦的廣告列表,經(jīng)裁剪的文本或圖像列表。它是通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,對(duì)用戶可能訪問的網(wǎng)頁進(jìn)行預(yù)測,從而實(shí)現(xiàn)主動(dòng)推薦的目的。( 2 ) w r e b 系統(tǒng)改善對(duì)于網(wǎng)絡(luò)服務(wù)提供商來說,用戶滿意度將是重要的指標(biāo)。對(duì)于用戶來說,服務(wù)質(zhì)量和服務(wù)器性能是關(guān)鍵。w e b 使用挖掘向網(wǎng)站建立者提供了各種關(guān)于網(wǎng)站架構(gòu)的信息,也提供了用戶在使用網(wǎng)站時(shí)的習(xí)慣,網(wǎng)絡(luò)管理員可以在w e b 緩存、網(wǎng)絡(luò)結(jié)構(gòu)安排、負(fù)載平衡和數(shù)據(jù)分布上進(jìn)行統(tǒng)籌。( 3 ) 網(wǎng)站修改網(wǎng)站設(shè)計(jì)者通過w e b 使用信息挖掘得到用戶的反饋,根據(jù)用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁鏈接結(jié)構(gòu)和內(nèi)容,對(duì)網(wǎng)站進(jìn)行優(yōu)化,從而更好的為用戶服務(wù)【l o 】。( 4 ) 商業(yè)智能商業(yè)智能就是將智能計(jì)算技術(shù)應(yīng)用于傳統(tǒng)商業(yè)領(lǐng)域,將商家中現(xiàn)在的數(shù)據(jù)轉(zhuǎn)化為知識(shí),從而提高數(shù)據(jù)分析能力,優(yōu)化業(yè)務(wù)過程,提高商家競爭力。1 4 論文研究內(nèi)容和組織結(jié)構(gòu)本論文首先系統(tǒng)地闡述了w e b 使用數(shù)據(jù)挖掘的整個(gè)過程,對(duì)數(shù)據(jù)預(yù)處理階段的幾個(gè)步驟進(jìn)行了詳細(xì)分析,提出了結(jié)合站點(diǎn)內(nèi)容和網(wǎng)站結(jié)構(gòu)進(jìn)行數(shù)據(jù)預(yù)處理的方法;然后在模式識(shí)別階段中針對(duì)傳統(tǒng)算法的缺陷,提出了蟻群混合聚類算法,并對(duì)算法權(quán)重值計(jì)算進(jìn)行改進(jìn)后應(yīng)用于用戶聚類算法中;最后一節(jié)提出一個(gè)性化推薦系統(tǒng)的模型。各章節(jié)內(nèi)容的組織如下:第一章緒論首先闡述了課題背景,對(duì)w e b 使用挖掘研究現(xiàn)狀進(jìn)行了詳細(xì)地分析;然后介紹了課題研究目的與意義。第二章w e b 使用挖掘介紹首先介紹數(shù)據(jù)使用挖掘技術(shù)的特點(diǎn)以及過程;然后對(duì)w e b 數(shù)據(jù)挖掘的數(shù)據(jù)采集、預(yù)處理、模式識(shí)別、模式分析四個(gè)過程分別進(jìn)行詳細(xì)介紹。第三章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理首先對(duì)網(wǎng)頁特征詞的提取方法進(jìn)行分析,并對(duì)網(wǎng)頁進(jìn)行聚類處理;然后對(duì)網(wǎng)站拓樸結(jié)構(gòu)圖的創(chuàng)建進(jìn)行了討論,在數(shù)據(jù)預(yù)處理階段數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話構(gòu)造、路徑補(bǔ)全、事務(wù)識(shí)別5 個(gè)階段分析的基礎(chǔ)上,提出了一種結(jié)合站點(diǎn)內(nèi)容、結(jié)構(gòu)進(jìn)行數(shù)據(jù)預(yù)處理的方法。第四章1 蟻群混合聚類算法首先對(duì)常見的聚類算法進(jìn)行了討論,然后對(duì)蟻群聚類算法進(jìn)行分析,提出了結(jié)合k 均值的蟻群混合聚類算法,并在用戶訪問模式中應(yīng)用。碩七學(xué)位論文第一章緒論第五章個(gè)性化挖掘系統(tǒng)的實(shí)現(xiàn)利用第三章、第四章介紹的算法,提出了一個(gè)實(shí)現(xiàn)個(gè)性化挖掘系統(tǒng)模型。第六章結(jié)束語論文研究工作的總結(jié)和對(duì)今后研究工作的展望。4碩士學(xué)位論文第二章w e b 使用挖掘介紹第二章w e b 使用挖掘介紹r o b e r tc o o l y 將w e b 使用挖掘定義為數(shù)據(jù)挖掘技術(shù)應(yīng)用在大型w - e b 資源中,分析w e b 站點(diǎn)的使用,w e b 使用挖掘的主要任務(wù)就是研究用戶的瀏覽行為,是對(duì)用戶在站點(diǎn)上的瀏覽路徑以及相應(yīng)的瀏覽時(shí)間進(jìn)行挖掘1 1 1 j 。和其它數(shù)據(jù)挖掘一樣,w e b 使用挖掘過程分為:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模式識(shí)別和模式分析等。本章將詳細(xì)介紹w e b 使用挖掘各階段。2 1 數(shù)據(jù)采集數(shù)據(jù)采集是w e b 使用挖掘過程中必不可少的部分,它的作用是收集與挖掘有關(guān)的數(shù)據(jù),常用的數(shù)據(jù)采集來源于w e b 服務(wù)器端、應(yīng)用服務(wù)器端、客戶端和代理端【1 2 】。隨著w e b 使用挖掘深入研究,為了提高挖掘質(zhì)量,在挖掘過程中通常會(huì)借助于網(wǎng)站結(jié)構(gòu)和頁面內(nèi)容。另外動(dòng)態(tài)網(wǎng)站的快速發(fā)展與應(yīng)用,w e b 數(shù)據(jù)庫【1 3 1 也成為數(shù)據(jù)采集的對(duì)象之一。2 2 數(shù)據(jù)預(yù)處理w e b 使用挖掘并不是簡單地把挖掘算法應(yīng)用于采集的數(shù)據(jù)之上,必須采用框架來處理挖掘過程,即在使用挖掘之前要執(zhí)行一系列的數(shù)據(jù)預(yù)處理過程,主要包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別等工作,它的目的是為了保證w e b 使用挖掘質(zhì)量。本節(jié)將介紹預(yù)處理各階段及常用方法。2 2 1數(shù)據(jù);爭化數(shù)據(jù)凈化是指刪除w e b 服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)f 1 4 1 ,也就是對(duì)日志文件進(jìn)行數(shù)據(jù)精簡,刪除w e b 日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng),刪除操作通常包括對(duì)無用的記錄刪減和對(duì)無關(guān)屬性刪減。w e b 日志文件記錄用戶關(guān)心的正文u r l 外,還記錄了請(qǐng)求頁上的圖像,聲音,視頻等文件,后者是無用的記錄。w e b 使用挖掘的目的是獲得用戶的行為模式,并不關(guān)心那些用戶沒有顯式請(qǐng)求的文件,所以通過檢查u r l 的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如:將同志中記錄的文件后綴名為g i f 、j p e g 和j p g 刪除;后綴名為c g i 的腳本文件也應(yīng)被刪除:另外過濾掉w e b 服務(wù)器拒絕頁面和非法請(qǐng)求的頁面等。具體實(shí)現(xiàn)時(shí)可以使用一個(gè)缺省的后綴名列表幫助刪除文件,列表必須根據(jù)當(dāng)碩士學(xué)位論文第二章w e b 使用挖掘介紹前分析的站點(diǎn)類型進(jìn)行修改,因?yàn)閷?duì)一個(gè)主要包含圖形文檔的站點(diǎn),日志中的g i f 和j p e g 文件可能代表了用戶的請(qǐng)求,就不能將圖形文件刪除。除了對(duì)記錄進(jìn)行刪減外,還要對(duì)屬性進(jìn)行刪減。w e b 日志記錄包括多項(xiàng)屬性,而與數(shù)據(jù)挖掘相關(guān)的只有用戶i p 地址、用戶i d 、用戶請(qǐng)求訪問的u r l 頁面及訪問時(shí)間,其他屬性可以去掉。2 2 2 用戶識(shí)別用戶識(shí)別的主要工作就是從經(jīng)過數(shù)據(jù)凈化的數(shù)據(jù)中識(shí)別每一個(gè)用戶。識(shí)別用戶的方法有多種,其中一種為利用c o o k i e s 和用戶注冊(cè)信息識(shí)別,但是這種方法對(duì)用戶行為進(jìn)行跟蹤侵犯了用戶的隱私權(quán),很難得到用戶的支持合作。多數(shù)用戶會(huì)從安全方面考慮關(guān)閉c o o k i e s ,或者因?yàn)椴辉感孤峨[私而使用假信息進(jìn)行注冊(cè)1 1 5 1o另一種是通過分析w e b 服務(wù)器日志文件中的i p 地址、a g e n t 等信息來識(shí)別用戶,常見的幾種用戶瀏覽網(wǎng)站情況:不同的用戶可以在同一時(shí)間通過一個(gè)簡單的代理訪問w e b 服務(wù)器。同一個(gè)用戶可能在不同的機(jī)器上訪問w e b 服務(wù)器。一個(gè)用戶可能在同一臺(tái)機(jī)器上使用不同的瀏覽器訪問w e b 服務(wù)器。不同的用戶使用同一臺(tái)機(jī)器瀏覽某一站點(diǎn)。由于本地緩存、代理服務(wù)器和防火墻的存在,為用戶動(dòng)態(tài)的分配i p 地址,正確識(shí)別出每一個(gè)用戶變得很復(fù)雜。2 2 3會(huì)話識(shí)別會(huì)話( s e s s i o n ) 是指用戶在一次訪問網(wǎng)站期間,從進(jìn)入網(wǎng)站到離開網(wǎng)站所進(jìn)行的系列活動(dòng)i 1 6 】。會(huì)話識(shí)別的目的是將用戶每次訪問的頁面劃分到不同的會(huì)話中,以會(huì)話為基本單元將有助于模式的挖掘分析。主要的會(huì)話構(gòu)造方法分為:( 1 ) 基于時(shí)間的啟發(fā)式方法這種方法只考慮用戶與網(wǎng)站之間會(huì)話的時(shí)間因素?;跁?huì)話時(shí)間的啟發(fā)式方法:用戶一次訪問時(shí)間不能超過時(shí)間閾值 ( 根據(jù)p e r k o w i t z 1 7 】統(tǒng)計(jì)結(jié)果,一般時(shí)間閾值o 為2 5 5 m i n ,業(yè)界通常取3 0 m i n ) 。在相同用戶的前提下,假設(shè)一個(gè)會(huì)話的第一個(gè)頁面請(qǐng)求的時(shí)間戳為t o ,那么這個(gè)會(huì)話中所有頁面請(qǐng)求的時(shí)問戳t t o + o ) 的頁面請(qǐng)求就是下一個(gè)新的會(huì)話的第一個(gè)訪問頁面。基于頁面訪問時(shí)問的啟發(fā)式方法:用戶在一個(gè)頁面停留的時(shí)間不會(huì)超過時(shí)間閾值6 ( 通常6 = 1 0 m i n ) 。在相同用戶的情況下,p 和q 是其依次發(fā)出相鄰的兩個(gè)頁面請(qǐng)求,t p 和t q 分別表示頁面請(qǐng)求p 和q 的時(shí)問戳( p q ) 。如果t q 氣p + 6 ,則頁面請(qǐng)求p 和q 屬于同一個(gè)會(huì)話,否則頁面請(qǐng)求p 和q 屬于兩個(gè)不同的會(huì)話。6碩士學(xué)位論文第二章w e b 使用挖掘介紹( 2 ) 基于引用的啟發(fā)式方法基于引用的啟發(fā)式方法主要思想是不考慮用戶瀏覽頁面的時(shí)間和在網(wǎng)站中活動(dòng)的時(shí)間,而是根據(jù)網(wǎng)站頁面的拓樸結(jié)構(gòu)和用戶的瀏覽活動(dòng)相結(jié)合來進(jìn)行會(huì)話構(gòu)造的方法。假定同一用戶依次發(fā)出相鄰的兩個(gè)頁面請(qǐng)求p 和q ( 其中p 屬于會(huì)話s ) ,t p 和t q 分別表示頁面請(qǐng)求p 和q 的時(shí)間戳( t p t q ) 。如果頁面請(qǐng)求q 的引用頁面曾經(jīng)在會(huì)話s 中出現(xiàn)過,那么q 就屬于會(huì)話s ;或者q 的引用頁為空并且t 。也 ( 為時(shí)間延遲,通常小于l m i n ) ,那么頁面請(qǐng)求q 也屬于會(huì)話s 。2 2 4 路徑補(bǔ)全由于本地緩存的存在,一些重復(fù)請(qǐng)求的頁面將不被記錄在w e b 服務(wù)器日志文件中,而這些頁面記錄又是w e b 使用挖掘所需要的數(shù)據(jù)。路徑補(bǔ)全就是利用請(qǐng)求頁面內(nèi)容推斷出一些緩存網(wǎng)頁的瀏覽情況,再將這些遺漏的請(qǐng)求補(bǔ)充到用戶會(huì)話中1 1 8 j 。常見的本地緩存進(jìn)行瀏覽方式:第一種是利用“后退”按鈕進(jìn)行后退;第二種是點(diǎn)擊一個(gè)已訪問過的鏈接:第三種是直接從瀏覽器的歷史記錄中訪問鏈接。由于無法知道使用何種方法來讀取緩存中的網(wǎng)頁,常用的路徑補(bǔ)全啟發(fā)知識(shí)就假設(shè)利用最常用的“后退”方法,來進(jìn)行緩存網(wǎng)頁讀取。檢查引用日志確定當(dāng)前請(qǐng)求來自哪一頁,如果在用戶的歷史訪問記錄上有多個(gè)頁面包含與當(dāng)前請(qǐng)求頁的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁的頁面作為當(dāng)前請(qǐng)求的來源,若引用日志不完整,可以使用站點(diǎn)拓樸結(jié)構(gòu)代替。2 2 5 事務(wù)識(shí)別用戶會(huì)話是具備自然事務(wù)特征的對(duì)象,但對(duì)數(shù)據(jù)挖掘來講,顯得粗糙,事務(wù)識(shí)別的主要任務(wù)就是把會(huì)話進(jìn)一步劃分成具有一定語義的事務(wù)。目前主要有3種事務(wù)識(shí)別算法:( 1 ) 引用長度在不考慮網(wǎng)絡(luò)延遲的情況下,用戶瀏覽頁面的時(shí)間,可以認(rèn)為是當(dāng)前頁請(qǐng)求和其下一頁請(qǐng)求之間的時(shí)間間隔。引用長度事務(wù)識(shí)別方法將w e b 頁面集合劃分為內(nèi)容頁和導(dǎo)航頁兩類。內(nèi)容頁面是用戶關(guān)心的信息,瀏覽時(shí)間較長;導(dǎo)航頁面是使用戶快速地找到所需信息而設(shè)置的路標(biāo)。可以采用頁面所含超鏈接的數(shù)量作為劃分標(biāo)準(zhǔn),當(dāng)頁面中超鏈接達(dá)到一定數(shù)目時(shí),可看成導(dǎo)航頁,這是一種靜態(tài)劃分法。另外考慮到一個(gè)頁面對(duì)于不同用戶的作用不同,可根據(jù)用戶花在這個(gè)頁面上的時(shí)間來劃分內(nèi)容頁與導(dǎo)航頁。該劃分方法認(rèn)為一個(gè)事務(wù)由多個(gè)導(dǎo)航頁面和一個(gè)內(nèi)容頁面組成,得出一個(gè)用戶會(huì)話中內(nèi)容頁面和導(dǎo)航頁面的分界,也就得到了該用戶會(huì)話所對(duì)應(yīng)的事務(wù)。( 2 ) 最大向自訂路徑碩十學(xué)何論文第二章w e b 使川挖掘介紹c h e n 等人提出的最大前向引用路徑來定義事務(wù)的概念【l9 1 ,并用它作為劃分事務(wù)的標(biāo)準(zhǔn),對(duì)于每個(gè)用戶會(huì)話,每一次前進(jìn)瀏覽的第一頁到回退的前一頁組成的路徑作為該用戶會(huì)話的一個(gè)事務(wù),該算法認(rèn)為用戶在回退前完成了一次有意義的頁面訪問過程,將緩存的因素考慮其中,消除了后退操作對(duì)訪問模式的影響,目前這種算法被廣泛應(yīng)用于使用挖掘系統(tǒng)當(dāng)中。( 3 ) 時(shí)間窗口基于時(shí)間窗的事務(wù)識(shí)別方法是將用戶的訪問操作按時(shí)間間隔分成一個(gè)個(gè)時(shí)間窗。假設(shè)有意義的事務(wù)模式的平均訪問時(shí)長與時(shí)間窗有關(guān)聯(lián),對(duì)于充分大的時(shí)間窗,每個(gè)事務(wù)模式將包含整個(gè)用戶的訪問操作。時(shí)間窗口算法也可以用來對(duì)其他分割算法所產(chǎn)生的結(jié)果事務(wù)進(jìn)行合并。例如,使用參引長度算法后,一個(gè)輸入?yún)?shù)為1 0 分鐘的合并時(shí)間窗口算法可以保證每個(gè)事務(wù)都有最小長度。2 3 模式識(shí)別模式識(shí)別是使用各種數(shù)據(jù)挖掘算法發(fā)掘隱藏在數(shù)據(jù)背后的規(guī)律和模式。模式識(shí)別可以采用眾多領(lǐng)域( 如統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別等) 的方法和算法,用于w e b 領(lǐng)域的主要算法有統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等。2 3 1 統(tǒng)計(jì)分析它是從w e b 站點(diǎn)中抽取有關(guān)網(wǎng)站訪問者知識(shí)的最常用的方法。通過分析會(huì)話文件和事務(wù)數(shù)據(jù)庫,可對(duì)諸如網(wǎng)頁視圖、瀏覽時(shí)間、導(dǎo)航路徑長度等做出不同種類的描述性統(tǒng)計(jì)分析。盡管這種方法缺乏深度,但這類知識(shí)有助于改進(jìn)系統(tǒng)性能、提高系統(tǒng)的安全性、便于站點(diǎn)修改,并能提供營銷決策支持。2 3 2 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則主要關(guān)注事務(wù)內(nèi)在的關(guān)系。在w e b 使用挖掘中,關(guān)聯(lián)規(guī)則挖掘就是挖掘用戶在一個(gè)訪問期間從服務(wù)器上訪問的頁面文件之間的關(guān)系,找出在某次服務(wù)器會(huì)話中經(jīng)常一起出現(xiàn)的相關(guān)頁面【2 0 l 。挖掘發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則往往是支持度超過預(yù)設(shè)閩值是一組訪問網(wǎng)頁,這些網(wǎng)頁之間可能并不存在直接的引用關(guān)系。例如,用a p r i o r i 算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則有可能發(fā)現(xiàn)訪問電子產(chǎn)品的網(wǎng)頁的用戶和訪問體育用品的網(wǎng)頁的用戶之間存在一定的聯(lián)系。2 3 3聚類聚類就是把整個(gè)數(shù)據(jù)分成若干組,并使組與組之f 8 j 的差距盡可能大,組內(nèi)數(shù)據(jù)的差異盡可能小。與分類不同,在丌始聚集之前用戶并不知道要把數(shù)據(jù)分成幾組,也不知道分組的其體標(biāo)準(zhǔn),聚類分析時(shí)數(shù)據(jù)集合的特征是未知的。聚類根據(jù)8碩+ 學(xué)位論文第二章w e b 使川挖掘介紹一定的聚類規(guī)則,將具有某種相同性的數(shù)據(jù)聚在一起,也稱為無監(jiān)督學(xué)習(xí)1 2 。2 3 4 分類分類技術(shù)主要是根據(jù)用戶群的特征挖掘用戶群的訪問特征( 某些共同特性) ,這些特性可將數(shù)據(jù)項(xiàng)映射到預(yù)先定義好的類中,即對(duì)新添加到數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行分類。在w e b 數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)訪問這些用戶填寫的個(gè)人信息或共同訪問模式求出訪問某一服務(wù)器文件的用戶特征。另外,通過用戶注冊(cè)表和在線調(diào)查表也可得到用戶的一些特性。但根據(jù)用戶注冊(cè)信息對(duì)用戶進(jìn)行分類,需要抽取出能最好地描述類別屬性特征的特征。分類方法有很多種,常使用有監(jiān)督的歸納學(xué)習(xí)算法。2 4 5 序列模式序列模式挖掘就是挖掘出數(shù)據(jù)集合間有時(shí)間序列關(guān)系的模式【2 2 】。這些序列所反映的用戶行為有助于商家印證其產(chǎn)品所處的生命周期階段,根據(jù)關(guān)心其產(chǎn)品的訪問者的瀏覽模式?jīng)Q定廣告的放置,針對(duì)特定用戶群來制作廣告,增加廣告的針對(duì)性。利用對(duì)w e b 日志數(shù)據(jù)進(jìn)行序列模式挖掘所獲重的知識(shí),有助于網(wǎng)站管理人員改善網(wǎng)站的組織,根據(jù)具有相同瀏覽模式的訪問所訪問的內(nèi)容來裁剪用戶與w e b 信息空間的交互,減少用戶過濾信息的負(fù)擔(dān);預(yù)測未來的訪問模式,了解w e b 正在發(fā)生的變化,改進(jìn)市場策略。相關(guān)序列模式的存取分析,可對(duì)服務(wù)器的緩存、預(yù)取和交換參數(shù)等進(jìn)行調(diào)整。另外,挖掘出來的一些暫時(shí)性的序列模式,可以分析企業(yè)戰(zhàn)略實(shí)施或網(wǎng)站產(chǎn)品的促銷效果。其它類型的空間序列模式分析可用于諸如趨勢分析、轉(zhuǎn)折點(diǎn)檢測和相關(guān)性分析等序列模式的發(fā)現(xiàn)。2 4 模式分析如果沒有合適的機(jī)制來輔助分析人員的理解,采用各種技術(shù)挖掘得到的模式數(shù)目龐大、表達(dá)晦澀,作用不大。模式分析技術(shù)和工具是近年來w e b 使用挖掘的一個(gè)新的熱點(diǎn)。這些技術(shù)包括:統(tǒng)計(jì),圖形可視化,可用性分析和智能查詢等 2 3 1o2 4 1可視化可視化是采用圖形和圖像表示抽象網(wǎng)絡(luò)中錯(cuò)綜復(fù)雜的關(guān)系;用文字描述解釋和闡述模式之間相互的作用,幫助人們理解w e b 中海量數(shù)據(jù)各部分之間的關(guān)系、指導(dǎo)和加速查找的過程。i d l 交互式數(shù)據(jù)語言是面向矩陣、語法簡單的第四代可視化語言,它支持o p e n g l 圖形加速、量化可視化表現(xiàn)、集成數(shù)學(xué)與統(tǒng)計(jì)學(xué)算法、方便的數(shù)據(jù)輸入輸出方式、跨平臺(tái)圖形用戶界面工具包、連接o d b c 兼容數(shù)據(jù)庫及各種程序連9碩十學(xué)位論文第二章w e b 使用挖掘介紹接工具等,是目前科學(xué)數(shù)據(jù)可視化方面較好工具。2 4 2 聯(lián)機(jī)分析處理o l a p 在基于多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上使用,目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它將傳統(tǒng)數(shù)據(jù)以多維數(shù)據(jù)模型重新組織,然后通過上卷、下鉆、切片和切塊、旋轉(zhuǎn)等操作實(shí)現(xiàn)對(duì)多個(gè)抽象層上的知識(shí)發(fā)現(xiàn)。w e b 服務(wù)器訪問數(shù)據(jù)隨時(shí)間海量增長以及用戶信息的數(shù)據(jù)存儲(chǔ)呈現(xiàn)分布的趨勢,表明了w e b 使用數(shù)據(jù)的分析通常需要大型數(shù)據(jù)倉庫的支持。o l a p 技術(shù)整理信息的結(jié)構(gòu),允許基于主題對(duì)數(shù)據(jù)進(jìn)行查詢和分析,快速完成報(bào)表和數(shù)據(jù)分析功能,分析人員或管理人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互的存取,這些與可視化工具一起,大大增加w e b 使用挖掘的能力和靈活性。2 4 3知識(shí)查詢機(jī)制知識(shí)查詢機(jī)制首先分析查詢目的,然后自動(dòng)搜索相關(guān)的規(guī)則、模式以及其它知識(shí),可以幫助分析用戶的目的,用智能的方式回答查詢,它不僅可以直接列出用戶所指定屬性的項(xiàng)目列表,還可以向用戶提供輔助決策的附加信息。另外,為了使用戶將焦點(diǎn)集中有某些感興趣的細(xì)節(jié)上,常采用二種方法:一是在挖掘之前,在數(shù)據(jù)庫上設(shè)置約束,使挖掘只在一部分?jǐn)?shù)據(jù)中進(jìn)行;二是挖掘過程中執(zhí)行查詢語句,不斷篩選出需要的信息,將無用的數(shù)據(jù)過濾掉。2 5 本章小結(jié)w e b 使用數(shù)據(jù)挖掘的主要目的是用于發(fā)現(xiàn)用戶訪問站點(diǎn)的瀏覽模式,主要關(guān)注的就是如何從w e b 數(shù)據(jù)中發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則、序列規(guī)則、聚類分析、依賴模式等知識(shí)類型。本章對(duì)w e b 使用挖掘的數(shù)據(jù)采集、預(yù)處理、模式識(shí)別以及模式分析四個(gè)階段進(jìn)行了介紹,并對(duì)常用的預(yù)處理方法進(jìn)行了分析。本章是第三章、第四章的研究基礎(chǔ)。l o碩士學(xué)位論文第三章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理第三章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理預(yù)處理是w e b 使用挖掘的重要階段,也是工作量較大的一部分,預(yù)處理的好壞將直接影響著挖掘結(jié)果的準(zhǔn)確性、可信性。由于本地緩存、代理服務(wù)器和防火墻的存在,使得w r e b 日志中的數(shù)據(jù)并不精確,直接在其上進(jìn)行預(yù)處理操作非常困難,而且可能產(chǎn)生錯(cuò)誤預(yù)處理結(jié)果。網(wǎng)頁內(nèi)容、網(wǎng)站結(jié)構(gòu)影響著w e b 使用挖掘的各階段1 2 4 1 ,w r e b 使用挖掘的成功與否和網(wǎng)站的結(jié)構(gòu)設(shè)計(jì)和內(nèi)容安排有著密不可分的聯(lián)系,反過來,w e b 使用挖掘的結(jié)果又能服務(wù)于網(wǎng)站結(jié)構(gòu)和內(nèi)容的設(shè)計(jì)與安排,二者相輔相成。如果在預(yù)處理階段結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站拓?fù)浣Y(jié)構(gòu),對(duì)提高挖掘結(jié)果起著積極的作用。本章圍繞結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)進(jìn)行預(yù)處理這一觀點(diǎn)展開研究,首先介紹網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的作用及處理方法,然后在此基礎(chǔ)上提出結(jié)合網(wǎng)站內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理方法,該方法在區(qū)分用戶上有較高的精度,為模式識(shí)別階段提供較好的數(shù)據(jù)基礎(chǔ)。3 1 網(wǎng)頁內(nèi)容處理用戶所訪問過的網(wǎng)頁,可以認(rèn)為是用戶感興趣的頁面,對(duì)這些網(wǎng)頁的內(nèi)容進(jìn)行準(zhǔn)確描述,提取出頁面的主題信息,再將信息應(yīng)用于挖掘中,有助于提高挖掘結(jié)果的準(zhǔn)確性1 2 引。也就是說,主題信息提取的準(zhǔn)確性將直接影響網(wǎng)頁內(nèi)容的描述。由于w e b 頁面的主題信息可以通過網(wǎng)頁的特征詞來反映,那么對(duì)網(wǎng)頁特征詞的提取就是對(duì)網(wǎng)頁內(nèi)容分析的重點(diǎn)和難點(diǎn)。對(duì)網(wǎng)頁特征詞的提取過程包括頁面分詞,特征評(píng)估,特征權(quán)重的計(jì)算等步驟。為了提高特征詞提取結(jié)果的準(zhǔn)確性,在提取之前還需要對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析處理,包括了文檔采集、網(wǎng)頁凈化,提取之后進(jìn)行文本聚類,將相似文本聚集在相似文本集中【2 6 1 ,對(duì)用戶興趣的分析有很重要的作用。網(wǎng)頁內(nèi)容處理的具體過程如圖3 1 。圖3 1 網(wǎng)頁處理的一般過程3 1 1網(wǎng)頁;爭化因特網(wǎng)上的很多頁面都是由一系列的h t m l 標(biāo)記內(nèi)容組成。根據(jù)w 3 c 組織對(duì)h t m l 語言的定義,h t m l 頁面是一層層標(biāo)記的嵌套體,諸如 的形式,有一個(gè)丌始標(biāo)記就應(yīng)該有一碩十學(xué)位論文第三章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理個(gè)結(jié)束標(biāo)記與它相對(duì)應(yīng)l ! 。實(shí)際中的網(wǎng)頁并不完全遵循這樣的規(guī)范化格式,就算h t m l 標(biāo)記只有開始沒有結(jié)束,往往也能顯示正確的內(nèi)容。另外網(wǎng)頁通常由體現(xiàn)內(nèi)容的網(wǎng)頁的“主題”信息和與主題內(nèi)容無關(guān)的“噪音”部分組成。如一張新聞網(wǎng)頁中的新聞部分,是主題內(nèi)容,而導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問卷等部分則是“噪音”內(nèi)容。噪音內(nèi)容通常分布在主題內(nèi)容周圍,有時(shí)也夾雜在主題內(nèi)容中間,噪音內(nèi)容一般無內(nèi)容相關(guān)性。網(wǎng)頁中的噪音內(nèi)容不僅給w e b 上基于網(wǎng)頁內(nèi)容的應(yīng)用系統(tǒng)帶來困難,也給基于網(wǎng)頁超鏈接指向的應(yīng)用系統(tǒng)帶來困難??焖贉?zhǔn)確地識(shí)別并清除網(wǎng)頁內(nèi)的噪音內(nèi)容( 即網(wǎng)頁凈化) 是提高w e b 在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪音信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化,提高信息提取的效率。對(duì)于w e b 文檔而言,凈化后的h t m l 頁面應(yīng)該只保存網(wǎng)頁內(nèi)容文本,重要標(biāo)簽等信息。通過對(duì)凈化的網(wǎng)頁進(jìn)行分析,發(fā)現(xiàn)h t m l 文檔中隱藏了很多的規(guī)律。具體表現(xiàn)在有一些標(biāo)記信息在文檔中影響不大,如段落標(biāo)記9 ,換行標(biāo)記 ,塊標(biāo)記 p 胗等:而有一些信息卻是用戶非常關(guān)心的,如 、 、 等,進(jìn)一步分析后發(fā)現(xiàn)其重要性各有不同,按遞減依次排列如下:文檔標(biāo)題:文本標(biāo)題: - 特殊文字樣式: ( 粗體) , ,q j ( 下劃線) , ( 斜體)鏈接: 文字吲a 值得一提的是 標(biāo)記,如 ,雖然 標(biāo)記中的數(shù)據(jù)能夠提供了一些非常有用信息,但其格式不規(guī)范,有些網(wǎng)頁中出現(xiàn),而有些網(wǎng)頁又不出現(xiàn),還有一些網(wǎng)站為了提高搜索命中率,濫用該標(biāo)記,因而只能起借鑒作用。在得到w e b 信息相應(yīng)的文檔以后,以標(biāo)點(diǎn)符號(hào)為邊界把文檔切分成多個(gè)較短的字符串,并去掉其中多余的空格,變不規(guī)范格式為標(biāo)準(zhǔn)格式,為后面的分詞做準(zhǔn)備。3 1 2 特征詞提取特征詞提取是網(wǎng)頁處理過程中的重點(diǎn)和難點(diǎn),它是用戶興趣模型創(chuàng)建的基礎(chǔ),特征詞提取的準(zhǔn)確度越高,所構(gòu)造的用戶興趣模型與用戶需求就越接近。為了得到精確的特征詞,需要經(jīng)過一系列的過程e 引??梢圆捎庙撁娣衷~、特征評(píng)分函數(shù)、權(quán)重計(jì)算等過程將網(wǎng)頁的特征詞提取并賦予權(quán)重值,最后用向量空| 日j 法表示。文獻(xiàn)p 91 中常把名訓(xùn)和動(dòng)詞等有實(shí)際意義的詞作為特征詞。特征詞提耿葉l碩+ 學(xué)位論文第三章結(jié)合網(wǎng)頁內(nèi)容希l 網(wǎng)站結(jié)構(gòu)的預(yù)處理兩個(gè)關(guān)鍵性的問題是評(píng)估函數(shù)的選取和特征詞的選取。1 頁面分詞一個(gè)分詞問題從直觀上來說,就是要把連接的文本字符串序列進(jìn)行邊界劃分,輸出一系列的中文詞串( 詞條) 。對(duì)于中文文檔來說,詞與詞之間沒有分隔符,一個(gè)句子是由一串連續(xù)的漢字組成,漢語中的詞具有不同的長度,相同的字可出現(xiàn)在許多不同的詞中,還有許多詞是由單個(gè)字組成,這使得中文分詞是一個(gè)不平常的工作。由于存在許多可能的邊界,可以這樣分,也可以那樣分,這就表示發(fā)生切分歧義,需要運(yùn)用某種策略來選擇一處正確的分詞方案。漢詞的分詞方法可以分為基于詞典的切分方法和基于概率統(tǒng)計(jì)的切分方法。本文采用一種基于詞典的切分方法,它是目前最常使用的簡單有效的方法,其基本思想是:主要依據(jù)詞典信息,而不使用規(guī)則知識(shí)和統(tǒng)計(jì)信息,按一定的策略將漢字與詞典中的詞逐一匹配,如果匹配成功,就加以切分。匹配的方法有正向匹配法和逆向最大匹配法,二者基本原理相同,不同的是分詞切分的方向,前者從漢字字串的開始抽取,后者從尾端開始抽取,另外使用的分詞詞典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取末端的字詞作為查找匹配詞,若匹配失敗,則去掉最前面的一個(gè)字,繼續(xù)查找。據(jù)統(tǒng)計(jì),逆向最大匹配法比正向匹配法的誤差要小,產(chǎn)生歧義的現(xiàn)象也比較少。例如切分字段“大學(xué)生活”,正向匹配法的切分結(jié)果為“大學(xué)生活”,而逆向最大匹配法利用逆向掃描,可得正確的切分結(jié)果“大學(xué)生活”。2 特征評(píng)估函數(shù)目前對(duì)文本特征提取的研究中,特征提取一般是通過構(gòu)造一個(gè)特征評(píng)估函數(shù),把測量空間的數(shù)據(jù)投影到特征空間,得到數(shù)據(jù)在特征空間的值,然后根據(jù)特征空間中的值對(duì)每個(gè)特征詞進(jìn)行評(píng)估,特征選擇就成了選擇值最高的若干個(gè)特征。特征選取中常見的特征評(píng)估函數(shù)有1 3 0 】:文檔頻率、信息增益、互信息等。這些方法的基本思想都是基于閾值的統(tǒng)計(jì)方法,即對(duì)每一個(gè)特征詞,計(jì)算其統(tǒng)計(jì)值,然后設(shè)定一個(gè)閾值t ,把值小于t 的那些特征詞濾掉,剩下的即認(rèn)為是有效特征。( 1 ) 文檔頻率文檔頻率是訓(xùn)練集中出現(xiàn)某個(gè)特征詞的文檔數(shù)。其主要思想是:在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它出現(xiàn)的文檔次數(shù),若該項(xiàng)的d f 值小于某個(gè)閾值則將其剔除,若d f 值大于某個(gè)閾值也將其去掉,因?yàn)閐 f 值太低則說明該特征缺乏代表性,而d f 值太高則說明缺乏區(qū)分度?;谖臋n頻率的特征選擇是最簡單的特征選取手段。它通過計(jì)算線性近似復(fù)雜度來衡量巨大的文檔集,被認(rèn)為是一個(gè)提高碩十學(xué)位論文第三章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理效率的有效方法。( 2 ) 信息增益信息增益表示文本中包含某一特征值時(shí)文本類的平均信息量。它定義為某一特征詞在文本中出現(xiàn)前后的信息熵之差,即該特征為該類別提供的信息量的大小。一般方法是,根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各特征詞的信息增益,再按信息增益的對(duì)于特征詞d 和文檔類別c ,信息增益通過考察c 中出現(xiàn)和不出現(xiàn)的d 的文檔頻率衡量d 對(duì)于c 的信息增益【3 l l ,當(dāng)信息增益小于某個(gè)預(yù)定的值時(shí),特征詞d就要被從特征集中去除。此方法度量了當(dāng)知道一個(gè)特征詞在文檔中,進(jìn)行類預(yù)測所獲得的信息比特?cái)?shù)。信息增益的定義如下:刪 c ) - p 莩p ( 叫) l o g 篙+ p ( _ ) 軍聃m g 籬、7公式( 3 1 :7e f v i o ( d ) = i g ( d ,o公式( 3 2 )其中p ( c i l d ) 表示文本中出現(xiàn)特征詞d 時(shí),文本屬于c i 的概率,p ( c i l d ) 表示文本中不出現(xiàn)特征詞d 時(shí)文本屬于c i 的概率;p ( c i ) 表示類別出現(xiàn)的概率;p ( d )表示d 在整個(gè)文本訓(xùn)練集中出現(xiàn)的概率。本文采用了信息增益進(jìn)行特征項(xiàng)抽取的判斷標(biāo)準(zhǔn),其算法過程如下:初始情況下,該特征項(xiàng)集合包含所有該類中出現(xiàn)的詞。對(duì)于每個(gè)詞,計(jì)算詞i g 值對(duì)于該類中所有的詞,依據(jù)上面計(jì)算的i g 值排序。抽取一定數(shù)量的詞作為特征項(xiàng),具體需要抽取多少維的特征項(xiàng),目前沒有很好的解決方法,一般采用先定初始值,然后根據(jù)實(shí)驗(yàn)測試和統(tǒng)計(jì)結(jié)果確定最佳值,一般初始值定在幾千左右。將每類中所有的訓(xùn)練文本,根據(jù)抽取的特征項(xiàng),進(jìn)行向量維數(shù)壓縮,精簡向量表示。其他抽取特征項(xiàng)的算法,除了判斷函數(shù)上有所差別,主要過程類似。3 特征項(xiàng)的權(quán)重不同的特征項(xiàng)以及它出現(xiàn)的頻率對(duì)于文檔的重要程序和區(qū)分度是不同的,因此對(duì)文本進(jìn)行形式化處理的時(shí)候,需要對(duì)特征詞進(jìn)行賦權(quán)。以前的研究中,通??紤]二個(gè)方面:一個(gè)詞在某篇文檔中出現(xiàn)的次數(shù)越多,則對(duì)識(shí)別文檔的貢獻(xiàn)越大;一個(gè)詞在不同文檔中出現(xiàn)的次數(shù)越多,則它區(qū)分不同的文檔的能力越弱。以往權(quán)值計(jì)算的方法有很多,如詞頻權(quán)重,t f - i d f 權(quán)重等m 。本文采用提1 4碩十學(xué)位論文第二章結(jié)合網(wǎng)頁內(nèi)容和網(wǎng)站結(jié)構(gòu)的預(yù)處理出一種基于熵概念的權(quán)重計(jì)算方法。因?yàn)樘卣魈崛『吞卣鬟x擇的評(píng)估函數(shù),都是評(píng)價(jià)特征項(xiàng)中所包含的信息量多少的方法??梢哉J(rèn)為特征提取和特征選擇方法是對(duì)特征詞重要性的某種刻畫,因而用這些特征評(píng)估函數(shù)計(jì)算出的值可以作為“特征項(xiàng)權(quán)重”參加計(jì)算。采用這種方法對(duì)特征詞進(jìn)行賦權(quán)公式:w ( d o ) = t f ( d ) 幸e f v ( d )公式( 3 3 )或者w ( d i 滬t f i d f ( d ) 幸e f v ( d )公式( 3 4 )e f v ( d ) 為使用權(quán)值評(píng)估函數(shù)所得到的值,由公式( 3 2 ) 計(jì)算得到。通過3 1 1 節(jié)對(duì)凈化后的頁面進(jìn)行分析,得出w e b 網(wǎng)頁特征詞的權(quán)重不僅與其在文檔中出現(xiàn)的頻率而且還與位置相關(guān),但以上方法只考慮了特征詞在文檔中出現(xiàn)的頻率對(duì)權(quán)重值的影響。因此,下文介紹綜合考慮頻率和位置的w e b 文檔的權(quán)值計(jì)算方法。通過對(duì)網(wǎng)頁h t m l 文檔結(jié)構(gòu)的分析,發(fā)現(xiàn)文檔中某些特殊標(biāo)記的特征詞重要性相對(duì)較高些,主要有如下幾種【3 2 】:在文檔標(biāo)題 出現(xiàn)的特征詞,權(quán)重最大。在文本標(biāo)題 , , 渺出現(xiàn)的特征詞,權(quán)重較大。特殊文字樣式 等出現(xiàn)的特征詞,權(quán)重中等。文本內(nèi)容中出現(xiàn)的特征詞,權(quán)重比上面三種小些??紤]到h t m l 標(biāo)記對(duì)權(quán)值的影響,定義九表示出現(xiàn)在網(wǎng)頁中的帶有標(biāo)記0的特征詞氐的權(quán)重調(diào)整因子( h t m l 標(biāo)記與權(quán)重調(diào)整因子的關(guān)系參看表3 一1 ) ,表3 - 1 權(quán)重調(diào)整因子取值標(biāo)記權(quán)重調(diào)整因子7654 3結(jié)合網(wǎng)頁結(jié)構(gòu)特征的權(quán)重函數(shù)h t w ( d i j ) 定義為:h d w i ( d , j ) = 砧w ( d ) = ( 如xt f ( d , j , 護(hù)) e f v ( d i , 目) )公式( 3 - 5 )占或者h(yuǎn) ,w e ( d , i ) = 乃w ( d ) = ( 乃t f - i d f ( d , j , 臼) xe f v ( d f ,秒) )公式( 3 6 )口為了驗(yàn)證該方法的有效性,本文收集了某門戶類網(wǎng)站的部分網(wǎng)頁進(jìn)行實(shí)驗(yàn),碩十學(xué)位論文第三章結(jié)合網(wǎng)頁內(nèi)容利網(wǎng)站結(jié)構(gòu)的預(yù)處理采用t f i d f 以及信息增益做特征評(píng)估函數(shù),進(jìn)行不同特征加權(quán)算法的實(shí)驗(yàn)比較。實(shí)驗(yàn)結(jié)果如表3 2 。表3 - 2 不同特征加權(quán)算法的實(shí)驗(yàn)比較t f i d fh a w i ( d )h d w 2 ( d )查全率查準(zhǔn)率查全率查準(zhǔn)率查全率查準(zhǔn)率交通1 0 09 6 7 7 49 8 3 3 38 5 5 0 71 0 09 6 7 7 4體育1 0 09 9 0 9 99 8 1 8 21 0 01 0 09 9 0 9 9軍事1 0 01 0 01 0 01 0 01 0 01 0 0醫(yī)藥9 8 3 3 35 7 8 4 39 8 3 3 35 8 7 0 69 5 5 0 06 3 5 8 7政治6 7 3 4 77 4 1 5 77 0 4 0 88 2 1 4 38 1 6 3 36 4 5 1 6教育9 3 8 4 69 1 0 4 59 6 1 5 49 8 4 2 59 6 1 5 41 0 0環(huán)境1 0 01 0 01 0 01 0 09 9 3 3 39 9 3 3 3經(jīng)濟(jì)9 4 6 6 79 9 3 0 19 3 3 3 39
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初級(jí)統(tǒng)計(jì)師統(tǒng)計(jì)專業(yè)知識(shí)2025年統(tǒng)計(jì)調(diào)查項(xiàng)目管理與執(zhí)行試題
- 教聯(lián)體助力鄉(xiāng)村教育振興的路徑探析
- 基于大數(shù)據(jù)的健美操發(fā)展趨勢分析
- 2025私營企業(yè)雇主與員工勞動(dòng)合同
- 應(yīng)急救護(hù)培訓(xùn)在特殊學(xué)生群體中的實(shí)施效果
- 《幼兒歌曲彈唱》課件-第四單元
- 農(nóng)村數(shù)字化轉(zhuǎn)型對(duì)資源盤活的促進(jìn)作用
- 研究生涯探秘
- 黑色素瘤診療指南2022年版
- 高一英語學(xué)習(xí)指南
- 2024年養(yǎng)老護(hù)理員(三級(jí))資格理論考試題庫(濃縮500題)
- 中國急性胰腺炎診治指南解讀張志強(qiáng)
- 靜脈治療并發(fā)癥的預(yù)防及處理護(hù)理課件
- tws藍(lán)牙耳機(jī)點(diǎn)膠工藝
- 環(huán)烯醚萜類成分分析
- GB/T 43602-2023物理氣相沉積多層硬質(zhì)涂層的成分、結(jié)構(gòu)及性能評(píng)價(jià)
- 《鼠小弟的生日》
- 全麻術(shù)后舌后墜護(hù)理
- 發(fā)展?jié)h語-初級(jí)讀寫-第一課-你好
- 管理演員管理制度
- 接觸網(wǎng)設(shè)備與結(jié)構(gòu)-吊弦
評(píng)論
0/150
提交評(píng)論