




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
微博熱點話題的文本特征研究的相關理論與技術綜述目錄TOC\o"1-2"\h\u11590微博熱點話題的文本特征研究的相關理論與技術綜述 194251.1熱點話題發(fā)現(xiàn)相關概述 128341.2文本預處理 2231271.1.1中文分詞 2277401.1.2文本去停用詞 3258511.3文本表示 493471.3.1基于向量空間模型的文本表示 424151.3.2基于主題模型的文本表示 5207521.3.3基于詞嵌入模型的文本表示 5133581.4文本特征選擇及相似度計算 8177331.4.1文本特征選擇 8269701.4.2文本相似度計算 989571.5傳統(tǒng)聚類方法 1016543(1)基于劃分的聚類算法 114999(2)基于層次的聚類算法 1113596(3)基于密度的聚類算法 1226725(4)基于圖論的聚類算法 124512(5)基于網(wǎng)格的聚類算法 1227424(6)基于模型的聚類算法 13173381.6頻繁詞集相關概述 1373061.6.1頻繁詞集相關理論 13298111.6.2頻繁詞集挖掘算法 141.1熱點話題發(fā)現(xiàn)相關概述話題檢測與跟蹤技術(TopicDetectionandTracking,TDT)最早由美國國防部高級研究計劃署等提出,TDT作為一種信息處理技術,其主要任務是對文字形態(tài)的新聞媒體信息流進行分割,自動檢測出不同的新聞事件,在提取出新話題的同時,將以某種合適的方式將檢測出的話題呈現(xiàn)給用戶。話題檢測任務作為TDT的主要任務之一,其目的是識別出系統(tǒng)預先未知的新興話題并對話題進行展示。在該類任務中,首先對預處理后的文本進行建模,轉化成計算機能夠處理的表示形式,而后采用合適的聚類算法對文本進行聚類,以獲得不同的聚類簇,同時達到簇內(nèi)內(nèi)容緊密相關,簇間內(nèi)容明顯分離的效果,并且每個聚類簇表達一個獨立的話題[30]。目前,話題檢測技術被越來越多的應用于微博、論壇等社交網(wǎng)絡平臺中,是網(wǎng)絡輿情的重要研究方向之一。微博熱點話題發(fā)現(xiàn)作為微博輿情研究中的重要環(huán)節(jié),也是在話題檢測任務的基礎上進行的。對于發(fā)現(xiàn)的話題結果,以某種合適的方式對話題進行熱度評估分析,從而得出熱點話題作為微博輿情的重要參考。綜上所述,微博熱點話題發(fā)現(xiàn)的一般流程如圖2-1所示。圖2-1微博熱點話題發(fā)現(xiàn)流程圖Fig.2-1Flowchartofhottopicdiscoveryonweibo微博熱點話題發(fā)現(xiàn)的流程首先是微博數(shù)據(jù)的采集,主要是利用爬蟲等方法從新浪微博上爬取微博數(shù)據(jù),并對數(shù)據(jù)進行整理與存儲;為了得到規(guī)范的數(shù)據(jù)集,隨后進行數(shù)據(jù)預處理,包括中文分詞及去停用詞;接著進行文本特征提取,以方便后續(xù)聚類研究;之后通過構建文本表示模型對處理好的微博數(shù)據(jù)集進行文本表示,利用聚類算法對微博文本聚類形成話題簇,最后通過熱點話題評估方法得到最終所研究的熱點話題。1.2文本預處理1.1.1中文分詞句子中文分詞是數(shù)據(jù)預處理中非常重要的一個環(huán)節(jié),中文句子不同于英文句子以單詞之間的空格作為自然分隔符,僅僅根據(jù)空格或標點符號就能對英文句子進行切分。在中文等自然語言中,詞與詞之間緊密相連沒有類似空格的區(qū)分標志,因此,中文分詞要比英文分詞復雜很多,需要用中文分詞技術將中文句子分割成若干個有意義的詞匯,例如“推動線上消費規(guī)范健康發(fā)展”的分詞結果為:“推動/線上/消費/規(guī)范/健康/發(fā)展”。目前主流的中文分詞方法主要包括:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法[31]三大類。(1)基于字符串匹配的分詞方法又叫字典匹配法,該方法需要借助外部的中文詞庫作為匹配的詞典,按照一定的策略將待分詞的文本與詞典中的詞語一一進行檢查,將檢查結果相同的字符串劃分為一個詞。這種分詞方法中,詞典的質(zhì)量將會直接影響到分詞結果。(2)基于統(tǒng)計的分詞方法不用預設好分詞詞典,而是計算相鄰字符在語料中的共同出現(xiàn)頻率,并由此來判斷該字符串是否為一個詞語,如果相鄰字符在語料中同時出現(xiàn)的概率越大,則表明它們組合為一個詞的可能性也就越大。該方法用到的典型模型有n元語法模型、條件隨機場模型和隱馬爾可夫模型等。(3)基于理解的分詞方法基本思想是通過儲備大量的人類語言知識,讓計算機在充分學習到句子的語法語義信息,模擬人類在正常交流中對句子的理解,來實現(xiàn)計算機自動中文分詞。由于漢語復雜又難懂,具有一定的語言特殊性,因此基于理解的分詞方法目前還處在研究實驗階段。隨著我國對中文分詞方法的不斷研究與探索,已經(jīng)出現(xiàn)了一些技術成熟且應用廣泛的中文分詞工具,例如清華大學的THULAC漢語詞匯分析工具包,中國科學院計算所開發(fā)的NLPIR/ICTCLAS漢語分詞系統(tǒng),以及基于python語言實現(xiàn)的jieba分詞等。Jieba分詞憑借其精確度高、速度快的特點在國內(nèi)被研究者廣泛應用。因此,本文使用jieba作為中文文本的分詞工具。1.1.2文本去停用詞停用詞主要是指在自然語言中具有一定功能但沒有具體價值的字詞。主要分為兩類,一類是在文本出現(xiàn)過于頻繁,同時又沒有太多實際含義的詞,比如中文中的“表示”、“就”、“我”等詞在大多數(shù)文本中都會出現(xiàn),對文本處理造成一定的干擾。第二類主要是一些語氣助詞、非語素詞、連詞等,比如“的”、“了”、“這”、“嗎”等。這些詞不對句子意思起關鍵作用,反而會增加句子維度,不利于后續(xù)分析,因此需要對這兩類詞進行刪除,從而減少存儲空間,提高文本分析效果。常用的去除停用詞的方法是構建停用詞表,也就是停用詞語列表[32],然后依次掃描文本數(shù)據(jù)分詞結果的每個單詞,和停用詞表進行比對,將包含在停用詞表中的文本詞語進行剔除,直到文本數(shù)據(jù)中的所有單詞比對完為止。目前,國內(nèi)已經(jīng)有多個針對中文文本的標準停用詞表,如哈工大停用詞表、百度停用詞表[33]等。1.3文本表示計算機是不能讀懂文字的,因此我們需要對文本特征進行處理和轉化,將文字形式的文本轉化為計算機能夠識別的二進制形式,即文本表示(TextExpression)。文本表示的合適與否直接關系到后續(xù)話題發(fā)現(xiàn)的效率和準確率,因此,文本表示模型的選取是非常重要的環(huán)節(jié)。目前,主流的文本表示方法大致可以歸納為基于向量空間模型、基于主題模型和基于詞嵌入模型的文本表示方法。1.3.1基于向量空間模型的文本表示向量空間模型(VectorSpaceModel,VSM)最初由Salton等人[34]提出,并逐漸在文本分析中得到了廣泛應用。向量空間模型將文本數(shù)據(jù)集映射到多維空間向量實現(xiàn)文本表示,向量的每一個維度代表文本的一個特征詞。假設語料庫中有文本集合,每個文本由個特征詞表示,根據(jù)每個特征詞在文本中的重要性賦予其一定的權重,則文本可以建模為的形式。其中特征詞權重計算方法目前應用最為廣泛的是TF-IDF,某個特征詞的TF-IDF權重值越大,表明該特征詞在其所在文本中的重要程度越大,同時對文本間的表征能力也就越強。文本向量空間模型如圖2-2所示。圖2-2文本向量空間模型Fig.2-2Textvectorspacemodel向量空間模型利用TF-IDF權重機制將文本轉化為向量,以向量之間的距離來表達兩個文本之間的相似性。但該模型在實際使用的時候也有一些困難之處,如果表示文本的特征詞太多,在計算時會導致矩陣維數(shù)災難。此外,向量空間模型基于特征詞之間相互獨立性假設,未考慮特征詞與其臨近詞之間的共現(xiàn)關系,忽略了文本上下文的語義信息。1.3.2基于主題模型的文本表示主題模型(TopicModel)主要應用在自然語言處理領域的文本語義分析與挖掘,該模型是在文本和特征詞之間增加一層主題層,利用文本間詞的共現(xiàn)信息來發(fā)現(xiàn)海量無監(jiān)督語料中的抽象主題。一篇文章中某些經(jīng)常出現(xiàn)的特定詞語往往代表了這篇文章的中心思想,主題模型從概率生成模型的角度來對文本進行表示。傳統(tǒng)的隱含狄利克雷分布(LatentDirichletAllocation,LDA)作為一種主題概率分布模型,在使用前要先用向量空間模型對文本進行表示。LDA模型包含文檔、主題、詞三層結構,并基于狄利克雷分布抽樣生成文本的主題分布和主題的詞分布,選擇主題分布進行文本表示。主題模型作為一種典型的詞袋模型,主要是利用了文檔級的詞共現(xiàn)信息,并沒有考慮特征詞之間的位置及語序關系,再加上短文本的數(shù)據(jù)稀疏性,導致主題模型無法實現(xiàn)對文本準確表示。1.3.3基于詞嵌入模型的文本表示詞嵌入(WordEmbedding)的概念首次由Rumelhart等人[35]提出,通俗來講,詞嵌入就是指將一個詞語(word)轉換為一個向量(vector)表示,在自然語言處理中,詞嵌入幾乎是所有研究的基礎。詞嵌入將文本特征詞以詞向量的形式表示,充分考慮了的特征詞匯之間的語法關系和語義信息,尤其在短文本上的表現(xiàn)要遠遠由于TF-IDF等傳統(tǒng)的文本表示方法。隨著深度學習的發(fā)展,利用神經(jīng)網(wǎng)絡做文本特征抽取受到越來越多研究者的關注,很多用于訓練詞嵌入向量的模型被提出。詞嵌入可將詞的特征映射到較低的維度,例如語料庫中的所有特征詞可以用256維特征來描述,使用模型參數(shù)更少,訓練更快。目前主流的詞嵌入模型為Word2vec模型和BERT模型。(1)Word2vec模型。Word2vec是在2013年由Mikolov等人[36]提出的一種詞嵌入方法,其核心思想是根據(jù)詞語在語料庫中與其前后相鄰的若干個詞信息,為每個詞語訓練一個相同維數(shù)的特征向量。Word2vec包含CBOW[37]和Skip-gram[38]兩種訓練模型,其原理示意圖如圖2-3所示。圖2-3Word2vec兩種模型Fig.2-3TwoWord2vecmodelsCBOW和Skip-gram的共同之處在于都是由輸入層、投影層和輸出層三層組成,并且都是根據(jù)句子中相鄰的詞的上下文關系,來完成神經(jīng)網(wǎng)絡的訓練,以獲得最優(yōu)向量表示。但它們的預測過程卻是相反的,CBOW模型是通過在給定的特征詞前后各取個詞來預測當前這個目標詞匯。與CBOW相反,Skip-gram模型是已經(jīng)知道目標特征詞信息來推測這個詞周圍可能出現(xiàn)的個詞。雖然Word2vec的出現(xiàn)對自然語言處理的發(fā)展有著很大貢獻,但是word2vec的不足之處是一個詞語對應一個特定的向量,導致一詞多義的問題難以避免。再加上Word2vec作為一種靜態(tài)方式,不能根據(jù)具體的任務做動態(tài)調(diào)整,學習到的語義信息也被窗口大小所限制。(2)BERT模型。BERT預訓練語言模型由谷歌AI團隊在2018年提出[39],是一個百層左右的神經(jīng)網(wǎng)絡,能夠利用超大規(guī)模無標注語料進行模型參數(shù)學習。對比起之前的預訓練模型如ELMo[40]、OpenAIGPT[41],BERT融入了更多的語法和詞法,捕捉到的是真正意義上的雙向上下文信息,在NLP領域的問答類任務、序列標注任務、單句分類任務等11個方向大幅刷新了精度,引起了一波新的研究熱潮。BERT模型的結構如圖2-4所示。圖2-4BERT語言模型結構Fig.2-4BERTlanguagemodelstructureBERT預訓練語言模型拋棄了傳統(tǒng)的RNN和CNN網(wǎng)絡結構,采用Transformer[42]編碼器作為模型核心結構。Transformer作為一種新的編碼-解碼方式,由6個編碼器(Encoder)和6個解碼器(Decoder)堆疊而成,有著超強的文本表征能力和并行計算能力,是目前自然語言處理領域非常流行的網(wǎng)絡結構。BERT主要借助Transformer的Encoder部分來對語言模型進行訓練,獲得包含豐富語義信息的文本向量化表示,每個單元主要包含自注意力機制和前饋神經(jīng)網(wǎng)絡兩個子層。Transformer-encoder的結構如圖2-5所示。圖2-5Transformer-encoder結構圖Fig.2-5Transformer-encoderstructurediagramTransformer-encoder中最重要的部分就是自注意力部分,自注意力模型通過在序列內(nèi)部做attention,來尋找序列內(nèi)部之間的聯(lián)系。self-attention作為attention的特殊形式,使BERT不僅具備了RNN提取長距離依賴關系的能力,同時擁有了CNN提取輸入序列中每個詞特征時并行計算的能力。此外,BERT模型還提出了兩個自監(jiān)督任務來提高語義表征能力:(1)掩碼語言模型(MLM)任務。該任務是在訓練的時候隨機將輸入語料中15%的詞進行標記,并在這些標記的單詞中以80%的概率會直接被替換為特殊標記[Mask],10%的概率會用從語料中任意抽取的單詞所代替,剩下10%的概率會保留原來的詞不變,然后通過上下文預測被遮蓋的詞。(2)句子連貫性判定(NSP)任務。該任務是判斷某個句子是否是另一個句子的下文,具體做法是,選擇若干句子對A和B,其中50%的句子B是A的下一個句子,其余50%的句子B是數(shù)據(jù)集中任意選擇的,通過迭代訓練學習到其中的關聯(lián)性。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡相比,BERT模型使用雙向Transformer對目標單詞進行上下文特征信息提取,能夠較完整地保存文本語義信息;同時BERT模型能充分利用上下文信息動態(tài)調(diào)整文本句向量,可以有效解決一詞多義的難題,在某種程度上,可以進行同義詞的區(qū)分。最為一個Word2vec的替代者,BERT模型是在Word2vec模型的基礎上進一步強化字(詞)向量模型的泛化能力,充分挖掘字符級向量間的關系特征,同時,BERT以字為單元進行訓練,在一定程度上克服了Word2vec所面臨的未登錄詞難題。1.4文本特征選擇及相似度計算1.4.1文本特征選擇所謂特征選擇,是指在不改變原有分析結果的前提下,將所有的特征項按照一定的規(guī)則進行篩選,選擇一部分具有代表性的特征項,降低計算分析的復雜度。目前常見的文本特征選擇方法主要分為TF-IDF和TextRank等無監(jiān)督方法和卡方統(tǒng)計、信息增益、互信息等[43]有監(jiān)督方法。下面主要介紹TF-IDF和TextRank兩種方法。(1)TF-IDF方法TF-IDF是一種基于統(tǒng)計學的簡單有效的特征選擇算法[44]。TF-IDF采用統(tǒng)計詞頻的思想,來衡量一個字或詞語對于一個語料庫中某個文件或一個文件集的重要性。具體計算公式如(2-1)~(2-3)所示: (2-1) (2-2)其中,在公式(2-1)中,分子為某個特征詞在文本中出現(xiàn)了多少次,分母為文本中總共有多少個特征詞。在公式(2-2)中,為數(shù)據(jù)集中所有文本總數(shù),表示在數(shù)據(jù)集中包含詞語的文本數(shù)量。則詞的權重如公式(2-3)所示: (2-3)(2)TextRank方法TextRank是在PageRank的基礎上提出的一種基于圖排序的算法[45],TextRank作為一種無監(jiān)督方法,不需要訓練語料就可以方便實現(xiàn)特征詞提取,適用于多種不同的場合。TextRank的實現(xiàn)原理為,通過構建一個詞匯網(wǎng)絡圖模型,利用多次迭代的方式計算每個詞語的TR值,將排名靠前的詞語作為關鍵詞。詞語的TR值計算如公式(2-4)所示: (2-4)其中為阻尼系數(shù),、為詞節(jié)點,為指向的節(jié)點集合,為由發(fā)出所指向的節(jié)點集合,、分別為節(jié)點到、到邊的權重。TextRank算法實現(xiàn)流程為,在文本預處理之后得到個候選關鍵詞集合;然后構建一個候選關鍵詞網(wǎng)絡圖,其中是節(jié)點集;利用公式(2-4)求得每個節(jié)點的TR值作為權重值,重復計算直到收斂;最終將得到的權重值從大到小進行排列,取權重值最大的前個的節(jié)點所對應的詞作為特征詞。1.4.2文本相似度計算在文本聚類的實現(xiàn)過程中,文本相似度計算[46]是非常基礎而關鍵的一個任務。在拼寫糾錯、推薦系統(tǒng)、命名實體識別、自動應答、機器翻譯等方面有著深入而廣泛的應用。文本距離與文本相似度是兩個相反的概念,兩個文本對象之間距離越小,則它們“離得越近”,相似度也就越大。在聚類算法執(zhí)行過程中,兩個文本數(shù)據(jù)對象之間的相似度決定了它們能否被劃分為一個類簇。(1)歐氏距離歐氏距離也叫歐幾里得距離[47],表示的是兩個點在歐式空間中的直線距離。對于兩個向量化表示后的文本和文本,其歐氏距離計算公式見(2-5)所示: (2-5)(2)余弦相似度在數(shù)學幾何中,兩個向量的夾角余弦值可用來度量它們之間方向的差異;而在自然語言處理中,對文本數(shù)據(jù)進行向量化表示,將向量根據(jù)坐標映射到向量空間后,也可以借用余弦相似度來度量兩個文本數(shù)據(jù)向量之間的差異。對于文本和文本,它們的夾角余弦值越接近于1,意味著二者夾角越小,相似度越高。其計算公式見(2-6)所示: (2-6)(2)Jaccard距離Jaccard距離采用的是集合操作,可以用來衡量由符號或布爾值構成的集合之間的差異性[48]。如果兩個文本不是采用向量化數(shù)值表示形式,而是用特征詞集合來表達,則使用Jaccard距離來計算文本之間的相似度最合適不過了。對于給定的由特征詞表示的兩個文本X、Y,其Jaccard距離可以用兩個文本所含的特征詞交集個數(shù)和并集個數(shù)的比值來表示,具體計算公式見(2-7)所示: (2-7)1.5傳統(tǒng)聚類方法近年來,聚類技術在自然語言處理文本分析領域的研究變得越來越廣泛而深入。聚類不同于分類任務,聚類是一種無監(jiān)督的機器學習算法,其主要任務是將無標簽的文本數(shù)據(jù)按照一定的規(guī)則劃分為若干個互不相交的類簇,簇內(nèi)文本相似性較高,對應著同一個概念,簇間文本相似性較低彼此互相分離。目前,常用到的聚類算法主要有如下六種。(1)基于劃分的聚類算法基于劃分的聚類算法基本原理是,給定個數(shù)據(jù)點的數(shù)據(jù)集合,根據(jù)一定的規(guī)則構建數(shù)據(jù)集合的個劃分,每個劃分代表一個類別。每個類別最少要有一條數(shù)據(jù)記錄,并且每條數(shù)據(jù)記錄只屬于一個類別。典型的劃分聚類算法是K-means算法[49],具體算法描述如算法2-1所示。算法2-1K-means算法Algorithm2-1K-meansalgorithm輸入:聚類數(shù)目,包含個文本的文本集輸出:個簇劃分Begin在數(shù)據(jù)集中任意選中個初始聚類中心,記為;計算每一個數(shù)據(jù)點(除去個中心)到初始聚類中心的距離;將分配到與其距離最近的聚類中心所在類簇中;更新聚類中心點;循環(huán)步驟2-4,直到每個聚類中心點都不再變化,則聚類算法結束。EndK-medoids算法是K-means算法的一個變種,兩者主要在中心點的選擇上有所不同,K-medoids算法是從樣本點中進行選取,選擇一個到其他所有點的距離和最小的點作為中心點;而K-means算法是用當前簇中所有樣本點均值作為中心點。其中,K-medoids善于處理離群點,且對噪聲魯棒性比較好。基于劃分的聚類算法實現(xiàn)簡單,易于理解;但需要在算法啟動前人為設定聚類數(shù)目,不同的值得到的聚類效果相差很大,并且結果的優(yōu)劣依賴于對初始簇中心的選擇,不同的選取方式會得到不同的聚類結果,容易陷入局部最優(yōu)解。(2)基于層次的聚類算法基于層次的聚類算法通常包含凝聚的(自底向上)和分裂的(自頂向下)兩種方法。凝聚的層次聚類算法是最開始將每一個對象都當作初始簇,之后根據(jù)某種預定好的規(guī)則迭代地合并這些初始簇,成為越來越大的簇,直到全部的對象都被劃分在一個簇中,或達到結束條件停止。分裂的層次聚類算法是開始將全部的對象放在一個簇中,該簇作為層次結構的根,然后通過計算類簇之間的距離,遞歸式地逐漸細分為越來越小的簇,直到最底層的簇都足夠凝聚,即僅包含一個對象或者簇內(nèi)對象彼此充分相似為止。兩種方式不同的層次聚類過程如圖2-6所示?;趯哟蔚木垲愃惴軌蜻m應任何數(shù)據(jù)集的處理,并且對于樣本的輸入順序是不敏感的,具有較高的文本劃分準確率。但是層次聚類的處理復雜,需要進行大量的計算。聚類的結果也和聚類的合并點和分裂點有著很大的關系,往往將它與其他聚類方法配合使用。代表算法有BIRCH、CURE等。圖2-6兩種方式層次聚類過程圖Fig.2-6Two-wayhierarchicalclusteringprocessdiagram(3)基于密度的聚類算法基于密度的聚類算法基本思想是,在由所有樣本形成的整個數(shù)據(jù)空間中,把每個類簇看作高密度區(qū)域(稠密區(qū)),該區(qū)域由很多稠密樣本點構成,并且被一些低密度區(qū)域(稀疏區(qū))所分開。利用該算法從數(shù)據(jù)的總體布局出發(fā),利用樣本點在數(shù)據(jù)空間中的稠密程度進行聚類,具體實現(xiàn)為,逐一判斷每個區(qū)域中的樣本密度是否超過預先設定的一個閾值,如果滿足,則將該樣本劃分到離它距離相近的結果簇中,最終實現(xiàn)過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本。代表算法有DBSCAN、OPTICS等。(4)基于圖論的聚類算法基于圖論的聚類算法是首先建立與問題相符合的圖,然后找到數(shù)據(jù)的最小單元,將其作為圖的節(jié)點,為了處理數(shù)據(jù)的局部特性,每對最小處理單元數(shù)據(jù)之間都有一個相似性度量標準,即利用圖的邊來判定最小處理單元數(shù)據(jù)之間的相似性?;趫D論的聚類算法的一個優(yōu)點是把聚類變換為組合優(yōu)化模型,然后通過圖論并結合相關啟發(fā)式算法進行處理。譜聚類和AffinityPropagation(AP)聚類均是基于圖論聚類的聚類算法,這兩種算法的基本原理及實現(xiàn)流程分別在之后的第三章、第四章進行闡述。(5)基于網(wǎng)格的聚類算法基于網(wǎng)格的聚類算法以單個的數(shù)據(jù)單元為對象,從對數(shù)據(jù)空間劃分的角度出發(fā),將其劃分成獨立于數(shù)據(jù)點的有限個單元,這樣便形成了一個類似于網(wǎng)格的結構,為聚類提供可操作的網(wǎng)格空間。這種方法的主要特點是處理速度和網(wǎng)絡空間的單元數(shù)存在一定的關系,而和數(shù)據(jù)點的數(shù)量沒有關系,因此,能夠處理海量的數(shù)據(jù)集。這種方法雖然有效地提高了運算效率,但同時也犧牲了聚類結果的質(zhì)量。代表算法有STING、Wave-Cluster等。(6)基于模型的聚類算法基于模型的聚類算法會給每一個數(shù)據(jù)集分布假定一個模型,然后通過某種統(tǒng)計方法找出與這種數(shù)據(jù)分布相符合的概率模型。一般這種方法的處理步驟是,對于輸入數(shù)據(jù),會通過如采樣、回歸等為每一種聚類假設選擇一個模型,然后從已有的輸入中,選擇一組能夠很好滿足這個模型的數(shù)據(jù)集。從而根據(jù)模型找到數(shù)據(jù)集中的不同類簇。一般的模型包括各種密度分布函數(shù)如狄利克雷分布、貝塔分布等。這種聚類算法仍處于研究探索階段。1.6頻繁詞集相關概述1.6.1頻繁詞集相關理論關聯(lián)規(guī)則(AssociationRules)是形如的表達式,反映的是某個事物與另一個事物之間的相互關聯(lián)性和依存性。關聯(lián)規(guī)則的典型例子就是我們熟知的“購物籃事務”,如表2-1所示。表2-1購物籃示例Tab.2-1ShoppingbasketexampleTID項集1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂}表2-1中每一行由一個標識符和顧客購買的物品組成,從表2-1所示的數(shù)據(jù)中可以提取出規(guī)則:{尿布}{啤酒},該規(guī)則表明尿布和啤酒的銷售存在一定的關聯(lián)性,因為許多購買尿布的顧客也購買啤酒。尿布和啤酒一起購買的行為方式,就可以使用關聯(lián)規(guī)則來進行分析,即形如“由于某些事件的發(fā)生(買尿布)而引起另外一些事件(買啤酒)的發(fā)生”之類的規(guī)則。關聯(lián)規(guī)則常常用于從整個數(shù)據(jù)集中挖掘出一些有意義事物之間存在的某種關聯(lián)關系,在我們的生產(chǎn)生活中有著廣泛的應用。頻繁項集挖掘是一項基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘研究內(nèi)容。這里我們有定義,設為一組不同元素的集合,集合中的每個元素稱為數(shù)據(jù)項。記為的集合,,其中被稱為一個事務,并且把稱為上的數(shù)據(jù)集。每一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡直播活動燈光租賃及現(xiàn)場監(jiān)督協(xié)議
- 家政公司老年看護與生活照料服務合同
- 母嬰護理品牌授權合作協(xié)議
- 跨境電商數(shù)據(jù)存儲備份及安全防護協(xié)議
- 抖音網(wǎng)絡直播股權分置及管理協(xié)議
- 花園相鄰權界定與土地交易合同
- 蔬菜大棚種植項目與農(nóng)業(yè)保險合作協(xié)議
- 智能家居設備進出口代理服務與智能家居解決方案合同
- 臨床輸血醫(yī)學檢驗技術
- 《小貓咪和小兔子:動物友誼教學課件》
- 《2025急性冠脈綜合征患者管理指南》解讀
- 電廠粉煤灰購銷合同
- 注射用A型肉毒毒素-額紋面部皺紋(FWS)量表評分考試
- 《碼垛機器人機械手的結構設計》9400字【論文】
- 梁柱加固施工方案
- 排水管道閉水試驗施工方案
- 《C語言程序設計》教學設計 項目四量化生活數(shù)字為先
- T-CSOE 0003-2024 井下套管外永置式光纜安裝要求
- 軍人生死觀教育
- GB 45247-2025燃氣-蒸汽聯(lián)合循環(huán)發(fā)電機組單位產(chǎn)品能源消耗限額
- 音響設備維修合同
評論
0/150
提交評論