




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘常用算法數(shù)據(jù)挖掘常見類型兩類數(shù)據(jù)挖掘問題對應(yīng)的數(shù)據(jù)挖掘算法業(yè)務(wù)問題對應(yīng)的數(shù)據(jù)挖掘算法舉例決策樹回歸分析聚類分析關(guān)聯(lián)分析數(shù)據(jù)挖掘的常見類型對數(shù)據(jù)挖掘問題進(jìn)行簡單的劃分,其主要有兩類問題:有目標(biāo)變量的數(shù)據(jù)挖掘(有監(jiān)督的挖掘或預(yù)測問題)和無目標(biāo)變量的數(shù)據(jù)挖掘(無監(jiān)督的挖掘)。
有目標(biāo)變量的數(shù)據(jù)挖掘,使用目標(biāo)變量,從數(shù)據(jù)中發(fā)現(xiàn)能解釋目標(biāo)變量的模式,并且要求歷史數(shù)據(jù)中包含目標(biāo)變量所有可能取值的樣本。流失預(yù)警是一個(gè)典型的有目標(biāo)變量的數(shù)據(jù)挖掘問題,歷史數(shù)據(jù)中同時(shí)包含流失客戶和活躍客戶的信息,目標(biāo)就是發(fā)現(xiàn)能解釋流失客戶與活躍客戶差異的原因。根據(jù)目標(biāo)變量的不同類型,預(yù)測問題又分為分類預(yù)測和數(shù)值預(yù)測,如預(yù)測客戶是否流失屬于分類預(yù)測問題,預(yù)測收入屬于數(shù)值預(yù)測問題。無目標(biāo)變量的數(shù)據(jù)挖掘,不使用目標(biāo)變量(或者目標(biāo)變量不清晰),以發(fā)現(xiàn)數(shù)據(jù)的潛在有用模式為目標(biāo),通過人工方式去理解發(fā)現(xiàn)的模式及其有用性。如從現(xiàn)有客戶中發(fā)現(xiàn)有意義的細(xì)分群體的聚類模型,發(fā)現(xiàn)哪些產(chǎn)品經(jīng)常被客戶一起購買的關(guān)聯(lián)規(guī)則模型。兩類數(shù)據(jù)挖掘問題對應(yīng)的數(shù)據(jù)挖掘算法有目標(biāo)變量無目標(biāo)變量分類預(yù)測數(shù)值預(yù)測決策樹Logistic回歸模型神經(jīng)網(wǎng)絡(luò)判別分析遺傳算法最近鄰方法多元回歸模型回歸樹神經(jīng)網(wǎng)絡(luò)遺傳算法
聚類模型(細(xì)分模型)關(guān)聯(lián)規(guī)則序列模式時(shí)間序列其他描述性模型業(yè)務(wù)問題對應(yīng)的數(shù)據(jù)挖掘算法舉例業(yè)務(wù)問題數(shù)據(jù)挖掘算法哪些客戶有購買新產(chǎn)品的傾向決策樹/邏輯回歸哪些客戶有終止服務(wù)使用的傾向決策樹/邏輯回歸收入未來的變化趨勢多元回歸模型/時(shí)間序列客戶未來服務(wù)使用量的變化趨勢多元回歸模型/回歸樹哪些客戶存在欺詐行為神經(jīng)網(wǎng)絡(luò)/聚類分析了解客戶存在哪些細(xì)分群體聚類分析給客戶推薦手機(jī)閱讀的哪類內(nèi)容關(guān)聯(lián)規(guī)則/最近鄰方法客戶在購買該產(chǎn)品后接下來會(huì)購買什么序列模式了解哪些產(chǎn)品經(jīng)常被客戶一起購買關(guān)聯(lián)規(guī)則客戶的信用度如何描述性模型決策樹——基本概念決策樹(DecisionTree)是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,是一種從無次序、無規(guī)則的訓(xùn)練樣本集中推理出決策樹表示形式的分類規(guī)則的方法,它提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。主要應(yīng)用于分類預(yù)測。分類預(yù)測的結(jié)果有定性和定量兩種。在實(shí)際應(yīng)用中,將定性的分類預(yù)測稱為分類,用來確定類別屬性;定量的分類預(yù)測成為預(yù)測,用來預(yù)測具體的數(shù)值。決策樹的結(jié)構(gòu)和構(gòu)造方法屬性選擇噪聲與剪枝子樹復(fù)制和碎片問題決策樹——常用算法決策樹的兩大核心問題:一是決策樹的生長,即一棵決策樹是如何長成的,在樣本數(shù)據(jù)中選擇哪一個(gè)屬性作為根節(jié)點(diǎn),然后如何分支,如何選擇內(nèi)部節(jié)點(diǎn),直到生長出樹葉,即到達(dá)葉節(jié)點(diǎn),這一系列過程可稱為決策樹的分枝準(zhǔn)則,即具體算法;另一核心問題是決策樹的剪枝,則防止決策樹生長過于茂盛,無法適應(yīng)實(shí)際應(yīng)用的需要。常用的決策樹算法分為兩類:基于信息論的方法和最小GINI指標(biāo)的方法。信息論的方法包括:ID系列算法和C4.5、C5.0,而最小GINI指標(biāo)方法包括:CART、SLIQ和SPRINT算法。決策樹的剪枝方法有預(yù)修剪(Pre-Pruning)和后修剪(Post-Pruning)。決策樹——ID3算法ID3算法是以信息論為基礎(chǔ),運(yùn)用信息熵理論,采用自頂向下的貪心搜索算法。其核心思想是在決策樹中各級(jí)節(jié)點(diǎn)上選擇分裂屬性。用信息增益作為屬性選擇的標(biāo)準(zhǔn),使每個(gè)非葉子節(jié)點(diǎn)測試時(shí),能獲得關(guān)于被測試?yán)幼畲蟮念悇e信息。使用該屬性將訓(xùn)練樣本集分成子集后,系統(tǒng)的信息熵值最小。其生成步驟為:①選擇具有最大信息增益的屬性作為決策樹的當(dāng)前決策節(jié)點(diǎn),并將該屬性從候選屬性中刪除;②根據(jù)當(dāng)前決策節(jié)點(diǎn)的不同取值將該樣本數(shù)據(jù)集劃分成若干個(gè)子集;③重復(fù)上面步驟①、②,當(dāng)滿足以下條件之一時(shí),決策樹停止生成新的分支:①給定節(jié)點(diǎn)的所有樣本屬于同一類。②沒有剩余屬性可以用來進(jìn)一步劃分樣本。③分支沒有樣本。決策樹——ID3算法
決策樹——ID3算法
決策樹——C5.0算法
C4.5算法在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn),增加了對連續(xù)屬性的離散型的處理。對于預(yù)測變量的缺值處理、剪枝技術(shù)、派生規(guī)則等方面作了較大改進(jìn),既適合于分類問題,又適合于回歸問題。而C5.0則是在C4.5的基礎(chǔ)上改進(jìn)了執(zhí)行效率和內(nèi)存使用,應(yīng)用于大數(shù)據(jù)集的分類算法。它采用Boosting方式來提高模型準(zhǔn)確率。決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分枝的樹結(jié)構(gòu)的。屬性的度量標(biāo)準(zhǔn)有很多,如:信息增益率、GINI指標(biāo)、距離度量等。C5.0采用信息增益率作為屬性的度量標(biāo)準(zhǔn)。步驟如下:首先對所有樣本賦以一個(gè)抽樣權(quán)重(一般開始的時(shí)候權(quán)重都一樣即認(rèn)為均勻分布),在此樣本上訓(xùn)練一個(gè)分類器對樣本分類,這樣可以得到這個(gè)分類器的誤差率,我們根據(jù)它的誤差率賦以一個(gè)權(quán)重,大體是誤差越大權(quán)重就越小,針對這次分錯(cuò)的樣本我們增大它的抽樣權(quán)重,這樣訓(xùn)練的下一個(gè)分類器就會(huì)側(cè)重這些分錯(cuò)的樣本,然后根據(jù)它的誤差率計(jì)算權(quán)重,就這樣依次迭代,最后我們得到的強(qiáng)分類器就是多個(gè)弱分類器的加權(quán)和。我們可以看出性能好的分類器權(quán)重大一些,這就體現(xiàn)了boosting的精髓。決策樹——CART算法CART算法是一種產(chǎn)生二叉決策樹分類模型的技術(shù)。它與ID系列算法和C4.5不同的是,它使用的屬性度量標(biāo)準(zhǔn)是Gini指標(biāo)。Gini指標(biāo)主要是度量數(shù)據(jù)劃分或訓(xùn)練數(shù)據(jù)集D的不純度為主,系數(shù)值的屬性作為測試屬性,Gini值越小,表明樣本的“純凈度”越高。CART算法在滿足下列條件之一,即視為葉節(jié)點(diǎn)不再進(jìn)行分支操作。①所有葉節(jié)點(diǎn)的樣本數(shù)為1;樣本數(shù)小于某個(gè)給定的最小值或者樣本都屬于同一類的時(shí)候;②決策樹的高度達(dá)到用戶設(shè)置的閾值,或者分支后的葉節(jié)點(diǎn)中的樣本屬性都屬于同一個(gè)類的時(shí)候;③當(dāng)訓(xùn)練數(shù)據(jù)集中不再有屬性向量作為分支選擇的時(shí)候。決策樹——CART算法
決策樹——剪枝技術(shù)前剪枝(Forward-Pruning)是提前停止樹的構(gòu)造而對樹進(jìn)行剪枝。如果一個(gè)結(jié)點(diǎn)對樣本的劃分將導(dǎo)致低于預(yù)定義閥值的分裂,則給定子集的進(jìn)一步劃分將停止。選取一個(gè)適當(dāng)?shù)拈y值是很困難的,較高的閥值可能導(dǎo)致過分簡化的樹,較低的閥值可能使得樹的簡化太少。由于前剪枝不必生成整棵決策樹,且算法相對簡單,效率很高,適合解決大規(guī)模問題,所以這種方法得到了廣泛的應(yīng)用。后剪枝(Post-Pruning)首先構(gòu)造完整的決策樹,允許決策樹過度擬合訓(xùn)練數(shù)據(jù),然后對那些置信度不夠的結(jié)點(diǎn)的子樹用葉子結(jié)點(diǎn)來替代,這個(gè)葉子結(jié)點(diǎn)所應(yīng)標(biāo)記的類別為子樹中大多數(shù)實(shí)例所屬的類別。ID3算法、C5.0算法和CART算法都是先建樹再剪枝,屬于后剪枝。后剪枝方法現(xiàn)在得到比較廣泛地使用。常用的后剪枝算法有:CCP(CostComplexityPruning)、REP(ReducedErrorPruning)、PEP(PessimisticErrorPruning)、MEP(MinimumErrorPruning)。決策樹——剪枝技術(shù)(1)CCP剪枝法。CCP剪枝法是一種基于訓(xùn)練集的自下而上的剪枝法,也叫做CART剪枝法。剪枝過程包括兩步:①從原始決策樹開始生成一個(gè)子樹序列;②從第1步產(chǎn)生的子樹序列中,根據(jù)樹的真實(shí)誤差估計(jì)選擇最佳決策樹。(2)REP剪枝法。REP剪枝法由Quinlan提出,是一種自下而上的簡單實(shí)用的剪枝方法。該方法的基本思路是,從訓(xùn)練集中提取一部分?jǐn)?shù)據(jù)作為剪枝集,這部分?jǐn)?shù)據(jù)不用來構(gòu)建決策樹,因此評估錯(cuò)誤率時(shí)有較小的偏置。比較樹Tmax的子樹對剪枝集的分類錯(cuò)誤率,及將該子樹變?yōu)槿~子節(jié)點(diǎn)后的分類錯(cuò)誤率。若前者大于后者,則將該子樹剪枝為葉子結(jié)點(diǎn),并以到該結(jié)點(diǎn)的多數(shù)實(shí)例所代表的類來標(biāo)識(shí)。重復(fù)以上過程,直到繼續(xù)剪枝會(huì)增加錯(cuò)誤率為止。(3)PEP剪枝法。PEP剪枝法由Quinlan提出,是一種自上而下的剪枝法,剪枝基于自由訓(xùn)練集得到的錯(cuò)誤估計(jì),因此不需要單獨(dú)的剪枝數(shù)據(jù)。很明顯,訓(xùn)練集上的錯(cuò)誤率被樂觀偏置,不能用來生成最優(yōu)剪枝樹。因此,Quinlan引入了統(tǒng)計(jì)學(xué)上連續(xù)修正的概念來彌補(bǔ)這一缺陷,在子樹的訓(xùn)練錯(cuò)誤中添加一個(gè)常數(shù),假定每個(gè)葉結(jié)點(diǎn)都自動(dòng)對實(shí)例的某部分進(jìn)行錯(cuò)誤分類,這一部分一般取葉結(jié)點(diǎn)所覆蓋的實(shí)例總數(shù)的1/2。計(jì)算標(biāo)準(zhǔn)錯(cuò)誤率時(shí),連續(xù)修正遵循二項(xiàng)式分布。(4)MEP剪枝法。MEP剪枝法也是以一種自下而上的剪枝法,目的是在未知的數(shù)據(jù)集上產(chǎn)生最小預(yù)測分類錯(cuò)誤率?;貧w分析——基本概念
回歸分析——線性回歸模型
回歸分析——Logistic回歸模型
回歸分析——線性回歸模型(3)模型檢驗(yàn)在一次抽樣中,未知參數(shù)的估計(jì)值與真實(shí)值的差異有多大?是否顯著?需要進(jìn)行統(tǒng)計(jì)檢驗(yàn),統(tǒng)計(jì)檢驗(yàn)包括三種:擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本的數(shù)據(jù)點(diǎn)聚集在回歸線周圍的密集程度方程顯著性檢驗(yàn):檢驗(yàn)自變量與因變量的線性關(guān)系總體上是否顯著變量顯著性檢驗(yàn):檢驗(yàn)每個(gè)自變量與因變量之間的線性關(guān)系是否顯著回歸分析——線性回歸模型(4)逐步回歸當(dāng)輸入變量之間存在較強(qiáng)相關(guān)性時(shí),線性回歸模型的參數(shù)估計(jì)會(huì)失真,需要對變量進(jìn)行篩選,常用的方法是逐步回歸法(Stepwise)。逐步回歸法(Stepwise)的基本思想是將變量逐個(gè)引入模型,每引入一個(gè)解釋變量后都要進(jìn)行F檢驗(yàn),并對已經(jīng)選入的解釋變量逐個(gè)進(jìn)行t檢驗(yàn),當(dāng)原來引入的解釋變量由于后面解釋變量的引入變得不再顯著時(shí),則將其刪除。以確保每次引入新的變量之前回歸方程中只包含先主動(dòng)變量。這是一個(gè)反復(fù)的過程,直到既沒有顯著的解釋變量選入回歸方程,也沒用不顯著的解釋變量從回歸方程中剔除為止。以保證最后所得到的解釋變量集是最優(yōu)的。回歸分析——Logistic回歸模型
回歸分析——Logistic回歸模型
回歸分析——Logistic回歸模型
聚類分析——基本概念概括性的定義聚類是將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程,聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。進(jìn)一步的分析聚類和分類的區(qū)別,在分類問題中,訓(xùn)練樣本的分類屬性的值是已知的,而在聚類問題中,需要根據(jù)訓(xùn)練樣本的值來確定分類屬性值。采用聚類分析技術(shù),可以把無標(biāo)識(shí)的數(shù)據(jù)樣本自動(dòng)劃分為不同的類,并且可以不受人的先驗(yàn)知識(shí)的約束和干擾,從而獲取數(shù)據(jù)集中原本存在的信息。所以說,聚類是一種無指導(dǎo)學(xué)習(xí)(無監(jiān)督學(xué)習(xí)),即從樣本的特征向量出發(fā)研究通過某種算法將特征相似的樣本聚集在一起,從而達(dá)到區(qū)分具有不同特征樣本的目的。分類則是一種有指導(dǎo)學(xué)習(xí)(有監(jiān)督學(xué)習(xí)),它具有先驗(yàn)知識(shí)(分類號(hào)),而無監(jiān)督聚類學(xué)習(xí)并不具有這種先驗(yàn)知識(shí)。聚類分析——算法分類基于距離的相似度計(jì)算:歐幾里德距離(歐氏距離)、曼哈頓距離主要的聚類算法可以劃分為如下幾類:劃分方法(PartitioningMethods)層次的方法(HierarchicalMethods)基于密度的方法(Density-basedMethods)基于網(wǎng)絡(luò)的方法(Grid-basedMethods)基于模型的方法(Model-basedMethods)聚類分析——K-Means算法K-means算法的具體流程如下:①從數(shù)據(jù)集中選擇聚類的K個(gè)質(zhì)心,作為初始的簇中心;②計(jì)算每個(gè)對象到各質(zhì)心的距離,把樣本指派給距離最小的簇;③根據(jù)每個(gè)簇當(dāng)前所擁有的所有對象更新質(zhì)心;④根據(jù)每個(gè)對象與各個(gè)簇中心的距離,分配給最近的簇;⑤然后轉(zhuǎn)③,重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)才停止。注意:利用每個(gè)簇的平均值代表新的簇的質(zhì)心。聚類分析——K-Means算法
聚類分析——兩步聚類算法兩步聚類是一種探索性的聚類方法,是隨著人工智能的發(fā)展而發(fā)展起來的智能聚類方法中的一種。它最顯著的特點(diǎn)就是它分兩步進(jìn)行聚類,主要用于處理非常大的數(shù)據(jù)集,可以處理連續(xù)屬性和離散屬性。它只需遍歷數(shù)據(jù)集一次。兩步聚類的特點(diǎn)包括:同時(shí)處理離散變量和連續(xù)變量的能力;自動(dòng)選擇聚類數(shù);通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型;可以處理超大樣本量的數(shù)據(jù)。兩步算法的基本原理分為以下兩個(gè)步驟:第一步:預(yù)聚類。遍歷一次的數(shù)據(jù),對記錄進(jìn)行初始的歸類,用戶自定義最大類別數(shù)。通過構(gòu)建和修改特征樹(CFTREE)來完成;第二步:聚類。對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,使用層次聚類的方法將小的聚類逐漸合并成越來越大的聚類,這一過程不需要再次遍歷數(shù)據(jù)。層次聚類的好處是不要求提前選擇聚類數(shù)。許多層次聚類從單個(gè)記錄開始聚類,逐步合并成更大的類群。聚類分析——兩步聚類算法聚類特征(ClusteringFeature,CF)是BIRCH增量聚類算法的核心,CF樹中的節(jié)點(diǎn)都是由CF組成,CF是一個(gè)三元組,這個(gè)三元組就代表了簇的所有信息。給定N個(gè)d維的數(shù)據(jù)點(diǎn){x1,x2,....,xn},CF定義如下:CF=(N,LS,SS)。其中,N是子類中節(jié)點(diǎn)的數(shù)目,LS是N個(gè)節(jié)點(diǎn)的線性和,SS是N個(gè)節(jié)點(diǎn)的平方和。CF有個(gè)特性,即可以求和,具體說明如下:CF1=(n1,LS1,SS1),CF2=(n2,LS2,SS2),則CF1+CF2=(n1+n2,LS1+LS2,SS1+SS2)。CF樹是在遍歷數(shù)據(jù)集的過程中不斷添加、更新條目及分裂節(jié)點(diǎn)來形成的。根據(jù)第一個(gè)樣本即可建立根節(jié)點(diǎn)以及相應(yīng)的條目,之后逐個(gè)地將后續(xù)的樣本根據(jù)距離最小的原則指派到CF樹中。一個(gè)CF樹有三個(gè)參數(shù):B=分支系數(shù),中間節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù)量;T=葉節(jié)點(diǎn)中的類的半徑或直徑的閾值;L=葉節(jié)點(diǎn)的最大CF簇?cái)?shù)量。聚類分析——異常檢測基于聚類的異常檢測至少有兩種方法:一種是異常檢測模型利用未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)包含了正常數(shù)據(jù)和攻擊數(shù)據(jù);另一種是模型僅利用正常數(shù)據(jù)進(jìn)行訓(xùn)練,從而建立正常行為輪廓。模型特征Portnoy等人模型采用數(shù)理統(tǒng)計(jì)的思想對原始數(shù)據(jù)包進(jìn)行標(biāo)準(zhǔn)化,對標(biāo)準(zhǔn)化后的數(shù)據(jù)采用單鏈接法進(jìn)行聚類,從而識(shí)別攻擊簇Y-means改進(jìn)經(jīng)典K-means算法,不依賴k的值,動(dòng)態(tài)地對數(shù)據(jù)進(jìn)行聚類MINDS對數(shù)據(jù)進(jìn)行聚類,利用基于密度的局部孤立點(diǎn)來檢測入侵三種異常檢測模型的特征表聚類分析——異常檢測現(xiàn)在比較成熟的異常點(diǎn)檢測方法主要有以下幾類:(1)基于統(tǒng)計(jì)的方法(2)基于距離的方法(3)基于偏差的方法(4)基于密度的方法(5)高維數(shù)據(jù)的異常檢測關(guān)聯(lián)規(guī)則——基本概念
關(guān)聯(lián)規(guī)則——基本概念關(guān)聯(lián)規(guī)則依據(jù)不同的分類標(biāo)準(zhǔn),可以有以下的分類:(1)基于規(guī)則中處理變量的類型,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型考慮的是項(xiàng)集的存在與否,而數(shù)值型則是量化的關(guān)聯(lián)。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中涉及到的數(shù)據(jù)維數(shù),可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則——算法原理關(guān)聯(lián)規(guī)則的挖掘就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度(MinimumSupport,minsup)和最小置信度(MinimumConfidence,minconf)的關(guān)聯(lián)規(guī)則。如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集或大項(xiàng)集。具體步驟是:Step1根據(jù)最小支持度閾值找出數(shù)據(jù)集D中所有頻繁項(xiàng)目集;Step2根據(jù)頻繁項(xiàng)目集和最小置信度閾值產(chǎn)生所有關(guān)聯(lián)規(guī)則。基本算法思想包括:(1)搜索算法。(2)分層算法(寬度優(yōu)先算法)。(3)深度優(yōu)先算法。(4)劃分算法。(5)抽樣算法。關(guān)聯(lián)規(guī)則——Apriori算法Apriori算法的基本思路:Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí)(稱為逐層搜索的迭代方法),k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描事務(wù)(交易)記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。Apriori算法的兩大缺點(diǎn):一是可能產(chǎn)生大量的候選集,二為可能需要重復(fù)掃描數(shù)據(jù)庫。Apriori算法采用連接和剪枝兩種方式來找出所有的頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則——Apriori算法(1)連接步
為找出Lk(所有的頻繁k項(xiàng)集的集合),通過將Lk-1(所有的頻繁k-1項(xiàng)集的集合)與自身連接產(chǎn)生候選k項(xiàng)集的集合。候選集合記作Ck。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)。假設(shè)Apriori算法對事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序,即對于(k-1)項(xiàng)集li,li[1]<li[2]<…<li[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 不定積分在解決實(shí)際問題中的應(yīng)用教案
- 跨境電商與全球消費(fèi)市場的發(fā)展前景
- 介詞與冠詞的使用區(qū)別及其在實(shí)際句子中的運(yùn)用教案
- 小學(xué)生學(xué)科自信心的提升路徑
- 音樂表演藝術(shù)考試試題及答案
- 低空經(jīng)濟(jì)中的科技創(chuàng)新與技術(shù)突破
- DB13T 1320.9-2010 中藥材種子質(zhì)量標(biāo)準(zhǔn) 第9部分:白芷
- 高端酒店式公寓租賃與管理協(xié)議
- 農(nóng)業(yè)文化遺產(chǎn)景觀的視覺美學(xué)對游客停留時(shí)間的影響
- 服裝品牌銷售排名表
- 12S108-2 真空破壞器選用與安裝
- 2024年武漢市中考數(shù)學(xué)真題試卷及答案解析
- TDT 1083-2023 國土調(diào)查數(shù)據(jù)庫更新數(shù)據(jù)規(guī)范
- 2024年天翼云從業(yè)者認(rèn)證考試題庫(判斷題)
- 2022北京朝陽區(qū)高二下學(xué)期期末英語試題和答案
- (高清版)JTGT 6420-2024 公路交通應(yīng)急裝備物資儲(chǔ)備中心技術(shù)規(guī)范
- 水果采摘機(jī)器人視覺系統(tǒng)與機(jī)械手研究進(jìn)展
- QBT 2198-1996手電筒行業(yè)標(biāo)準(zhǔn)
- SYT 0452-2021 石油天然氣金屬管道焊接工藝評定-PDF解密
- 外國近現(xiàn)代建筑史智慧樹知到期末考試答案2024年
- 2024年貴州省糧食儲(chǔ)備集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
評論
0/150
提交評論