




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、目錄1引言:22 理論準(zhǔn)備:22.1 模糊集合理論22.2模糊C均值聚類(FCM)32.3 加權(quán)模糊C均值聚類(WFCM)33 聚類分析實例43.1數(shù)據(jù)準(zhǔn)備43.1.1數(shù)據(jù)表示43.1.2數(shù)據(jù)預(yù)處理43.1.3 確定聚類個數(shù)53.2 借助clementine軟件進行K-means聚類63.2.1 樣本在各類中集中程度73.2.2 原始數(shù)據(jù)的分類結(jié)果73.2.3結(jié)果分析83.3模糊C均值聚類83.3.1 數(shù)據(jù)集的模糊C劃分83.3.2 模糊C均值聚類的目標(biāo)函數(shù)求解方法93.3.3 MATLAB軟件輔助求解參數(shù)設(shè)置93.3.4符號表示103.3.5代碼實現(xiàn)過程103.3.6 FCM聚類分析1034
2、 WFCM算法133.4.1 WFCM聚類結(jié)果展示133.4.2樣本歸類143.4.3歸類代碼實現(xiàn)154結(jié)論165 參考文獻(xiàn)176 附錄17模糊聚類與非模糊聚類比較分析摘要:聚類分析是根據(jù)樣本間的相似度實現(xiàn)對樣本的劃分,屬于無監(jiān)督分類。傳統(tǒng)的聚類分析是研究“非此即彼”的分類問題,分類結(jié)果樣本屬于哪一類很明確,而很多實際的分類問題常伴有模糊性,即它不僅僅是屬于一個特定的類,而是“既此又彼”。因此為了探究模糊聚類與非模糊聚類之間聚類結(jié)果的差別,本文首先采用系統(tǒng)聚類方法對上市公司132支股票數(shù)據(jù)進行聚類,確定比較合理的聚類數(shù)目為11類,然后分別采用K-means聚類與模糊聚類方法對股票數(shù)據(jù)進行聚類分
3、析,最終得出模糊聚類在本案例中比K-means聚類更符合實際。 關(guān)鍵字:模糊集合,K-means聚類,F(xiàn)CM聚類,WFCM聚類1引言:聚類分析是多元統(tǒng)計分析的方法之一,屬于無監(jiān)督分類,是根據(jù)樣本集的內(nèi)在結(jié)構(gòu),按照樣本之間相似度進行劃分,使得同類樣本之間相似性盡可能大,不同類樣本之間差異性盡可能大。傳統(tǒng)的聚類分析屬于硬化分,研究對象的性質(zhì)是非此即彼的,然而,現(xiàn)實生活中大多數(shù)事物具有亦此亦彼的性質(zhì)。因此傳統(tǒng)的聚類分析方法往往不能很好的解決具有模糊性的聚類問題。為此,模糊集合理論開始被應(yīng)用到分類領(lǐng)域,并取得不錯成果。本文的研究目的是通過對比傳統(tǒng)聚類和模糊聚類的聚類結(jié)果,找出二者之間的不同之處,并說明
4、兩種聚類分析方法在實例中應(yīng)用的優(yōu)缺點。2 理論準(zhǔn)備:2.1 模糊集合理論模糊集合定義:設(shè) 為論域,則稱由如下實值函數(shù)A : ® 0,1 , u ® A ( u )所確定的集合 A 為 上的模糊集合,而稱A 為模糊集合A 的隸屬函數(shù),A ( u )稱為元素 u 對于A 的隸屬度。若mA(u) =,則認(rèn)為u完全屬于A ; 若mA(u) =,則認(rèn)為u完全不屬于A,模糊集合是經(jīng)典集合的推廣。2.2模糊C均值聚類(FCM)預(yù)先給定類別數(shù)c,把含有n個樣本的數(shù)據(jù)集分成c個模糊類,用每個類的類別中心 Vj 代表該類,通過反復(fù)迭代運算,逐步降低目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)收斂時,聚類完成。
5、目標(biāo)函數(shù): 約束條件: ij0,1,i,j2.3 加權(quán)模糊C均值聚類(WFCM)算法過程與FCM類似,只是目標(biāo)函數(shù)不同,WFCM算法考慮了各樣本點對分類的重要性,在FCM算法中加入了權(quán)值pi,pi稱為樣本點的密度,本文中pi采用徑向基函數(shù)方法來確定,當(dāng)樣本點x遠(yuǎn)離類中心xc時函數(shù)取值很小,此時該樣本點對分類的重要性比較小。最常用的徑向基函數(shù)是高斯核函數(shù) ,形式為 目標(biāo)函數(shù): 約束條件:ij0,1, i,j, 3 聚類分析實例3.1數(shù)據(jù)準(zhǔn)備3.1.1數(shù)據(jù)表示本文采用數(shù)據(jù)是上市公司2000-2003年共4年132支股票31個變量的數(shù)據(jù)進行聚類分析,表1是各變量所代表的含義。表1 數(shù)據(jù)表示X1每股收
6、益X2每股凈資產(chǎn)······X30凈利潤X31未分配利潤3.1.2數(shù)據(jù)預(yù)處理為了排除各因素變量的單位不同以及數(shù)量級間的懸殊差別帶來的影響,盡可能的反映實際情況,需要對數(shù)據(jù)進行無量綱化處理。常用的處理方法有:標(biāo)準(zhǔn)化處理方法和極值處理方法。以下均采用“標(biāo)準(zhǔn)化”處理法。即取 (i=1,2,···,528;j=1,2,···,31)其中xij*為標(biāo)準(zhǔn)觀測值,其平均值和均方差分別為0和1。式中xj(j=1,2···31)為第j項指標(biāo)原始觀測值的平均值,sj
7、(j=1,2,···,31)為第j項指標(biāo)原始觀測值的均方差。3.1.3 確定聚類個數(shù)如前文所述,聚類分析是無監(jiān)督分類,分類之前并不知道聚多少類是合適的,所以為了保證分類的合理性,首先借助SPSS軟件對數(shù)據(jù)進行系統(tǒng)聚類以確定合理的分類數(shù)。譜系聚類圖結(jié)果顯示如下,我們初步選擇在距離為5處截取,確定合理聚類數(shù)為11類。圖1 系統(tǒng)聚類譜系圖3.2 借助clementine軟件進行K-means聚類為了實現(xiàn)傳統(tǒng)聚類與模糊聚類結(jié)果的對比,這里首先對數(shù)據(jù)做了傳統(tǒng)的K均值聚類,具體的操作流程如下圖2所示圖2 clementine實現(xiàn)K-means過程3.2.1 樣本在各類中集中程
8、度對模型結(jié)果進行查看,得到各類中所包含的樣本個數(shù)如下圖3所示,發(fā)現(xiàn)樣本主要集中在第5,7,8,9,10類。圖3 樣本在各類中集中程度3.2.2 原始數(shù)據(jù)的分類結(jié)果圖4的最后兩列分別是樣本所屬類別和樣本與該類別的類中心之間的距離,如對于第1個樣本,屬于第1類,與類中心的距離是0.394 。圖4 K-means聚類結(jié)果3.2.3結(jié)果分析分析總結(jié)上述K-means聚類結(jié)果:對這528個記錄的聚類結(jié)果中,在第1,3,5,11類中,樣本的個數(shù)都比較少,其中第11類僅有一個樣本,而第7,8,9類中樣本數(shù)分別高達(dá)93,181,97個,這些類中樣本過于集中,說明得到的結(jié)果不是很理想,因此嘗試模糊狀態(tài)下對數(shù)據(jù)進
9、行聚類分析。3.3模糊C均值聚類3.3.1 數(shù)據(jù)集的模糊C劃分設(shè)待分?jǐn)?shù)據(jù)集X=x1,x2,x528表示對上市公司股票的528次觀測數(shù)據(jù),xk=xk1,xk2,xk31是第k個樣本的31個指標(biāo)向量的取值集合。對數(shù)據(jù)集進行模糊聚類首先要產(chǎn)生X的模糊c劃分,由于聚類屬于無監(jiān)督分析,需要事先設(shè)定好聚類個數(shù),這里為了和傳統(tǒng)聚類分析結(jié)果做出比較,把數(shù)據(jù)模糊化為11個模糊子集X1,X2,X11,且滿足:X1X2X11=X; XiXj=,1ij11;Xi,XiX,1i11。ik=Xixk表示樣本xk屬于模糊子集Xi的程度,其中ik0,1,因此模糊劃分可以用隸屬度矩陣U=ik表示。3.3.2 模糊C均值聚類的目
10、標(biāo)函數(shù)求解方法針對上述2.2部分中模糊C均值聚類算法的目標(biāo)函數(shù)和約束條件,本文采用拉格朗日乘數(shù)法求解該數(shù)學(xué)規(guī)劃問題,分別求得隸屬度 和類中心 表達(dá)式如下: 3.3.3 MATLAB軟件輔助求解參數(shù)設(shè)置調(diào)用MATLAB軟件中自帶的fcm函數(shù)對上述數(shù)學(xué)規(guī)劃問題進行求解,其中fcm函數(shù)中一些參數(shù)設(shè)置如表2所示。表2 參數(shù)設(shè)置參數(shù)設(shè)置最大迭代次數(shù)100終止誤差1.00E-05模糊度參數(shù)2聚類個數(shù)113.3.4符號表示表3 符號表示符號表示Center類中心U隸屬度矩陣obj_fcn目標(biāo)函數(shù)值Data樣本數(shù)據(jù)3.3.5代碼實現(xiàn)過程導(dǎo)入數(shù)據(jù):Data1=xlsread(data)調(diào)用函數(shù): center,
11、U,obj_fcn = fcm(data1,11)3.3.6 FCM聚類分析Matlab結(jié)果輸出如圖8,9,10,11所示,分別得到各樣本的初始化隸屬度矩陣,樣本各類的類中心,最終的樣本隸屬度,目標(biāo)函數(shù)的更新過程。樣本模糊化圖8 初始化隸屬度矩陣截圖類中心(center)圖9 類中心隸屬度矩陣(U)圖10 隸屬度矩陣目標(biāo)函數(shù)(obj_fcn)圖11目標(biāo)函數(shù)值圖8,9,10分別是模糊C均值聚類最終形成的類中心,隸屬度矩陣,目標(biāo)函數(shù)。由圖8可以看出各類的類中心相差不大,同時由圖9可以看出隸屬度矩陣幾乎沒有差別,從圖9中可以看出對目標(biāo)函數(shù),在3次迭代之后基本趨于平穩(wěn)狀態(tài),目標(biāo)函數(shù)值為1487.6,綜
12、合上述分析認(rèn)為該聚類方法效果不好。在嘗試解決這個問題的過程中,嘗試修改fcm函數(shù)的模糊度參數(shù),迭代次數(shù),誤差項仍沒有取得較好結(jié)果,隨后為了避免單只股票4年的數(shù)據(jù)相似度太大而導(dǎo)致聚類效果差,分別抽取2000年到2003年各年的132只股票逐年進行分析,仍舊沒有得出好的聚類結(jié)果,所以文中沒有進行展示??紤]到各樣本點對聚類的結(jié)果產(chǎn)生的影響不同,下文嘗試改進的加權(quán)模糊C均值聚類方法。34 WFCM算法由于MATLAB中沒有自帶WFCM函數(shù),需要自己進行編程,數(shù)據(jù)的模糊化過程與模糊C均值聚類中相同,這里不再贅述。下面是WFCM運行的結(jié)果,具體代碼實現(xiàn)過程見附錄A。3.4.1 WFCM聚類結(jié)果展示樣本模糊
13、化圖12 樣本初始化隸屬度矩陣對比FCM 聚類最終結(jié)果,可以得出在對目標(biāo)函數(shù)進行加權(quán)之后,隸屬度矩陣和類中心都發(fā)生了明顯的改善,說明考慮了不同樣本對聚類結(jié)果的影響之后聚類結(jié)果更好。隸屬度矩陣圖13 WFCM隸屬度矩陣類中心圖14 WFCM類中心3.4.2樣本歸類計算出U , V ,obj_fcn之后,對樣本進行明確的歸類,這一過程可以通過下面兩個判定準(zhǔn)則來確定: 判定準(zhǔn)則 1如果 dik=minjdjk (1 j c), 則將樣本Xk歸屬于第 i 類。這個判定準(zhǔn)則的意義是樣本與哪一個聚類中心最接近,就將它歸到哪一類。 判定準(zhǔn)則 2如果 uik=maxjujk (1 j c), 這個判定準(zhǔn)則的意
14、義是樣本對哪一個類的隸屬度最大,就將它歸到哪一類。 3.4.3歸類代碼實現(xiàn)下面我們以判定準(zhǔn)則2來劃分樣本的類別,代碼過程如下:圖15 分類代碼3.4.4 樣本歸類結(jié)果及分析運行圖11中代碼,得到結(jié)果如圖16所示:圖16 樣本歸類結(jié)果由圖16可以看出,最終樣本歸為10類,除了第2和9類中樣本比較多,其他各類中樣本分布比較均勻,聚類結(jié)果可以接受。4結(jié)論非模糊聚類直接根據(jù)樣本之間相似性進行歸類,而模糊聚類是根據(jù)樣本的隸屬度矩陣和相似性矩陣進行歸類,其中樣本Xk隸屬于i類的程度即隸屬度,可在 0 到 1 之間取值,而不是如傳統(tǒng)聚類算法中,樣本 Xk隸屬于類的隸屬度只有兩種取值1 或 0, 即屬于與不屬
15、于。這樣,樣本Xk不再明確地屬于某一類,而是對于每一個類別都有一個隸屬度,隸屬度的數(shù)值越大說明樣本隸屬于該類的程度越大,反之則越小。模糊聚類的這種模糊劃分描述了樣本聚類過程中的模糊現(xiàn)象,從而可以獲得更為合理的聚類結(jié)果。對比K-means聚類結(jié)果圖3和WFCM聚類結(jié)果圖13,圖16,發(fā)現(xiàn)非模糊聚類結(jié)果中樣本集中在第6,7,8,9類中,而在加入了模糊隸屬度之后,模糊聚類結(jié)果有了各個樣本屬于11個類的程度,按隸屬度最大原則對樣本進行歸類之后發(fā)現(xiàn)除了第5類之外,樣本在各類中的分布相對更加均勻,說明聚類目的基本達(dá)到.具體到本文所采用的股票數(shù)據(jù)的聚類結(jié)果,可以看出模糊聚類比傳統(tǒng)的聚類結(jié)果更為合理,因此模糊
16、聚類的優(yōu)勢得到充分體現(xiàn)。5 參考文獻(xiàn)1 Zadeh L A.Fuzzy Sets.Information and Control.1965,8:338-353.2 Chan K P , Cheung Y S. Clustering of clustersJ . Pattern Recognition ,1992 ,25(2) :211 2173 楊綸標(biāo),高英儀 學(xué)原理及應(yīng)用 華南理工大學(xué)出版社 2005.6 52-774 姚曉紅.模糊聚類分析方法在甘肅農(nóng)業(yè)經(jīng)濟類型劃分中的應(yīng)用D.蘭州交通大學(xué),2013.5 廖芹,郝志峰 數(shù)據(jù)挖掘與數(shù)學(xué)建模 國防工業(yè)出版社 20096 高新波 模糊聚類分析及其應(yīng)
17、用 西安電子科技大學(xué)也出版社 20047 葉海軍.模糊聚類分析技術(shù)及其應(yīng)用研究D.合肥工業(yè)大學(xué),20068 張秀梅,王濤 模糊聚類分析方法在學(xué)生成績評價中的應(yīng)用J渤海大學(xué)學(xué)報:自然科學(xué)版,2007,28(2) 169-172.9 湯效琴,戴汝源 數(shù)據(jù)挖掘中聚類分析的技術(shù)方法 寧夏大學(xué)學(xué)報 2006.76 附錄附錄A WFCM代碼function center, U, obj_fcn = KFCMClust(data, cluster_n, kernel_b,options) error(nargchk(2,4,nargin); %檢查輸入?yún)?shù)個數(shù) data_n = size(data, 1);
18、 % 求出data的第一維(rows)數(shù),即樣本個數(shù) in_n = size(data, 2); % 求出data的第二維(columns)數(shù),即特征值長度,目前沒有用 % 默認(rèn)操作參數(shù) default_b = 150; % 高斯核函數(shù)參數(shù) default_options = 2; % 隸屬度矩陣U的指數(shù) 100; % 最大迭代次數(shù) 1e-5; % 隸屬度最小變化量,迭代終止條件 1; % 每次迭代是否輸出信息標(biāo)志 if nargin = 2, kernel_b = default_b; options = default_options; elseif nargin = 3, options
19、 = default_options; else if length(options) < 4, tmp = default_options; tmp(1:length(options) = options; options = tmp; end nan_index = find(isnan(options)=1); %將denfault_options中對應(yīng)位置的參數(shù)賦值給options中不是數(shù)的位置. options(nan_index) = default_options(nan_index); if options(1) <= 1, %如果options中的指數(shù)m不超過1報
20、錯 error('The exponent should be greater than 1!'); end end %將options 中的分量分別賦值給四個變量; expo = options(1); % 隸屬度矩陣U的指數(shù) max_iter = options(2); % 最大迭代次數(shù) min_impro = options(3); % 隸屬度最小變化量,迭代終止條件 display = options(4); % 每次迭代是否輸出信息標(biāo)志 obj_fcn = zeros(max_iter, 1); % 初始化輸出參數(shù)obj_fcn U = initkfcm(cluste
21、r_n, data_n) % 初始化模糊分配矩陣% 初始化聚類中心:從樣本數(shù)據(jù)點中任意選取cluster_n個樣本作為聚類中心。 index = randperm(data_n); % 對樣本序數(shù)隨機排列 center_old = data(index(1:cluster_n),:); % 選取隨機排列的序數(shù)的前cluster_n個 for i = 1:max_iter, %在第k步循環(huán)中改變聚類中心ceneter,和分配函數(shù)U的隸屬度值; U, center, obj_fcn(i) = stepkfcm(data,U,center_old, expo, kernel_b); if displ
22、ay, fprintf('KFCM:Iteration count = %d, obj. fcn = %fn', i, obj_fcn(i); end center_old = center; % 用新的聚類中心代替老的聚類中心 % 終止條件判別 if i > 1, if abs(obj_fcn(i) - obj_fcn(i-1) < min_impro, break; end, end end iter_n = i; % 實際迭代次數(shù) obj_fcn(iter_n+1:max_iter) = ; % 子函數(shù) function U = initkfcm(cluste
23、r_n, data_n) % 初始化fcm的隸屬度函數(shù)矩陣 U = rand(cluster_n, data_n); col_sum = sum(U); U = U./col_sum(ones(cluster_n, 1), :); % 子函數(shù) function U_new,center_new,obj_fcn = stepkfcm(data,U,center,expo,kernel_b) % 模糊C均值聚類時迭代的一步 % 輸入: feature_n = size(data,2); % 特征維數(shù) cluster_n = size(center,1); % 聚類個數(shù) mf = U.expo; % 隸屬度矩陣進行指數(shù)運算(c行n列) % 計算新的聚類中心; KernelMat = gaussKernel(center,data,kernel_b); % 計算高斯核矩陣(c行n列) num = mf.*KernelMat * data; % 式(5.15)的分子(c行p列,p為特征維數(shù)) den = sum(mf.*KernelMat,2); % 式子(5.15)的分子,(c行,1列,尚未擴展) center_new = num./(den*
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全教育類題庫及答案
- 乘員安全測試題及答案
- 烏頭堿中毒試題及答案
- 海鹽縣城鄉(xiāng)污水處理廠(一期)ppp項目可行性研究報告
- “南方傳媒廣場”項目可行性研究報告
- 靈活辦公空間在NewNormal下的空間需求與供給研究-洞察闡釋
- 網(wǎng)絡(luò)安全場監(jiān)管與數(shù)據(jù)保護合同
- 智能化工廠改建項目木工施工與材料供應(yīng)合同
- 人力資源場交易居間服務(wù)協(xié)議
- 2025版權(quán)影視廣告合同范本
- 供應(yīng)商QSA-QPA評審表(電池)
- 高考前最后一課-數(shù)學(xué)
- 班組精細(xì)化管理學(xué)習(xí)體會
- 中國古代考課和考績制度的發(fā)展
- 兒童行為量表(CBCL)(可打印)幼兒教育
- 鐵總物資〔2015〕63號:中國鐵路總公司物資采購管理辦法
- 2023年08月甘肅定西西源國家糧食儲備庫有限公司公開招聘5人筆試歷年難易錯點考題薈萃附帶答案詳解
- 220kV線路工程項目管理實施規(guī)劃施工組織設(shè)計
- 會計基礎(chǔ)工作規(guī)范87張課件
- 高中美術(shù)-第10課-楷書四大家教學(xué)課件設(shè)計
- 2023-2024學(xué)年江蘇省江陰市小學(xué)語文五年級期末通關(guān)模擬題附參考答案和詳細(xì)解析
評論
0/150
提交評論