




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、課程名稱:課程名稱: 數(shù)據(jù)挖掘與統(tǒng)計(jì)決策數(shù)據(jù)挖掘與統(tǒng)計(jì)決策 教教 師:師: 廖廖 芹芹 Email : Email : 參考教材和資料:參考教材和資料:1 1、數(shù)據(jù)挖掘與數(shù)學(xué)建模數(shù)據(jù)挖掘與數(shù)學(xué)建模, , 廖芹廖芹, ,郝志峰郝志峰編著編著, ,國防工業(yè)出版社國防工業(yè)出版社,2010,2010年年2 2月月2 2、大數(shù)據(jù)分析:方法與應(yīng)用,大數(shù)據(jù)分析:方法與應(yīng)用,, ,王星王星 等編著,等編著,清華大學(xué)出版社清華大學(xué)出版社3 3、數(shù)據(jù)挖掘教程數(shù)據(jù)挖掘教程,郭崇慧等翻譯,清華大學(xué)出版社,郭崇慧等翻譯,清華大學(xué)出版社 4 4、數(shù)據(jù)挖掘軟件、數(shù)據(jù)挖掘軟件Clementine11.0Clementine1
2、1.0的教學(xué)資料(的教學(xué)資料(wordword形形式、視頻形式)。式、視頻形式)。 3 3、神經(jīng)網(wǎng)絡(luò)模型建立及應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型建立及應(yīng)用 二、數(shù)據(jù)挖掘方法及原理二、數(shù)據(jù)挖掘方法及原理 5 5、關(guān)聯(lián)分析分類、關(guān)聯(lián)分析分類/ /時(shí)序關(guān)聯(lián)及應(yīng)用時(shí)序關(guān)聯(lián)及應(yīng)用 6 6、遺傳算法的優(yōu)化控制及應(yīng)用、遺傳算法的優(yōu)化控制及應(yīng)用 2 2、主成分、主成分/ /因子分析的變量提取及應(yīng)用因子分析的變量提取及應(yīng)用 4 4、決策樹分類推理及應(yīng)用、決策樹分類推理及應(yīng)用一、數(shù)據(jù)挖掘?qū)W科概述一、數(shù)據(jù)挖掘?qū)W科概述三、數(shù)據(jù)挖掘方法應(yīng)用案例分析三、數(shù)據(jù)挖掘方法應(yīng)用案例分析 1 1、聚類分析的數(shù)據(jù)特征發(fā)現(xiàn)及應(yīng)用、聚類分析的數(shù)據(jù)特征發(fā)
3、現(xiàn)及應(yīng)用4 4、神經(jīng)網(wǎng)絡(luò):、神經(jīng)網(wǎng)絡(luò): 模仿大腦神經(jīng)模仿大腦神經(jīng)功能和功能和結(jié)構(gòu)而建立的一種信息處理與結(jié)構(gòu)而建立的一種信息處理與建模的分類或預(yù)測方法。建模的分類或預(yù)測方法。1 1、聚類分析:、聚類分析:根據(jù)對象的屬性,以對象的根據(jù)對象的屬性,以對象的相似性進(jìn)行度量,相似性進(jìn)行度量,把對把對象歸象歸類類,使類使類間相似性盡量少間相似性盡量少, ,類內(nèi)相似性盡量大的一種分類方法。類內(nèi)相似性盡量大的一種分類方法。6 6、關(guān)聯(lián)分析:、關(guān)聯(lián)分析:對多個(gè)數(shù)據(jù)項(xiàng)(研究對象)對多個(gè)數(shù)據(jù)項(xiàng)(研究對象)同時(shí)或時(shí)序同時(shí)或時(shí)序出現(xiàn)的規(guī)律出現(xiàn)的規(guī)律知識模式進(jìn)行分析的方法。知識模式進(jìn)行分析的方法。7 7、遺傳算法:、遺傳
4、算法:一種基于生物自然選擇與遺傳機(jī)理(一種基于生物自然選擇與遺傳機(jī)理(優(yōu)勝劣汰優(yōu)勝劣汰)的)的尋求尋求滿意解滿意解的算法。的算法。3 3、回歸、回歸/ /邏輯回歸分析邏輯回歸分析: 基于一組相關(guān)數(shù)據(jù)建立自變量與因變量的確基于一組相關(guān)數(shù)據(jù)建立自變量與因變量的確定性關(guān)系,并以此研究統(tǒng)計(jì)意義下實(shí)變量與隨機(jī)變量的不確定性定性關(guān)系,并以此研究統(tǒng)計(jì)意義下實(shí)變量與隨機(jī)變量的不確定性關(guān)系的關(guān)系的方法。方法。2 2、主成分、主成分/ /因子分析因子分析:對多維變量進(jìn)行降維,以選擇適合建模變量對多維變量進(jìn)行降維,以選擇適合建模變量的方法。的方法。5 5、決策樹:、決策樹: 通過原因?qū)Y(jié)果影響程度的樹結(jié)構(gòu)分析,提取
5、原因判通過原因?qū)Y(jié)果影響程度的樹結(jié)構(gòu)分析,提取原因判別結(jié)果的規(guī)則方法。別結(jié)果的規(guī)則方法。教學(xué)要求教學(xué)要求(3學(xué)分,學(xué)分,48學(xué)時(shí))學(xué)時(shí)): 筆試(閉卷考試)占筆試(閉卷考試)占70%, 作業(yè)及考勤占作業(yè)及考勤占30%. 課程設(shè)計(jì)課程設(shè)計(jì)( 2學(xué)分,學(xué)分,2周):周): 數(shù)據(jù)挖掘方法軟件的設(shè)計(jì)、應(yīng)用及實(shí)踐數(shù)據(jù)挖掘方法軟件的設(shè)計(jì)、應(yīng)用及實(shí)踐 作業(yè)題:作業(yè)題:借助數(shù)據(jù)挖掘軟件借助數(shù)據(jù)挖掘軟件ClementineClementine(12.012.0),對上市公司股票),對上市公司股票的財(cái)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,建立的財(cái)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,建立“證券收益的預(yù)測、分類與控制證券收益的預(yù)測、分類與控制”。分為
6、五個(gè)作業(yè):分為五個(gè)作業(yè):1 1、聚類分析;、聚類分析;2 2、主成分、主成分/ /因子分析;因子分析;3 3、神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò);決策樹分析;決策樹分析;關(guān)聯(lián)分析。關(guān)聯(lián)分析。 作業(yè)要求:作業(yè)要求:按課程進(jìn)度上交相應(yīng)的作業(yè),作業(yè)按課程進(jìn)度上交相應(yīng)的作業(yè),作業(yè)wordword文件表示,內(nèi)容文件表示,內(nèi)容包括:包括:1 1、 數(shù)據(jù)處理與分析;數(shù)據(jù)處理與分析;2 2、 數(shù)學(xué)建模過程論述;數(shù)學(xué)建模過程論述;3 3、 ClementineClementine(12.012.0)輔助過程(選項(xiàng)描述、參數(shù)選擇、數(shù)據(jù)項(xiàng))輔助過程(選項(xiàng)描述、參數(shù)選擇、數(shù)據(jù)項(xiàng)屬性設(shè)置等,附界面);屬性設(shè)置等,附界面);4 4、 Cl
7、ementineClementine(12.012.0)輔助結(jié)果分析(結(jié)果圖形表示、結(jié)果數(shù)據(jù))輔助結(jié)果分析(結(jié)果圖形表示、結(jié)果數(shù)據(jù)分析)。分析)。課程設(shè)計(jì)題目:課程設(shè)計(jì)題目:遺傳優(yōu)化與神經(jīng)網(wǎng)絡(luò)結(jié)合在統(tǒng)計(jì)決策支持的遺傳優(yōu)化與神經(jīng)網(wǎng)絡(luò)結(jié)合在統(tǒng)計(jì)決策支持的應(yīng)用應(yīng)用設(shè)計(jì)(包括設(shè)計(jì)(包括輸入、建模、決策、輸出相應(yīng)輸入、建模、決策、輸出相應(yīng)頁面及功能頁面及功能設(shè)設(shè)計(jì)),題目待定計(jì)),題目待定課程設(shè)計(jì)要求:課程設(shè)計(jì)要求:1 1、以以2-52-5人為一小組在上述七個(gè)方法中選一題進(jìn)行設(shè)計(jì)并編程實(shí)現(xiàn);人為一小組在上述七個(gè)方法中選一題進(jìn)行設(shè)計(jì)并編程實(shí)現(xiàn);2 2、上交的課程設(shè)計(jì)報(bào)告用上交的課程設(shè)計(jì)報(bào)告用A4A4紙(不
8、少于紙(不少于1010頁)打印,并附課程設(shè)頁)打印,并附課程設(shè)計(jì)報(bào)告的計(jì)報(bào)告的wordword文件、可運(yùn)行的遺傳程序光盤。期末課程考試時(shí)上交。文件、可運(yùn)行的遺傳程序光盤。期末課程考試時(shí)上交。 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘定義(Data Mining,簡記簡記DM) 對數(shù)據(jù)庫中潛在的、不明對數(shù)據(jù)庫中潛在的、不明顯的數(shù)據(jù)關(guān)系進(jìn)行分析與建模的顯的數(shù)據(jù)關(guān)系進(jìn)行分析與建模的算法算法。1 1、信息化發(fā)展與數(shù)據(jù)挖掘、信息化發(fā)展與數(shù)據(jù)挖掘五十年代初五十年代初 : 產(chǎn)生數(shù)據(jù)處理系統(tǒng)產(chǎn)生數(shù)據(jù)處理系統(tǒng)(Data Processing (Data Processing Systems, Systems, 簡記簡記DPS) D
9、PS) 或或 電子數(shù)據(jù)處理系統(tǒng)電子數(shù)據(jù)處理系統(tǒng)(Electronic Data Processing Systems, 簡記簡記EDP) 七十年代初七十年代初: 產(chǎn)生產(chǎn)生MISMIS;七十年代末七十年代末: : 產(chǎn)生產(chǎn)生DSSDSS 八十年代中八十年代中: : 產(chǎn)生專家系統(tǒng)產(chǎn)生專家系統(tǒng)(ES)(ES)、智能決策支持系統(tǒng)、智能決策支持系統(tǒng)(IDSS)(IDSS)、智能管理系統(tǒng)、智能管理系統(tǒng)(IMS)(IMS) 九十年代中:九十年代中:產(chǎn)生綜合決策支持系統(tǒng)(產(chǎn)生綜合決策支持系統(tǒng)(Synthetic Synthetic Decision Supporting SystemsDecision Supp
10、orting Systems,簡記,簡記SDSSSDSS,SDSS= SDSS= IDSS+IDSS+數(shù)據(jù)倉庫數(shù)據(jù)倉庫+ +數(shù)據(jù)挖掘。數(shù)據(jù)挖掘。 1 1、企業(yè)信息化建設(shè):、企業(yè)信息化建設(shè):各類各類管理信息系統(tǒng)、決策支持系統(tǒng)管理信息系統(tǒng)、決策支持系統(tǒng)等,等,如如MRPMRP(Material Requirements Planning,Material Requirements Planning,物料需求計(jì)劃系物料需求計(jì)劃系統(tǒng))、統(tǒng))、MRPIIMRPII(Manufacturing Resource PlanningManufacturing Resource Planning,制造資源制造資
11、源計(jì)劃系統(tǒng))、計(jì)劃系統(tǒng))、ERPERP(Enterprise Resource Planning,Enterprise Resource Planning,企業(yè)資企業(yè)資源計(jì)劃系統(tǒng))、源計(jì)劃系統(tǒng))、ERPIIERPII(協(xié)同商務(wù)與智能商務(wù)的(協(xié)同商務(wù)與智能商務(wù)的ERPERP)。)。 2 2、電子商務(wù)建設(shè):、電子商務(wù)建設(shè):信息流、資金流、物流、商務(wù)智能、協(xié)同信息流、資金流、物流、商務(wù)智能、協(xié)同商務(wù)商務(wù)的模式與技術(shù)。的模式與技術(shù)。 3 3、電子政務(wù)建設(shè):、電子政務(wù)建設(shè):利用互聯(lián)網(wǎng)實(shí)現(xiàn)法律、法規(guī)、政策等的宣利用互聯(lián)網(wǎng)實(shí)現(xiàn)法律、法規(guī)、政策等的宣傳、引導(dǎo)和監(jiān)控。傳、引導(dǎo)和監(jiān)控。 4 4、教育信息化建設(shè):、
12、教育信息化建設(shè):利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)教學(xué)方法改利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)教學(xué)方法改革和教育資源共享,如革和教育資源共享,如網(wǎng)絡(luò)課程、網(wǎng)絡(luò)試題庫、網(wǎng)絡(luò)資源庫網(wǎng)絡(luò)課程、網(wǎng)絡(luò)試題庫、網(wǎng)絡(luò)資源庫等等。當(dāng)前研究熱點(diǎn):當(dāng)前研究熱點(diǎn):1)大數(shù)據(jù))大數(shù)據(jù)“科學(xué)、工程、技術(shù)與應(yīng)用科學(xué)、工程、技術(shù)與應(yīng)用” 2)信息資源的云集成)信息資源的云集成數(shù)據(jù)輸入信息輸出數(shù)據(jù)處理數(shù)據(jù)模型數(shù)據(jù)模型數(shù)學(xué)模型數(shù)學(xué)模型數(shù)據(jù)存儲信息化發(fā)展需要解決的問題:信息化發(fā)展需要解決的問題: 如何在海量數(shù)據(jù)中,獲取有價(jià)值的決策信息?獲取過程如何在海量數(shù)據(jù)中,獲取有價(jià)值的決策信息?獲取過程需要應(yīng)用哪些大數(shù)據(jù)處理的方法?應(yīng)用那些模型?需要應(yīng)用哪些大
13、數(shù)據(jù)處理的方法?應(yīng)用那些模型?管理信息系統(tǒng)定義管理信息系統(tǒng)定義( Management Information Systems,簡記簡記MIS) MIS是一種集成化的人機(jī)系統(tǒng)是一種集成化的人機(jī)系統(tǒng). . 它能為組織機(jī)構(gòu)的作業(yè)它能為組織機(jī)構(gòu)的作業(yè), , 管理管理和決策職能提供信息支持和決策職能提供信息支持. .信息系統(tǒng)信息系統(tǒng)“MRP、MRPII、ERP、ERPII”特點(diǎn)特點(diǎn)主生產(chǎn)計(jì)劃主生產(chǎn)計(jì)劃物料需求計(jì)劃物料需求計(jì)劃能力需求計(jì)劃能力需求計(jì)劃銷售管理銷售管理采購管理采購管理庫存管理庫存管理生產(chǎn)管理生產(chǎn)管理財(cái)務(wù)管理財(cái)務(wù)管理人事管理人事管理質(zhì)量管理質(zhì)量管理信息管理信息管理供應(yīng)鏈管理供應(yīng)鏈管理客戶管理
14、客戶管理協(xié)同商務(wù)協(xié)同商務(wù)商務(wù)智能商務(wù)智能管理管理注:注:BOMBOM即即 Bill of Meterial, ,物料清單,一種產(chǎn)品組成結(jié)構(gòu)的樹型物料清單,一種產(chǎn)品組成結(jié)構(gòu)的樹型表示。表示。供應(yīng)鏈管理即供應(yīng)鏈管理即SCM系統(tǒng),客戶管理,即系統(tǒng),客戶管理,即CRM系統(tǒng)(客戶關(guān)系管理系統(tǒng))。系統(tǒng)(客戶關(guān)系管理系統(tǒng))。 決策支持系統(tǒng)定義決策支持系統(tǒng)定義(Decision Supporting Systems,簡記簡記DSS) 指能夠綜合利用各種數(shù)據(jù)、指能夠綜合利用各種數(shù)據(jù)、 信息知識、信息知識、 人工智能人工智能 和模型技術(shù)和模型技術(shù), , 輔輔助高級決策者解決半結(jié)構(gòu)化或非結(jié)構(gòu)化決策問題的人機(jī)交互信息
15、系統(tǒng)助高級決策者解決半結(jié)構(gòu)化或非結(jié)構(gòu)化決策問題的人機(jī)交互信息系統(tǒng). . 1 1、數(shù)據(jù)倉庫(數(shù)據(jù)倉庫( Data Warehouse,簡記,簡記DW ):是一種管是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理達(dá)到有效理技術(shù),旨在通過通暢、合理、全面的信息管理達(dá)到有效的決策支持。的決策支持。 支持支持?jǐn)?shù)據(jù)倉庫數(shù)據(jù)倉庫的兩種必要數(shù)據(jù)處理功能:的兩種必要數(shù)據(jù)處理功能: 1 1)OLAP(在線分析處理):針對(在線分析處理):針對確定的確定的數(shù)據(jù)關(guān)系數(shù)據(jù)關(guān)系建立數(shù)據(jù)模型,包括建立數(shù)據(jù)模型,包括切片、切塊、鉆取、旋轉(zhuǎn)等多維數(shù)據(jù)切片、切塊、鉆取、旋轉(zhuǎn)等多維數(shù)據(jù)模型模型。 2 2)數(shù)據(jù)挖掘()數(shù)據(jù)挖掘(D
16、M):針對):針對潛在的、不明顯潛在的、不明顯的數(shù)據(jù)的數(shù)據(jù)關(guān)系建立數(shù)據(jù)模型輔助決策。關(guān)系建立數(shù)據(jù)模型輔助決策。 結(jié)構(gòu)化決策結(jié)構(gòu)化決策: : 指能建立適當(dāng)?shù)哪P彤a(chǎn)生決策方案指能建立適當(dāng)?shù)哪P彤a(chǎn)生決策方案, ,并能從多個(gè)并能從多個(gè)方案中得到問題解的、方案中得到問題解的、可程序化可程序化的決策。的決策。非結(jié)構(gòu)化決策非結(jié)構(gòu)化決策: : 指不易用確定的數(shù)學(xué)模型來描述其決策過程指不易用確定的數(shù)學(xué)模型來描述其決策過程, ,只能得到一定假設(shè)條件下只能得到一定假設(shè)條件下問題問題近似解的、通過規(guī)則推理近似解的、通過規(guī)則推理可轉(zhuǎn)可轉(zhuǎn)換為程序化換為程序化的決策的決策. .結(jié)構(gòu)化決策問題之一:結(jié)構(gòu)化決策問題之一:在已知
17、成本的條件下,求使利潤最大在已知成本的條件下,求使利潤最大的銷量與售價(jià)。的銷量與售價(jià)。非結(jié)構(gòu)化決策問題之一:非結(jié)構(gòu)化決策問題之一:確定最優(yōu)的銷售策略。確定最優(yōu)的銷售策略。應(yīng)用案例應(yīng)用案例地下燃?xì)夤艿腊踩珷顩r評價(jià)系統(tǒng)地下燃?xì)夤艿腊踩珷顩r評價(jià)系統(tǒng)主頁面主頁面應(yīng)用案例應(yīng)用案例地下地下燃?xì)夤艿腊踩珷顩r評價(jià)模型建立燃?xì)夤艿腊踩珷顩r評價(jià)模型建立頁面頁面應(yīng)用案例應(yīng)用案例食品安全風(fēng)險(xiǎn)推理系統(tǒng)頁面食品安全風(fēng)險(xiǎn)推理系統(tǒng)頁面應(yīng)用案例應(yīng)用案例食品安全風(fēng)險(xiǎn)推理系統(tǒng)頁面食品安全風(fēng)險(xiǎn)推理系統(tǒng)頁面1 1、規(guī)劃問題、規(guī)劃問題2 2、控制問題、控制問題規(guī)劃:規(guī)劃:預(yù)測未來預(yù)測未來、確立目標(biāo)、決定政策、確立目標(biāo)、決定政策、選擇方案
18、選擇方案的一系列過程的的一系列過程的結(jié)果。結(jié)果。主要預(yù)測問題:主要預(yù)測問題:市場預(yù)測、銷量預(yù)測、成本預(yù)測、投資預(yù)測、籌資市場預(yù)測、銷量預(yù)測、成本預(yù)測、投資預(yù)測、籌資預(yù)測、利潤預(yù)測、效益預(yù)測、人才流動預(yù)測等。預(yù)測、利潤預(yù)測、效益預(yù)測、人才流動預(yù)測等。 控制:控制:預(yù)定(計(jì)劃)指標(biāo)與實(shí)際指標(biāo)的差異監(jiān)督與改正。預(yù)定(計(jì)劃)指標(biāo)與實(shí)際指標(biāo)的差異監(jiān)督與改正。形式:形式:事前控制、過程控制、事后控制。事前控制、過程控制、事后控制。主要控制問題:主要控制問題:質(zhì)量控制,成本控制,生產(chǎn)控制、資源控制等。質(zhì)量控制,成本控制,生產(chǎn)控制、資源控制等。信息化發(fā)展中的四類主要決策問題信息化發(fā)展中的四類主要決策問題4 4
19、、評價(jià)問題、評價(jià)問題3 3、優(yōu)化問題、優(yōu)化問題1 1、優(yōu)化:、優(yōu)化:在多個(gè)可選擇方案中選擇使目標(biāo)最好(如利潤最大、在多個(gè)可選擇方案中選擇使目標(biāo)最好(如利潤最大、成本最少,效益成本最少,效益/ /效率最高)的方案。效率最高)的方案。2 2、主要優(yōu)化問題:、主要優(yōu)化問題:資源配置優(yōu)化,生產(chǎn)工藝參數(shù)優(yōu)化、產(chǎn)品資源配置優(yōu)化,生產(chǎn)工藝參數(shù)優(yōu)化、產(chǎn)品結(jié)構(gòu)優(yōu)化,投資結(jié)構(gòu)優(yōu)化,投資/ /籌資組合優(yōu)化等?;I資組合優(yōu)化等。1、評價(jià):、評價(jià):通過建立評價(jià)指標(biāo)與影響因素之間的模型關(guān)系,對通過建立評價(jià)指標(biāo)與影響因素之間的模型關(guān)系,對獲取因素的測評數(shù)據(jù)計(jì)算指標(biāo)數(shù)值,達(dá)到對指標(biāo)的綜合評價(jià)。獲取因素的測評數(shù)據(jù)計(jì)算指標(biāo)數(shù)值,達(dá)
20、到對指標(biāo)的綜合評價(jià)。2 2、主要評價(jià)問題:、主要評價(jià)問題:安全評價(jià)、質(zhì)量評價(jià)、能力評價(jià)、素質(zhì)評安全評價(jià)、質(zhì)量評價(jià)、能力評價(jià)、素質(zhì)評價(jià)、發(fā)展水平評價(jià)等。價(jià)、發(fā)展水平評價(jià)等。教育部資產(chǎn)資源的投入產(chǎn)出績效 綜合評價(jià)與優(yōu)化配置 1、高校投入產(chǎn)出績效綜合評價(jià) (投入產(chǎn)出模型投入產(chǎn)出模型+神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)+遺傳算法)遺傳算法) 2、根據(jù)高校投入產(chǎn)出績效優(yōu)化配置未來的資源 (神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)+遺傳算法)遺傳算法) 3、對高校配置資源結(jié)果進(jìn)行風(fēng)險(xiǎn)預(yù)測 (神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)+遺傳算法遺傳算法+統(tǒng)計(jì)方法)統(tǒng)計(jì)方法) 4、對高校配置資源進(jìn)行效益預(yù)測 (模糊評價(jià)模糊評價(jià)+遺傳算法)遺傳算法) 1 1、結(jié)構(gòu)化決策輔助:、
21、結(jié)構(gòu)化決策輔助:模型的自適應(yīng)變化模型的自適應(yīng)變化2 2、非結(jié)構(gòu)化決策輔助:包括、非結(jié)構(gòu)化決策輔助:包括智能化輔助過程的知識規(guī)則提取智能化輔助過程的知識規(guī)則提取不確定知識推理不確定知識推理隨機(jī)信息隨機(jī)信息模糊信息模糊信息其中,結(jié)構(gòu)化其中,結(jié)構(gòu)化決策決策: : 指能建立適當(dāng)?shù)哪P彤a(chǎn)生決策方案指能建立適當(dāng)?shù)哪P彤a(chǎn)生決策方案, ,并能從多個(gè)方案中得到并能從多個(gè)方案中得到問題解的、問題解的、可程可程序化序化的決策。的決策。 其中,非其中,非結(jié)構(gòu)化決策結(jié)構(gòu)化決策: : 指不易用確定的數(shù)學(xué)模型來描述其決策過程指不易用確定的數(shù)學(xué)模型來描述其決策過程, ,只能得到一只能得到一定假設(shè)條件下定假設(shè)條件下問題問題近似
22、解的、通過規(guī)則推理近似解的、通過規(guī)則推理可轉(zhuǎn)換為程序化可轉(zhuǎn)換為程序化的決策的決策. .當(dāng)前決策中的主要問題:當(dāng)前決策中的主要問題:經(jīng)典統(tǒng)計(jì)局限問題:經(jīng)典統(tǒng)計(jì)局限問題: 大樣本,少變量,多輸入,單輸出,隨機(jī)性;大樣本,少變量,多輸入,單輸出,隨機(jī)性;現(xiàn)代統(tǒng)計(jì)面臨問題:現(xiàn)代統(tǒng)計(jì)面臨問題: 大數(shù)據(jù)量,少樣本,多變量,多輸出,混合模糊與隨大數(shù)據(jù)量,少樣本,多變量,多輸出,混合模糊與隨機(jī)性機(jī)性;數(shù)據(jù)挖掘方法的特點(diǎn):數(shù)據(jù)挖掘方法的特點(diǎn): 1 1、高維數(shù)據(jù)特征分析、高維數(shù)據(jù)特征分析 2 2、模型自適應(yīng)變化、模型自適應(yīng)變化 3 3、多輸入多輸出的非線性關(guān)系建立、多輸入多輸出的非線性關(guān)系建立 4 4、混合隨機(jī)與
23、模糊不確定性的分類與預(yù)測、混合隨機(jī)與模糊不確定性的分類與預(yù)測 5 5、多目標(biāo)多維數(shù)據(jù)的優(yōu)化與控制、多目標(biāo)多維數(shù)據(jù)的優(yōu)化與控制因此,因此,數(shù)據(jù)挖掘數(shù)據(jù)挖掘是現(xiàn)代統(tǒng)計(jì)學(xué)科分支,既屬于統(tǒng)計(jì)學(xué)科,也是現(xiàn)代統(tǒng)計(jì)學(xué)科分支,既屬于統(tǒng)計(jì)學(xué)科,也屬于計(jì)算機(jī)科學(xué)學(xué)科。屬于計(jì)算機(jī)科學(xué)學(xué)科。CRISP-DM(CRossCRISP-DM(CRoss-Industry Standard Process for Data Mining):-Industry Standard Process for Data Mining):各企業(yè)中被廣泛采用的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。包括各企業(yè)中被廣泛采用的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。包括6 6個(gè)步驟:商
24、業(yè)理個(gè)步驟:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、結(jié)果評估、應(yīng)用部署。解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、結(jié)果評估、應(yīng)用部署。 數(shù)據(jù)挖掘軟件:數(shù)據(jù)挖掘軟件: Clementine 12.0: SPSSClementine 12.0: SPSS公司推出的企業(yè)公司推出的企業(yè)級數(shù)據(jù)挖掘軟件產(chǎn)品級數(shù)據(jù)挖掘軟件產(chǎn)品數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘及其軟件數(shù)據(jù)挖掘及其軟件一、一、數(shù)據(jù)類型的一致化方法數(shù)據(jù)類型的一致化方法要點(diǎn):要點(diǎn):建立數(shù)學(xué)模型時(shí),需要把不同數(shù)據(jù)類型轉(zhuǎn)換為相同的建立數(shù)學(xué)模型時(shí),需要把不同數(shù)據(jù)類型轉(zhuǎn)換為相同的數(shù)據(jù)類型數(shù)據(jù)類型一、一、數(shù)據(jù)類型的一致化方法數(shù)據(jù)類型的一致化方法 為了使不同量綱的數(shù)據(jù)
25、能夠進(jìn)行可加與可比,需要對數(shù)據(jù)為了使不同量綱的數(shù)據(jù)能夠進(jìn)行可加與可比,需要對數(shù)據(jù)進(jìn)行無量綱處理。常用處理方法為:進(jìn)行無量綱處理。常用處理方法為:一、一、數(shù)據(jù)無量綱化方法數(shù)據(jù)無量綱化方法一、一、數(shù)據(jù)無量綱化方法數(shù)據(jù)無量綱化方法樣本病人數(shù)醫(yī)生數(shù)工作人員數(shù)門診所數(shù)死亡率醫(yī)療能力評價(jià)上海0.51.51.51.5-1.51.5北京-0.51.51.51.50.51.5沈陽-1.5-1.5-1.5-0.50.5-1.5武漢0.50.50.5-0.5-1.5-0.5哈爾濱1.50.5-0.5-1.5-0.5-0.5重慶0.50.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.
26、5蘭州1.50.5-0.50.51.51.5青島0.5-1.51.51.5-0.50.5鞍山0.5-0.5-0.5-1.51.50.5問題:上述六個(gè)變量如何轉(zhuǎn)換為【0,1】無量綱數(shù)據(jù)?取四個(gè)值中的最大取四個(gè)值中的最大M=1.5,最小,最小m=-1.5,由公式,由公式y(tǒng)=(x-m)/(M-m)=(x+1.5)/(1.5+1.5), 分別把分別把x轉(zhuǎn)換為如下轉(zhuǎn)換為如下y:X=1.5,y=1, X=-1.5,y=0, X=0.5,y=0.63, X=-0.5,y=0.37一、一、數(shù)據(jù)無量綱化方法數(shù)據(jù)無量綱化方法聚類:聚類:根據(jù)事物的某些屬性,定義相似度表示事物的根據(jù)事物的某些屬性,定義相似度表示事物
27、的相似性,相似性,把相似事物聚集成類把相似事物聚集成類,使類間相似性盡量少,類內(nèi)元素相似,使類間相似性盡量少,類內(nèi)元素相似性盡量大的數(shù)據(jù)劃分方法。性盡量大的數(shù)據(jù)劃分方法。 特點(diǎn):已知類別特點(diǎn):已知類別變量屬性對樣本數(shù)據(jù)進(jìn)行劃分,稱為分類,變量屬性對樣本數(shù)據(jù)進(jìn)行劃分,稱為分類,未知未知類別變量類別變量(沒有先驗(yàn)知識)而按相似度大小對樣本數(shù)據(jù)(沒有先驗(yàn)知識)而按相似度大小對樣本數(shù)據(jù)進(jìn)行劃分,稱為聚類。進(jìn)行劃分,稱為聚類。二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析問題:問題:1)如何從海量的數(shù)據(jù)中尋找有代表性的、有建模價(jià)值如何從海量的數(shù)據(jù)中尋找有代表性的、有建模價(jià)值的數(shù)據(jù)?的數(shù)據(jù)? 2)對于多
28、維數(shù)據(jù),如何了解數(shù)據(jù)變化特點(diǎn)?對于多維數(shù)據(jù),如何了解數(shù)據(jù)變化特點(diǎn)?引入例:引入例:1 1)100100個(gè)學(xué)生按語文成績分類,如何分?個(gè)學(xué)生按語文成績分類,如何分? 2 2)100100個(gè)學(xué)生按語文成績、數(shù)學(xué)成績、英語成績分個(gè)學(xué)生按語文成績、數(shù)學(xué)成績、英語成績分類,應(yīng)該如何分?類,應(yīng)該如何分?主要問題:主要問題: (1 1)如何定義兩類之間的相似度?)如何定義兩類之間的相似度? (2 2)如何按)如何按相似度相似度進(jìn)行聚類?進(jìn)行聚類? (3 3)如何表出譜系圖?)如何表出譜系圖? (4 4)聚類分析的應(yīng)用?)聚類分析的應(yīng)用? 問題問題1)思路思路:1)定義兩元素相似度量定義兩元素相似度量(一般可
29、用距離、變量相關(guān)系數(shù)等定義)(一般可用距離、變量相關(guān)系數(shù)等定義)絕對值定義兩絕對值定義兩元素相似度元素相似度歐式距離定義歐式距離定義兩元素相似度兩元素相似度二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析常見各種距離定義及性質(zhì)常見各種距離定義及性質(zhì)數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199 P73二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析問題問題1)思路思路:2) 用兩元素相似性定義兩類相似度量用兩元素相似性定義兩類相似度量最小距離最小距離定義兩類定義兩類相似度相似度最大距離最大距離定義兩類定義兩類相似度相似度二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章
30、P190-199 P74二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析常見各種相似性度量定義常見各種相似性度量定義數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析常見各種相似性度量定義常見各種相似性度量定義一、系統(tǒng)聚類法:一、系統(tǒng)聚類法:先將先將n n個(gè)樣本各自看成一類,計(jì)算樣本之間和類個(gè)樣本各自看成一類,計(jì)算樣本之間和類與類之間的相似度,選擇最大與類之間的相似度,選擇最大相似度相似度的兩類合并為一個(gè)新類的兩類合并為一個(gè)新類, , 重復(fù)重復(fù)這一過程,直至所有的樣本都?xì)w為一類為止這一過程,直至所有的樣本都?xì)w為一類為止. . 二、系統(tǒng)聚類特點(diǎn):二、系統(tǒng)
31、聚類特點(diǎn):未知聚類數(shù),按照類的相似度將類歸并,未知聚類數(shù),按照類的相似度將類歸并,從中發(fā)現(xiàn)數(shù)據(jù)變化特點(diǎn)和聚類數(shù)。從中發(fā)現(xiàn)數(shù)據(jù)變化特點(diǎn)和聚類數(shù)。案例:下面是產(chǎn)品銷售員的業(yè)績數(shù)據(jù),要求對五個(gè)銷售業(yè)績進(jìn)行系案例:下面是產(chǎn)品銷售員的業(yè)績數(shù)據(jù),要求對五個(gè)銷售業(yè)績進(jìn)行系統(tǒng)聚類,如果獎(jiǎng)勵(lì)統(tǒng)聚類,如果獎(jiǎng)勵(lì)2個(gè),應(yīng)該獎(jiǎng)勵(lì)哪個(gè)?個(gè),應(yīng)該獎(jiǎng)勵(lì)哪個(gè)?二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析w1w2w3w4w5銷售員業(yè)績系統(tǒng)聚類過程銷售員業(yè)績系統(tǒng)聚類過程-圖示圖示銷售款銷售款銷售量銷售量聚類案例分析過程聚類案例分析過程1 1、數(shù)據(jù)處理。、數(shù)據(jù)處理。由于兩變量(銷量,銷售額)都是極大型指標(biāo),由于兩變量(銷量,銷售
32、額)都是極大型指標(biāo),量綱不同,所以只需進(jìn)行無量綱化。把銷量量綱不同,所以只需進(jìn)行無量綱化。把銷量W1W1(百件),(百件),W2W2銷售額(萬元)都映射到【銷售額(萬元)都映射到【0 0,1 1】中,使量綱相同?!恐校沽烤V相同。對于對于銷量,銷量,取五個(gè)值中的最大取五個(gè)值中的最大M=4,最小,最小m=1,由公式,由公式y(tǒng)=(x-m)/(M-m)=(x-1)/(4-1), 分別把分別把x轉(zhuǎn)換為如下轉(zhuǎn)換為如下y:w11=1, y11=0, w12=1,y12=0, w13=3,y13=2/3, w14=4,y14=1, w15=2,y15=1/3 二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析
33、聚類案例分析過程聚類案例分析過程對于對于銷售款,銷售款,取五個(gè)值中的最大取五個(gè)值中的最大M=5,最小,最小m=0,由公式,由公式y(tǒng)=(x-m)/(M-m)=(x-0)/(5-0), 分別把分別把x轉(zhuǎn)換為如下轉(zhuǎn)換為如下y:w21=0, y11=0, w22=1,y22=1/5, w23=2,y23=2/5, w24=3,y24=3/5, w25=5,y25=12 2、計(jì)算點(diǎn)與點(diǎn)的相似性。、計(jì)算點(diǎn)與點(diǎn)的相似性。按定義,按定義,絕對值絕對值WiWjWiWj距離距離= =WiWi銷量銷量-Wj-Wj銷量銷量+WiWi售款售款-Wj-Wj售款售款 ,有有 W1(0,0)-W2(0,1/5)W1(0,0)
34、-W2(0,1/5)= =0-00-0+ +0-1/50-1/5=1/5=1/5W1 W2 W3 W4 W51/516/158/54/3W1W20W3W4W50000 W1(0,0)-W3(2/3,2/5)W1(0,0)-W3(2/3,2/5)= =0-2/30-2/3+ +0-2/50-2/5=2/3+2/5=16/15=2/3+2/5=16/15 W1(0,0)-W4(1,3/5)W1(0,0)-W4(1,3/5)= =0-10-1+ +0-3/50-3/5=1+3/5=8/5=1+3/5=8/5 W1(0,0)-W5(1/3,1)W1(0,0)-W5(1/3,1)= =0-1/30-1/
35、3+ +0-10-1=1/3+1=4/3=1/3+1=4/3聚類案例分析過程聚類案例分析過程W1 W2 W3 W4 W51/516/158/54/3W1W20W3W4W50000 W2(0,1/5)-W3(2/3,2/5)W2(0,1/5)-W3(2/3,2/5)=13/15=13/15 W2(0,1/5)-W4(1,3/5)W2(0,1/5)-W4(1,3/5)=7/5=7/5 W2(0,1/5)-W5(1/3,1)W2(0,1/5)-W5(1/3,1)=17/15=17/15 W3(2/3,2/5)-W4(1,3/5)W3(2/3,2/5)-W4(1,3/5)=8/15=8/15 W3(2
36、/3,2/5)-W5(1/3,1)W3(2/3,2/5)-W5(1/3,1)=14/15 14/15 W4(1,3/5)-W5(1/3,1)W4(1,3/5)-W5(1/3,1)=16/15 16/15 13/157/514/1517/158/1516/153 3、以點(diǎn)相似性度量類相似程度,距離越小,相、以點(diǎn)相似性度量類相似程度,距離越小,相似度越大似度越大。合并距離最?。ㄏ嗨坪喜⒕嚯x最?。ㄏ嗨贫茸畲螅┑亩茸畲螅┑腤1與與W2為新類為新類W6,有,有 W6(W1,W2)-W3(1/3,1)W6(W1,W2)-W3(1/3,1)=min(W1W3=min(W1W3距離距離,W2W3,W2W3距離
37、距離)= min(16/15,13/15)=)= min(16/15,13/15)=13/1513/15 W6(W1,W2)-W4(1,3/5)W6(W1,W2)-W4(1,3/5)=min(W1W4=min(W1W4距離距離,W2W4,W2W4距離距離)= min(8/5,7/5)=)= min(8/5,7/5)=7/57/5 W6(W1,W2)-W5(1/3,1)W6(W1,W2)-W5(1/3,1)=min(W1W5=min(W1W5距離距離,W2W5,W2W5距離距離)= min(4/3,17/15)=)= min(4/3,17/15)=17/1517/15 13/157/517/15
38、W6W30W4W50008/1514/1516/15 W6 W3 W4 W5只更新只更新w6與其與其它類距離,其它類距離,其余不變余不變二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析聚類案例分析過程聚類案例分析過程4 4、繼續(xù)、繼續(xù)合并距離最?。ㄏ嗨贫茸畲螅﹥深?,即合并的合并距離最?。ㄏ嗨贫茸畲螅﹥深?,即合并的W3與與W4為新類為新類W7,有,有W8W5 W8 W5 014/15 0W7W5W6 W7 W6 W5 13/1514/150017/15 0 W6(W1,W2)-W7(W3,W4)W6(W1,W2)-W7(W3,W4)=min(W6W3=min(W6W3距離距離,W6W4,W6W4
39、距離距離)=min(13/15,7/5)=)=min(13/15,7/5)=13/1513/15 W7(W3,W4)-W5W7(W3,W4)-W5=min(W3W5=min(W3W5距離距離,W4W5,W4W5距離距離)=min(14/15,16/15)=)=min(14/15,16/15)=14/1514/15 W8(W6,W7)-W5W8(W6,W7)-W5=min(W6W5=min(W6W5距離距離,W7W5,W7W5距離距離)=min(14/15,17/15)=)=min(14/15,17/15)=14/1514/15 只更新只更新w7與其與其它類距離,其它類距離,其余不變余不變5 5
40、、繼續(xù)、繼續(xù)合并距離最?。ㄏ嗨贫茸畲螅﹥深?,即合并合并距離最?。ㄏ嗨贫茸畲螅﹥深?,即合并的的W6與與W7為新類為新類W8.6 6、最后最后合并的合并的W8與與W5為新類為新類W9,得到一大類。,得到一大類。W5W1W2W3W4W6W7W9W8書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析數(shù)理統(tǒng)計(jì)第六章
41、數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:聚類結(jié)果分析:聚類結(jié)果分析:數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:書本例數(shù)據(jù)沒經(jīng)過無量綱化處理的聚類過程:系統(tǒng)聚類系統(tǒng)聚類其他應(yīng)用例其他應(yīng)用例二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚
42、類分析聚類分析數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199系統(tǒng)聚類系統(tǒng)聚類其他應(yīng)用例計(jì)算過程其他應(yīng)用例計(jì)算過程數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199G6=G1遼寧,遼寧,G5青海青海,D15=195.14數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析系統(tǒng)聚類系統(tǒng)聚類其他應(yīng)用例其他應(yīng)用例計(jì)算過程計(jì)算過程G6=G1遼寧,遼寧,G5青海青海,D15=195.14G7=G6,G4甘肅甘肅,D64=208.9數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析系統(tǒng)聚類系統(tǒng)聚類其他應(yīng)用例其他應(yīng)用例計(jì)算過程計(jì)算過程G
43、8=G7,G3河南河南,D73=356.8G7=G6,G4甘肅甘肅,D64=208.9G6=G1遼寧,遼寧,G5青海青海,D15=195.14二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析系統(tǒng)聚類系統(tǒng)聚類其他應(yīng)用例其他應(yīng)用例計(jì)算過程計(jì)算過程 G6=G1遼寧,遼寧,G5青海青海,D15=195.14 G7=G6,G4甘肅甘肅, D64=208.9 G8=G7,G3河南河南, D73=356.8, G9=G8,G2浙江浙江, D82=1220.13變量聚類法變量聚類法數(shù)理統(tǒng)計(jì)第六章數(shù)理統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析變量聚類法變量聚類法數(shù)理統(tǒng)計(jì)第六章數(shù)理
44、統(tǒng)計(jì)第六章P190-199二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析變量聚類變量聚類應(yīng)用例應(yīng)用例1補(bǔ)充補(bǔ)充二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析系數(shù)系數(shù)應(yīng)是最大的應(yīng)是最大的rij絕對值絕對值變量聚類變量聚類應(yīng)用例應(yīng)用例1補(bǔ)充補(bǔ)充二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析變量聚類變量聚類應(yīng)用例應(yīng)用例1補(bǔ)充補(bǔ)充二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析變量聚類變量聚類應(yīng)用例應(yīng)用例1P78二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析變量聚類變量聚類應(yīng)用例應(yīng)用例2P78變量聚類變量聚類應(yīng)用例應(yīng)用例2P79變量聚類變量聚類應(yīng)用例應(yīng)用例2P79變量聚類變量聚類應(yīng)用例應(yīng)用例2
45、K-MEANS聚類算法聚類算法K-均值均值(K-means)已知聚類數(shù)已知聚類數(shù)k k及對應(yīng)的類中心,分別把及對應(yīng)的類中心,分別把每一數(shù)據(jù)元素按定義的相似度歸入最接近每一數(shù)據(jù)元素按定義的相似度歸入最接近(相似)的類,重(相似)的類,重復(fù)這一過程直至復(fù)這一過程直至K K個(gè)類中心穩(wěn)定的聚類方法。個(gè)類中心穩(wěn)定的聚類方法。初始化:初始化:從訓(xùn)練集中任意取定從訓(xùn)練集中任意取定k k個(gè)向量作為聚類中心。個(gè)向量作為聚類中心。二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析步驟步驟1 1:將每個(gè)樣本向量,按下列歐氏距離歸入中心為將每個(gè)樣本向量,按下列歐氏距離歸入中心為CiCi的類中;的類中;jljilcxcx
46、minK-MEANS聚類算法聚類算法步驟步驟2 2:重新調(diào)整聚類中心重新調(diào)整聚類中心: :其中類中心的第其中類中心的第i i個(gè)分量個(gè)分量 由屬于同由屬于同一類的所有樣本的對應(yīng)第一類的所有樣本的對應(yīng)第i個(gè)分量的平均值計(jì)算得到。即個(gè)分量的平均值計(jì)算得到。即 下式計(jì)下式計(jì)算得出:算得出: 是第是第i i個(gè)聚類塊中的向量數(shù)。個(gè)聚類塊中的向量數(shù)。iclusterixmlimNxcili步驟步驟3 3:如果步驟如果步驟1 1中的聚類中心不再變換,就終止,否則轉(zhuǎn)步驟中的聚類中心不再變換,就終止,否則轉(zhuǎn)步驟2 2。iciNimc二、數(shù)據(jù)挖掘方法二、數(shù)據(jù)挖掘方法聚類分析聚類分析P80imc問題:問題:1、初始隨
47、機(jī)選擇類中心和指定類中心對聚類結(jié)果有影響嗎?、初始隨機(jī)選擇類中心和指定類中心對聚類結(jié)果有影響嗎?2、最終得到的類中心是樣本嗎?、最終得到的類中心是樣本嗎?3、如何判別類的優(yōu)劣?、如何判別類的優(yōu)劣?4、如何通過聚類挑選有代表性的樣本?、如何通過聚類挑選有代表性的樣本?5、可以通過聚類選擇有代表性的變量達(dá)到減少變量建模嗎?、可以通過聚類選擇有代表性的變量達(dá)到減少變量建模嗎? 得到類中心:得到類中心:w1w2w3w4w5銷售員業(yè)績銷售員業(yè)績K均值聚類過程均值聚類過程-圖示圖示K=2,初始選擇類中初始選擇類中心為心為W2,W4的分類結(jié)果的分類結(jié)果w1w2w3w4w5銷售員業(yè)績銷售員業(yè)績K均值聚類過程均
48、值聚類過程-圖示圖示K=2,調(diào)整調(diào)整1次得到類次得到類中心中心Z1,Z2的分類結(jié)果的分類結(jié)果Z2Z1W 聚類結(jié)果:W1與W2一類, W3,W4,W5一類。問題:如何判別哪一類是好的?城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)集數(shù)據(jù)集要求:對上述數(shù)據(jù)集應(yīng)用統(tǒng)計(jì)軟件對上述數(shù)據(jù)集應(yīng)用統(tǒng)計(jì)軟件SPSSSPSS進(jìn)行進(jìn)行系統(tǒng)聚類系統(tǒng)聚類, ,應(yīng)用數(shù)據(jù)挖應(yīng)用數(shù)據(jù)挖掘軟件,進(jìn)行掘軟件,進(jìn)行K K均值聚類均值聚類. .樣本樣本病人數(shù)病人數(shù)醫(yī)生數(shù)醫(yī)生數(shù)工作人員數(shù)工作人員數(shù)門診所數(shù)門診所數(shù)死亡率死亡率醫(yī)療能力評價(jià)醫(yī)療能力評價(jià)上海0.51.51.51.5-1.51.5北京-0.51.51.51.50.51.
49、5沈陽-1.5-1.5-1.5-0.50.5-1.5武漢0.50.50.5-0.5-1.5-0.5哈爾濱1.50.5-0.5-1.5-0.5-0.5重慶0.50.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5蘭州1.50.5-0.50.51.51.5青島0.5-1.51.51.5-0.50.5鞍山0.5-0.5-0.5-1.51.50.5天津-1.50.5-1.50.5-0.5-1.5廣州-0.50.50.50.5-0.50.5南京-1.50.50.50.5-0.50.5西安0.50.5-0.50.50.50.5長春0.50.50.5-0.50.50.5太原
50、1.50.50.50.51.51.5大連-1.5-0.5-1.5-0.50.5-1.5濟(jì)南1.51.51.50.5-0.51.5撫順0.5-1.5-1.5-1.50.5-0.5城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件SPSS輔助系統(tǒng)聚類輔助系統(tǒng)聚類1、導(dǎo)入數(shù)據(jù) 城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件SPSS輔助系統(tǒng)聚類輔助系統(tǒng)聚類2、選擇模型 城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件SPSS輔助系統(tǒng)聚類輔助系統(tǒng)聚類3、變量選擇與參數(shù)設(shè)置 城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件SPSS輔助系統(tǒng)聚類
51、輔助系統(tǒng)聚類4、系統(tǒng)聚類結(jié)果 城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類1)選擇“源”中的“EXCEL” 節(jié)點(diǎn)導(dǎo)入前前10個(gè)樣本數(shù)據(jù)。個(gè)樣本數(shù)據(jù)。 城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類2 2)選擇)選擇“字段選項(xiàng)字段選項(xiàng)”中的中的“類型類型”節(jié)點(diǎn),設(shè)置數(shù)據(jù)的字段類型。節(jié)點(diǎn),設(shè)置數(shù)據(jù)的字段類型。將參與聚類的字段設(shè)置為輸入,并讀取值。將參與聚類的字段設(shè)置為輸入,并讀取值。 取有限值時(shí),直接輸入,取連續(xù)取有限值時(shí),直接輸入,取連續(xù)取值時(shí)
52、,輸入?yún)^(qū)間(見取值時(shí),輸入?yún)^(qū)間(見P87)城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類3)選擇“建模”中的“K-Means”節(jié)點(diǎn),右鍵設(shè)置模型參數(shù),可以設(shè)置聚類數(shù)、是否生成距離字段、是否顯示聚類相似度等;設(shè)置好參數(shù)后運(yùn)行模型。 最好選擇最好選擇“生成距離字段生成距離字段”,可以輔助選擇有代表性樣本可以輔助選擇有代表性樣本城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類4 4)運(yùn)行模型得到聚類結(jié)果,右鍵瀏覽運(yùn)行模型得到聚類結(jié)果,右鍵瀏覽K=2K=
53、2的的1010個(gè)樣本個(gè)樣本K K均值聚類結(jié)果。均值聚類結(jié)果。 括號內(nèi)表示類中心括號內(nèi)表示類中心對應(yīng)分量取值對應(yīng)分量取值表示該類與第表示該類與第2類的類的相似度是相似度是0.947表示類表示類1中有中有5個(gè)數(shù)個(gè)數(shù)據(jù)樣本據(jù)樣本城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類5 5)K=2,KK=2,K均值聚類結(jié)果的列表表示均值聚類結(jié)果的列表表示 樣本樣本病人數(shù)病人數(shù)醫(yī)生數(shù)醫(yī)生數(shù)工作人員工作人員數(shù)數(shù)門診所門診所數(shù)數(shù)死亡率死亡率所屬類所屬類$KM-K-Means 與類中心距離與類中心距離$KMD-K-Means 上海上海0.51
54、.51.51.5-1.5 聚類聚類-10.537484北京北京-0.51.51.51.50.5 聚類聚類-10.632455武漢武漢0.50.50.5-0.5-1.5 聚類聚類-10.537484成都成都-0.50.50.5-0.5-0.5 聚類聚類-10.494413青島青島0.5-1.51.51.5-0.5 聚類聚類-10.745356沈陽沈陽-1.5-1.5-1.5-0.50.5 聚類聚類-20.851143哈爾濱哈爾濱1.50.5-0.5-1.5-0.5 聚類聚類-20.52915重慶重慶0.50.5-1.5-1.5-1.5 聚類聚類-20.69282蘭州蘭州1.50.5-0.50.5
55、1.5 聚類聚類-20.739369鞍山鞍山0.5-0.5-0.5-1.51.5 聚類聚類-20.485341城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類6 6)如果選擇聚類數(shù)是)如果選擇聚類數(shù)是K=3K=3,得到聚類結(jié)果,得到聚類結(jié)果城市醫(yī)療水平能力聚類分析城市醫(yī)療水平能力聚類分析數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件Clementine輔助輔助K K均值聚類均值聚類6)K=3的K均值聚類結(jié)果的列表表示 樣本樣本病人數(shù)病人數(shù)醫(yī)生數(shù)醫(yī)生數(shù)工作人員數(shù)工作人員數(shù)門診所數(shù)門診所數(shù)死亡率死亡率所屬類所屬類$KM-K-Means與類中心距離
56、與類中心距離$KMD-K-Means上海0.51.51.51.5-1.5聚類-10.484322北京-0.51.51.51.50.5聚類-10.521157青島0.5-1.51.51.5-0.5聚類-10.675863沈陽-1.5-1.5-1.5-0.50.5聚類-24.71E-07武漢0.50.50.5-0.5-1.5聚類-30.541488哈爾濱1.50.5-0.5-1.5-0.5聚類-30.38087重慶0.50.5-1.5-1.5-1.5聚類-30.635862成都-0.50.50.5-0.5-0.5聚類-30.506135蘭州1.50.5-0.50.51.5聚類-30.767794鞍
57、山0.5-0.5-0.5-1.51.5聚類-30.664348問題問題1:如果每類抽取一個(gè)有代表性的樣本,如何抽?。浚喝绻款惓槿∫粋€(gè)有代表性的樣本,如何抽取?問題問題2:如何判別哪一類最好?:如何判別哪一類最好?問題問題3:如果對這些城市的醫(yī)療能力排序,怎么排?:如果對這些城市的醫(yī)療能力排序,怎么排?擴(kuò)展應(yīng)用問題解決思路:擴(kuò)展應(yīng)用問題解決思路: 應(yīng)用密度聚類,當(dāng)聚類中的元素個(gè)數(shù)超過某閾值時(shí),判別高速應(yīng)用密度聚類,當(dāng)聚類中的元素個(gè)數(shù)超過某閾值時(shí),判別高速公路堵塞。公路堵塞。擴(kuò)展應(yīng)用問題:如何應(yīng)用聚類判別高速公路的通暢(堵塞)?擴(kuò)展應(yīng)用問題:如何應(yīng)用聚類判別高速公路的通暢(堵塞)?二、數(shù)據(jù)挖掘方
58、法二、數(shù)據(jù)挖掘方法聚類分析聚類分析密度聚類方法:密度聚類方法:1、指定半徑指定半徑r及最小數(shù)目及最小數(shù)目e;2、選擇核心對象選擇核心對象Xp:對每個(gè)點(diǎn)作半徑為對每個(gè)點(diǎn)作半徑為r的鄰域,若點(diǎn)的鄰域,若點(diǎn)P的鄰域有不少于數(shù)目的鄰域有不少于數(shù)目e的點(diǎn),則點(diǎn)的點(diǎn),則點(diǎn)P是核心對象是核心對象Xp;3、對每一對每一Xp鄰域的每一點(diǎn)鄰域的每一點(diǎn)Xpk,繼續(xù)找核心對繼續(xù)找核心對象,直至把所有核心對象找出,則所有核心對象的鄰域組成了一類(多個(gè)球形組成非球形類);象,直至把所有核心對象找出,則所有核心對象的鄰域組成了一類(多個(gè)球形組成非球形類);4、對非同類點(diǎn)繼續(xù)尋找核心對象,直至把所有的非球形類求出。對非同類點(diǎn)
59、繼續(xù)尋找核心對象,直至把所有的非球形類求出。問題:對于高維數(shù)據(jù),在盡可能問題:對于高維數(shù)據(jù),在盡可能保留原始變量信息保留原始變量信息的基礎(chǔ)上,的基礎(chǔ)上,如何降維?降維后得到的少數(shù)變量代表什么含義?如何降維?降維后得到的少數(shù)變量代表什么含義?例如:例如: 如果有如果有60個(gè)因素影響銀行貸款,要判別是否給企業(yè)貸款,個(gè)因素影響銀行貸款,要判別是否給企業(yè)貸款,為了容易判別,可否減少為為了容易判別,可否減少為10個(gè)變量?變量的形式和含義是個(gè)變量?變量的形式和含義是什么?什么? 思路:思路:1)要使減少后的變量仍包含原始變量信息,這些變量)要使減少后的變量仍包含原始變量信息,這些變量應(yīng)是原始變量的線性組合
60、。問題是:如何求這樣的線性組合應(yīng)是原始變量的線性組合。問題是:如何求這樣的線性組合表示?表示? 2)如何度量減少變量后仍包含大部分原始變量信息?)如何度量減少變量后仍包含大部分原始變量信息? 3)如何確定合理的、能代表原始變量的、少數(shù)變量個(gè))如何確定合理的、能代表原始變量的、少數(shù)變量個(gè)數(shù)?數(shù)?三、數(shù)據(jù)挖掘方法三、數(shù)據(jù)挖掘方法主成分主成分/因子分析因子分析主成分分析主成分分析主成分分析主成分分析-思路思路:三、數(shù)據(jù)挖掘方法三、數(shù)據(jù)挖掘方法主成分主成分/因子分析因子分析P47問題表示問題表示P48三、數(shù)據(jù)挖掘方法三、數(shù)據(jù)挖掘方法主成分主成分/因子分析因子分析包含變量包含變量Xi信息的新變信息的新變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JG/T 253-2009建筑用曲臂遮陽篷
- JG/T 231-2018建筑玻璃采光頂技術(shù)要求
- JG/T 162-2004住宅遠(yuǎn)傳抄表系統(tǒng)數(shù)據(jù)專線傳輸
- JG/T 155-2014電動平開、推拉圍墻大門
- JG 138-2001點(diǎn)支式玻璃幕墻支承裝置
- CJ/T 434-2013超聲波水表
- CJ/T 25-2018供熱用手動流量調(diào)節(jié)閥
- CJ/T 171-2016城鎮(zhèn)環(huán)境衛(wèi)生設(shè)施屬性數(shù)據(jù)采集表及數(shù)據(jù)庫結(jié)構(gòu)
- CJ/T 126-2000燃?xì)庥娩摴羌芫垡蚁┧芰蠌?fù)合管件
- CJ/T 117-2018建筑用承插式金屬管管件
- 2025年繼續(xù)教育公需課必修課考試題庫附含參考答案
- 公共知識法律試題及答案
- 2025中國廣電山東網(wǎng)絡(luò)有限公司市縣公司招聘145人筆試參考題庫附帶答案詳解
- 天津市公安局為留置看護(hù)總隊(duì)招聘警務(wù)輔助人員筆試真題2024
- 2025-2030中國光穩(wěn)定劑行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 浙江省強(qiáng)基聯(lián)盟2024-2025學(xué)年高一下學(xué)期5月月考地理試題(含答案)
- 職業(yè)技術(shù)學(xué)校2025年國際交流計(jì)劃
- 2025年土木工程專業(yè)知識測試試卷及答案
- (高清版)DG∕TJ 08-15-2020 綠地設(shè)計(jì)標(biāo)準(zhǔn) 附條文說明
- 《肥胖癥診療指南(2024年版)》權(quán)威解讀
- 合肥市2025屆高三年級5月教學(xué)質(zhì)量檢測(合肥三模)物理試題+答案
評論
0/150
提交評論