




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
授課教師:趙
宇項目一智慧校園消費數(shù)據(jù)分析任務四
校園低消費群體分析
模塊2:學生校園消費數(shù)據(jù)的聚類分析任務四
低消費群體分析任務目標:聚類k-meansK-means是最流行的“聚類”算法之一。K-means存儲用于定義聚類的k個質(zhì)心。如果一個點離哪個質(zhì)心最接近,則該點被視為位于哪個聚類中。K-Means通過交替進行下面兩步來找到最佳質(zhì)心:(1)根據(jù)當前質(zhì)心將數(shù)據(jù)點劃分到某聚類中;(2)根據(jù)當前數(shù)據(jù)點計算聚類的質(zhì)心。假設你有一個數(shù)據(jù)集,其中每個觀察到的示例都有一組特征,但沒有標簽。標簽是支持向量機等有監(jiān)督算法的重要組成部分,它學習得到一個假設函數(shù)來預測給定特征的標簽,所以我們不能運行監(jiān)督學習。我們能做些什么?我們可以在無標簽數(shù)據(jù)集上執(zhí)行的最直接任務之一,是在我們的數(shù)據(jù)集中找到彼此相似的數(shù)據(jù)組一一我們稱之為聚類。1.初始化質(zhì)心:為每個簇的質(zhì)心隨機選擇K個數(shù)據(jù)點。2.點的分配:將每個數(shù)據(jù)點分配給最近的集群(質(zhì)心).3.更新質(zhì)心:通過取集群中所有點的平均值來重新計算質(zhì)心。4.重復步驟2-3,直到各點停止更改集群。聚類k-means聚類k-means--兩個概念1.簇(cluster)該算法會根據(jù)數(shù)據(jù)樣本間的相似性,將數(shù)據(jù)樣本自動分為K個簇(cluster),相似的數(shù)據(jù)樣本會盡可能被聚到一個簇內(nèi)。簇,指的就是類別或是組。2.質(zhì)心(centroid)每個簇都有一個中心位置/中心點,被稱作為質(zhì)心(centroid)。聚類k-means--幾種距離,幾個參數(shù)歐式距離、曼哈頓距離、余弦相似度KMeans類的主要參數(shù)有:1)n_clusters:即我們的k值,一般需要多試一些值以獲得較好的聚類效果。k值好壞的評估標準在下面會講。2)max_iter:最大的迭代次數(shù),一般如果是凸數(shù)據(jù)集的話可以不管這個值,如果數(shù)據(jù)集不是凸的,可能很難收斂,此時可以指定最大的迭代次數(shù)讓算法可以及時退出循環(huán)。3)n_init:用不同的初始化質(zhì)心運行算法的次數(shù)。由于K-Means是結果受初始值影響的局部最優(yōu)的迭代算法,因此需要多跑幾次以選擇一個較好的聚類效果,默認是10,一般不需要改。如果你的k值較大,則可以適當增大這個值。4)init:即初始值選擇的方式,可以為完全隨機選擇'random',優(yōu)化過的'k-means++'或者自己指定初始化的k個質(zhì)心。一般建議使用默認的'k-means++'。5)algorithm:有“auto”,“full”or“elkan”三種選擇。"full"就是我們傳統(tǒng)的K-Means算法,“elkan”是我們原理篇講的elkanK-Means算法。默認的"auto"則會根據(jù)數(shù)據(jù)值是否是稀疏的,來決定如何選擇"ful
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆生產(chǎn)建設兵團一師高級中學2025屆高三第二學期4月模擬考試生物試題含解析
- 商場員工臨時合同協(xié)議
- 新疆烏魯木齊市第八十七中學2025屆初三教學質(zhì)量檢測試題(三模)數(shù)學試題試卷含解析
- 新鄉(xiāng)職業(yè)技術學院《心理統(tǒng)計學》2023-2024學年第一學期期末試卷
- 2025-2030年中國P2P信貸行業(yè)發(fā)展狀況分析及投資前景趨勢預測研究報告
- 甘肅省平?jīng)鍪谐缧趴h2024屆中考數(shù)學模擬試卷含解析
- 甘肅臨夏和政縣2023-2024學年中考一模數(shù)學試題含解析
- 2025至2031年中國硝酸咪康唑行業(yè)投資前景及策略咨詢研究報告
- 2025年新入職工入職安全培訓考試試題附參考答案(綜合題)
- 2025-2030年中國MS市場運行新形勢與投資前景報告
- 北師大版五年級數(shù)學下冊公開課《包裝的學問》課件
- 風電行業(yè)產(chǎn)品質(zhì)量先期策劃手冊
- 社區(qū)日間照料中心運營方案
- 二年級下冊期末教學質(zhì)量分析P的課件
- 初中數(shù)學北師大七年級下冊(2023年新編)綜合與實踐綜合與實踐-設計自己的運算程序 王穎
- 北師大版英語八年級下冊 Unit 4 Lesson 11 Online Time 課件(30張PPT)
- 可燃氣體報警系統(tǒng)安裝記錄
- 伸臂式焊接變位機設計總體設計和旋轉(zhuǎn)減速器設計畢業(yè)設計
- 血細胞儀白細胞五分類法原理和散點圖特征
- 形式發(fā)票格式2 INVOICE
- 外墻保溫方案(熱固性改性聚苯板)
評論
0/150
提交評論