《機器學習技術應用》課件-pro1-4-2 學生校園消費數(shù)據(jù)的聚類分析_第1頁
《機器學習技術應用》課件-pro1-4-2 學生校園消費數(shù)據(jù)的聚類分析_第2頁
《機器學習技術應用》課件-pro1-4-2 學生校園消費數(shù)據(jù)的聚類分析_第3頁
《機器學習技術應用》課件-pro1-4-2 學生校園消費數(shù)據(jù)的聚類分析_第4頁
《機器學習技術應用》課件-pro1-4-2 學生校園消費數(shù)據(jù)的聚類分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

授課教師:趙

宇項目一智慧校園消費數(shù)據(jù)分析任務四

校園低消費群體分析

模塊2:學生校園消費數(shù)據(jù)的聚類分析任務四

低消費群體分析任務目標:聚類k-meansK-means是最流行的“聚類”算法之一。K-means存儲用于定義聚類的k個質(zhì)心。如果一個點離哪個質(zhì)心最接近,則該點被視為位于哪個聚類中。K-Means通過交替進行下面兩步來找到最佳質(zhì)心:(1)根據(jù)當前質(zhì)心將數(shù)據(jù)點劃分到某聚類中;(2)根據(jù)當前數(shù)據(jù)點計算聚類的質(zhì)心。假設你有一個數(shù)據(jù)集,其中每個觀察到的示例都有一組特征,但沒有標簽。標簽是支持向量機等有監(jiān)督算法的重要組成部分,它學習得到一個假設函數(shù)來預測給定特征的標簽,所以我們不能運行監(jiān)督學習。我們能做些什么?我們可以在無標簽數(shù)據(jù)集上執(zhí)行的最直接任務之一,是在我們的數(shù)據(jù)集中找到彼此相似的數(shù)據(jù)組一一我們稱之為聚類。1.初始化質(zhì)心:為每個簇的質(zhì)心隨機選擇K個數(shù)據(jù)點。2.點的分配:將每個數(shù)據(jù)點分配給最近的集群(質(zhì)心).3.更新質(zhì)心:通過取集群中所有點的平均值來重新計算質(zhì)心。4.重復步驟2-3,直到各點停止更改集群。聚類k-means聚類k-means--兩個概念1.簇(cluster)該算法會根據(jù)數(shù)據(jù)樣本間的相似性,將數(shù)據(jù)樣本自動分為K個簇(cluster),相似的數(shù)據(jù)樣本會盡可能被聚到一個簇內(nèi)。簇,指的就是類別或是組。2.質(zhì)心(centroid)每個簇都有一個中心位置/中心點,被稱作為質(zhì)心(centroid)。聚類k-means--幾種距離,幾個參數(shù)歐式距離、曼哈頓距離、余弦相似度KMeans類的主要參數(shù)有:1)n_clusters:即我們的k值,一般需要多試一些值以獲得較好的聚類效果。k值好壞的評估標準在下面會講。2)max_iter:最大的迭代次數(shù),一般如果是凸數(shù)據(jù)集的話可以不管這個值,如果數(shù)據(jù)集不是凸的,可能很難收斂,此時可以指定最大的迭代次數(shù)讓算法可以及時退出循環(huán)。3)n_init:用不同的初始化質(zhì)心運行算法的次數(shù)。由于K-Means是結果受初始值影響的局部最優(yōu)的迭代算法,因此需要多跑幾次以選擇一個較好的聚類效果,默認是10,一般不需要改。如果你的k值較大,則可以適當增大這個值。4)init:即初始值選擇的方式,可以為完全隨機選擇'random',優(yōu)化過的'k-means++'或者自己指定初始化的k個質(zhì)心。一般建議使用默認的'k-means++'。5)algorithm:有“auto”,“full”or“elkan”三種選擇。"full"就是我們傳統(tǒng)的K-Means算法,“elkan”是我們原理篇講的elkanK-Means算法。默認的"auto"則會根據(jù)數(shù)據(jù)值是否是稀疏的,來決定如何選擇"ful

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論