1314賽季NBA球員數(shù)據(jù)的聚類分析研究_第1頁
1314賽季NBA球員數(shù)據(jù)的聚類分析研究_第2頁
1314賽季NBA球員數(shù)據(jù)的聚類分析研究_第3頁
1314賽季NBA球員數(shù)據(jù)的聚類分析研究_第4頁
1314賽季NBA球員數(shù)據(jù)的聚類分析研究_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 “R軟件”課程綜合作業(yè)姓 名: 解宇涵 學(xué) 號: 20112319 年 級: 2011級 班 級: 統(tǒng)計(jì)(2)班 學(xué)院及專業(yè): 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 任課教師: 張應(yīng)應(yīng) 上課時間: 2014 年 4 月至2014 年 6 月 考 生 成 績: 閱卷評語: 閱卷教師 (簽名) 13-14賽季NBA球員數(shù)據(jù)的聚類分析研究摘要勒布朗·詹姆斯作為NBA歷史上處于前列的球員又一次在總決賽與冠軍失之交臂。再一次把James推向輿論聲中,但簡單地根據(jù)比賽結(jié)果評價一個球員是盲目的。本文分析的重點(diǎn)將定為20132014賽季的NBA球員,主要意圖是對該賽季James在聯(lián)盟中的地位分析。本文將運(yùn)用R軟件進(jìn)行計(jì)

2、算,運(yùn)用直觀分類,聚類分析模型,主成分分類模型,假設(shè)檢驗(yàn)得出全能的James的打球風(fēng)格更接近哪一類球員,在該類球員中James的能力處于什么水平。運(yùn)用直觀分類及聚類分析,從官方確定的5個位置出發(fā),比較James與每一個位置球員的得分能力,James在聯(lián)盟中屬于強(qiáng)核心球員,得分效率較高但沒有顯著地高于平均水平。因?yàn)橥粋€位置的球員,打球風(fēng)格也各異??紤]對全聯(lián)盟的高水平球員進(jìn)行聚類分析。為克服變量過多、變量之間的相關(guān)性的影響,運(yùn)用主成分分析將21個變量降維至3個主成分,再運(yùn)用各球員的主成分得分進(jìn)行聚類分析。最后通過分析得到James的屬于“進(jìn)攻型內(nèi)線球員”,綜合能力處于該類前列,得分效率較高但沒有

3、顯著地高于平均水平。關(guān)鍵詞:體育統(tǒng)計(jì) 聚類分析 主成分分類 假設(shè)檢驗(yàn) R軟件 NBA 勒布朗·詹姆斯目錄摘要I目錄II1. 緒論11.1選題的背景和意義11.2論文綜述11.3本文主要研究思路與文章結(jié)構(gòu)安排11.3.1本文的研究思路1本文的文章結(jié)構(gòu)安排22. NBA的統(tǒng)計(jì)資源32.1 NBA統(tǒng)計(jì)的原始數(shù)據(jù)32.1.1數(shù)據(jù)來源:32.1.2 符號說明32.2 本文的數(shù)據(jù)處理42.2.1得分效率42.2.2得分頻率42.3待測球員的選取42.3.1 PF的球員篩選5 待測球員準(zhǔn)入原則53. James在聯(lián)盟中的地位分析73.1基于球隊(duì)位置的聚類分析7 PF的聚類分析73.1.2其他位置的

4、聚類分析9 得分效率均值的顯著性檢驗(yàn)113.2在主成分分析下的聚類模型13 主成分分析模型13 高水平球員數(shù)據(jù)的主成分分析153.2.3 主成分得分17 基于主成分得分的聚類分析18參考資料221. 緒論1.1選題的背景和意義體育統(tǒng)計(jì)學(xué)在全世界得到廣泛的應(yīng)用和重視,各種統(tǒng)計(jì)軟件,如R軟件,不斷升級和普及,使得普通球迷也能根據(jù)比賽的具體數(shù)據(jù),進(jìn)行更具體和及時的統(tǒng)計(jì)分析,來評價球員或球隊(duì)水平、預(yù)測比賽勝負(fù)及具體結(jié)果。本文選擇籃球比賽數(shù)據(jù)為研究內(nèi)容,以著名球員James為研究對象,使得論文的內(nèi)容和結(jié)果具有意義1.2論文綜述統(tǒng)計(jì)技術(shù)已經(jīng)在籃球比賽中得到廣泛應(yīng)用,中外學(xué)者都試圖通過比賽數(shù)據(jù),選取適當(dāng)?shù)慕y(tǒng)

5、計(jì)技術(shù),揭露運(yùn)動員存在的問題。由于本文篇幅所限,下面僅具體介紹幾篇論文的情況。常慶用逐步回歸分析方法研究籃球比賽中諸因素與勝負(fù)的關(guān)系尋找描述籃球比賽中各結(jié)束因素之間依存關(guān)系的數(shù)學(xué)表達(dá)式。向政2003-2004賽季NBA籃球聯(lián)賽火箭隊(duì)與湖人隊(duì)實(shí)力比較分析,采用文獻(xiàn)資料法,觀察法,數(shù)理統(tǒng)計(jì)法。從季后賽5場比賽的投籃命中率、籃板球、失誤、犯規(guī)及心理承受能力進(jìn)行比較分析。陳衛(wèi)02-07賽季姚明在NBA進(jìn)攻情況的分析,運(yùn)用統(tǒng)計(jì)法、文獻(xiàn)資料法、觀察法、比較分析法,分析在02-07賽季進(jìn)攻情況的優(yōu)劣,通過對姚明在NBA進(jìn)攻的方式、方法歸納,比較姚明和其他NBA優(yōu)秀中鋒的進(jìn)攻規(guī)律和特點(diǎn)、優(yōu)勢和不足,總結(jié)出優(yōu)秀

6、中鋒的發(fā)展方向和今后訓(xùn)練的側(cè)重方向。李國巖2005-2006NBA常規(guī)賽姚明技術(shù)指標(biāo)探析,客觀評價姚明在新賽季的競技能力,姚明的相關(guān)比賽指標(biāo)與球隊(duì)的勝負(fù)有一定的規(guī)律性關(guān)系。1.3本文主要研究思路與文章結(jié)構(gòu)安排1.3.1本文的研究思路勒布朗·詹姆斯作為NBA歷史上處于前列的球員又一次在總決賽與冠軍失之交臂。再一次把James推向輿論聲中,但簡單地根據(jù)比賽結(jié)果評價一個球員是盲目的。本文分析的重點(diǎn)將定為20132014賽季的NBA球員,主要意圖是對該賽季James在聯(lián)盟中的地位分析。本文將運(yùn)用直觀分類,聚類分析模型,主成分分類模型得出全能的James的打球風(fēng)格更接近哪一類球員,在該類球員中

7、James的能力處于什么水平。本文首先從球員的得分能力出發(fā),根據(jù)NBA統(tǒng)計(jì)專家慣用的數(shù)據(jù)處理方式,定義出 “得分效率”和“投籃頻率”評價球員的得分能力。為排除其他的干擾,在選取球員的過程中,通過分析,設(shè)定了 “600次投籃”的準(zhǔn)入底線。運(yùn)用直觀分類及聚類分析,從官方確定的5個位置出發(fā),比較James與每一個位置球員的得分能力,初步得出James在全聯(lián)盟中的得分水平。因?yàn)橥粋€位置的球員,打球風(fēng)格也各異??紤]對全聯(lián)盟的高水平球員進(jìn)行聚類分析。為克服變量過多、變量之間的相關(guān)性的影響,運(yùn)用主成分分析將變量降維,再運(yùn)用各球員的主成分得分進(jìn)行聚類分析。最后通過分析得到James的所處

8、類別,及在該類別中的能力水平。本文的文章結(jié)構(gòu)安排本文分為三章,第一章, 緒論部分,主要介紹本文選題的背景及相關(guān)論文的綜述、文章的研究思路以及結(jié)構(gòu)安排。第二章, NBA的統(tǒng)計(jì)分析。主要介紹NBA的專業(yè)術(shù)語、本文選取的變量及數(shù)據(jù)描述介紹以及在球員選擇上的考慮。第三章, James在聯(lián)盟中的地位分析。運(yùn)用聚類分析、主成分分析主要介紹按照官方位置的地位分析、主成分分類后的地位分析。2. NBA的統(tǒng)計(jì)資源2.1 NBA統(tǒng)計(jì)的原始數(shù)據(jù)2.1.1數(shù)據(jù)來源:本文的數(shù)據(jù)來自BBR:http:/www.basketball- 20132014賽季常規(guī)賽82場比賽的球員總數(shù)據(jù)。2.1.2 符號說明符號含義T信號燈周

9、期,研究路段周期長度為60s單條直行車道的設(shè)計(jì)通行能力,pcu/h;周期內(nèi)綠燈時間,研究路段為30 s;綠燈亮后,第一輛車啟動、通過停車線的時間,s,平均取;直行車通過停車線的車頭時距,s;單條直行車道的設(shè)計(jì)通行能力周期內(nèi)綠燈時間,研究路段為30 s綠燈亮后,第一輛車啟動、通過停車線的時間,s,平均取直行車通過停車線的車頭時距,s事故發(fā)生后,第i個周期內(nèi)事故斷面實(shí)際通行能力第i個周期中,通過事故斷面的標(biāo)準(zhǔn)車當(dāng)量數(shù)車流中集散波波速車輛進(jìn)入分界面前的上游流量車流進(jìn)入分界面前的密度車輛進(jìn)入分界面前的下游流量車輛通過分界面后的密度第i周期內(nèi)車輛排隊(duì)長度變化量第i周期30秒通行信號燈內(nèi)車流中集散波波速第

10、i周期內(nèi)30秒禁止通行信號燈內(nèi)車流中集散波波速第i周期內(nèi)車輛進(jìn)入分界面前的上游流量第i周期內(nèi)車流進(jìn)入分界面前的密度第i周期內(nèi)車輛進(jìn)入分界面前的下游流量第i周內(nèi)車輛通過分界面后的密度2.2 本文的數(shù)據(jù)處理得分能力是衡量進(jìn)攻能力的重要指標(biāo)。球隊(duì)能否獲勝最終要由他們?nèi)〉玫姆謹(jǐn)?shù)多少來決定。在一場比賽里,兩支對壘球隊(duì)獲得的投籃機(jī)會在數(shù)量上是基本相當(dāng)?shù)模虼?,哪支球?duì)能更合理的在己方隊(duì)員間分配出手機(jī)會,哪隊(duì)的球員能更有效地使用這些機(jī)會,他們就可以得到比對手更多的分?jǐn)?shù)。反映進(jìn)攻能力的指標(biāo)顯然不僅僅是得分能力這一項(xiàng)數(shù)據(jù),另外象進(jìn)攻籃板能力,協(xié)作程度等等也都是體現(xiàn)進(jìn)攻能力的重要指標(biāo)(同時它們各自對得分能力的數(shù)據(jù)

11、也有影響)。但我現(xiàn)在傾向于對簡單化的數(shù)據(jù)進(jìn)行分析。象EFF、PER那樣的線型方程式的綜合性數(shù)據(jù)主要功用還是拿來做排名系統(tǒng),它們實(shí)際說明問題的能力反而還不如簡單處理的數(shù)據(jù)。現(xiàn)在用最簡單的方法把球員的得分能力切為兩個部分來分析:l 得分效率;投籃頻率(得分負(fù)荷)2.2.1得分效率所謂得分效率,這里用的是“每次出手能得到的分?jǐn)?shù)”的定義。公式:得分效率 = 得分 / (投籃次數(shù) + 0.44*罰球次數(shù))由于大多數(shù)的罰球來自于投籃出手被犯規(guī),轉(zhuǎn)化為罰球后,原投籃在數(shù)據(jù)上就不再算一次投籃而另算兩或三次的罰球機(jī)會。因此,完整地統(tǒng)計(jì)球員的投籃次數(shù)就需要加算罰球次數(shù)。投籃次數(shù)與罰球次數(shù)間的轉(zhuǎn)換系數(shù)大約是0.44

12、。得分效率這項(xiàng)數(shù)據(jù)主要是用來取代命中率的,一般統(tǒng)計(jì)球員的命中率必須分開考量兩分命中、三分命中和罰球命中三個部分。由于本次調(diào)查得分能力并不需要細(xì)分球員的得分手段,而只需要單論球員的得分效果即可,所以,應(yīng)用合并了的得分效率顯然比應(yīng)用三項(xiàng)命中率來得更簡便更直觀。2.2.2得分頻率單獨(dú)觀察得分效率仍不足以分析球員的得分能力。球員的高效率很可能來自于他的低出手。沒有多少進(jìn)攻任務(wù)的角色球員,偶爾只在獲得極佳的出手機(jī)會時才投籃,效率自然比球隊(duì)主攻手要高。但這些角色球員的進(jìn)攻能力是肯定不如主攻手的。因此,分析球員的得分能力,還要引入“投籃頻率”這項(xiàng)數(shù)據(jù),由此觀察球員的得分負(fù)荷狀況。所謂投籃頻率,這里用的是“單

13、位上場時間的投籃次數(shù)”的定義。公式:投籃頻率=投籃次數(shù)/上場時間2.3待測球員的選取13-14賽季現(xiàn)役球員共有482名,上場時間從1分鐘的DeAndre Liggins到3122分鐘的Kevin Durant不等;論進(jìn)攻能力,投籃數(shù)從0的Chris Smith到1688的Kevin Durant不等。因此有必要對待測球員進(jìn)行篩選。以下以PF為例進(jìn)行分析,其他位置類似。2.3.1 PF的球員篩選本賽季現(xiàn)役大前鋒中共有98名,以下是全員大前鋒得分能力散點(diǎn)圖圖1 全員大前鋒得分能力散點(diǎn)圖根據(jù)上圖可以明顯看到,有大量的球員堆疊在某個區(qū)域,其他位置的球員分布較散,差異明顯。運(yùn)用這種數(shù)據(jù)會影響到分析的結(jié)果

14、,一方面,有些球員因?yàn)閭』蚰芰^差,得分能力與高水平球員有明顯差別,他們沒有分析的意義;另一方面,有些球員因?yàn)槌鍪执螖?shù)很少導(dǎo)致的得分效率很高也作為整體數(shù)據(jù)的奇異值影響分析。表1 全員大前鋒得分能力聚類分析部分結(jié)果第一類第二類第三類注:表1僅為部分?jǐn)?shù)據(jù),全部數(shù)據(jù)共將98名球員分為4類,采用均值法上圖是運(yùn)用全員PF得分能力的聚類分析部分結(jié)果,在需要分為4類的聚類分析中,前三類所包含的球員均是上場時間較少,投籃數(shù)較少的球員,因此必須設(shè)置準(zhǔn)入底線以保證統(tǒng)計(jì)分析的意義。 待測球員準(zhǔn)入原則本文設(shè)置“600次投籃”的準(zhǔn)入底線,只有在本賽季達(dá)到600次以上投籃的球員才有機(jī)會進(jìn)入統(tǒng)計(jì)。投籃太少的球員投籃頻率很

15、高是因?yàn)槌鰣鰰r間很短,而不是擅于進(jìn)攻。投籃太少,得分效率受其他因素影響的可能性也很大,不適于進(jìn)行分析。600次投籃的底線基本保證了統(tǒng)計(jì)分析的可靠,進(jìn)入這次統(tǒng)計(jì)分析的大多是各球隊(duì)的主力球員。3. James在聯(lián)盟中的地位分析3.1基于球隊(duì)位置的聚類分析James在球隊(duì)中的位置是大前鋒(以下簡稱PF),所以首先從聯(lián)盟高水平的PF進(jìn)行分析。因?yàn)镴ames在聯(lián)盟中數(shù)據(jù)全能,在球隊(duì)中是核心球員,他具備與其他位置球員的比較得分能力的條件,遂在第二部分將他與各位置球員進(jìn)行比較分析。 PF的聚類分析 PF的直觀分類表2 投籃數(shù)大于600的大前鋒數(shù)據(jù)統(tǒng)計(jì)PF人數(shù)均值最大值球員29投籃頻率得分效率投籃頻率得分效率

16、0.411.1021543下圖3是篩選后的大前鋒得分能力情況。圖3 大前鋒得分能力散點(diǎn)圖c1理想情況下,球員的投籃頻率應(yīng)該圍繞球員的得分效率上下波動,即投籃效率與投籃頻率之間滿足某種線性關(guān)系,而圖形的直觀表示就是散點(diǎn)圖中在某條直線附近聚集了較多的點(diǎn),如上圖3中,球員的得分能力有這樣的分布趨勢。如圖3,大致可以圖3劃分為以下4個區(qū)域:l 區(qū)域1強(qiáng)核心球員 (近似: 負(fù)荷>0.45, 效率>1.15)l 區(qū)域2弱核心球員 (近似: 負(fù)荷>0.45, 效率<1.05)l 區(qū)域3弱角色球員 (近似: 負(fù)荷<0.45, 效率<1.15)l 區(qū)域4強(qiáng)角色球員 (近似:

17、負(fù)荷<0.45, 效率>1.15)l 區(qū)域5進(jìn)攻二把手 (近似: 0.35<負(fù)荷<0.45, 效率>1.15)注:以上和后面提及的“核心球員”與“角色球員”僅僅針對得分能力而言?!緩?qiáng)核心球員】是球隊(duì)無可爭議的進(jìn)攻核心,頻繁投籃附加高效率。見上圖3,James、Nowitzki、Love,Griffin就屬于這一類型。【弱核心球員】占據(jù)大量的投籃機(jī)會,但是效率很低,遠(yuǎn)遠(yuǎn)偏離對角線,屬于有爭議的進(jìn)攻核心型球員,他們可能是魚腩球隊(duì)的攻擊手,被迫承擔(dān)明顯超負(fù)荷的進(jìn)攻任務(wù),Randolph是典型的代表。假如球隊(duì)中存在弱核心球員,說明該球隊(duì)存在嚴(yán)重的進(jìn)攻權(quán)分配問題,主攻手獲得

18、的支援火力非常有限?!救踅巧騿T】低出手低效率的普通進(jìn)攻球員,是聯(lián)盟中處于中庸水平的一群人,雖然各有所長,但是必然無法成為超級明星,或者獨(dú)立地?fù)纹鹨粋€球隊(duì)的進(jìn)攻?!緩?qiáng)角色球員】低出手高效率的潛力進(jìn)攻球員。他們恰好與弱核心球員形成對比,但大多是新秀,經(jīng)驗(yàn)不足,稍待時日可能成為球隊(duì)當(dāng)家。顯然JAMES在直觀的分析中屬于強(qiáng)核心球員中的得分效率最高者,是球隊(duì)無可爭議的進(jìn)攻核心,頻繁投籃附加高效率,下面將對PF進(jìn)行聚類分析。 PF的聚類分析系統(tǒng)聚類的主要思想為:n 個樣品各自為一類,并按照規(guī)定的方法計(jì)算樣本之間的距離及類之間的距離。再將類間距離最短的兩類合并為新類,計(jì)算新類與各類之間的距離

19、,重復(fù)進(jìn)行直至所有類合并為一類。類間距離的定義有很多種,本文選取最長距離法、類平均法、重心法及離差平方和法完成系統(tǒng)聚類。由于進(jìn)行聚類分析的球員較多,聚類圖不方便一一羅列,遂選取離差平方和法得到的系統(tǒng)聚類結(jié)果進(jìn)行具體分析。圖4 高水平PF聚類圖(ward方法)如上圖4,James、Nowitzki、Love,Griffin分為一類,恰好是上圖3散點(diǎn)圖中的區(qū)域1,說明這一類代表了核心強(qiáng)進(jìn)攻球員。另外幾類分類情況也大部分滿足上圖3散點(diǎn)圖的直觀分類,如圖4的最右邊一類,就是弱核心球員的類別。綜上所述,James在聯(lián)盟中的PF中屬于強(qiáng)核心球員。3.1.2其他位置的聚類分析由于本文的核心是分析James在

20、全聯(lián)盟的地位,遂將不過多地分析各個位置的球員得分能力分布情況。 直觀分類表3 四個位置的球員得分能力統(tǒng)計(jì)數(shù)據(jù)位置人數(shù)均值最大值球員投籃頻率得分效率投籃頻率得分效率SG370.3911.11PG370.3961.07SF280.3571.10C180.3751.11注:James的得分效率在各個位置中均處于第一上表反映每個位置的球員側(cè)重點(diǎn)不太一樣,得分能力的平均水平有差異。具體的分布情況如下圖:注:James的位置用紅色標(biāo)記圖5 4個位置球員得分能力的分布情況散點(diǎn)圖上圖5中,后衛(wèi)球員的堆積在投籃頻率不高,得分效率也不高的位置,其中雷霆隊(duì)的Westbrook投籃頻率比后衛(wèi)的平均水平高

21、很多;小前鋒的投籃頻率不高但得分效率較高,其中雷霆隊(duì)的Durant.投籃頻率與得分效率都比小前鋒平均水平高很多,并且根據(jù)統(tǒng)計(jì)數(shù)據(jù),他的上場時間也是所有球員最多的,也難怪其獲得本賽季常規(guī)賽MVP。由于聚類的球員眾多,聚類圖不宜分清,遂只展示聚類結(jié)果。下表中只展示每個位置,每種聚類方法包含James的類別:表4 5個位置的球員聚類分析部分結(jié)果位置最長距離法均值法重心法Ward法PFLove.43.MIN SGPGSFC注:每種聚類個數(shù)均為4類,上表只包含有James的類別上圖5中James的得分能力在每個位置都處于前列。上表的聚類結(jié)果說明,與James分為一類的球員均為該位置的當(dāng)紅球星,能力拔群。

22、說明James的得分能力在全聯(lián)盟球員中較強(qiáng),特別是得分效率很高。但是他的得分效率能否顯著地強(qiáng)于其他球員呢?下面進(jìn)行對其進(jìn)行得分效率均值的顯著性檢驗(yàn)。 得分效率均值的顯著性檢驗(yàn)單個正態(tài)總體均值的假設(shè)檢驗(yàn)理論設(shè)總體,來自總體的一個樣本,均值的單邊檢驗(yàn),即:當(dāng)方差已知時,其拒絕域?yàn)? 其中 當(dāng)方差未知時,其拒絕域?yàn)?,其? James的得分效率的假設(shè)檢驗(yàn)首先檢驗(yàn)James的得分效率均值是否顯著高于所有球員的均值Step1 正態(tài)性檢驗(yàn)因?yàn)橹械募僭O(shè)檢驗(yàn)方法是針對正態(tài)性總體的,所以在運(yùn)用均值假設(shè)檢驗(yàn)之前,先要對數(shù)據(jù)的分布進(jìn)行正態(tài)性檢驗(yàn)。本文運(yùn)用Shapiro的檢驗(yàn)

23、方法,若結(jié)果的,則拒絕原假設(shè),即數(shù)據(jù)不服從正態(tài)分布,反之則接受原假設(shè)。結(jié)果中算得p-value = 0.6451大于置信水平0.05,因此接受原假設(shè),即認(rèn)為該組數(shù)據(jù)服從正態(tài)分布。Step2 均值的單邊假設(shè)檢驗(yàn)需要檢驗(yàn)所有球員的平均得分效率是否顯著的小于James的1.297,設(shè)置假設(shè):計(jì)算結(jié)果如下表:表5 James在全部球員中得分效率均值假設(shè)檢驗(yàn)結(jié)果meanJames顯著性水平T值dfP_value顯著性1.0940321.2971930.05-33.015021466.6914e-70不顯著注:選取所有投籃數(shù)大于600的球員進(jìn)行本表的分析由于P_value=6.69e-70小于0.05,因

24、此拒絕原假設(shè),接受,認(rèn)為James的得分效率沒有顯著地大于所有球員平均得分效率。運(yùn)用相同步驟對James的官方位置PF的數(shù)據(jù)進(jìn)行檢驗(yàn)。對高水平PF的得分效率數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),p-value = 0.7145,認(rèn)為該組數(shù)據(jù)服從正態(tài)分布。均值單邊假設(shè)檢驗(yàn)后得到下表結(jié)果:表6 James在PF中得分效率均值假設(shè)檢驗(yàn)結(jié)果meanJames顯著性水平T值dfP_value顯著性1.101138 1.297193 0.05-15.08369282.839e-15不顯著注:選取所有投籃數(shù)大于600的PF進(jìn)行本表的分析由于P_value=2.839e-15小于0.05,因此拒絕原假設(shè),接受,認(rèn)為James的

25、得分效率沒有顯著地大于PF平均得分效率。綜上所述,James雖然得分能力拔群,得分效率較高,但是并沒有顯著的大于高水平球員平均水平。3.2在主成分分析下的聚類模型在全聯(lián)盟中,試圖一類球員,他們與James的打球風(fēng)格相似,并且能力比較接近,這樣就可以通過分析這類球員的共性特征,間接得到James的打球風(fēng)格。并且將James與這類球員的能力進(jìn)行比較,結(jié)果更有意義,更有說服力。如果用所有21個變量進(jìn)行聚類分析,因?yàn)樽兞刻?,結(jié)果難以解釋,遂使用主成分分析將變量降維,再用各球員的主成分得分進(jìn)行聚類分析。 主成分分析模型設(shè)是維隨機(jī)變量,并假設(shè),??紤]如下線性變換 易見 我們希望的方差達(dá)到最大,即是約束優(yōu)

26、化問題的解。因此,是最大特征值(不妨設(shè)為)的特征向量。此時,稱為第一主成分。類似地,希望的方差達(dá)到最大,且要求。由于是的特征向量,所以,選擇的應(yīng)與正交。類似于前面的推導(dǎo),是第二大特征值(不妨設(shè)為)的特征向量。稱為第二主成分。一般情況下對于協(xié)方差陣,存在正交陣,將它化為對角陣,即且則矩陣的第列就對應(yīng)于,相應(yīng)的為第主成分。前面討論的是總體主成分,而在實(shí)際問題中,一般總體協(xié)方差陣未知,用樣本相關(guān)陣來計(jì)算樣本主成分,設(shè)為樣本相關(guān)陣的特征值,為相應(yīng)的單位特征向量,且彼此正交。令,則則存在譜分解:若選取個主成分,則主成分分析的殘差陣為: (1)主成分分析的殘差陣的元素平方和(簡稱為誤差平方和)為: (2)

27、 高水平球員數(shù)據(jù)的主成分分析根據(jù)3.2.1的方法,對本賽季聯(lián)盟內(nèi)投籃數(shù)大于600的球員的數(shù)據(jù)進(jìn)行主成分分析。數(shù)據(jù)情況如下表:表7 主成分分析中數(shù)據(jù)基本情況表球員人數(shù)變量個數(shù)147主成分分析的結(jié)果這些數(shù)據(jù)的主城分析結(jié)果如下:圖6 147名球員NBA原始指標(biāo)的主成分分析的碎石圖表8 主成分的貢獻(xiàn)率表Comp.1Comp.2Comp.3Standard deviation2.89576852.36309261.22261608Proportion of Variance0.39930840.26591460.07118048Cumulative Proportion0.399308

28、40.66522300.73640344表9 前三個主成分的因子載荷表綜合因子高矮因子攻防因子綜合因子高矮因子攻防因子MP-0.2270.163-0.356FTA-0.2820.1360.169FG-0.3060.133FT.0.256FGA-0.2630.230ORB-0.196-0.297-0.141FG.-0.178-0.255DRB-0.269-0.169-0.171X3P0.322-0.396TRB-0.258-0.227-0.170X3PA0.336-0.372AST0.301X2P-0.3220.221STL-0.1030.199-0.162X2PA-0.3090.258BLK-

29、0.167-0.253-0.194X2P.-0.125-0.189TOV-0.2200.214FT-0.2580.1950.183PF-0.154-0.481PTS-0.283 0.215 -當(dāng)主成分個數(shù)達(dá)到3時,累積方差貢獻(xiàn)率超過70%,并且觀察因子載荷矩陣,前三個主成分基本都把所有變量描述了,因此選取3個主成分,剩下18個主成分舍去,達(dá)到降維目的。 主成分解釋第1主成分對應(yīng)的系數(shù)符號都相同,其值在-0.2左右,它反映了球員的綜合能力,綜合能力強(qiáng)的球員,因?yàn)楦黜?xiàng)數(shù)據(jù)值均比較大,因此第1主成分得分就越小,因此取名為“綜合因子”第2主成分對應(yīng)的命中率,2分球命中率,籃板(攻、防、總

30、),蓋帽這幾個變量的因子載荷符號為負(fù),其余為正。身材高大的球員,適合內(nèi)線進(jìn)攻,搶籃板,以及蓋帽,其進(jìn)攻方式多為2分進(jìn)攻,并且命中率也高,所以身材高大的球員的第2主成分得分就較小(帶符號);而身材矮小的球員,動作敏捷,擅長控球與搶斷,因此其助攻與搶斷較多,并且身材矮小的球員在內(nèi)線進(jìn)攻比較吃虧,因此經(jīng)常選擇投三分球,不過其命中率也將降低,所以身材矮小的球員的第2主成分較大。因此取名“高矮因子”第3主成分對應(yīng)的上場時間,三分球投球數(shù)及總得分,搶斷,蓋帽,個人犯規(guī),的符號都為負(fù),其余變量中,部分變量因子載荷過小,最后剩下的變量因子載荷符號為正。防守隊(duì)員的數(shù)據(jù)基本上以系數(shù)為負(fù)的變量為主,如巴蒂爾,因?yàn)榉?/p>

31、守隊(duì)員的打法在內(nèi)線進(jìn)球的機(jī)會很少,所以第3主成分的得分就較低;而攻擊型球員就與之相反,第3主成分因子得分較高。因此取名為“攻防因子”。總的來說,各主成分得分體現(xiàn)的球員能力如下表10 主成分得分描述的情況表主成分負(fù)正綜合因子(第1主成分)綜合能力強(qiáng)綜合能力弱高矮因子(第2主成分)身材高大身材瘦小攻防因子(第3主成分)防守型進(jìn)攻性3.2.3 主成分得分選取排名前25的球員主成分得分情況如下表:表11 前25名球員的主成分得分球員綜合因子高矮因子攻防因子得分和-5.380-7.321-2.969-4.307-5.700-4.278-0.495-3.449-8.327-0.0200.826-3.272

32、-6.818-1.1770.489-3.001-5.587-2.0991.061-2.713-3.628-4.116-1.417-2.644-4.357-2.8410.272-2.476-2.864-4.200-0.604-2.304-3.583-2.579-1.368-2.214-3.990-2.3340.147-2.203-4.454-1.5080.693-2.130-9.0105.4890.381-2.111-5.096-0.7262.047-2.082-2.488-3.8270.268-1.992-6.8882.6501.057-1.971-1.412-4.892-0.750-1.91

33、8-6.0722.448-0.781-1.829-1.802-3.920-0.534-1.800-1.391-4.224-0.582-1.720-6.3853.368-0.709-1.704-2.504-2.8861.149-1.686-2.859-2.2571.046-1.667-1.538-3.3210.072-1.492-0.311-4.568-1.602-1.453注:所有數(shù)據(jù)見附錄在上個部分中,對主成分的屬性進(jìn)行的命名,球員的每個主成分的得分高低代表的情況進(jìn)行說明。因此可以以每個球員的各主成分得分,來將球員進(jìn)行分類,主成分得分情況散點(diǎn)圖如下圖所示:圖7 147名球員主成

34、分得分情況散點(diǎn)圖上圖中,中鋒用黑色點(diǎn)標(biāo)記,前鋒用紅色和粉色點(diǎn)標(biāo)記,后衛(wèi)用藍(lán)色和綠色點(diǎn)標(biāo)記。在主成分得分散點(diǎn)圖中,能直觀地將各個位置的球員區(qū)別開。本文前面的部分中,將同一個位置的球員進(jìn)行得分能力的比較,并且使用的指標(biāo)都相同,并不是太科學(xué)。一方面,每個位置的球員各司其職,所展現(xiàn)的能力不一,單純地以得分效率比較球員得分能力顯得比較盲目;另一方面,在同一個位置的球員,也因個人技術(shù)特點(diǎn)、球隊(duì)因素等側(cè)重點(diǎn)不一樣,如果將一個防守型中鋒與進(jìn)攻型中鋒比較得分能力和投籃頻率是沒有意義的。因此,需要確定一個比較范圍來解決上述兩個方面的問題,即,不僅僅通過官方的位置對球員進(jìn)行分類,而是根據(jù)其原始數(shù)據(jù)體現(xiàn)出來的打球風(fēng)格

35、對球員進(jìn)行劃分。因此下面介紹基于主成分得分的聚類分析。 基于主成分得分的聚類分析3聚類分析結(jié)果運(yùn)用球員的主成分得分,對球員進(jìn)行聚類分析。將球員分為3類,由于結(jié)果數(shù)量過多,僅展示含James的一類結(jié)果:表12 聚類分析結(jié)果中含James的一類球員(最長距離法) Lopez.38.POR.C Anthony.92.NYK.PF Aldridge.96.POR.PF Love.43.MIN.PF Young.3.PHI.PF Nowitzki.31.DAL.PF Randolph.24.MEM.PF Millsap.39.ATL.PF Monroe.37.DET.PF Lee.45.GSW.PF B

36、oozer.83.CHI.PF West.8.IND.PF Sullinger.18.BOS.PF Gibson.70.CHI.PF Morris.36.PHO.PF Faried.73.DEN.PF Thompson.15.CLE.PF Favors.72.UTA.PF Bass.88.BOS.PF Harris.65.ORL.PF Jones.49.HOU.PF Blatche.86.BRK.PF Hickson.62.DEN.PF Henson.63.MIL.PF Johnson.52.TOR.PF DeRozan.77.TOR.SG Harden.60.HOU.SG Dragic.76

37、.PHO.SG Henderson.58.CHA.SG Stephenson.14.IND.SG Burks.91.UTA.SG Wade.5.MIA.SG Curry.67.GSW.PG Wall.10.WAS.PG Ellis.65.DAL.PG Carter-Williams.73.PHI.PG Oladipo.33.ORL.PG Durant.65.OKC.SF George.57.IND.SF Smith.16.DET.SF Gay.59.TOT.SF Green.53.BOS.SF Hayward.49.UTA.SF Turner.7.TOT.SF Parsons.24.HOU.SF Evans.62.NOP.SF Batum.90.POR.SF Brewer.86.MIN.SF Marion.34.DAL.SF L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論