




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、管理信息系統(tǒng)課程小組作業(yè)多指標(biāo)面板數(shù)據(jù)的聚類分析研究以我國15個副省級城市綜合競爭力評價為例小組組長:XXXXX小組成員:XXXXXXXXXX完成時間: 指導(dǎo)教師: 徐德華1 / 73目 錄1 選題背景與意義42 聚類分析與聚類算法52.1 聚類分析52.1.1 相關(guān)概念與定義52.1.2 相似度計量模型52.2 聚類算法72.2.1 傳統(tǒng)聚類算法及其比較72.2.2 擴展聚類算法133 面板數(shù)據(jù)及其聚類方法153.1 面板數(shù)據(jù)概述153.1.1 概念及發(fā)展153.1.2 面板數(shù)據(jù)的特點153.1.3 面板數(shù)據(jù)的分析處理方法163.2 單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式和聚類分析方法163.3 多指標(biāo)面
2、板數(shù)據(jù)的數(shù)據(jù)形式和聚類分析方法173.3.1 多指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式173.3.2 常見的多指標(biāo)面板數(shù)據(jù)聚類分析方法174 實證研究234.1 城市競爭力研究綜述234.1.1 城市競爭力內(nèi)涵研究綜述244.1.2 城市競爭力模型研究綜述264.1.3 城市競爭力評價體系研究綜述294.2 城市競爭力指標(biāo)選取304.2.1 城市競爭力評價指標(biāo)選取的原則304.2.2 我國15個副省級城市競爭力評價指標(biāo)體系314.3 聚類分析324.3.1 基于主成分分析的聚類324.3.2 基于指標(biāo)距離求和的聚類384.3.2 基于概率連接函數(shù)的聚類404.4 結(jié)果分析425 結(jié)論與展望445.1 結(jié)論44
3、5.2 不足與展望44主要參考文獻(xiàn)45附錄46附錄146附錄246附錄3481 選題背景與意義面板數(shù)據(jù)(Panel Data)作為截面數(shù)據(jù)與時間序列數(shù)據(jù)的組合數(shù)據(jù)集,同時體現(xiàn)了空間維度和時間維度的數(shù)字特征,克服了時間序列數(shù)據(jù)多重共線性、數(shù)據(jù)量不足等困擾,逐漸發(fā)展成為現(xiàn)代計量經(jīng)濟學(xué)領(lǐng)域統(tǒng)計分析與統(tǒng)計研究的重要方法和工具。運用多元統(tǒng)計方法對面板數(shù)據(jù)進(jìn)行聚類分析是統(tǒng)計學(xué)的新興研究領(lǐng)域。聚類分析作為一種數(shù)據(jù)挖掘手段,已被廣泛地應(yīng)用在許多領(lǐng)域中,包括模式識別、數(shù)據(jù)分析、圖像處理、市場研究、管理評價等。傳統(tǒng)的聚類分析對象一般是固定時期的不同個體截面數(shù)據(jù),二維數(shù)據(jù)聚類分析往往不能滿足人們分析問題的需要,而且
4、基于單一的固定時期的聚類分析往往抹殺了指標(biāo)的動態(tài)發(fā)展趨勢及其發(fā)展?fàn)顟B(tài),無法預(yù)測其未來發(fā)展軌跡和所屬類別。例如:在城市競爭力聚類分析中,競爭力存在著隨時間動態(tài)變化過程,僅僅固定在某一年度的截面數(shù)據(jù)分析就顯得有失偏頗,如果根據(jù)一個較長時期的面板數(shù)據(jù)進(jìn)行聚類分析則顯得較為合理。城市競爭力是國內(nèi)近年來正在興起的一個新課題,目前處于起步研究階段,還未形成公認(rèn)的完整體系。經(jīng)濟全球化,知識經(jīng)濟時代的到來,促使我國城市必須進(jìn)行轉(zhuǎn)型改革,走上新型的發(fā)展道路。我國現(xiàn)階段的城市要從建設(shè)城市轉(zhuǎn)向管理和經(jīng)營城市,就是要重塑城市資源整合和配置資源機制,提高城市對社會資源的吸引力和創(chuàng)造社會財富的能力,從根本上就是提高城市競
5、爭力。城市競爭力評價是典型的綜合評價,在不同的評價體系下有不同的指標(biāo)指標(biāo),而且必須考慮時間因素,因此相關(guān)的數(shù)據(jù)就是典型的多指標(biāo)面板數(shù)據(jù)。1994年5月,經(jīng)中央機構(gòu)編制委員會第6次會議通過,決定將原來的14個計劃單列市和杭州、濟南2市正式確定為副省級市(其中,重慶市97年恢復(fù)直轄)。將這15個城市定為副省級市,是中央對于區(qū)域經(jīng)濟發(fā)展的重要決策,加強了省級機構(gòu)統(tǒng)籌規(guī)劃和協(xié)調(diào)的地位和作用,不僅有利于加快這些城市的經(jīng)濟與社會發(fā)展,而且有利于更好的發(fā)揮這些中心城市的輻射作用。在國家政策層面和經(jīng)濟決策權(quán)待遇同等的情況下,經(jīng)過20年,這15個副省級城市的發(fā)展出現(xiàn)了很大差異,城市競爭力也日趨呈現(xiàn)差異化。鑒于此
6、,我們小組決定利用多指標(biāo)面板數(shù)據(jù)的聚類方法對此進(jìn)行探析,一方面介紹面板數(shù)據(jù)的一些處理思路,另一方面通過聚類尋找15個城市類別之間的差異,以提出相關(guān)建議。2 聚類分析與聚類算法2.1 聚類分析2.1.1 相關(guān)概念與定義聚類分析(Cluster Analysis)又稱群分析,是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類的一種方法,其目的是將有限個無標(biāo)注數(shù)據(jù)劃分到有限個離散的組或類中,發(fā)現(xiàn)數(shù)據(jù)隱藏的內(nèi)部結(jié)構(gòu)。聚類分析是數(shù)據(jù)挖掘的一種重要手段,是一種無監(jiān)督的模式分類方法,在分類時只依賴對象自身所具有的屬性來區(qū)分對象之間的相似程度。聚類分析作為一種有效的數(shù)據(jù)分析方法被廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學(xué)習(xí)、圖像
7、分割、語音識別、生物信息處理等方面。給定一個對象集合,假設(shè)每個對象含有 m 個特征,在此用向量的方式來表示對象的特征,聚類分析的過程就是根據(jù)對象的特征來分析對象之間的相似程度,并根據(jù)某種聚類決策準(zhǔn)則來獲得聚類結(jié)果。聚類的結(jié)果用表示,則聚類結(jié)果滿足以下條件:;。模糊聚類的結(jié)果沒有上面的約束條件,模糊聚類給出的結(jié)果只是對象隸屬于每個類的程度。通常聚類分析一般包含四個部分:(1)特征獲取與指標(biāo)選擇;(2)計算相似度;(3)聚類分組;(4)結(jié)果分析。2.1.2 相似度計量模型給定數(shù)據(jù)矩陣,通常需要通過某種相似度計算模型來計算相似度矩陣。相似性計算模型一般需滿足如下三個條件:(1)非負(fù)性:對于任兩個對象
8、x和y,有; (2)對稱性:對于任兩個對象x和y,有; (3)。 相似度的計算依賴于數(shù)據(jù)的特性,針對不同的數(shù)據(jù)類型,目前有許多相似度的計算公式,下面列出一些常見的計算公式:(1)數(shù)值型數(shù)據(jù)的相似度數(shù)值型數(shù)據(jù)的相似度通常利用數(shù)據(jù)間的距離來構(gòu)造,可以利用公式將距離轉(zhuǎn)化為相似度,其中max_d表示集中數(shù)據(jù)之間的最大距離。常見的距離公式有:u 閔可夫斯基(Minkowski)距離:u 切比雪夫(Chebyshev)距離:u 馬氏(Mahalanobis)距離:其中,表示取大運算。閔可夫斯基距離是一個一般化的距離度量,當(dāng)p=1是為曼哈頓距離,當(dāng)p=2是為歐式距離。(2)二元數(shù)據(jù)的相似度二元數(shù)據(jù)是由二元變
9、量構(gòu)成,二元變量只能有兩種取值狀態(tài):0或1,其中0表示該特征為空,l表示該特征存在。如果二元變量的兩個狀態(tài)是同等價值的具有同樣的權(quán)重稱為對稱的二元變量,否則稱為不對稱的二元變量。對于對稱的二元變量評價兩個對象和之間相似度的最著名的系數(shù)是簡單匹配系數(shù):,其中r為x和y取值不相同的屬性的個數(shù),s為x和y取值相同的屬性的個數(shù)。對于非對稱的二元變量,常用系數(shù)來表示,其中最常用的是Jacard系數(shù)。下面給出常見系數(shù)的計算公式,設(shè)為二元數(shù)據(jù),常用0-0匹配表示xi=0且yi=0,同理可用0-1、1-0及1-1匹配表示xi及yi相應(yīng)的取值,其中fij表示集合的基數(shù),。u Jacard系數(shù) u Rogers-
10、Tanimoto系數(shù) u Sokal-Sneath-a系數(shù) (3)其他相似度u 余弦相似度 u 相關(guān)系數(shù)構(gòu)成的相似度 2.2 聚類算法2.2.1 傳統(tǒng)聚類算法及其比較聚類分析的核心就是聚類算法,在不斷的發(fā)展過程中演化出了多種經(jīng)典的聚類算法,在現(xiàn)有文獻(xiàn)中,傳統(tǒng)的聚類算法主要有幾種類型:劃分方法、層次方法、密度方法、模型方法和網(wǎng)格方法。(1)基于劃分的方法對于給定的包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,通常基于劃分的方法要求用戶給定構(gòu)建數(shù)據(jù)的最終劃分?jǐn)?shù)目k,通過采用目標(biāo)函數(shù)最小化策略,將數(shù)據(jù)分成k個簇。可以看出,算法將整個數(shù)據(jù)集劃分為k個簇,同時滿足以下兩個條件:每個簇至少包含一個數(shù)據(jù)對象;每個數(shù)據(jù)對象必須屬
11、于且唯一的屬于一個簇。但在某些模糊劃分技術(shù)中,如在FCM算法中,第二個要求可以放寬。給定劃分?jǐn)?shù)目k,基于劃分的方法首先創(chuàng)建一個初始劃分,通常采用的方法是隨機選取k個數(shù)據(jù)對象作為初始聚類中心點,然后采用一種迭代的重定位技術(shù),嘗試通過對象在劃分間移動來改進(jìn)劃分,采用的準(zhǔn)則是:在同一個簇中的數(shù)據(jù)對象盡可能相似,不同的簇中的數(shù)據(jù)對象盡可能相異。根據(jù)對象在劃分之間移動的衡量參數(shù)和簇的表示方法不同,基于劃分的方法主要包括有K-Means法,K-中心點算法以及對他們的擴展。(2)基于層次的方法層次的方法按數(shù)據(jù)分層建立簇,形成一棵以簇為節(jié)點的樹。根據(jù)層次如何形成,層次的方法可以分為凝聚的和分裂的。凝聚的方法,
12、也稱自底向上的方法,該方法從數(shù)據(jù)點作為個體簇開始,每一步合并兩個最接近的簇,直到所有的簇合并為一個(層次的最上層),或者達(dá)到一個終止的條件。在這里,判斷最接近的簇需要簇的臨近性定義。大多數(shù)的層次聚類算法都屬于這類。分裂的方法,也稱為自頂向下的方法,它與凝聚的方法正好相反,該方法從包含所有點的一個簇開始,每一步分裂一個簇,最終每個對象在單獨的一個簇中,或者達(dá)到一個終止條件,比如達(dá)到某個希望的簇數(shù)目,或者兩個最近的簇之間的距離超過了某個閉值。在這種情況下,我們需要確定每一步分裂哪一個簇,以及如何分裂。無論是凝聚算法還是分裂算法都要采用一個劃分準(zhǔn)則,以便判定簇之間的相似性或相異性,五個廣泛采用的簇間
13、距離度量方法如下:.最小(單鏈)距離: .最大(全鏈)距離:.平均值(質(zhì)心)距離:,其中、是的質(zhì)心.平均(組平均)距離:.中心點距離:,其中、是的中心點。這里表示兩個對象和之間的距離,是簇的平均值(質(zhì)心),是簇的中心點,而是簇中對象的數(shù)目。如圖2.1所示,凝聚的層次算法和分裂的層次算法在包含五個對象的數(shù)據(jù)集合上的處理過程。凝聚的方法將每個對象看作一個簇,然后將這些簇一步一步進(jìn)行合并。圖中簇a和b相似性最高首先進(jìn)行合并,其次是d和e,再de合并的簇與簇c合并,最終與a,b組成的簇合并,合并過程反復(fù)進(jìn)行直到最終合并為一個簇。而在分裂方法處理的過程中,初始時所有對象都放到一個簇中,根據(jù)數(shù)據(jù)對象之間的
14、相異性將該簇分裂,簇的分裂過程反復(fù)進(jìn)行,直到最終每個簇中只包含一個對象。圖2.1 凝聚和分裂層次聚類算法層次聚類算法可以在不同粒度水平上對數(shù)據(jù)進(jìn)行探測,而且很容易實現(xiàn)相似度量或距離度量。但是層次聚類算法由于合并或分裂簇的操作不可逆,也給聚類結(jié)果帶來不準(zhǔn)確性。有一些技術(shù)試圖克服“合并是最終的”這一限制。一種方法試圖通過移動樹的分支以改善全局目標(biāo)函數(shù)。另一種方法使用劃分聚類技術(shù)來創(chuàng)建許多小簇,然后從這些小簇出發(fā)進(jìn)行層次聚類。凝聚層次聚類技術(shù)使用各種標(biāo)準(zhǔn),在每一步局部地確定哪些簇應(yīng)當(dāng)合并(或分裂,對于分裂方法)。這種方法產(chǎn)生的聚類算法避開了解決困難的組合優(yōu)化問題。這樣的方法沒有很難確定初始點和局部最
15、小問題。但是,在很多情況下,的時間復(fù)雜度和的空間復(fù)雜度阻礙了它們的應(yīng)用。通常在解決實際聚類問題時把層次方法與其他方法結(jié)合起來。改進(jìn)層次方法聚類質(zhì)量的一個很有前途的方向,是把層次聚類和其他聚類方法相結(jié)合起來,形成多階段的聚類,改善聚類質(zhì)量。這類方法包括BIRCH和CURE算法等。BIRCH算法利用層次方法進(jìn)行平衡迭代歸約和聚類。它引入了兩個概念:聚類特征和聚類特征樹。聚類特征是一個反映類內(nèi)對象信息的三元組,包含類內(nèi)數(shù)據(jù)點的個數(shù)、線性和以及平方和。它首先將對象劃分成樹形結(jié)構(gòu),然后采用其他聚類算法對聚類結(jié)果求精。BIRCH算法采用多階段聚類技術(shù),對數(shù)據(jù)集進(jìn)行一遍掃描后生成初步簇的CF樹,再經(jīng)過一遍或
16、多遍掃描改進(jìn)CF樹的質(zhì)量。CF樹建好后,可以使用任何聚類算法,如典型的劃分方法,對其葉節(jié)點進(jìn)行聚類。BIRCH算法支持增量聚類。當(dāng)插入新數(shù)據(jù)對象時,CF樹可以動態(tài)構(gòu)造,CF樹的重建類似于B+樹構(gòu)建中的節(jié)點插入和分裂。但由于CF樹的每個節(jié)點的大小的限制,可能導(dǎo)致節(jié)點并不總是對應(yīng)于用戶所認(rèn)為的一個自然聚類。而且,如果簇不是球形的,BIRCH算法不能很好地工作,因為它用了直徑的概念來控制聚類的邊界。CURE算法使用各種不同的技術(shù)創(chuàng)建一種能夠處理大型數(shù)據(jù)、離群點和具有非球形和非均勻大小的簇的數(shù)據(jù)的方法。CURE使用簇中多個代表點來表示一個簇。實際上,CURE是從一個簇中選擇一定數(shù)目散布很好的點來代表該
17、簇,這些點能夠用于確定簇的形狀和大小。一旦選定代表點,他們就以一定的收縮因子向簇中心收縮,這有助于減輕離群點的影響。使用這些點收縮之后的位置來代表簇,從中找到最近的兩個簇,然后把它們進(jìn)行合并。CURE算法克服了利用單個代表點或基于質(zhì)心的方法的缺點,可以發(fā)現(xiàn)非球形及大小差異明顯的簇。同時采用了收縮因子在處理孤立點上也更加健壯。(3)基于密度的方法很多算法中都使用距離來描述數(shù)據(jù)對象之間的相似性,前面提到的兩種聚類方法就是基于這種相似性進(jìn)行聚類,這樣的聚類方法對于大部分的球形簇聚類效果較好。但往往對任意形狀的簇聚類結(jié)果較差,甚至無法進(jìn)行有效聚類,因此提出了基于密度的聚類方法。這類方法將簇看作是數(shù)據(jù)空
18、間被低密度區(qū)域分割開的高密度區(qū)域。該類算法除了可以發(fā)現(xiàn)任意形狀的類,還能夠有效去除噪聲。典型的基于密度的聚類方法包括DBSCAN和OPTICS。1)DBSCAN算法主要思想是:只要臨近區(qū)域的密度(對象或數(shù)據(jù)點的數(shù)目)超過某個預(yù)先設(shè)定的閉值,該數(shù)據(jù)對象就屬于此簇,并繼續(xù)聚類,直至所有的對象都唯一的劃定到一個簇中。基于密度的聚類方法通常是對于給定類中的每個數(shù)據(jù)點,在一個給定范圍的區(qū)域中設(shè)定必須至少包含數(shù)據(jù)點的數(shù)目。它定義簇為密度相連點的最大集合。以下為有關(guān)密度的一些相關(guān)概念:.-鄰域:給定對象半徑內(nèi)的區(qū)域稱為該對象的-鄰域;.核心對象:如果一個對象的鄰域至少包含最小數(shù)目MinPts個對象,則稱該對
19、象為核心對象,MinPts由用戶給定;.直接密度可達(dá):給定一個對象集合D如果p是在q的 -鄰域內(nèi),而q是一個核心對象,我們說對象p從對象q出發(fā)是直接密度可達(dá)的;.密度可達(dá):如果存在對象鏈,,對 (),是從關(guān)于和MinPts直接密度可達(dá)的,則對象P是從對象q關(guān)于和MinPts密度可達(dá)的(Density一Reachable);.密度相連:如果對象集合D中存在一個對象O,使得對象p和q是從O關(guān)于和MinPts密度可達(dá)的,那么對象p和q是關(guān)于和MinPts密度相連的(Density一Connected)。密度可達(dá)是直接密度可達(dá)的傳遞閉包,這種關(guān)系是非對稱的。只有核心對象之間是相互密度可達(dá)的。然而,密度
20、相連性是一個對稱的關(guān)系。基于密度的聚類算法通過檢查數(shù)據(jù)庫中每個數(shù)據(jù)對象的:-鄰域來尋找最終的聚類。如果一個數(shù)據(jù)對象P的-鄰域包含多于MinPts個其他數(shù)據(jù)對象,則創(chuàng)建一個以P作為核心對象的新簇。然后,反復(fù)地尋找從這些核心對象直接密度可達(dá)的對象。這個過程可能涉及一些密度可達(dá)簇的合并。當(dāng)沒有新的點可以被添加到任何簇時,該過程結(jié)束。這樣算法得到的簇是是基于密度可達(dá)性的最大的密度相連對象的集合,其他不包含在任何簇中的對象被認(rèn)為是“噪聲”。這樣的方法可以用來過濾“噪聲”,去除孤立點數(shù)據(jù),并且可以發(fā)現(xiàn)任意形狀的簇。對于基于密度的算法聚類過程而言,它的優(yōu)點是具有相對較低的時間復(fù)雜度(如果采用空間索引,DBS
21、CAN的計算復(fù)雜度是,否則,計算復(fù)雜度是,這里n是數(shù)據(jù)庫中對象的數(shù)目),另外可以根據(jù)給定輸入?yún)?shù)和MinPts對數(shù)據(jù)對象進(jìn)行較好的聚類,但是對于用戶而言,參數(shù)的取值通常依靠經(jīng)驗,如果用戶對數(shù)據(jù)集不熟悉,又或者是數(shù)據(jù)集為一個高維數(shù)據(jù)集,這時用戶就很難確定參數(shù)和MinPts,而算法參數(shù)取得是否得當(dāng)直接影響最終的聚類效果。該算法對用戶定義的參數(shù)十分敏感,因此在實際應(yīng)用中聚類效果較差,往往全局密度參數(shù)不能刻畫其內(nèi)在的聚類結(jié)構(gòu)?;诿芏鹊乃惴ㄒ话悴捎媒o定特定函數(shù),來減少用戶人為給定的參數(shù)對最終聚類結(jié)果的影響。2)OPTICS算法OPTICS算法是通過對象排列識別聚類結(jié)構(gòu)的密度聚類算法,它為自動和交互的聚
22、類分析計算一個簇次序。這個次序代表了數(shù)據(jù)的基于密度的結(jié)構(gòu),這個次序的選擇根據(jù)最小的值密度可達(dá)的對象,以便高密度的聚類能被首先完成,基于這個想法,每個對象需要存儲兩個值)核心距離(coredistance)和可達(dá)距離(reach abilitydistance)。.核心距離:一個對象p的核心距離是使得p成為核心對象的最小。如果p不是核心對象,p的核心距離沒有定義;.可達(dá)距離:一個對象q關(guān)于另一個對象p的可達(dá)距離是p的核心距離和p與q的歐幾里得距離之間的較大值。如果p不是一個核心對象。p和q之間的可達(dá)距離沒有定義。OPTICS算法創(chuàng)建了數(shù)據(jù)庫中對象的一個次序,額外存儲了每個對象的核心距離和一個適當(dāng)
23、的可達(dá)距離,基于產(chǎn)生的次序信息,OPTICS來抽取聚類。(4)基于網(wǎng)格的方法基于網(wǎng)格的聚類方法采用多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),把對象空間量化為有限數(shù)目的單元,形成一個網(wǎng)格結(jié)構(gòu),所有操作都在這個網(wǎng)格結(jié)構(gòu)上進(jìn)行。這種方法的主要優(yōu)點是處理速度快,處理時間獨立于數(shù)據(jù)對象的數(shù)目,只與量化空間中每一維的單元數(shù)目有關(guān)。代表性的算法是STING算法和CLIQUE算法。1)STING(Statistical Information Grid)是基于網(wǎng)格方法的一個非常典型的例子。該算法基于網(wǎng)格的多分辨率聚類技術(shù),它將要聚類的空間區(qū)域劃分為矩形單元。針對不同級別的分辨率,通常存在多個級別的矩形單元,這些單元形成了一個層
24、次結(jié)構(gòu):高層的每個單元被劃分為多個低一層的單元。關(guān)于每個網(wǎng)格單元屬性的統(tǒng)計信息(例如平均值、最大值、最小值)被預(yù)先計算和存儲,以便于進(jìn)行查詢處理。該算法的主要優(yōu)點是它的網(wǎng)格結(jié)構(gòu)有利于并行處理和增量更新而且效率非常的高,主要不足是由于它采用了一個多分辨率的方法來進(jìn)行聚類分析,它的聚類的質(zhì)量取決于網(wǎng)格結(jié)構(gòu)最低層的粒度,如果粒度比較細(xì),處理的代價會顯著的增加,但如果最低層的粒度太粗將會降低聚類分析的質(zhì)量;而且STING在構(gòu)建一個父親單元時沒有考慮孩子單元和其相鄰單元之間的關(guān)系,所以其聚類邊界只能是水平的或豎直的,沒有對角的邊界。因此,盡管該技術(shù)有快速的處理速度,但可能降低簇的質(zhì)量和精確性。2)CLI
25、QUE(Clustering In Quest,自動子空間聚類算法)聚類算法綜合了基于密度和基于網(wǎng)格的聚類方法。它對于大型數(shù)據(jù)庫中的高維數(shù)據(jù)的聚類非常有效。CLIQUE的中心思想如下:.給定一個多維數(shù)據(jù)點的大集合,數(shù)據(jù)點在數(shù)據(jù)空間中通常不是均衡分布的。CLIQUE區(qū)分空間中稀疏的和“擁擠的”區(qū)域,以發(fā)現(xiàn)數(shù)據(jù)集合的全局分布模式。.如果一個單元中的包含數(shù)據(jù)點超過了某個輸入模型參數(shù),則該單元是密集的。在CLIQUE中,簇定義為相連的密集單元的最大集合。CLIQUE分兩步進(jìn)行多維聚類:首先,CLIQUE將數(shù)據(jù)空間中分布不均勻的數(shù)據(jù)對象,按照n維數(shù)據(jù)空間劃分為互不相交的長方形單元,并識別其中的密集單元,
26、該工作對每一維進(jìn)行;其次,CLIQUE為每個簇生成最小化的描述。對每個簇,它確定覆蓋相連的密集單元的最大區(qū)域,然后確定最小的覆蓋。CLIQUE將基于密度和基于網(wǎng)格的算法相結(jié)合,它能夠自動地發(fā)現(xiàn)最高維的子空間,高密度聚類存在于這些子空間中,對元組的輸入順序不敏感,無需假設(shè)任何規(guī)范的數(shù)據(jù)分布。它隨輸入數(shù)據(jù)的大小線性地擴展。當(dāng)數(shù)據(jù)的維數(shù)增加時具有良好的可伸縮性。但是。由于方法大大簡化。聚類結(jié)果的精確性可能會降低。(5)基于模型的方法基于模型的方法為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合。一個基于模型的算法可能通過構(gòu)建反映數(shù)據(jù)點分布的密度函數(shù)來定位聚類?;谀P偷木垲惙椒ㄔ噲D優(yōu)化給定的數(shù)據(jù)和
27、某些數(shù)學(xué)模型之間的適應(yīng)性,這樣的方法經(jīng)常是基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的。基于模型的方法主要分兩類:統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。大多概念聚類都采用了統(tǒng)計方法,也就是利用概率參數(shù)來幫助確定概念或聚類。每個所獲得的聚類通常都是通過概率描述來表示的。COBWEB是一個常用并且簡單的增量式概念聚類方法。它的輸入對象是采用符號量來描述,采用分類樹的形式創(chuàng)建一個層次聚類。一個分類樹中的一層形成一個劃分。COBWEB是基于屬性概率分布相互獨立的假設(shè),屬性取值多時較難存儲和更新聚類。COBWEB另外一個版本是CLASSIT,它可以對連續(xù)取值屬性進(jìn)行增量式聚類。這兩個方法都不適合對大數(shù)據(jù)庫進(jìn)行聚類
28、。神經(jīng)網(wǎng)絡(luò)聚類方法是將每個聚類描述成一個例證,每個例證作為聚類的原型。然后根據(jù)某種度量,將新的對象分配到最相似的聚類之中。主要的方法有:競爭學(xué)習(xí)方法和自組織特征映射方法。(6)幾種傳統(tǒng)聚類算法比較基于上述的分析,下面對傳統(tǒng)聚類方法中的一些常用聚類算法的性能從可伸縮性、發(fā)現(xiàn)聚類的形狀、對“噪聲”的敏感性、對數(shù)據(jù)輸入順序的敏感性、高維性和算法效率六個方面進(jìn)行比較,結(jié)果如表2.1所示。表2.1 聚類算法比較 性能算法可伸縮性發(fā)現(xiàn)聚類的形狀對“噪聲”的敏感性對數(shù)據(jù)輸入順序的敏感性高維性算法效率CLARANS好凸形或球形不敏感非常敏感一般較低CURE較差任意形狀不敏感敏感好較高BIRCH較差凸形或球形一
29、般不太敏感好高DBSCAN較好任意形狀不敏感敏感一般一般STING好任意形狀不敏感不敏感好高COBWEB較好任意形狀一般敏感好較低K-means較好球形敏感不太敏感一般一般SOM較好任意形狀敏感敏感好一般由表2.1的比較可以看出,現(xiàn)有傳統(tǒng)聚類算法在某些方面達(dá)到數(shù)據(jù)挖掘?qū)垲惙治龅囊螅菦]有哪一種算法是絕對優(yōu)越的。由于數(shù)據(jù)挖掘在不同領(lǐng)域的應(yīng)用對聚類算法提出了各自特殊的要求,我們可以根據(jù)具體的要求選擇適當(dāng)?shù)木垲愃惴ā?.2.2 擴展聚類算法(1)模糊聚類算法如果數(shù)據(jù)對象分布在明顯分離的組中,則把對象明確分成不想交的簇是一種理想的方案。然而,在大部分情況下,數(shù)據(jù)集中的對象不能劃分成明顯分離的簇。
30、傳統(tǒng)聚類把每個樣本嚴(yán)格地劃分到某一類,隨著模糊集理論的提出,傳統(tǒng)聚類被推廣為模糊聚類。在模糊聚類中,每個樣本不再僅僅屬于某一類,而是以一定的隸屬度屬于某一類。通過模糊聚類分析,得到了樣本屬于各個類別的不確定性程度,即建立起了樣本對于類別的不確定性描述?;谀繕?biāo)函數(shù)的模糊聚類方法首先由Ruspini提出,但真正有效的算法模糊C均值算法卻是由Dunn給出的。Bezdek將其進(jìn)一步擴展,建立起了模糊聚類理論。(2)綜合聚類算法現(xiàn)在有很多算法是將不同算法進(jìn)行綜合,以此來獲得不同算法的優(yōu)點。DENCLUE(DENsity-based CLUstEring)就是一個綜合了劃分方法、層次方法和密度方法的綜合
31、方法。該算法主要基于以下理論: 每個數(shù)據(jù)點的影響可以用一個數(shù)學(xué)函數(shù)形式化地模擬,它描述了一個數(shù)據(jù)點在領(lǐng)域內(nèi)的影響,被稱為影響函數(shù); 數(shù)據(jù)空間的整體密度可以被模型化為所有數(shù)據(jù)點的影響函數(shù)的總和; 聚類可以通過密度吸引點來得到,這里的密度吸引點是全局密度函數(shù)的局部最大值。(3)新的對象的聚類算法近年來越來越多的應(yīng)用產(chǎn)生流數(shù)據(jù)。它不同于傳統(tǒng)的存儲在磁盤上的靜態(tài)數(shù)據(jù),而是一類新的數(shù)據(jù)對象,它是連續(xù)的、有序的、快速變化的、海量數(shù)據(jù)。相應(yīng)地,流環(huán)境下的流聚類問題研究也成為聚類分析中的一個熱點。流數(shù)據(jù)是數(shù)據(jù)點的一個有序序列,它只能被順序訪問,而且僅能被掃描一次貨有限的幾次。數(shù)據(jù)流是快速變化的,因而對流數(shù)據(jù)聚
32、類也要能隨著時間而不斷地進(jìn)行。流數(shù)據(jù)是海量且有序的,不可能保證存儲整個數(shù)據(jù)集,只能分析一定范圍內(nèi)的數(shù)據(jù),因而要有效地利用有限的空間。隨著人們對面板數(shù)據(jù)認(rèn)知的加深,對面板數(shù)據(jù)的聚類也成為聚類分析中的另一熱點。面板數(shù)據(jù)的有序聚類是難點,如何保證在聚類的過程中,同時保留面板數(shù)據(jù)的以下三個特征是當(dāng)前研究的熱點: 某時期指標(biāo)發(fā)展的絕對水平; 特定個體的指標(biāo)發(fā)展的動態(tài)水平,即指標(biāo)隨時間變化的增量水平或增速; 特殊個體某項指標(biāo)發(fā)展的協(xié)調(diào)水平,即指標(biāo)的變異程度或波動程度。3 面板數(shù)據(jù)及其聚類方法3.1 面板數(shù)據(jù)概述3.1.1 概念及發(fā)展面板數(shù)據(jù),即Panel Data,也叫“平行數(shù)據(jù)”,是指在時間序列上取多個
33、截面,在這些截面上同時選取樣本觀測值所構(gòu)成的樣本數(shù)據(jù),也就是把截面數(shù)據(jù)和時間序列數(shù)據(jù)融合在一起的一種數(shù)據(jù)。最早做面板數(shù)據(jù)收集和研究的是美國,開始于十九世紀(jì)六十年代,兩個著名的例子一是由米歇根大學(xué)的社會研究協(xié)會做的關(guān)于收入動態(tài)的面板研究;二是由俄亥俄州立大學(xué)人力資源研究中心和人口普查局所做的勞動力市場經(jīng)歷的國家平行數(shù)據(jù)調(diào)查。歐洲這方面起步相對比較晚,開始于十九世紀(jì)八十年代。我國這方面起步則更晚,面板數(shù)據(jù)的收集還不是很健全。近20多年來,面板數(shù)據(jù)模型在計量經(jīng)濟學(xué)理論和方法上都取得了重要發(fā)展,新方法、新觀點層出不窮。在經(jīng)濟分析中,面板數(shù)據(jù)模型起著只利用截面數(shù)據(jù)和時間序列數(shù)據(jù)模型所不可替代的作用,具有
34、很高的應(yīng)用價值。3.1.2 面板數(shù)據(jù)的特點面板數(shù)據(jù)從橫截面上看,是由若干個體在某一時刻構(gòu)成的截面觀測值,從縱剖面上看則是一個時間序列。面板數(shù)據(jù)可以用三下標(biāo)變量表示,例 ,N表示面板數(shù)據(jù)中含有的個體數(shù);m表示指標(biāo)變量的總數(shù);T表示時間序列的最大長度。相對只利用截面數(shù)據(jù)模型和只利用時間序列數(shù)據(jù)模型進(jìn)行經(jīng)濟分析而言,面板數(shù)據(jù)模型具有許多優(yōu)點:第一,減少多重共線性。面板數(shù)據(jù)通常提供給研究者大量的數(shù)據(jù),包含更多的變量,這樣就增加了自由度,減少了解釋變量之間的共線性。 第二,相對于純橫截面和純時間序列數(shù)據(jù)而言,面板數(shù)據(jù)可以從多種層面分析經(jīng)濟問題。第三,面板數(shù)據(jù)能夠更好的識別和測量一些效應(yīng),而這些效應(yīng)是單純
35、的時間序列數(shù)據(jù)或橫截面數(shù)據(jù)所不能簡單覺察的。第四,控制個體效應(yīng)。面板數(shù)據(jù)通常以微觀單元來收集,如個人、公司和家庭。在微觀的水平上許多變量能被更為精確的測量,因此有測量誤差所引起的偏能夠得到減輕。3.1.3 面板數(shù)據(jù)的分析處理方法從20世紀(jì)70年代末以來,面板數(shù)據(jù)回歸模型的理論方法己日漸成熟,涌現(xiàn)了大量有關(guān)面板數(shù)據(jù)理論和經(jīng)驗分析文章,形成了現(xiàn)代計量經(jīng)濟學(xué)中一個相對獨立的分支。絕大多數(shù)有關(guān)面板數(shù)據(jù)的分析處理理論,一方面從從計量建模的角度著手,從單方程模型到聯(lián)立方程模型,從變截距模型到變系數(shù)模型,從線性模型到非線性模型等等,另一方面著重于模型參數(shù)估計方法的研究。目前,用面板數(shù)據(jù)建立的模型通常有3種,
36、即混合模型、固定效應(yīng)模型和隨機效應(yīng)模型,其中固定效應(yīng)模型又可分為個體固定效應(yīng)模型、時點固定效應(yīng)模型和個體時點雙固定模型三類。常用的面板數(shù)據(jù)模型估計方法有混合最小二乘估計、組內(nèi)最小二乘估計、組間最小二乘估計、廣義最小二乘估計、協(xié)方差估計、一階差分估計和最小二乘虛擬變量估計,其中前兩種適用于混合模型,組內(nèi)、組間和廣義最小二乘估計適用于堆積效應(yīng)模型,后三種適用于固定效應(yīng)模型。Bonzo D.C 和 Hermosilla A.Y 等統(tǒng)計學(xué)家開創(chuàng)性的將多元統(tǒng)計方法引入到面板數(shù)據(jù)的分析中來,并運用概率連接函數(shù)和遺傳算法改進(jìn)了聚類分析的算法,從而將聚類分析用于面板數(shù)據(jù)的分析。運用多元統(tǒng)計方法對面板數(shù)據(jù)進(jìn)行聚
37、類分析是統(tǒng)計學(xué)的新興研究領(lǐng)域。3.2 單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式和聚類分析方法單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)格式可以用一個二維表來表示單指標(biāo)面板數(shù)據(jù)聚類分析有兩種處理方法:一種是轉(zhuǎn)換方法,將單指標(biāo)面板數(shù)據(jù)的時間維度轉(zhuǎn)換為截面數(shù)據(jù)的指標(biāo)維度表示,兩種數(shù)據(jù)的統(tǒng)計描述特征相似,在聚類分析中,二者關(guān)于樣品距離的算法、聚類過程都是相同的,因此,單指標(biāo)面板數(shù)據(jù)的聚類分析可以借鑒截面數(shù)據(jù)的聚類分析,可以直接運行相關(guān)軟件進(jìn)行計算。另一種是一維有序樣品聚類方法,將單指標(biāo)面板數(shù)據(jù)的空間維度轉(zhuǎn)換為有序樣品的指標(biāo)維度表示,但需要進(jìn)行降維處理得到一維指標(biāo)。目前有不少專業(yè)軟件可以完成一維樣品有序聚類計算,比如DPS 等。由于面板數(shù)據(jù)
38、自身復(fù)雜的數(shù)據(jù)結(jié)構(gòu),對于面板數(shù)據(jù)聚類分析的研究早期多停留在單指標(biāo)面板數(shù)據(jù)上較多,例如:Michel和Jeroen(2005)用逐步回歸的方法對缺省數(shù)據(jù)的單個指標(biāo)面板數(shù)據(jù)進(jìn)行了聚類分析研究;朱建平和陳民懇(2007)利用差異上確界、差異歐式距離、差異絕對值等方法研究了單個指標(biāo)面板數(shù)據(jù)的聚類分析,構(gòu)造了度量單個指標(biāo)面板數(shù)據(jù)中橫截面?zhèn)€體之間相似性的統(tǒng)計指標(biāo),并對全國31個省市城鎮(zhèn)居民的收入和支出分別作了系統(tǒng)聚類分析。對單個指標(biāo)面板數(shù)據(jù)的聚類分析在理論研究上就是一個簡化問題,其聚類算法和聚類過程都類似于多指標(biāo)橫截面數(shù)據(jù)或者時間序列的聚類分析。因此,單指標(biāo)面板數(shù)據(jù)的聚類分析相對比較簡單,數(shù)據(jù)也易于處理。
39、但是,實際情況往往是復(fù)雜的,單個指標(biāo)包含的信息太少,不能充分反映現(xiàn)實情況的特征。因此,單指標(biāo)面板數(shù)據(jù)的聚類分析在實際應(yīng)用中往往受到很大限制。3.3 多指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式和聚類分析方法3.3.1多指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式在實際中,由于現(xiàn)象的復(fù)雜性,研究對象往往表現(xiàn)為多指標(biāo)面板數(shù)據(jù)。多指標(biāo)面板數(shù)據(jù)的結(jié)構(gòu)要復(fù)雜一些,嚴(yán)格上應(yīng)該用三維表來表示,在在平面上我們可以將其轉(zhuǎn)換為一個二級二維表的形式,如表3.1所示。研究總體共有N個,每個樣品的特征用p個指標(biāo)表示(X1,X,X,X),時間長度為T,則Xij(t)表示第 個樣品第j個指標(biāo)在t 時間的數(shù)值。表3.1 多指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)形式差ng'cha
40、XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
41、XXXXXXXXXXXXXXX3.3.2 常見的多指標(biāo)面板數(shù)據(jù)聚類分析方法(1)主成分分析方法主成分分析法是利用主成分分析構(gòu)造一個綜合指標(biāo),再對綜合指標(biāo)進(jìn)行聚類分析。例如,肖澤磊等(2009)對多指標(biāo)面板數(shù)據(jù)在各時刻t的橫截面數(shù)據(jù)進(jìn)行主成分分析,構(gòu)造出了多指標(biāo)面板數(shù)據(jù)在時刻t的綜合指標(biāo): (2-1)然后將綜合指標(biāo)間的距離定義為面板數(shù)據(jù)中橫截面?zhèn)€體間的距離或者相性指標(biāo),肖澤磊等(2009)定義了如下3個度量橫截面?zhèn)€體相似性的指標(biāo): (3-2) (3-3) (3-4)上述式(2-2)、式(2-3)和式(2-4)分別將綜合指標(biāo)和的絕對距離、歐氏距離以及極差距離作為度量橫截面?zhèn)€體和相似性的指標(biāo)。將的樣
42、本觀測值帶入中,可以直接得到相似性指標(biāo)對應(yīng)的樣本值,由該樣本值可以直接度量橫截面?zhèn)€體間的相似性。雖然上述綜合指標(biāo)通常能夠包含維隨機變量的大部分信息,例如肖澤磊等(2009)在利用主成分分析構(gòu)造綜合指標(biāo)時,考慮綜合指標(biāo)的累積貢獻(xiàn)率都在85%以上。但是,上述3個相似性指標(biāo)只度量了在綜合指標(biāo)上橫截面?zhèn)€體和間的相似性,未必能夠度量在維隨機變量上橫截面?zhèn)€體和是否是相似的。除此之外,主成分分析法還在數(shù)據(jù)方面存在著一定的不足。第一點是指標(biāo)的量綱問題,不同的指標(biāo)具有不同的經(jīng)濟意義或者經(jīng)濟解釋,往往可能具有不同量綱或者單位。雖然可以通過總體樣本的均值和總體樣本的方差矩陣進(jìn)行標(biāo)準(zhǔn)化處理將各指標(biāo)的量綱剔除,但是綜合
43、指標(biāo)往往還是無法給出其經(jīng)濟意義或者經(jīng)濟解釋的。第二就是指標(biāo)的數(shù)量級問題,不同的指標(biāo)往往數(shù)量級也有可能是不同的。在主成分分析法中,如果指標(biāo)數(shù)量級差異較大,綜合指標(biāo)間的距離往往就會只由數(shù)量級較大的指標(biāo)決定,而數(shù)量級較小的指標(biāo)往往可能對綜合指標(biāo)間的距離影響很小。這樣就會直接對數(shù)量級較小的指標(biāo)造成較大的信息損失,可能會導(dǎo)致對橫截面?zhèn)€體間相似性度量不夠準(zhǔn)確。第三是面板數(shù)據(jù)出現(xiàn)異常值的問題。當(dāng)面板數(shù)據(jù)中的某個橫截面?zhèn)€體樣本觀測在某些期出現(xiàn)異常值時,主成分分析法往往會對該橫截面?zhèn)€體與其他橫截面?zhèn)€體間相似性的度量上出現(xiàn)問題。例如,橫截面?zhèn)€體在期樣本出現(xiàn)異常值,致使橫截面?zhèn)€體與間的距離在期很大,從而造成了相似性
44、指標(biāo)的樣本值也較大,認(rèn)為橫截面?zhèn)€體與的相似性不大;但是在其他各期上橫截面?zhèn)€體與間的距離都是較小的,只是因為在期出現(xiàn)了異常值,才使得橫截面?zhèn)€體與間的判別距離很大。因此,在面板數(shù)據(jù)中出現(xiàn)了異常值時,主成分分析法往往可能會對橫截面?zhèn)€體間相似性在整個觀測期上的度量出現(xiàn)失誤。(2)指標(biāo)距離求和法指標(biāo)距離求和法是在指定時間上,將橫截面?zhèn)€體間每個指標(biāo)間的距離看作是等價的,將所有指標(biāo)間距離求和作為度量橫截面?zhèn)€體間相似性的指標(biāo)。例如,鄭兵云(2008)定義了橫截面和的歐式距離:(3-5)除此之外,李因果和何曉群(2010)在上述的歐式距離中,還考慮加入橫截面?zhèn)€體在時間變化上的距離和“變異系數(shù)”距離。其形式如下:
45、 (3-6) 其中,上述第二個求和項就是橫截面?zhèn)€體在時間變化上的距離,第三個求和項就是“變異系數(shù)”距離。將橫截面?zhèn)€體的樣本觀測值和帶入式(2-5)和式(2-6)中,可以得到相似性指標(biāo)對應(yīng)的樣本值,由相似性指標(biāo)對應(yīng)的樣本值可以直接度量橫截面?zhèn)€體間的相似性。在上述式(2-5)和式(2-6)中,構(gòu)造歐式距離時,雖然該方法看似對各指標(biāo)都進(jìn)行了比較,但是卻將每個指標(biāo)間的距離看作是等價的,將面板數(shù)據(jù)中的指標(biāo)看作是“可退化的”。與主成分分析法的區(qū)別是,主成分分析法是將面板數(shù)據(jù)中的個指標(biāo)變?yōu)橐粋€綜合指標(biāo),指標(biāo)距離求和法是直接將面板數(shù)據(jù)中的指標(biāo)退化,將個指標(biāo)的次觀測直接退化為對一個指標(biāo)的*T次觀測。鄭兵云(20
46、08)也認(rèn)為指標(biāo)距離求和法存在著直接忽略了不同指標(biāo)的概率分布特征的缺陷。對于面板數(shù)據(jù)來說,不同指標(biāo)的數(shù)字特征和概率分布特征往往是不同的。對于面板數(shù)據(jù)中某個給定的橫截面?zhèn)€體,某一個指標(biāo)的次觀測往往反映了該指標(biāo)的概率分布特征,指標(biāo)距離求和法是無法反映出任何指標(biāo)的概率分布特征。與主成分分析法一樣,指標(biāo)距離求和法也在數(shù)據(jù)方面存在著三點不足。第一是指標(biāo)的量綱問題,雖然在指標(biāo)距離求和法中沒有構(gòu)造綜合指標(biāo),但是卻直接對指標(biāo)進(jìn)行退化求距離,而指標(biāo)退化所求的距離往往也是無法給出其經(jīng)濟解釋的。第二是指標(biāo)的數(shù)量級問題,指標(biāo)退化的求和距離往往也是由數(shù)量級較大指標(biāo)決定,而數(shù)量級較小的指標(biāo)往往可能對指標(biāo)距離求和影響很小。
47、第三是面板數(shù)據(jù)出現(xiàn)異常值的問題。和主成分分析法一樣,當(dāng)面板數(shù)據(jù)中的某個橫截面?zhèn)€體樣本觀測在某期出現(xiàn)異常值時,在該期橫截面?zhèn)€體間的距離往往可能會過大,影響了對整個觀測期相似性的度量。(3)概率連接函數(shù)Bonzo(1998)首先提出了面板數(shù)據(jù)的“聚類概率性結(jié)構(gòu)”這個概念,認(rèn)為不同指標(biāo)的概率分布情況是不同的,在面板數(shù)據(jù)中性質(zhì)相類似的橫截面?zhèn)€體應(yīng)該在各個指標(biāo)的概率分布特征以及在多個指標(biāo)的聯(lián)合概率分布特征上是類似的。主成分分析法和指標(biāo)距離求和法都無法反映面板數(shù)據(jù)中各指標(biāo)的概率分布特征,這兩種方法自然也就無法反映面板數(shù)據(jù)中多個指標(biāo)的聯(lián)合概率分布特征,包括了不同指標(biāo)間的相關(guān)性等。因此,這兩種方法都存在著一個
48、缺陷:破壞由Bonzo(1998)提出的面板數(shù)據(jù)“聚類概率性結(jié)構(gòu)”或者“概率性結(jié)構(gòu)”。Bonzo(1998)在研究面板數(shù)據(jù)的聚類分析時,采用了概率連接函數(shù)(probability link function)來代替一般的距離函數(shù)作為橫截面?zhèn)€體間的相似性指標(biāo)。假設(shè)整個面板的N個橫截面?zhèn)€體可以被分為m個類。記C為整個面板數(shù)據(jù),C,C2,C分別表示面板數(shù)據(jù)的m個分類。記:為了研究多指標(biāo)面板數(shù)據(jù)中橫截面?zhèn)€體在其指標(biāo)概率分布特征上的相似性,Bonzo和Hermosma(2002)假設(shè)是類中橫截面?zhèn)€體的維隨機變量,且對于在時刻都有相同的期望向量及相同的方差矩陣。若,Bonzo和Hermosilla(200
49、2)在研究概率連接函數(shù)(probability link function)時,首先定義了如下的兩個馬氏距離: (3-7) (3-8)上述馬氏距離度量了時刻橫截面?zhèn)€體與之間樣本觀測值的相似性。Bonzo和Hermosilla (2002)不再簡單地對指標(biāo)進(jìn)行降維或退化處理,而是直接從橫截面?zhèn)€體維隨機變量的聯(lián)合概率分布出發(fā),定義了由分布概率值構(gòu)成的相似性指標(biāo)。Bonzo和Hermosilla (2002)定義了如下的概率連接函數(shù): (3-9)其中常數(shù)序列是在時間t上的權(quán)重系數(shù),在通常情況下,Bonzo和Hermosilla (2002)認(rèn)為更加關(guān)心近期得到的觀察數(shù)據(jù),因此通常都把定義為隨時間t非
50、遞減的常數(shù)序列。是橫截面?zhèn)€體與在一個概率尺度上的相似性度量,實際上是馬氏距離在時間上的加權(quán)概率值,因此也把概率連接函數(shù)稱作為“概率相似系數(shù)”。可以看出,概率連接函數(shù)對橫截面?zhèn)€體與在各時間上都進(jìn)行了相似性的度量,然后把各期的相似性度量綜合起來。因此,概率連接函數(shù)作為橫截面?zhèn)€體間相似性的度量,具有以下的四個優(yōu)點。第一,上述概率連接函數(shù)首先在考慮了和的概率分布特征情況下,再來研究馬氏距離的概率分布。這里并沒有直接釆用馬氏距離來度量橫截面?zhèn)€體與在時間期上的相似性,而是考慮了馬氏距離的概率分布,而馬氏距離的概率分布情況是由維隨機變量和的概率分布所決定的。因此,再通過樣本觀測數(shù)據(jù),將概率值作為度量在時刻上
51、橫截面?zhèn)€體與間的相似性指標(biāo)。因此,概率連接函數(shù)能在很大程度上體現(xiàn)橫截面?zhèn)€體在其概率分布特征上是否相似。概率連接函數(shù)考慮的是橫截面?zhèn)€體維隨機變量的聯(lián)合分布,它不僅包含了各指標(biāo)的概率分布特征,而且還包含了不同指標(biāo)間的相關(guān)性等特征。因此,概率連接函數(shù)充分保留了面板數(shù)據(jù)的概率性結(jié)構(gòu)。第二,因為這里直接考慮橫截面?zhèn)€體與的多維指標(biāo)變量和的概率分布,不再是對指標(biāo)進(jìn)行降維或退化處理,因此,這里直接就不存在指標(biāo)量綱的問題。第三,對于指標(biāo)的數(shù)量級問題,在Bonzo和Hermosilla (2002)定義的概率連接函數(shù)中是個馬氏距離,直接通過該馬氏距離就可以將該問題解決。而且Bonzo和Hermosilla (20
52、02)還考慮了該馬氏距離的分布情況。第四,對于橫截面?zhèn)€體在某些時期的數(shù)據(jù)出現(xiàn)了異常值的問題,由于概率連接函數(shù)是將作為個體與在時間t期上的相似性度量,而且由概率函數(shù)的特性,因此即使面板數(shù)據(jù)在期出現(xiàn)了異常值,該期的概率函數(shù)。由在時間t上的加權(quán),只要觀測期較長的話,期的異常值也不會對概率連接函數(shù)產(chǎn)生較大的影響。在給定觀測數(shù)據(jù)的情況下,Bonzo和Hermosilla(2002)考慮到用樣本觀測數(shù)據(jù)來估計概率連接函數(shù)。若,Bonzo和Hermosilla (2002)又定義了如下的兩個馬氏距離:(3-10)(3-11)其中為在t時刻類中橫截面?zhèn)€體隨機變量的均值,也稱之為類中橫截面?zhèn)€體的重心,為在時刻類
53、中橫截面?zhèn)€體的樣本重心,在時刻類中不同橫截面?zhèn)€體間的樣本協(xié)方差矩陣,為類所包含的橫截面?zhèn)€體的總個數(shù),又,形式分別如下:在給定樣本觀測數(shù)據(jù)的情況下,Bonzo和Hermosilla(2002)給出了概率連接函數(shù)的估計,其形式如下: (3-12)4 實證研究4.1 城市競爭力研究綜述隨著我國改革開放程度、以及經(jīng)濟市場化程度的進(jìn)一步加深,伴隨著經(jīng)濟全球化和知識經(jīng)濟時代的到來,我國的大中型城市必須走向轉(zhuǎn)型改革的道路。我國現(xiàn)階段的城市要從建設(shè)型城市轉(zhuǎn)向管理、經(jīng)營和服務(wù)型城市,就是要重塑城市資源整合和配置資源機制,提高城市對社會資源的吸引力和創(chuàng)造社會財富的能力,從根本上就是提高城市競爭力。1994年5月,
54、經(jīng)中央機構(gòu)編制委員會第6次會議通過,決定將原來的14個計劃單列市和杭州、濟南2市正式確定為副省級市(其中,重慶市97年恢復(fù)直轄),如圖4.1所示。將這15個城市定為副省級市,是中央對于區(qū)域經(jīng)濟發(fā)展的重要決策,加強了省級機構(gòu)統(tǒng)籌規(guī)劃和協(xié)調(diào)的地位和作用,不僅有利于加快這些城市的經(jīng)濟與社會發(fā)展,而且有利于更好的發(fā)揮這些中心城市的輻射作用。在國家政策層面和經(jīng)濟決策權(quán)待遇同等的情況下,經(jīng)過近20年的時間,這15個副省級城市的發(fā)展出現(xiàn)了很大差異,城市競爭力也日趨呈現(xiàn)差異化。通過選取合適的評價指標(biāo),利用多指標(biāo)面板數(shù)據(jù)聚類分析的方法處理,來發(fā)現(xiàn)這15個城市類別之間的差異,進(jìn)而以提出相關(guān)建議。圖4.1 我國15
55、個副省級城市分布圖4.1.1城市競爭力內(nèi)涵研究綜述 20 世紀(jì) 80 年代以來,隨著經(jīng)濟全球化和一體化趨勢越來越明顯,各國的城市進(jìn)入國際發(fā)展的范疇,在全球范圍內(nèi)形成新的城市等級體系,城市競爭力的研究也擴展到全球范圍。作為一個新的研究領(lǐng)域,盡管國內(nèi)外學(xué)術(shù)界對城市競爭力已經(jīng)做過許多有益的探索,但目前為止,尚未能形成公認(rèn)的理論體系,關(guān)于城市競爭力的概念,不同的學(xué)者從各自的研究領(lǐng)域進(jìn)行了不同的理解。(1)國外學(xué)者的主要觀點國外學(xué)者關(guān)于城市競爭力的研究要早于國內(nèi),早在上世紀(jì)八十年代國外就有學(xué)者開始了城市競爭力的研究,經(jīng)過20多年的探索,國外學(xué)者提出的城市競爭力的概念主要有以下幾種: Paul Cheshire認(rèn)為城市競爭力就是指一個城市相對其他城市而言,能夠給自身城市創(chuàng)造更多的就業(yè)機會和提高其收入水平的能力。 Douglas Webster 指出,城市競爭力是指一個城市能夠生產(chǎn)和銷售比其它城市更好的產(chǎn)品,非交易性勞務(wù)也是競爭力的一個重要組成部分。 Ivan 和 William借鑒英國政府白皮書關(guān)于企業(yè)競爭力的定義、OECD 關(guān)于國家競爭力的定義,總結(jié)出城市競爭力的定義:城市競爭力就是城市生產(chǎn)產(chǎn)品和提供服務(wù),能夠滿足區(qū)域、國家和國際市場,同時能夠提高居民實際收入、改善居民生活水平和促進(jìn)可持續(xù)發(fā)展的能力。 Iain 認(rèn)為城市競爭力是一個城市在自由、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化館線上培訓(xùn)活動方案
- 新秀直播活動策劃方案
- 新年街市活動方案
- 早教銷售活動小活動方案
- DB42T 1872-2022 飼用油菜青貯技術(shù)規(guī)程
- 星級酒店活動方案
- 文化論壇活動方案
- 春日補水計劃活動方案
- 時政類猜燈謎活動方案
- 春晚捐款活動方案
- 《鈴兒響叮當(dāng)?shù)淖冞w》教學(xué)設(shè)計(江蘇省市級優(yōu)課)-九年級音樂教案
- 裝修常用數(shù)據(jù)手冊(空間布局和尺寸)
- 處方銷毀申請登記表
- 河南省2014年中考語文現(xiàn)代文閱讀真題
- 外研版一起小學(xué)英語四下《Module-6Unit-1-Ill-draw-the-pictures》課件
- 三明市公安局招聘警務(wù)輔助人員考試歷年真題
- 冷鐓機 質(zhì)量要求技術(shù)條件
- 衛(wèi)生部手術(shù)分級目錄(2023年1月份修訂)
- LY/T 2121-2013檀香栽培技術(shù)規(guī)程
- 骨科出科試題帶答案
- 河道基槽土方開挖專項施工方案
評論
0/150
提交評論