統(tǒng)計學習精要.docx

上傳人：q*** IP屬地：河南上傳時間：2020-04-11 格式：DOCX 頁數(shù)：13 大?。?3.56KB 積分：16 舉報 版權申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記系列課程教材：The Elements of Statistical Learning/tibs/ElemStatLearn/授課人：復旦大學計算機學院吳立德教授統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記（一）前兩天微博上轉出來的，復旦計算機學院的吳立德吳老師在開?統(tǒng)計學習精要(The Elements of Statistical Learning)?這門課，還在張江.大牛的課怎能錯過，果斷請假去蹭課.為了減輕心理壓力，還拉了一幫同事一起去聽，eBay浩浩蕩蕩的十幾人殺過去好不壯觀！總感覺我們的人有超過復旦本身學生的陣勢，五六十人的教室坐的滿滿當當，壯觀啊。這本書正好前陣子一直在看，所以才會屁顛屁顛的跑過去聽。確實是一本深入淺出講data mining models的好書。作者網站上提供免費的電子版下載，爽！/tibs/ElemStatLearn/從這周開始，如無意外我會每周更新課堂筆記。另一方面，也會加上自己的一些理解和實際工作中的感悟。此外，對于data mining感興趣的，也可以去coursera聽課貌似這學期開的machine learning評價不錯。我只在coursera上從眾選了一門 Model Thinking，相對來說比較簡單，但是相當?shù)膬?yōu)雅！若有時間會再寫寫這門課的上課感受。筆記我會盡量用全部中文，但只是盡量.-課堂筆記開始-第一次上課，主要是導論，介紹這個領域的關注興趣以及后續(xù)課程安排。對應本書的第一章。1. 統(tǒng)計學習是？從數(shù)據(jù)中學習知識。簡單地說，我們有一個想預測的結果(outcome)，記為Y，可能是離散的也可能是連續(xù)的。同時，還有一些觀察到的特征(feature)，記為X，X既可能是一維的也可能是多維的。對于每一個觀測個體，我們都會得到一個行向量(x1,.,xp)，對應它的p個特征的觀測值，以及一個觀測到的結果值y。如果總共有N個個體，那么我們對于每個個體都會得到這些值，則有(y1,.,yn)T為觀測結果的列向量以及X (n*p)矩陣。這樣的數(shù)據(jù)稱之為訓練數(shù)據(jù)集（training set）。這里更多是約定一些notation。2. 統(tǒng)計學習分類？一般說來，我們有個觀測到的結果Y，然后找到一個適合的模型根據(jù)X預測Y，這樣的稱之為有監(jiān)督的學習（supervised learning）。而有些時候，Y是無法觀測到的，那么只是通過X來學習，稱之為無監(jiān)督的學習（unsupervised learning）。這本書主要側重有監(jiān)督的學習。3. 回歸和分類器。這個主要和Y有關。如果Y為離散，比如紅黃藍不同顏色，則稱之為分類器（學習模型）；反之，若Y為連續(xù)，比如身高，則稱之為回歸（學習模型）。這里更多只是稱謂上的區(qū)別。4. 統(tǒng)計學習的任務？預測。通過什么來預測？學習模型（learning models）。按照什么來學習？需要一定的準則，比如最小均方誤差MSE，適用于分類器的0-1準則等?；谶@些準則、優(yōu)化過的實現(xiàn)方法稱之為算法。5. 統(tǒng)計學習舉例？分類器：依據(jù)郵件發(fā)信人、內容、標題等判斷是否為垃圾郵件；回歸：前列腺特異抗原(PSA)水平與癌癥等因素的關系；圖形識別：手寫字母的識別；聚類：根據(jù)DNA序列判斷樣本的相似性，如親子鑒定。6. 課程安排順序？第二章，是對于有監(jiān)督的學習模型的概覽。第三章和第四章將討論線性回歸模型和線性分類器。第五章將討論廣義線性模型（GLM）。第六章涉及kernel方法和局部回歸。第七章是模型評價與選擇。第八章是測側重算法，比如最大似然估計，bootstrap等。本學期預計講到這里。所以后面的我就暫時不列出了。目測第二節(jié)開始將變得越來越難，前陣子自學第二章痛苦不已啊.一個LASSO就折磨了我好久。當時的讀書筆記見：降維模型若干感悟-10.15補充-上周寫的時候只是憑著記憶，筆記沒在身邊。今天重新翻了翻當時記下的課堂筆記，再補充一些吧。第九章是可加模型，即f(x1,.,xp)=f(x1)+.+f(xp)第十章是boosting模型第十一章討論神經網絡第十二章討論支持向量機 (Support Vector Machine)第十三章設計原型方法(Prototype)第十四章從有監(jiān)督的學習轉到無監(jiān)督的學習（即有X有Y-有X無Y）第十五章討論隨機森林模型（Random Forest）第十六章是集群學習第十七章結構圖模型第十八章高維問題（我最近一直念叨的curse of dimensionality.今年搞笑諾貝爾獎也多少與此有關，見/article/344117/，還有一篇相關的paper）ps. 吳老師對于隨機森林等等模型的評論也挺有意思的，大致是，大家都沒搞清隨機森林為什么效果這么好.而且這一類模型都是computatoinal intensive的，即有一個非常簡單的idea然后借助大量的計算來實現(xiàn)。此外，這類方法更多有“猜”的感覺，無法知道來龍去脈，在現(xiàn)實中顯得不那么intuitive.（不像econometrics那般致力于causality呢）。統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記（二）繼續(xù)一周一次的課堂筆記:D昨天去晚了站著聽講，感覺好好啊，注意各種集中。想想整個教室里面就是我和老師是站著的，自豪感油然而生。第二次課講的東西依舊比較簡單，是這本書第二章的前半部分。作為一個好久之前已經預習過的孩子，我表示萬分的得意（最小二乘法難道不是三四年前就學過的？話說以后我再面人的時候，就讓他推導最小二乘估計量，嘻嘻.考驗一下基本功）。-原諒我的廢話，筆記開始-簡單預測方法：最小二乘法（以下沿用計量經濟學的習慣，簡稱OLS）OLS實在是太普遍了，我就不贅述細節(jié)了。OLS的思想就是，基于已有的樣本信息，找出一條直線，讓預測值與真實值之間的殘差平方和最小，即n(yy)2最小。其中，y為真實的樣本觀測值（已有樣本），而y是OLS的預測值。用圖來講的話，X為一維向量的時候，就是用一條直線來最好的擬合各個樣本點。這里就很明顯了，首先OLS假設是一條直線。那么就是一個參數(shù)模型，即我們需要假設一個未知的參數(shù)，構成一個線性方程y=x，然后再去估計的值。然后呢，直線會有很多條，所以我們要找到一個目標比如這里，就是最小化殘差平方和RSS。換言之，我們尋找的就是最優(yōu)的向量使得RSS最小。解這個最優(yōu)化問題很簡單，我就不重復了。最后解得的最優(yōu)估計量為：=(XX)1XY這里寫成矩陣形式，比較簡單。X為一維向量的時候，可以改寫成形式，我個人不大喜歡，就不展開了。簡單預測方法：K近鄰（k nearest neighbor）K近鄰的思想就更簡單了。不就是想預測某個點x對應的y么？那么就把它的鄰居都找來，平均一下好了。不是有句話叫做什么“一個人的收入就大概是他的圈子收入的平均值么？”所以y=mean(yi|xiNk(x)，這里Nk(x)表示點x的K近鄰。至于這個近鄰怎么定義嘛，嘻嘻，很簡單啊，歐幾里德距離就可以嘛評語：吳老師對于這兩個算法的直觀評價是，OLS呢就是勤奮的學生，預測前先做足功課，預測的時候只要知道X，噼里啪啦一下子y就估計出來了。然而knn則是一個臨時抱佛腳的學生，預測的時候開始找自己的k近鄰，然后把它們平均一下就好了。哈哈，大意如此，大家可以體會一下這種精神。我個人感覺呢，OLS屬于以不變應萬變的，而knn則是見機行事的。統(tǒng)計決策理論(Statistical Decision Theory)說了這么多，這個模型好不好到底怎么判讀呢？凡事總得有個標準呢。這一系列的標準或者說準則，就是統(tǒng)計決策理論了。首先呢，大致我們需要對X,Y有個分布上的描述：用P(X,Y)記作向量(X,Y)的聯(lián)合分布，然后p(X,Y)為其對應的密度函數(shù)。之后為了估計Y，我們會有很多很多模型，即各種f(X)，而這些f(X)組成的函數(shù)空間記為F。然后我們定義一個損失函數(shù)，比如在均方誤差意義下，L(Y,f(X)=(Yf(X)2，這樣就有了一個選擇的標準使得損失函數(shù)的期望最?。篍PE(f)=E(Yf(X)2=yf(x)2P(dx,dy)。接下來就是，到底在F空間里面，哪一個f最符合這個標準呢？首先自然是把聯(lián)合分布變?yōu)闂l件分布。這個idea顯而易見我們總是知道X的（原諒我吧，全中文確實比較難寫，偶爾穿插英文一下 _）。所以conditional on X，我們就有了EPE(f)=yf(x)2P(dx,dy)=xyyf(x)2p(y|x)dyp(x)dx去解最小化問題，最終我們得到的就是在每個點X上，f(X)=E(y|X=x)。通俗的講就是，對于每個點預測，把和它X向量取值一樣的樣本點都找出來，然后取他們的平均值就可以了。很直觀的不是么？這里也有點最大似然的想法呢比如預測一個男孩的身高，最保險的就是把和它同齡的其他男孩的身高平均一下，不是么？但是說來簡單啊，很多時候P(X,Y)都是未知的，根本無法計算嘛。所以只能近似：回憶一下knn，就是放松了兩點：1)xk取的是x的近鄰，而不一定是x； 2)用樣本平均數(shù)代替了期望而OLS呢，也是最后在E()=E(XX)1XY這里，用樣本平均代替了期望。近似嘛，自然有好的近似和不好的近似。很顯然的，當樣本比較大、尤其是比較密集的時候，x的鄰居應該都離x很近，所以這個誤差可以減??；此外，當樣本很大的時候，根據(jù)大數(shù)定律，平均數(shù)收斂于期望。所以，這兩種算法應該說，都在大樣本下會有更好的效果。模型選擇、訓練誤差與測試誤差、過擬合這里講的比較簡單。模型選擇就是F的選擇，即選擇哪一類函數(shù)空間F，然后再其中找/估計最優(yōu)的f(X)。很顯然，如果只有若干個有限的樣本，我們總能把各個樣本用直線或者曲線依次連起來，這樣的話就有無數(shù)個f可以作為此問題的解。顯然這不是我們想要的這樣的稱為“不設定問題”，即可能無解、可能多個解、還可能因為一點點X的變化導致整個解的解答變化。因此我們需要先設定一個解的類別。訓練誤差：預測模型估計值與訓練數(shù)據(jù)集之間的誤差。RSS就是一個典型的訓練誤差組成的殘差平方和。測試誤差：用訓練集以外的測試數(shù)據(jù)集帶來的誤差，顯然我們更關心的是測試誤差訓練總能訓練的很好，讓損失函數(shù)期望最小，然而測試集則不一定這樣。一般說來，測試誤差訓練誤差。過擬合：選擇一個很復雜的f，使得訓練誤差很小，而實際的測試誤差不一定小。最極端的就是剛才說的，把訓練集的點一個個依次連起來.訓練誤差肯定是0是不是？我們關心的自然是怎么降低測試誤差。顯然這東西會跟訓練誤差有關，但是它還跟f的復雜度有關。最最棘手的就是，f的復雜度是一個難以衡量的問題。早期的研究有用自由度來衡量這個復雜度的，但是也不是那么的靠譜.后面的有人鼓搗出來PAC(使得近似正確的概率最大吳老師原話)，還有一個VC來衡量復雜度但幾乎實踐中無法計算，沒幾個計算出來的。嗯，水很深哇。統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記（三）照例文章第一段跑題，先附上個段子（轉載的哦）：I hate CS people. They dont know linear algebra but want to teach projective geometry. They dont know any probability but want to use graphical models. They dont understand stats at all but still do machine learning like crazy.喵，最近被問了好幾次machine learning 和statistical learning的區(qū)別在哪里，我覺得大致如上吧。這也是為什么，對后面這個詞我的好感稍稍好于前面那個的原因.科學總是有意義的嘛，不能總是依靠強力亂猜是不是嘛。免責聲明：以下個人見解部分局限于我個人的見識和思考范圍，不適用于所有場景。請大家棄糟粕取精華，不可一言全信之。-筆記+隨想開始-高維空間問題這一段主要是說大名鼎鼎的維數(shù)災難。我們都知道有兩個數(shù)字決定著OLS中X矩陣的大小，這就是觀測數(shù)目N 和觀測變量的個數(shù)p 。一般說來，我們都喜歡N比較大，這樣可以很容易的應用大數(shù)定律什么的。然而對于p，卻是既愛又恨我們當然喜歡可以觀察到個體的很多個特征，但是所謂亂花漸欲迷人眼，特征越多噪音也越多，搞不好預測的時候就會有麻煩（關于變量的選擇問題，應該是下一節(jié)課的內容。心急的可以先看看我以前的一篇自學筆記）。為什么維數(shù)增多的時候會麻煩呢？這里主要是隨著維數(shù)增多帶來的高維空間數(shù)據(jù)稀疏化問題。簡單地說： p=1，則單位球(簡化為正值的情況）變?yōu)橐粭l0,1之間的直線。如果我們有N個點，則在均勻分布的情況下，兩點之間的距離為1/N。其實平均分布和完全隨機分布的兩兩點之間平均距離這個概念大致是等價的，大家可稍微想象一下這個過程。 p=2，單位球則是邊長為1的正方形，如果還是只有N個點，則兩點之間的平均距離為1N。換言之，如果我們還想維持兩點之間平均距離為1/N，那么則需N2個點。以此類題，在p維空間，N個點兩兩之間的平均距離為N1/p，或者需要Np個點來維持1/N的平均距離。由此可見，高維空間使得數(shù)據(jù)變得更加稀疏。這里有一個重要的定理：N個點在p為單位球內隨機分布，則隨著p的增大，這些點會越來越遠離單位球的中心，轉而往外緣分散。這個定理源于各點距單位球中心距離的中間值計算公式：d(p,N)=(121/N)1/p當p時，d(p,N)1。（很顯然，當N變大時，這個距離趨近于0。直觀的理解就是，想象我們有一堆氣體分子，p變大使得空間變大，所以這些分子開始遠離彼此；而N變大意味著有更多氣體分子進來，所以兩兩之間難免更擠一些?？催^三體的，大概會覺得這個很熟悉的感覺吧.四維空間下的水滴再也不完美的無懈可擊，而一張一維的紙片就毀滅了整個地球呢。）這個距離公式的推導就暫時不寫了，好麻煩.大致是利用了各個點獨立同分布的特性（完全隨機情況下），把median距離變?yōu)橐?/2概率大于中位數(shù)的概率集合公式，再進一步展開為單點距離累乘公式。比如當p=10, N=500的時候，d(p,N)約為0.52，也就意味著有一半多的點離中心的距離大于1/2。高維問題為什么是問題呢？回顧一下K近鄰算法，我們用x的鄰居來代替x，這樣就希望他的鄰居們不要離他太遠。顯然高維空間使得點和點之間越來越遠。所以說，knn更適合小p大N即低維多觀測量的情況，而在高維空間下可能會變得很麻煩。這樣，statistical learning的主要兩個問題就總結完了：過擬合：為了控制預測誤差，我們要選擇適合的函數(shù)類。高維空間：隨著維數(shù)的增多，我們面臨著維數(shù)災難。這對很多算法都有波及，主要體現(xiàn)在高維數(shù)據(jù)稀疏化。回歸的線性方法這里主要是一些linear regression的東西，作為被計量經濟學折磨了這么多年的孩子，我表示很淡定.此外還加上我們俗稱的generalized linear models，即GLM。一些線性變換而已，無傷大雅。這里一定要強調的是，在這里我們親愛的X居然不是隨機變量！多大的一個坑啊，我就華麗麗的掉下去了還問老師為什么無偏性不需要假設均值獨立什么的. X不是隨機變量意味著什么呢？X是人為設定或者決定的，比如我一天澆200 ml 或者500 ml水，然后看對于植物生長的影響。當時我真的是想一口老血噴出來，這也太舒服了吧！要知道大多數(shù)情況下X也是隨機變量哇，比如身高體重什么的。如果它不是隨機變量而只有擾動項是獨立的隨機變量的話，整個計量經濟學怕是要刪掉好多篇幅了呢。我想說的只有，這群搞statistical learning的好幸福.X不是隨機變量的時候，為了滿足無偏性的假設，只需要擾動項不相關且期望方差存在就可以了。期望不為0不要緊，回歸的時候放進去常數(shù)項就可以了。此外，對于任意一個正定陣W，我們都可以直接在回歸方程兩邊乘以W，從而=(XWWX)1XWY。也就是說，我們可以給X進行加權處理，加權矩陣W之后可以進行新的OLS估計，且可能會有對應的優(yōu)良性質。加權最小二乘法我就不在這里復習了，學過計量的應該很熟悉，比如處理異方差什么的。再就是我們可以給加上一些約束條件，這樣的話最小化問題后面就可以簡單的使用拉格朗日乘子法來解。這次的收獲之一就是OLS估計量的計算。在實踐中，我們計算OLS估計值并不是直接使用=(XX)1XY，而是會事先進行QR分解（利用特征值來算）。即，我們把X分解為化為正交（酉）矩陣Q與實（復）上三角矩陣R的乘積。這樣一來，=(XX)1XY=(RQQR)1RQY=R1(QY)這樣可解R=QY，計算時候的穩(wěn)定性比直接求逆矩陣來的好很多，因為計算機必竟有數(shù)字長度的限制，各種位數(shù)帶來的精度損耗最后會累積到估計量上。最后就是高斯-馬爾科夫定理，就是我們常說的BLUE估計量。我就直接拷貝這個定理了：在誤差零均值，同方差，且互不相關的線性回歸模型中，回歸系數(shù)的最佳無偏線性估計（BLUE）就是最小方差估計。一般而言，任何回歸系數(shù)的線性組合的最佳無偏線性估計就是它的最小方差估計。在這個線性回歸模型中，誤差既不需要假定正態(tài)分布，也不需要假定獨立（但是需要不相關這個更弱的條件），還不需要假定同分布進一步的，如果假設擾動項服從正態(tài)分布，比如白噪聲，那么的估計值也服從正態(tài)分布，y的預測值也服從正態(tài)分布，因此可以直接做一系列基于正態(tài)分布的假設檢驗。特別的，在大樣本情況下，就算擾動項不是正態(tài)分布，我們也還是可以利用大數(shù)定律和中心極限定理.事實上一般也是這么做的。本節(jié)課到此結束。老師沒有一一推導無偏性最小方差這些性質，我倒是覺得對回歸方法感興趣的還是直接去看計量經濟學吧。這東西水還是蠻深的。統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記（四）照例繼續(xù)本周筆記。這次我沒啥廢話了.-筆記開始-投影矩陣與消滅矩陣首先是上次沒證的若干OLS性質?；径际枪健Ｎ揖驼粘瓉韊conometrics做的筆記了。權當復習了.對計量有興趣的、線性代數(shù)還不錯的，建議去看Microeconometrics- Methods and Applications（?A. Colin Cameron / Pravin K. Trivedi ）。先定義兩個矩陣，這兩個矩陣會在某種程度上save your life while learning econometrics.投影矩陣和消滅矩陣。復習一下，OLS估計量是=(XX)1XY，然后對應的Y估計量是Y=X=X(XX)1XY。所以，我們定義投影矩陣P為P=X(XX)1X，這樣就有了Y=PY。也就是說，我們對Y進行了一次投影，然后得到了一個估計值。當然定義投影矩陣并不僅僅是寫起來比那堆X簡單，而是投影矩陣本身有著一系列良好的性質。我們先來看把P投在X上會怎么樣。顯然，PX=X(XX)1XX=X，也就是說P不會改變X的值（本來就是把一個東西投到X上嘛自己投自己怎么會有變化的嘛）。然后呢，對P進行轉置，則P=(X(XX)1X)=P，所以接下來P2=PP=X(XX)1XX(XX)1X=P。再定義消滅矩陣M。很簡單，我們定義M為M=IP=IX(XX)1X，其中I為單位陣（對角線元素為1，其他為0）。這樣M又有什么性質呢？顯然MY=(IP)Y=YY=，也就是說M對Y的效果是得到誤差項。而與此同時，M對于X的作用就是MX=(IP)X=XX=0，所以稱為消滅矩陣嘛。繼續(xù)，進行轉置，則M=(IP)=IP=M，所以我們還有M2=MM=(IP)(IP)=IPP+P=IP=M。OLS估計值的方差再次友情提醒，X不是隨機變量，所以不要跟我糾結為什么沒有條件期望公式之類的東西.擾動項服從N(0,)時，或者大樣本下，OLS估計量的方差為：Var()=E()()=E(XX)1X(XX)1X=(XX)1E()=s21(XX)1這里=s21為樣本方差，所以其分布為：N(,s21(XX)1)。這樣一來，就有了一個t檢驗：t=0s21(XX)1tNK1。大樣本下，就直接用正態(tài)檢驗好了。此外，如果我們進一步的有更多的同時檢驗的約束條件，那就是聯(lián)合檢驗F。這個就不贅述了.高斯-馬爾可夫定理順便還證了一下高斯-馬爾可夫定理.這個不像OLS，每次我可記不住他的證明，每次都是現(xiàn)翻書.我就直接抄wiki了。選擇另外一個線性估計量=CY，然后C可以寫為(XX)1X+D，則D為k*n的非空矩陣。那么這個估計量的期望是：E(CY)=E(XX)1X+D)(X+)=(XX)1X+D)X+(XX)1X+D)E()0=(XX)1XX+DX=(Ik+DX).(1)(2)(3)(4)所以，為了保證無偏，則必有DX=0.繼續(xù)求方差：V()=V(CY)=CV(Y)C=2CC=2(XX)1X+D)(X(XX)1+D)=2(XX)1XX(XX)1+(XX)1XD+DX(XX)1+DD)=2(XX)1+2(XX)1(DX0)+2DX0(XX)1+2DD=2(XX)1V()+2DD.(5)(6)(7)(8)(9)DD是一個半正定矩陣，V()肯定要比V()大得證。變量選擇與收縮方法為了降低測試誤差（減少函數(shù)的復雜度），有時候會放棄無偏性而進行變量選擇。這里首先就是Ridge OLS（嶺回歸）。還是算一下這個東西好了。嶺回歸就是對估計量另外加一個約束條件，所以很自然的想到拉格朗日乘子法。ridge regression的目標函數(shù)為，=argmin(yy)2s.t.2k可以重寫為=argmin(yy)2+(2k)記L=(yy)2+(2k)這樣我們就得到兩個一階條件：L=X(XY)+=0和L=2k=0，所以有：=(XX+I)1XY這里還可以看出，的取值都是對應k的。Lasso則是把L2改成L1，已經沒有解析解了.至于為什么叫收縮方法，可以將X進行奇異值分解，然后可以得出Yridge的方差將變小.我就不寫證明了，感覺這一塊兒講的也不是很透徹。統(tǒng)計學習精要(The Elements of Statistical Learning)課堂筆記（五）鑒于我上周寫的筆記（四）讓很多人反映太枯燥、太無聊（全是公式.可是這就是筆記嘛，又不是寫科普文），我努力讓這周的筆記除了公式之外多一點直覺和應用層面的點評。其實筆記（一）到（二）中說了很多回歸和分類器的不同了，那么在經歷了線性回歸方法之后，就來說說分類器好了。我原來一直覺得回歸和分類器沒有什么本質不同的.主要是最常用的分類器logit和probit都是我在學計量的時候學的，那個時候老師只是簡單的說，這兩個和OLS都是一致的，只是我們想讓預測值在01之內所以做一下變換。而且我們那個時候也不叫他們分類器，而是叫他們“離散被解釋變量模型”。前幾個月的時候，看data mining的東西，看得暈暈乎乎的，就跑去問精通此類模型的同事MJ，讓他跟我科普了一下午為什么這兩個模型大家更經常稱之為分類器.汗顏啊，那個時候我才知道原來machine learning是先分supervised learning and unsupervised learning，然后才是 regression v.s. classification, and clustering.疏通了脈絡之后，再看The Elements of Statistical Learning這本書，就覺得順暢多了。以前只是零零散散的接觸一個個孤立的模型，沒有找出一個脈絡串起來過，自然也就不知道分別適用于什么場景。其實我挺想說的是，從econometrics到data mining，遠遠沒有想象的那么簡單。數(shù)學工具上或許很順暢，但是思維上的轉變還是需要時間和實踐的。真是為難壞了我這個學經濟學出身的孩子（其實話說回來，我好好的不去研究經濟學，好奇什么data mining呀只能聊以一句“殊途同歸”來搪塞自己，對嘛，反正都是doctor of philosophy, 只要是科學，本質的思考方式應該是相通的）。不過搞清楚之后，還是覺得很好玩的以前是霧里看花，覺得什么都漂亮；現(xiàn)在漸漸的能夠分清楚這些美麗之間的差異了，也算是個小進步吧。再有個小廢話.記得上小學的時候，老師問大家“長大了想做什么呀？”，我們總是會特別有出息的回答“科學家”。那個時候有門課叫做自然，老師總給我們講各種各樣的發(fā)明，讓我們一度覺得這個世界上的問題都被解決完了，還當什么科學家啊。然后老師就給我們講哥德巴赫猜想，大意是世間還有那么幾個懸而未決的皇冠問題，等待大家長大了去攻克。后來，越讀書越發(fā)現(xiàn)，有那么多問題人們是不知道答案的，只是從 ambiguity - uncertainty - possibility - probability - certainty (law)一步步的走下去。有那么多問題，其實都是懸而未決的哲學問題，等待著聰明的大腦去回答。這也是越讀書越覺得興奮的緣故吧，越來越多的時候老師會被問倒，然后說“不知道”.然后好奇心就又開始勃勃生長.然后又發(fā)現(xiàn)更多的很好玩但沒有答案的問題.周而復始，有意思的很。-滿足大家的八卦之心之后，筆記開始-線性分類器對應原書第四章。先是來一點直覺上的東西：分類器顧名思義，就是把一堆樣本歸到不同的類別中去。那么這類模型的幾何直覺是什么呢？很簡單，空間分割嘛。最直白的，我們有一群人，組成了一個大的群體。然后現(xiàn)在要把大家歸為男女兩類，那么空間自然就是被分割為兩個子空間男和女了。線性分類器是什么呢？分割男和女的時候，可能分割是三個一群，五個一簇的，所以非要畫分割的界限的話，八成是山路十八彎的.我們以前說過，這類的模型問題就是可能復雜度比較高（比如參數(shù)的個數(shù)較多），導致就算訓練誤差小，測試誤差不一定小。所以呢，我們希望這個分割界限是直線的（二維平面下）、或者平面的（三維空間中），或者超平面的（高位空間中），這樣就比較清晰明了的感覺了。線性分類器：logit模型（或稱logistic regression）這里也不完全是按照吳老師上課講的東西了，因為回頭再看這本書會發(fā)現(xiàn)書中還有一些很好玩的直覺很強的東西。錯過不免可惜，一并收納。首先換一下記號我們在前面都用Y代表被解釋變量，從現(xiàn)在開始對于分類問題，我們改用G。logit模型下，考慮最簡單的分為兩類，我們有Pr(G=1|X=x)=exp(X)1+exp(X)Pr(G=2|X=x)=11+exp(X)所以有l(wèi)ogPr(G=1|X=x)Pr(G=2|X=x)=X這樣，分別屬于這兩組之間的比例就可以找到一個線性的邊界了（注：log為單調變換不影響結果）。這樣變換的目的其實無非是，保證Pr(G=1|X=x)+Pr(G=2|X=x)=1，而且兩個比例之間存在著一種線性的、或者可以通過單調變換成為線性的關系。類似的當然是大名鼎鼎的probit模型，思路是類似的。損失函數(shù)顯然線性分類器下，在有很多類的情況中，損失函數(shù)定義為OLS的殘差平方和是沒有多大意義的分類取值只是一個名義量。所以，這里用0-1損失函數(shù)：如果G=f(x)=G，那么損失函數(shù)=0；否則，就是沒預測準，損失函數(shù)=1。寫為數(shù)學形式，就是損失函數(shù)L定義為：L(G,f(x)=01G=f(x)Gf(x)所以我們的目標就是，最小化損失函數(shù)的期望：minE(L)=ExEG|x(L(G,f(x)|x)=1Pr(G|x)(條件期望迭代)。

人人文庫> 全部分類> 專業(yè)文獻 > 金融證券

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計學習精要.docx

文檔簡介

溫馨提示

最新文檔

評論

相關文檔