




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上一、()泛化誤差上界:對(duì)二分類(lèi)問(wèn)題,當(dāng)假設(shè)空間是有限個(gè)函數(shù)的集合時(shí),對(duì)任意一個(gè)函數(shù),至少以概率,以下不等式成立:其中,即的泛化能力:.證明:在證明中要用到Hoeffding不等式,故先敘述如下:設(shè)是獨(dú)立隨機(jī)變量是之和,;為這組隨機(jī)變量的均值,則,以下不等式成立:對(duì)任意函數(shù),是個(gè)獨(dú)立的隨機(jī)變量樣本均值,是隨機(jī)變量的期望值。如果損失函數(shù)取值于區(qū)間,即對(duì)所有,那么有上述Hoeffding不等式,對(duì),以下不等式成立:由于是一有限集合,故或者等價(jià)的,對(duì)任意,有令則故至少以概率有.2、 ()以損失函數(shù)推導(dǎo)向量最小化感知機(jī)的損失函數(shù) 感知機(jī)學(xué)習(xí)算法是誤分類(lèi)驅(qū)動(dòng)的,具體采用
2、隨機(jī)梯度下降法。首先,任意選取一個(gè)超平面,然后用梯度下降法不斷極小化目標(biāo)函數(shù),極小化的過(guò)程不是一次使中所有的誤分類(lèi)點(diǎn)的梯度下降,而是一次隨機(jī)選取一個(gè)誤分類(lèi)點(diǎn)使其梯度下降.隨機(jī)梯度下降是一種迭代求解思路,而迭代法參數(shù)尋優(yōu)的基本原理:沿著(代價(jià))函數(shù)下降的方向?qū)ふ覅?shù),能夠找到極值點(diǎn).在我們已經(jīng)學(xué)過(guò)的數(shù)學(xué)知識(shí)中,導(dǎo)數(shù)和方向?qū)?shù)是能找到函數(shù)變化方向的。導(dǎo)數(shù)表示了曲線(xiàn)的斜率(傾斜度),方向?qū)?shù)表示了曲面沿著任意方向的斜率(傾斜度)。一維時(shí),導(dǎo)數(shù)就足夠了。但多維時(shí),就需要借助方向?qū)?shù)了,而我們更希望能找到變化率最大的方向。因此,多維下借用方向?qū)?shù)變化最大的情況:梯度,梯度的方向是函數(shù)某點(diǎn)增長(zhǎng)最快的方向,
3、梯度的大小是該點(diǎn)的最大變化率.故對(duì)于損失函數(shù)的梯度是對(duì)和求偏導(dǎo):三、()如圖所示的訓(xùn)練數(shù)據(jù)集,其正實(shí)例點(diǎn)是,負(fù)實(shí)例點(diǎn)是,試用感知機(jī)學(xué)習(xí)算法的原始形式求感知機(jī)模型.這里,.解 構(gòu)建最優(yōu)化問(wèn)題:按照感知機(jī)學(xué)習(xí)算法的原始形式,求解,.(1) 取初值,(2) 對(duì),未能被正確分類(lèi),更新,.,得到線(xiàn)性模型(3) 對(duì),顯然,被正確分類(lèi),不修改,.對(duì),被誤分類(lèi),更新,.,得到線(xiàn)性模型,得到線(xiàn)性模型(5)對(duì),被誤分類(lèi),更新,故得到線(xiàn)性模型(6)對(duì),被誤分類(lèi)點(diǎn),更新,.,故得到線(xiàn)性模型(7) 對(duì),被誤分類(lèi)點(diǎn),更新,.,故得到線(xiàn)性模型(8) 對(duì),被誤分類(lèi)點(diǎn),更新,.,故得到線(xiàn)性模型而該模型對(duì)正實(shí)例點(diǎn),負(fù)實(shí)例點(diǎn),都有
4、,則沒(méi)有分類(lèi)點(diǎn),損失函數(shù)達(dá)到最小.故分離超平面為感知機(jī)模型為迭代過(guò)程如表4、 從統(tǒng)計(jì)角度考慮哪些因素影響近鄰法的準(zhǔn)確度.我們知道近鄰法是一種應(yīng)用廣泛的非參數(shù)分類(lèi)方法 ,可用于線(xiàn)性不可分的多類(lèi)樣本識(shí)別。它的優(yōu)點(diǎn)是事先并不要求知道待分樣本的分布函數(shù)。目前廣泛使用的近鄰法是以待分類(lèi)樣本為中心做超球體 ,逐漸擴(kuò)大超球半徑直至超球內(nèi)包含個(gè)已知模式樣本為止, 判斷這個(gè)近鄰樣本中多數(shù)屬于哪一類(lèi) ,就把待分類(lèi)樣本歸為哪一類(lèi)。分類(lèi)算法描述如下:假設(shè)有個(gè)類(lèi)別,.測(cè)試樣本和與其最近的樣本之間的距離為,,其中的下標(biāo)表示類(lèi),上標(biāo)表示類(lèi)個(gè)樣本中第個(gè)樣本.在超球半徑的前提下, 求,表示這個(gè)近鄰中屬于的樣本數(shù) .上述方法的弱
5、點(diǎn)就是 ,半徑的選取十分困難.值過(guò)大, 超球體的覆蓋面積廣,會(huì)導(dǎo)致其他類(lèi)樣本被錯(cuò)誤的覆蓋, 從而加大樣本的誤識(shí)率·反之若值過(guò)小 ,則不能完全覆蓋該類(lèi)別中可能的樣本點(diǎn).并且近鄰點(diǎn)具有相似的預(yù)測(cè)值 ,所以的大小也會(huì)影響近鄰法的準(zhǔn)確度.該方法易受噪聲影響,尤其是樣本點(diǎn)中孤立點(diǎn)的影響·而我們知道近鄰法模型由三個(gè)部分構(gòu)成:距離度量,的值,分類(lèi)決策規(guī)則。所以值的選取也會(huì)影響到分類(lèi)結(jié)果. 因?yàn)橹档倪x取是根據(jù)每類(lèi)樣本的數(shù)目和分散程度選取的 ,對(duì)不同的應(yīng)用選取的值也不同·所以我們是要在是在值選定的情況下, 對(duì)近鄰點(diǎn)的搜索區(qū)域進(jìn)行合理的定位 ,即選取合適的的大小,即全局到局部 ,同時(shí)
6、還要保障分類(lèi)結(jié)果的準(zhǔn)確性.具體方法:首先將樣本空間的樣本點(diǎn)進(jìn)行小規(guī)模有目的性的聚類(lèi),聚類(lèi)后樣本空間中樣本分布的區(qū)域被劃分成,若干個(gè)半徑一定的小超球體·如果能保證超球體內(nèi)主體類(lèi)樣本數(shù)遠(yuǎn)遠(yuǎn)大于雜質(zhì)類(lèi)樣本數(shù), 那么搜索時(shí)就可根據(jù)其條件將搜索范圍縮小到某些超球體內(nèi),在這些超球體內(nèi)尋找待分樣本點(diǎn)的個(gè)近鄰點(diǎn)· 定義代表全體聚類(lèi)的集合 ,即中包含全部聚類(lèi)中的數(shù)據(jù)·代表確定的近鄰點(diǎn)的集合, 為最近間隔, 為競(jìng)爭(zhēng)點(diǎn)集, 即可能成為近鄰點(diǎn)的集合·聚類(lèi)后計(jì)算指定點(diǎn)到每個(gè)聚類(lèi)中心的距離, 如圖 1 所示依據(jù)這些距離, 聚類(lèi)集被劃分 ,離最近的聚類(lèi)為,下一個(gè)距離較近的聚類(lèi)為 ,依
7、次編號(hào)·然后將聚類(lèi)中的所有點(diǎn)添加到中,計(jì)算中所有點(diǎn)與的距離, 將滿(mǎn)足條件的點(diǎn)轉(zhuǎn)移到集合中·這樣近鄰點(diǎn)的搜索區(qū)域就可以被大致定位·求近鄰點(diǎn)的關(guān)鍵是確定點(diǎn)到中聚類(lèi)的搜索距離 ,為此需創(chuàng)建最近間隔 ·每次近鄰點(diǎn)的搜索范圍便是以待分類(lèi)點(diǎn)為圓心,值為半徑的球體.在整個(gè)搜索過(guò)程中最近間隔一直處在變化過(guò)程中,值修改時(shí)采用使間隔內(nèi)包含盡量少的需要計(jì)算的近鄰點(diǎn)的原則,已確保搜索的準(zhǔn)確性·當(dāng)聚類(lèi)被初始劃分時(shí) ,由于采用局部聚類(lèi)的方法,因此可能造成兩個(gè)聚類(lèi)存在重疊區(qū)域·為避免重疊區(qū)域的點(diǎn)因重搜索而影響算法效率, 所以在計(jì)算最近間隔時(shí) ,還必須考慮中的聚類(lèi)是
8、否有重疊區(qū)·當(dāng)最近間隔被初始創(chuàng)建時(shí),檢查與其他聚類(lèi)是否有重疊區(qū)域, 如果沒(méi)有且, 則中所有點(diǎn)皆放入中, 此時(shí).如果有重疊區(qū)域或,則·當(dāng)被確定后, 中所有點(diǎn)依據(jù)值,將滿(mǎn)足條件的點(diǎn)轉(zhuǎn)移到中·若中的點(diǎn)搜索完畢 ,則按編號(hào)將下一個(gè)聚類(lèi)中的點(diǎn)添加到中 ,重復(fù)上述操作 ,直到中包含個(gè)元素時(shí)為止.5、 根據(jù)表2計(jì)算:(1) 后驗(yàn)概率;(2) 離散屬性的類(lèi)條件概率;(3) 連續(xù)屬性的類(lèi)條件概率分布的參數(shù) (樣本均值和方差)Id有房婚姻狀況年收入拖欠貸款1真單身125KNo2否已婚100KNo3否單身70KNo4真已婚120KNo5否離婚95KYes6否已婚60KNo7真離婚220KNo8否單身85KYes9否已婚75KNo10否單身90KYes表2 從該數(shù)據(jù)集計(jì)算得到的先驗(yàn)概率以及每個(gè)離散屬性的類(lèi)條件概率、連續(xù)屬性的類(lèi)條件概率分布的參數(shù)(樣本均值和方差)如下:先驗(yàn)概率:P(Yes)=;P(No)=年收入:如果類(lèi)=No:樣本均值=;樣本方差=2975;如果類(lèi)=Yes:樣本均值=90;樣本方差=25待預(yù)測(cè)記錄:=有房=否,婚姻狀況=已婚,年收入=120K由于0.002
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 撤資協(xié)議范本:股權(quán)投資撤資及退出合同
- 綜合交通樞紐車(chē)位使用權(quán)及收益分配合同
- 口腔醫(yī)院標(biāo)準(zhǔn)護(hù)士聘用合同及口腔護(hù)理
- 保險(xiǎn)理賠核算合同
- 樓盤(pán)活動(dòng)超市活動(dòng)方案
- 民謠交友活動(dòng)策劃方案
- 民營(yíng)企業(yè)月招聘活動(dòng)方案
- 水果菠蘿活動(dòng)方案
- 民俗節(jié)日活動(dòng)方案
- 桓臺(tái)公益活動(dòng)活動(dòng)方案
- 勞動(dòng)教育與數(shù)學(xué)作業(yè)深度融合 全面培養(yǎng)學(xué)生的勞動(dòng)素養(yǎng)
- 中國(guó)質(zhì)譜儀行業(yè)發(fā)展趨勢(shì)及發(fā)展前景研究報(bào)告2025-2028版
- 2025至2030中國(guó)直聯(lián)式真空泵行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展報(bào)告
- 催乳師職業(yè)資格培訓(xùn)課件
- 人工智能技術(shù)在醫(yī)療行業(yè)應(yīng)用案例研究報(bào)告
- 2025年高考云南卷歷史高考真題(無(wú)答案)
- 痛風(fēng)治療與護(hù)理課件
- 八年級(jí)歷史下冊(cè)期末復(fù)習(xí)測(cè)試卷(含答案)2024-2025學(xué)年人教版
- 2025-2030中國(guó)輔助生殖技術(shù)行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 中醫(yī)茶飲培訓(xùn)課件模板
- (湖北省高考卷)2024年湖北省普通高中學(xué)業(yè)水平選擇性考試高考物化生+政史地真題試卷及答案
評(píng)論
0/150
提交評(píng)論