




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
單元1機(jī)器學(xué)習(xí)導(dǎo)引機(jī)器學(xué)習(xí)電氣與信息工程系CONTENTS
目錄01020304機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)的發(fā)展歷程與趨勢機(jī)器學(xué)習(xí)的分類模型訓(xùn)練與評估方法PART01機(jī)器學(xué)習(xí)概述01機(jī)器學(xué)習(xí)概述什么是機(jī)器學(xué)習(xí)?從廣義上來說,機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。從實踐的意義上來說,機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測的一種方法。
01機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)(MachineLearning)是一門多領(lǐng)域交叉學(xué)科,它是人工智能的核心,是使計算機(jī)具有智能的根本途徑。其包含大量的學(xué)習(xí)算法。不同的學(xué)習(xí)算法在不同的行業(yè)及應(yīng)用中能夠表現(xiàn)出不同的性能和優(yōu)勢。PART02機(jī)器學(xué)習(xí)的發(fā)展歷程與分類02機(jī)器學(xué)習(xí)發(fā)展歷程智能集合體02機(jī)器學(xué)習(xí)發(fā)展歷程A.知識推理期B.知識工程期C.淺層學(xué)習(xí)D深度學(xué)習(xí)(1)機(jī)器學(xué)習(xí)經(jīng)歷了哪幾個發(fā)展階段?(2)機(jī)器學(xué)習(xí)是一門()的學(xué)科?A.人工智能B.計算機(jī)C.網(wǎng)格D.統(tǒng)計學(xué)PART03機(jī)器學(xué)習(xí)的分類02機(jī)器學(xué)習(xí)分類學(xué)習(xí)目標(biāo)分類判別式模型,又稱非概率模型,是指通過學(xué)習(xí)輸入和輸出之間的映射關(guān)系來建立模型y=f(x),然后利用該模型來預(yù)測新的輸出。判別式模型的典型代表是支持向量機(jī)模型,該模型通過學(xué)習(xí)輸入和輸出之間的映射關(guān)系來建立分類模型,然后利用該模型來預(yù)測新的分類結(jié)果。
生成式模型,又稱概率模型,是指通過學(xué)習(xí)數(shù)據(jù)的分布來建立模型P(y|x),然后利用該模型來生成新的數(shù)據(jù)。生成式模型的典型代表是樸素貝葉斯模型,該模型通過學(xué)習(xí)數(shù)據(jù)的分布來建立概率模型,然后利用該模型來生成新的數(shù)據(jù)。
02機(jī)器學(xué)習(xí)分類生成式模型是所有變量的全概率模型,而判別模型是在給定觀測變量值的前提下目標(biāo)變量的條件概率模型。因此,生成式模型能夠用于模擬(即生成)模型中任意變量的分布情況,而判別模型只能根據(jù)觀測變量得到目標(biāo)變量的采樣值。判別模型不對觀測變量的分布建模。因此,它不能表達(dá)觀測變量與目標(biāo)變量之間更復(fù)雜的關(guān)系。生成式模型更普適;判別式模型更直接,目標(biāo)性更強(qiáng)。生成式模型關(guān)注數(shù)據(jù)是如何產(chǎn)生的,尋找的是數(shù)據(jù)分布模型;判別式模型關(guān)注數(shù)據(jù)的差異性,尋找的是分類面,由生成式模型可以產(chǎn)生判別式模型,但是由判別式模型沒法產(chǎn)生生成式模型。判別式模型和生成式模型的區(qū)別02機(jī)器學(xué)習(xí)分類①對條件概率進(jìn)行建模,學(xué)習(xí)不同類別之間的最佳邊界。②捕捉不同類別特征的差異信息,不學(xué)習(xí)本身分布信息,無法反映數(shù)據(jù)本身的特性。③學(xué)習(xí)成本較低,需要的計算資源較少。④需要的樣本數(shù)可以較少,少樣本也能很好地學(xué)習(xí)。⑤預(yù)測時擁有較好性能。⑥無法轉(zhuǎn)換成生成式。①對聯(lián)合概率進(jìn)行建模,學(xué)習(xí)所有分類數(shù)據(jù)的分布。②學(xué)習(xí)到的數(shù)據(jù)本身的信息更多,能反應(yīng)數(shù)據(jù)本身的特性。③學(xué)習(xí)成本較高,需要更多的計算資源。④需要的樣本數(shù)更多,當(dāng)樣本較少時,學(xué)習(xí)效果較差。⑤推斷時性能較差。02機(jī)器學(xué)習(xí)分類學(xué)習(xí)方法分類監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對抗學(xué)習(xí)5種。
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式/學(xué)習(xí)方式。它是通過機(jī)器學(xué)習(xí)中大量帶有標(biāo)簽的樣本數(shù)據(jù),訓(xùn)練出一個模型,并使該模型可以根據(jù)輸入得到相應(yīng)輸出的過程。監(jiān)督學(xué)習(xí)02機(jī)器學(xué)習(xí)分類常見的監(jiān)督學(xué)習(xí)有分類和回歸。分類(Classification)是將一些實例數(shù)據(jù)分到合適的類別中,它的預(yù)測結(jié)果是離散的。回歸(Regression)是將數(shù)據(jù)歸到一條“線”上,即離散數(shù)據(jù)生成擬合曲線,因此其預(yù)測結(jié)果是連續(xù)的。02機(jī)器學(xué)習(xí)分類無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)表示機(jī)器學(xué)習(xí)的數(shù)據(jù)是沒有標(biāo)記的。機(jī)器從無標(biāo)記的數(shù)據(jù)中探索并推斷出潛在數(shù)據(jù)之間的聯(lián)系。聚類降維(手寫數(shù)字28*28)異常點檢測02機(jī)器學(xué)習(xí)分類半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是模式識別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點,是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。標(biāo)記軟件02機(jī)器學(xué)習(xí)分類對抗學(xué)習(xí)對抗學(xué)習(xí)實現(xiàn)的方法是讓兩個網(wǎng)絡(luò)相互競爭對抗。其中一個是生成器網(wǎng)絡(luò),它不斷捕捉訓(xùn)練庫里真實數(shù)據(jù)的概率分布,將輸入的隨機(jī)噪聲轉(zhuǎn)變成新的樣本(即假數(shù)據(jù));另一個是判別器網(wǎng)絡(luò),它可以同時觀察真實和假造的數(shù)據(jù),判斷這個數(shù)據(jù)到底是不是真的。通過反復(fù)對抗,生成器和判別器的能力都會不斷增強(qiáng),直到達(dá)成一種平衡,最后生成器可生成高質(zhì)量的、以假亂真的數(shù)據(jù)。02機(jī)器學(xué)習(xí)分類應(yīng)用方向分類分類、聚類、回歸、排序和序列標(biāo)注5種。分類是一個有監(jiān)督的學(xué)習(xí)過程,目標(biāo)數(shù)據(jù)庫中有些類別是已知的,分類過程需要做的就是把每條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認(rèn)有對應(yīng)的類別,因此分類算法也有其局限性,當(dāng)上述條件無法滿足時,我們就需要嘗試使用聚類分析。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干通常不相交的子集,每個子集稱為一個簇(Cluster)。每個簇可能對應(yīng)一些潛在的概念,這些概念對聚類算法而言,事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名?;貧w從一組數(shù)據(jù)出發(fā),確定某些變量之間的定量關(guān)系式,也就是建立數(shù)學(xué)模型并估計未知參數(shù)?;貧w的目的是預(yù)測數(shù)值型的目標(biāo)值,它的目標(biāo)是接收連續(xù)數(shù)據(jù),尋找最適合數(shù)據(jù)的方程,并能對特定的值進(jìn)行預(yù)測。其中,所尋求的方程叫作回歸方程。02機(jī)器學(xué)習(xí)分類排序以特征和數(shù)據(jù)為輸入,通過機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò),輸出對于某個查詢,每個數(shù)據(jù)的相關(guān)度分?jǐn)?shù),進(jìn)而實現(xiàn)對數(shù)據(jù)的排序。應(yīng)用方向分類序列標(biāo)注指給定一個序列,找出序列中每個元素對應(yīng)標(biāo)簽的問題。其中,標(biāo)簽所有可能的取值集合稱為標(biāo)注集。它可用于解決一系列對字符進(jìn)行分類的問題,如分詞、詞性標(biāo)注、命名實體識別、關(guān)系抽取等。02機(jī)器學(xué)習(xí)分類(3)下列說法中正確的是()生成式模型是所有變量的全概率模型可用于模擬(即生成)模型中任意變量的分布情況B.判別模型是在給定觀測變量值的前提下目標(biāo)變量的條件概率模型,只能根據(jù)觀測變量得到目標(biāo)變量的采樣值。C.判別模型不對觀測變量的分布建模。因此,它不能表達(dá)觀測變量與目標(biāo)變量之間更復(fù)雜的關(guān)系D.生成式模型關(guān)注數(shù)據(jù)是如何產(chǎn)生的,尋找的是數(shù)據(jù)分布模型E.判別式模型關(guān)注數(shù)據(jù)的差異性,尋找的是分類面,由生成式模型可以產(chǎn)生判別式模型,但是由判別式模型沒法產(chǎn)生生成式模型。02機(jī)器學(xué)習(xí)分類(4)關(guān)于監(jiān)督學(xué)習(xí),下列說法中正確的是()監(jiān)督學(xué)習(xí)的數(shù)據(jù)是不帶標(biāo)記的分類將實例數(shù)據(jù)分到合適的類別中,其預(yù)測結(jié)果是離散的回歸其預(yù)測結(jié)果是連續(xù)的監(jiān)督學(xué)習(xí)過程能一次性生成魯棒的預(yù)測模型(5)按照應(yīng)用方向,機(jī)器學(xué)習(xí)可以分為哪幾類?()分類聚類回歸排序序列標(biāo)注02機(jī)器學(xué)習(xí)分類(6)機(jī)器學(xué)習(xí)的核心要素包括()數(shù)據(jù)操作人員算法算力(7)數(shù)據(jù)分類是一個兩階段過程,包括()和分類階段分析階段學(xué)習(xí)階段預(yù)測階段實驗階段PART04模型訓(xùn)練與評估方法04模型訓(xùn)練(1)模型訓(xùn)練數(shù)據(jù)集、探索性數(shù)據(jù)分析(EDA)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分割、模型建立5個過程。04模型訓(xùn)練1.數(shù)據(jù)集數(shù)據(jù)集本質(zhì)上是一個M×N矩陣,其中,M代表列(特征),N代表行(樣本)。列可以分解為X和Y,其中,X是幾個術(shù)語[如特征(Feature)、獨立變量(IndependentVariable)和輸入變量(InputVariable)]的同義詞;Y也是幾個術(shù)語[如類標(biāo)簽(ClassLabel)、因變量(DependentVariable)和輸出變量(OutputVariable)]的同義詞。04模型訓(xùn)練2.探索性數(shù)據(jù)分析進(jìn)行探索性數(shù)據(jù)分析是為了獲得對數(shù)據(jù)的初步了解。常用的探索性數(shù)據(jù)分析方法如下:描述性統(tǒng)計:統(tǒng)計平均數(shù)、中位數(shù)、模式、標(biāo)準(zhǔn)差。數(shù)據(jù)可視化:辨別特征內(nèi)部相關(guān)性的熱圖,體現(xiàn)可視化群體差異的箱形圖,體現(xiàn)可視化特征之間相關(guān)性的散點圖,可視化數(shù)據(jù)集中呈現(xiàn)的聚類分布的主成分分析圖等。其中,箱型圖如圖1-6所示,主成分分析圖如圖1-7所示。數(shù)據(jù)整形:對數(shù)據(jù)進(jìn)行透視、分組、過濾等。3.數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理又稱數(shù)據(jù)清理、數(shù)據(jù)整理或數(shù)據(jù)處理,是指對數(shù)據(jù)進(jìn)行各種檢查和審查的過程,具有糾正缺失值、拼寫錯誤(使數(shù)值正?;?標(biāo)準(zhǔn)化,以使其具有可比性)、轉(zhuǎn)換數(shù)據(jù)(如對數(shù)轉(zhuǎn)換)等作用。04模型訓(xùn)練4.數(shù)據(jù)分割①數(shù)據(jù)集訓(xùn)練-測試分割②數(shù)據(jù)集訓(xùn)練-驗證-測試分割訓(xùn)練集用于訓(xùn)練模型,驗證集用于選擇最佳的超參數(shù)和評估模型的性能,測試集用于評估模型的泛化性能。04模型訓(xùn)練③CV(交叉驗證)最常用的交叉驗證是
k折交叉驗證(k-foldcross-validation),其中k是由用戶指定的數(shù)字,通常取5或10。5折交叉驗證:
1、將數(shù)據(jù)劃分為(大致)相等的5部分,每一部分叫作折(fold)
2、訓(xùn)練一系列模型,每折輪流作為測試集評估精度,其他作為訓(xùn)練集訓(xùn)練模型04模型訓(xùn)練5.模型建立使用準(zhǔn)備的數(shù)據(jù)來建立模型。我們要根據(jù)目標(biāo)變量(通常稱為Y變量)的數(shù)據(jù)類型(定性或定量),建立一個分類(如果Y是定性的)模型或回歸(如果Y是定量的)模型。1.參數(shù)調(diào)優(yōu)超參數(shù)本質(zhì)上是機(jī)器學(xué)習(xí)算法的參數(shù),直接影響學(xué)習(xí)過程和預(yù)測性能。由于沒有“一刀切”的超參數(shù)設(shè)置來普遍適用于所有數(shù)據(jù)集,因此需要進(jìn)行超參數(shù)優(yōu)化(也稱為超參數(shù)調(diào)整或模型調(diào)整)。(2)學(xué)習(xí)算法優(yōu)化04模型訓(xùn)練
(3)模型評估2.特征選擇特征選擇是特征工程里的一個重要問題,其目標(biāo)是尋找最優(yōu)特征子集。特征選擇能剔除不相關(guān)(irrelevant)或冗余(redundant)的特征,從而達(dá)到減少特征個數(shù),提高模型精確度,減少運(yùn)行時間的目的。針對分類、排序、回歸、序列預(yù)測等不同類型的機(jī)器學(xué)習(xí)問題,評估指標(biāo)的選擇也有所不同。1.評估指標(biāo)分類分類模型的常用評估指標(biāo)有準(zhǔn)確率、精確率、召回率、F1—Score、ROC曲線等。04模型訓(xùn)練
TP就是樣本是正例的且用學(xué)習(xí)器分類出來也是正例的
FN就是樣本是正例的但學(xué)習(xí)器分類出來是反例的
FP是在樣本是反例的但學(xué)習(xí)器分類出來是正例的
TN是在樣本是反例的且學(xué)習(xí)器分類出來是反例的混淆矩陣混淆矩陣的每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目;每一列中的數(shù)值表示真實數(shù)據(jù)被預(yù)測為該類的數(shù)目。04模型訓(xùn)練①準(zhǔn)確率。準(zhǔn)確率是指正確分類的樣本數(shù)占總樣本數(shù)的比例,其計算公式為②
精確率。精確率是指預(yù)測為正例的樣本數(shù)中真實正例的樣本數(shù)所占的比例,其計算公式為③召回率。召回率是指真實正例的樣本數(shù)中預(yù)測為正例的樣本數(shù)所占的比例,其計算公式為04模型訓(xùn)練④P-R(Precision-Recall)曲線。P-R曲線的橫坐標(biāo)是召回率,縱坐標(biāo)是精確率。對一個排序模型來說,其P-R曲線上的一個點代表在某一閾值下,模型將大于該閾值的結(jié)果判定為正樣本,將小于該閾值的結(jié)果判定為負(fù)樣本,此時返回結(jié)果對應(yīng)的召回率和精確率。04模型訓(xùn)練⑤F1分?jǐn)?shù)(F1Score),是統(tǒng)計學(xué)中用來衡量二分類(或多任務(wù)二分類)模型精確度的一種指標(biāo)。它同時兼顧了分類模型的準(zhǔn)確率和召回率。F1分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0,值越大意味著模型越好⑥ROC曲線。ROC曲線即曲線下面積(AreaUndertheCurve,AUC),是評估二元分類器的重要指標(biāo)之一。ROC曲線的橫坐標(biāo)是假正例率(FPR),縱坐標(biāo)是真正例率(TPR)。TPR和FPR的計算公式如下:04模型訓(xùn)練2.回歸問題由于回歸模型的輸出值為連續(xù)值,其模型的評估與分類模型評估有所差異,一般采用平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)等。①平均絕對誤差(MAE)。MAE被稱為L1,其計算公式為②均方誤差(MSE)。MSE被稱為L2,其計算公式為04模型訓(xùn)練③均方根誤差(RMSE)。RMSE能很好地反映回歸模型預(yù)測值與真實值的偏離程度。但在實際問題中,如果存在個別偏移程度非常大的離群點,即使離群點的數(shù)量非常少,也會讓RMSE指標(biāo)變得很差。02機(jī)器學(xué)習(xí)分類(8)模型訓(xùn)練主要包括哪幾個過程?()數(shù)據(jù)集探索性數(shù)據(jù)分析數(shù)據(jù)分割模型建立數(shù)據(jù)預(yù)處理(9)關(guān)于模型評估,下列說法中正確的是()所有機(jī)器學(xué)習(xí)模型使用的評估方法是相同的模型評估主要分為離線評估和在線評估兩個階段準(zhǔn)確率是分類問題中最簡單也最直觀的評估指標(biāo),但其存在明顯的缺陷只用某個點對應(yīng)的準(zhǔn)確率和召回率不能全面地衡量模型的性能02機(jī)器學(xué)習(xí)分類(1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年應(yīng)對紡織供應(yīng)鏈危機(jī)的方法試題及答案
- 2024年聚焦廣告設(shè)計師考試趨勢及發(fā)展試題及答案
- 口岸營商環(huán)境試題及答案
- 城管督察面試題目及答案
- 樹立品牌形象的廣告創(chuàng)意策略分析試題及答案
- 廣告設(shè)計師考試2024年品牌設(shè)計趨勢試題及答案
- 2024年廣告設(shè)計師目標(biāo)群體分析試題及答案
- 廣告元素的功能與分析試題及答案
- 2024年廣告設(shè)計師項目策略試題及答案
- 2024年紡織品設(shè)計師知識回顧試題及答案
- 2025屆廣東省佛山市高三下學(xué)期教學(xué)質(zhì)量檢測(二)物理試題及答案
- 2025年初中數(shù)學(xué)聯(lián)考試題及答案
- 河北省邯鄲市2025年高考物理二模試卷(含解析)
- 《綜合保稅區(qū)發(fā)展戰(zhàn)略》課件
- 2025第十三屆貴州人才博覽會遵義市事業(yè)單位人才引進(jìn)47人筆試備考試題及答案解析
- 2025合肥市輔警考試試卷真題
- 《出師表》與《杜正獻(xiàn)公》對比閱讀訓(xùn)練
- 《我國中小企業(yè)薪酬激勵機(jī)制研究-以鄭州宇通客車公司為例》9700字
- 幕墻鋁板合同協(xié)議
- 抽樣計劃考試試題及答案
- 2025年上半年四川成都農(nóng)業(yè)科技職業(yè)學(xué)院招聘工作人員16人重點基礎(chǔ)提升(共500題)附帶答案詳解
評論
0/150
提交評論