基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)_第1頁(yè)
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)_第2頁(yè)
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)_第3頁(yè)
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)_第4頁(yè)
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘課程論文基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測(cè)XXXX摘要本文的主要工作是運(yùn)用數(shù)據(jù)挖掘的相關(guān)技術(shù)對(duì)申請(qǐng)貸款的客戶的大量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式,最終得到風(fēng)險(xiǎn)評(píng)估模型。本文的內(nèi)容主要分為數(shù)據(jù)獲取與探查、數(shù)據(jù)預(yù)處理、模型建立和結(jié)果分析與應(yīng)用四個(gè)部分。在模型建立的過(guò)程中使用了SAS企業(yè)數(shù)據(jù)挖掘模塊,基于決策樹、回歸和神經(jīng)網(wǎng)絡(luò)的方法, 充分利用已有數(shù)據(jù)建立模型, 對(duì)申請(qǐng)貸款客戶進(jìn)行科學(xué)歸類, 從而幫助金融機(jī)構(gòu)提高對(duì)貸款信用風(fēng)險(xiǎn)的控制能力。關(guān)鍵詞:SAS 分類技術(shù) 數(shù)據(jù)挖掘 預(yù)測(cè) 貸款風(fēng)險(xiǎn)評(píng)估目錄:1.緒論31.1項(xiàng)目背景31.2文獻(xiàn)綜述32.數(shù)據(jù)獲取與探查52

2、.1數(shù)據(jù)獲取52.2數(shù)據(jù)簡(jiǎn)介52.3字段說(shuō)明62.4數(shù)據(jù)探查93.數(shù)據(jù)處理與建模93.1數(shù)據(jù)預(yù)處理93.2數(shù)據(jù)建模過(guò)程決策樹163.3數(shù)據(jù)建模過(guò)程神經(jīng)網(wǎng)絡(luò)183.4數(shù)據(jù)建模過(guò)程回歸203.5最佳模型選擇214.結(jié)果分析與應(yīng)用225.項(xiàng)目評(píng)估與收獲275.1項(xiàng)目改進(jìn)275.2收獲28參考文獻(xiàn)281.緒論1.1項(xiàng)目背景金融是現(xiàn)代經(jīng)濟(jì)的核心,各類金融機(jī)構(gòu)則是現(xiàn)代金融的支柱。各類金融機(jī)構(gòu)在社會(huì)經(jīng)濟(jì)發(fā)展過(guò)程中, 發(fā)揮著籌集融通資金、引導(dǎo)資產(chǎn)流向、提高資金運(yùn)用效率和調(diào)節(jié)社會(huì)總需求的作用。中國(guó)加入WTO后, 中外金融機(jī)構(gòu)的競(jìng)爭(zhēng)日益激烈, 中國(guó)商業(yè)銀行必須加快改革步伐, 盡快打造自己的核心競(jìng)爭(zhēng)力。但是中國(guó)金融

3、機(jī)構(gòu)的信貸資產(chǎn)質(zhì)量較差, 不良貸款的規(guī)模大、比例高, 嚴(yán)重阻礙中國(guó)金融業(yè)的發(fā)展。有效控制不良貸款信用風(fēng)險(xiǎn)已經(jīng)成為中國(guó)金融機(jī)構(gòu)面對(duì)的主要課題。1.2文獻(xiàn)綜述目前國(guó)際銀行業(yè)對(duì)不良貸款信用風(fēng)險(xiǎn)評(píng)估的方法主要采用的是古典分析法和多元統(tǒng)計(jì)法 1-2 。古典分析法是指銀行經(jīng)營(yíng)者依賴一批訓(xùn)練有素的專家的主觀判斷對(duì)貸款人進(jìn)行信用分析。多元統(tǒng)計(jì)分析的基本思想是根據(jù)歷史累積樣本建立數(shù)學(xué)模型, 并對(duì)新樣本發(fā)生某種事件的可能性進(jìn)行預(yù)測(cè)的方法,具體包括線性概率模型、LOGIT法、PROBIT法以及判別分析法(MDA) 1 。巴塞爾委員會(huì)于2001 年1月公布了新巴塞爾資本協(xié)議草案, 新協(xié)議給出了兩種計(jì)量信用風(fēng)險(xiǎn)的方法,

4、 即標(biāo)準(zhǔn)法和內(nèi)部評(píng)級(jí)法(IRB), IRB法對(duì)標(biāo)準(zhǔn)法中的風(fēng)險(xiǎn)加權(quán)系數(shù)進(jìn)行了修正。新協(xié)議允許銀行使用內(nèi)部評(píng)級(jí)方法, 使新協(xié)議的監(jiān)管規(guī)則有一定的靈活性。但目前, 金融界使用最多的兩個(gè)信用風(fēng)險(xiǎn)評(píng)估模型是信用度量制(Credit Metrics)模型和KMV模型。Credit Metrics是J.P. Morgan于1997年開發(fā)的一種基于VAR方法的信貸風(fēng)險(xiǎn)管理模型 3 。所謂VAR就是衡量一項(xiàng)資產(chǎn)或者負(fù)債在一定時(shí)間內(nèi)、在一定的置信水平下其價(jià)值的最大損益額。Credit Metrics是一種盯市(MTM)模型, 認(rèn)為如果信用資產(chǎn)的信用等級(jí)發(fā)生了變化, 就產(chǎn)生了信用損失的可能性, 這種損失是多狀態(tài)的,

5、 不只是違約和不違約兩種狀態(tài)。KMV模型是KMV公司利用期權(quán)定價(jià)原理, 提出了以預(yù)期違約頻率為核心的信用風(fēng)險(xiǎn)管理模型。KMV模型將資產(chǎn)的狀態(tài)分為違約和不違約兩種, 信用損失只發(fā)生在違約的時(shí)候。而且KMV模型有一個(gè)核心的假設(shè), 就是當(dāng)公司的資產(chǎn)價(jià)值下降到一定程度之后, 公司就會(huì)對(duì)其債務(wù)違約。由于受樣本數(shù)量限制, 國(guó)內(nèi)已有學(xué)者對(duì)信用風(fēng)險(xiǎn)評(píng)估方法進(jìn)行研究, 著重研究某一具體方法在信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用。王春峰等 4-7 運(yùn)用線性判別法、LOGIT法、遺傳規(guī)劃模型、神經(jīng)網(wǎng)絡(luò)模型, 以及距離判別法與神經(jīng)網(wǎng)絡(luò)方法相結(jié)合的組合預(yù)測(cè)法對(duì)信用風(fēng)險(xiǎn)評(píng)估方法作了研究。施錫銓等 8 運(yùn)用線性多元判別方法對(duì)上市企業(yè)的信用

6、風(fēng)險(xiǎn)評(píng)估進(jìn)行了研究, 得出評(píng)價(jià)上市企業(yè)信用風(fēng)險(xiǎn)水平的線性判別模型。以上所述方法雖然被廣泛應(yīng)用, 但是它們只是針對(duì)某一方面如財(cái)務(wù), 進(jìn)行分析建模, 不能夠充分利用有關(guān)客戶和信貸產(chǎn)品的大量且全面的信息。在信貸風(fēng)險(xiǎn)評(píng)估中, 對(duì)信用風(fēng)險(xiǎn)的評(píng)價(jià), 不僅要考慮貸款者的財(cái)務(wù)能力, 還要考慮貸款者所需求產(chǎn)品的信息等各方面因素, 僅靠單一指標(biāo)的評(píng)價(jià)體系不足以對(duì)信用風(fēng)險(xiǎn)予以充分揭示。因此, 研究如何從貸款樣本數(shù)據(jù)中挖掘更豐富的信用信息, 建立更完備的信用風(fēng)險(xiǎn)評(píng)估模型將成為一種必然。本文使用了SAS企業(yè)數(shù)據(jù)挖掘模塊,基于決策樹、回歸和神經(jīng)網(wǎng)絡(luò)的方法, 充分利用已有數(shù)據(jù)建立模型, 對(duì)申請(qǐng)貸款客戶進(jìn)行科學(xué)歸類, 從而幫

7、助金融機(jī)構(gòu)提高對(duì)貸款信用風(fēng)險(xiǎn)的控制能力。2.數(shù)據(jù)獲取與探查2.1數(shù)據(jù)獲取本文的實(shí)驗(yàn)數(shù)據(jù)獲取于數(shù)據(jù)堂,來(lái)源于融360。融360是中國(guó)最大的網(wǎng)絡(luò)貸款平臺(tái),平臺(tái)的一端是數(shù)億的有借款需求的小微企業(yè)和個(gè)人消費(fèi)者,另一端是數(shù)萬(wàn)的有貸款資金的金融機(jī)構(gòu)(銀行、小貸、擔(dān)保、典當(dāng)?shù)龋┖蛿?shù)百萬(wàn)的金融產(chǎn)品,平臺(tái)通過(guò)搜索和推薦服務(wù)來(lái)撮合借款用戶和貸款。通常,用戶進(jìn)入平臺(tái)后,會(huì)通過(guò)搜索和推薦服務(wù)找到合適的貸款產(chǎn)品,填寫自己的個(gè)人基本資料,最終提交貸款訂單。金融機(jī)構(gòu)通過(guò)平臺(tái)收到訂單后,對(duì)用戶資質(zhì)進(jìn)行風(fēng)控審核,最終決定是否通過(guò)用戶的訂單。2.2數(shù)據(jù)簡(jiǎn)介數(shù)據(jù)包含了user, product, quality和order四張表,

8、下面結(jié)合業(yè)務(wù)流程解釋一下四個(gè)數(shù)據(jù)的產(chǎn)生過(guò)程。第一步:用戶訪問(wèn)融360網(wǎng)站搜索合適的貸款產(chǎn)品,這就產(chǎn)生了user數(shù)據(jù),它包含了用戶在網(wǎng)站的點(diǎn)擊、搜索和下單記錄,這里面的date字段記錄了是哪一天;第二步:用戶在提供的貸款產(chǎn)品中搜索符合自己需求的,在些產(chǎn)品保存在product數(shù)據(jù)中,包含了產(chǎn)品的申請(qǐng)金額、期限、申請(qǐng)所需的材料等信息;第三步:找到合適產(chǎn)品的用戶會(huì)在線填寫申請(qǐng),這部分?jǐn)?shù)據(jù)保存在quality數(shù)據(jù)中,包含了用戶的年齡、性別、職業(yè)、收入等信息;第四步:把用戶訂單提交給相應(yīng)的金融機(jī)構(gòu),金融機(jī)構(gòu)在進(jìn)行風(fēng)控審核后會(huì)決定是否通過(guò)用戶的訂單,這部分?jǐn)?shù)據(jù)保存在order數(shù)據(jù)中,其中包含用戶與其申請(qǐng)的產(chǎn)

9、品編號(hào)、訂單的申請(qǐng)金額和期限等基本信息以及訂單是否審核通過(guò)。具體每表的說(shuō)明如下:order_train.txt:用于訓(xùn)練的訂單數(shù)據(jù)product_final.txt:產(chǎn)品相關(guān)數(shù)據(jù),包含訓(xùn)練集和測(cè)試集出現(xiàn)的所有產(chǎn)品quality_final.txt:用戶申請(qǐng)信息相關(guān)數(shù)據(jù),包含訓(xùn)練集和測(cè)試集出現(xiàn)的所有用戶user_final.txt:用戶訪問(wèn)信息相關(guān)數(shù)據(jù),包含訓(xùn)練集和測(cè)試集出現(xiàn)的所有用戶order_test_no_label:用于測(cè)試的訂單數(shù)據(jù),與訓(xùn)練數(shù)據(jù)相比缺少最終結(jié)果標(biāo)簽。2.3字段說(shuō)明user表變量說(shuō)明user_id用戶idpv總pvpv_inde x_loan:貸款首頁(yè)P(yáng)Vpv_apply

10、_total申請(qǐng)次數(shù)pv_ask問(wèn)答頁(yè)P(yáng)vpv_calculator計(jì)算器頁(yè)P(yáng)Vorder_count_loan貸款下單量pv_daikuan貸款總PVpv_credit信用卡總PVpv_search_daikuan搜索頁(yè)pv_detail_daikuan貸款詳情頁(yè)P(yáng)Vdate不同日期product表變量說(shuō)明product_id產(chǎn)品idcity_id城市idbank_id產(chǎn)品所屬機(jī)構(gòu)idproduct_type產(chǎn)品類型guarantee_type產(chǎn)品擔(dān)保類型loan_term_min最短期限loan_term_max最長(zhǎng)期限loan_term_type期限類型decision_cycle審批時(shí)

11、間loan_cycle放款時(shí)間repayment_type還款方式loan_quota_min最小額度loan_quota_max最大額interest_rate_type利率類型guarantee_required是否必須有擔(dān)保quality表變量說(shuō)明user_id用戶idcity_id城市idapplication_type申請(qǐng)類型application_term申請(qǐng)期限application_limit申請(qǐng)金額op_type職業(yè)類型col_type房產(chǎn)類型user_loan_experience兩年內(nèi)征信情況user_has_car是否有車user_social_security繳納社保

12、年份qid77是否有公積金cash_receipts現(xiàn)金收入user_income_by_card打卡收入user_work_period工作年限user_age用戶年齡company_type公司類型col_value房產(chǎn)價(jià)值com_op_period經(jīng)營(yíng)年限com_month_flow月流水qid123文化程度qid122婚姻狀況qid135公司規(guī)模qid139居住類型qid93是否辦過(guò)營(yíng)業(yè)執(zhí)照qid57能提供流水?dāng)?shù)order表變量說(shuō)明user_id用戶idproduct_id產(chǎn)品iddate不同日期term申請(qǐng)期限limit申請(qǐng)金額Result0表示未被批準(zhǔn),1表示被批準(zhǔn)2.4數(shù)據(jù)探查我

13、們利用SAS EM觀察到以下有關(guān)各個(gè)變量的基本統(tǒng)計(jì)指標(biāo)的異常情況:偏度偏大(>5)的有:loan_term_max,loan_quota_min,loan_quota_max,limit,application_term,application_limit.缺失值過(guò)多(>50%)的有:user_age,qid93,qid78,qid135,qid133,qid123,qid122,col_has_morgage取值過(guò)于單一且集中的有:term,pv,loan_term_max,loan_quota_min,loan_quota_max,limit,fangkuan_num,dece

14、sion_cycle,apply_num3.數(shù)據(jù)處理與建模3.1數(shù)據(jù)預(yù)處理3.1.1導(dǎo)入EM之前的處理在將數(shù)據(jù)導(dǎo)入EM之前,先將四張表的數(shù)據(jù)整合到了一起,這里使用的是鏈接的方法,具體語(yǔ)句如下: 在這里使用了DISTINCT,是為了將重復(fù)數(shù)據(jù)去除。為了觀察數(shù)據(jù),先將數(shù)據(jù)導(dǎo)入EM中進(jìn)行分析,使用INSIGHT節(jié)點(diǎn),發(fā)現(xiàn)TOTAL一共含有79萬(wàn)多條記錄,100多個(gè)字段。通過(guò)INPUT發(fā)現(xiàn),許多字段的缺失值比例已經(jīng)達(dá)到60%以上,有的甚至超過(guò)了95%,達(dá)到了100%。這樣的字段是毫無(wú)意義的,所以我們?cè)诤罄m(xù)的處理中可以直接REJECTED。另外,通過(guò)之前的觀察發(fā)現(xiàn),有些字段之間是有關(guān)聯(lián)的,比如說(shuō) EAR

15、LY_REPAYMENT字段和PENALTY字段,前者代表是否可以提前還款,后者代表提前還款是否需要交納違約金,對(duì)于后者,如果前者為0或者缺失,那么后者也就自然為缺失值,造成缺失值比例升高,同時(shí),我們也注意到,如果采用后面的REPLACEMENT節(jié)點(diǎn),使用的方法也是會(huì)產(chǎn)生歧義,因?yàn)镋ARLY_REPAYMENT字段為0的時(shí)候,PENALTY字段本身就是缺失的,而使用REPLACEMENT節(jié)點(diǎn)反而會(huì)導(dǎo)致錯(cuò)誤的結(jié)果。所以在此我們通過(guò)建立一個(gè)新的字段EARLY_REPAY來(lái)代替兩個(gè)字段的含義。具體語(yǔ)句如下:/*去除無(wú)意義的字段PROC SQL;TITLE'SELECTION'CREA

16、TE TABLE DATA.TOTAL3 AS SELECT USER_ID,PRODUCT_ID,DATE,TERM,LIMIT,RESULT,CITY_ID,BANK_ID,PRODUCT_TYPE,GUARANTEE_TYPE,LOAN_TERM_MIN,LOAN_TERM_MAX,LOAN_TERM_TYPE,DECISION_CYCLE,REPAYMENT_TYPE,LOAN_QUOTA_MIN,LOAN_QUOTA_MAX,INTEREST_RATE_TYPE,GUARANTEE_REQUIRED,APPLY_NUM,FANGKUAN_NUM,ID,HOUSE_REGISTER,B

17、USINESS_LICENSE,LEGAL_PERSON,MARRIED,CAR,INCOME,HOUSE,TAX,SOCIALSECURITY,LIFECOST,EARLY_REPAYMENT,PENALTY,APPLICATION_TYPE,APPLICATION_TERM,APPLICATION_LIMIT,OP_TYPE,COL_TYPE,USER_LOAN_EXPERIENCE,USER_HAS_CAR,QID77,CASH_RECEIPTS,USER_INCOME_BY_CARD,USER_WORK_PERIOD,USER_AGE, QID123,QID122,QID135,QID

18、93,QID145,QID133,QID78,COL_HAS_MORTGAGE,SPAM_SCORE,SOURCE,PVFROM DATA.TOTAL;QUIT;/*對(duì)相關(guān)的字段進(jìn)行處理PROC SQL;TITLE 'COMBINITION'CREATE TABLE DATA.TOTAL5 ASSELECT USER_ID,PRODUCT_ID,DATE,TERM,LIMIT,RESULT,CITY_ID,BANK_ID,PRODUCT_TYPE,GUARANTEE_TYPE,LOAN_TERM_MIN,LOAN_TERM_MAX,LOAN_TERM_TYPE,DECISION

19、_CYCLE,REPAYMENT_TYPE,LOAN_QUOTA_MIN,LOAN_QUOTA_MAX,INTEREST_RATE_TYPE,GUARANTEE_REQUIRED,APPLY_NUM,FANGKUAN_NUM,ID,HOUSE_REGISTER,BUSINESS_LICENSE,LEGAL_PERSON,MARRIED,CAR,INCOME,HOUSE,TAX,SOCIALSECURITY,LIFECOST,APPLICATION_TYPE,APPLICATION_TERM,APPLICATION_LIMIT,OP_TYPE,COL_TYPE,USER_LOAN_EXPERIE

20、NCE,USER_HAS_CAR,QID77,CASH_RECEIPTS,USER_INCOME_BY_CARD,USER_WORK_PERIOD,USER_AGE, QID123,QID122,QID135,QID93,QID145,QID133,QID78,COL_HAS_MORTGAGE,SPAM_SCORE,SOURCE,PV,CASE WHEN EARLY_REPAYMENT=0 THEN '0' WHEN EARLY_REPAYMENT=1 AND PENALTY=1 THEN '2' WHEN EARLY_REPAYMENT=1 AND PENAL

21、TY=0 THEN '1' WHEN EARLY_REPAYMENT=. OR PENALTY=. THEN '3' END AS EARLY_REPAYFROM DATA.TOTAL3;QUIT;/*對(duì)AGE缺失的記錄進(jìn)行刪除DATA DATA.TOTAL6;SET DATA.TOTAL5;RUN;PROC SQL;TITLE 'DELETE'DELETE FROM DATA.TOTAL6 WHERE USER_AGE=''QUIT;解釋一下,這里做了處理以后的字段EARLY_REPAY,取值為0的時(shí)候表示不可以提前還款,取值為

22、1的時(shí)候表示可以提前還款且還款不需要支付違約金,取值為2的時(shí)候表示可以提前還款且還款需要支付違約金,取值為3的時(shí)候表示EARLY_REPAYMENT=. OR PENALTY=.。同時(shí),我們也在這里刪除了一些對(duì)后續(xù)分析無(wú)意義的字段,比如說(shuō)修改次數(shù)等,方便后續(xù)分析。處理完后的數(shù)據(jù)集為TOTAL5,將其導(dǎo)入EM進(jìn)行處理。3.1.2導(dǎo)入EM后的處理整體項(xiàng)目圖: 數(shù)據(jù)導(dǎo)入:TOTAL5。在INPUT 后加上一個(gè)INSIGHT節(jié)點(diǎn),觀察TOTAL5。 數(shù)據(jù)預(yù)處理:在INPUT SOURCE節(jié)點(diǎn)后一共增加了四個(gè)預(yù)處理節(jié)點(diǎn)。 ASAMPLE通過(guò)觀察數(shù)據(jù),發(fā)現(xiàn)到及時(shí)是處理后的TOTAL5,也是一個(gè)十分龐大的數(shù)

23、據(jù)集,所含的記錄有79萬(wàn)條之多,由于我們的電腦配置有限,處理如此龐大的數(shù)據(jù)是十分困難的,所以,我們?cè)谶@里使用了抽樣節(jié)點(diǎn),抽取1%的樣本作為所要處理的數(shù)據(jù)。在這里,我們使用的是分層抽樣,用RESULT為0和1時(shí)分別抽樣。 BPARTITION將數(shù)據(jù)按照6:4的比例劃分訓(xùn)練集和驗(yàn)證集,方便后續(xù)分析建模與驗(yàn)證。CREPLACEMENTREPLACEMENT節(jié)點(diǎn)是用來(lái)對(duì)缺失值進(jìn)行處理的。 我們對(duì)INTERVAL的變量采用決策樹的方法,對(duì)CLASS的變量采用眾數(shù)的方法。DTRAMSFORM通過(guò)對(duì)數(shù)據(jù)分布的觀察,發(fā)現(xiàn)大多數(shù)的數(shù)據(jù)都是分布不均勻,不利于后續(xù)探查,所以我們對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,根據(jù)最優(yōu)原則,所以采用

24、轉(zhuǎn)化方法如下: 3.2數(shù)據(jù)建模過(guò)程決策樹A.TREE 1由于在決策樹的建模過(guò)程中,缺失值的影響很小,所以直接在分層后的節(jié)點(diǎn)后加上TREE節(jié)點(diǎn),建立模型TREE1。通過(guò)多次參數(shù)探查,最后得到相對(duì)較好的一組參數(shù)。具體參數(shù)設(shè)置如下: B.TREE 2在經(jīng)過(guò)討論后,發(fā)現(xiàn)雖然在決策樹的建模過(guò)程中,缺失值的影響很小,但這里指的是訓(xùn)練集,驗(yàn)證集的缺失仍會(huì)對(duì)后續(xù)的建模產(chǎn)生影響,所以在REPLACEMENT節(jié)點(diǎn)后,添加TREE節(jié)點(diǎn),建立模型TREE 2。通過(guò)多次參數(shù)探查,最后得到相對(duì)較好的一組參數(shù)。具體參數(shù)設(shè)置如下: C.TREE3在TRANSFORM節(jié)點(diǎn)后加上TREE節(jié)點(diǎn),建立模型TREE3。通過(guò)多次參數(shù)探查

25、,最后得到相對(duì)較好的一組參數(shù)。具體參數(shù)設(shè)置如下: D.提升圖比較 最后發(fā)現(xiàn)TREE2的效果最好。3.3數(shù)據(jù)建模過(guò)程神經(jīng)網(wǎng)絡(luò) A.NET1在TRANSFORM后添加NET節(jié)點(diǎn),建立模型NET1。經(jīng)過(guò)探查后,發(fā)現(xiàn)設(shè)置隱藏層為3效果最好。 B.NET 2在REPLACEMENT后直接添加NET節(jié)點(diǎn),建立模型。經(jīng)過(guò)探查后,發(fā)現(xiàn)設(shè)置隱藏層為3效果最好。C.提升圖比對(duì)NET 2的效果更好。3.4數(shù)據(jù)建模過(guò)程回歸A.REG1在transform后添加reg節(jié)點(diǎn),建立模型reg1。參數(shù)設(shè)置如下: B.REG2在replacement后添加reg節(jié)點(diǎn),建立模型reg2。參數(shù)設(shè)置同上。C.提升圖比對(duì)Reg2的效果

26、更好。 3.5最佳模型選擇在所有建模節(jié)點(diǎn)后添加assessment節(jié)點(diǎn),查看提升圖。 發(fā)現(xiàn)最好的模型是NET1。在第一個(gè)十分位點(diǎn),它的精度已經(jīng)達(dá)到了51.62%。見下圖:4.結(jié)果分析與應(yīng)用經(jīng)過(guò)多次對(duì)不同方法的試探和調(diào)整,并對(duì)所有結(jié)果進(jìn)行評(píng)估后,我們得到了一個(gè)相對(duì)最佳模型:模型名稱為net1的神經(jīng)網(wǎng)絡(luò)模型。下圖為net1的lift chart:與其他模型比較,在第一個(gè)十分位距上即前10%中,net1累計(jì)的百分比最高,大約51.6%的客戶申請(qǐng)貸款的批核結(jié)果為同意,保持著較高的數(shù)值,或陡峭的曲線;前20%中被同意申請(qǐng)貸款占比略大于35%,相對(duì)于基線一個(gè)隨機(jī)抽樣樣本中批核結(jié)果為同意的客戶的預(yù)計(jì)百分比,

27、net1有了顯著的提高,偏離baseline model足夠遠(yuǎn),然后曲線呈逐步下滑趨勢(shì),說(shuō)明該模型是可用且有效的。Net1模型的權(quán)重如下圖:通過(guò)試探,我們將隱藏層數(shù)設(shè)為3 ,得到的模型效果最好。該圖顯示了每一個(gè)變量到每一個(gè)隱藏層的連接權(quán)重,神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的隱藏層執(zhí)行非線性運(yùn)算,使其功能比較強(qiáng)大,通過(guò)調(diào)整權(quán)重來(lái)建立不同的模型,減小誤差。Net1在不同迭代次數(shù)下的訓(xùn)練集和驗(yàn)證集的誤差圖如下:該模型在迭代次數(shù)接近10時(shí),誤差有了顯著降低,訓(xùn)練集的誤差理論上比驗(yàn)證集的誤差小,擬合效果較好,訓(xùn)練時(shí)間較短。對(duì)net1模型加insight節(jié)點(diǎn)進(jìn)行觀察分析:模型訓(xùn)練結(jié)果中的數(shù)據(jù)集多了一些變量,包括同意貸款申請(qǐng)的

28、概率、否定貸款申請(qǐng)的概率等,它通過(guò)內(nèi)部計(jì)算,得到了每個(gè)用戶id對(duì)應(yīng)的可能結(jié)果。在三千多條觀測(cè)的驗(yàn)證集中,大約有13.6%的客戶能成功申請(qǐng)到貸款,即批核結(jié)果為同意;跟最初的訓(xùn)練樣本比較,數(shù)據(jù)占比并無(wú)太大差別。就該項(xiàng)目需要解決的問(wèn)題而言,根據(jù)提供的用戶信息和貸款產(chǎn)品信息數(shù)據(jù)建立最佳模型,預(yù)測(cè)用于測(cè)試的訂單的批核結(jié)果,net1作為目前最好的統(tǒng)計(jì)模型,可以用測(cè)試集對(duì)其進(jìn)行利用。在sas em中部分使用步驟如下:通俗地說(shuō)要給這個(gè)最佳模型“打分”,使用score節(jié)點(diǎn)的評(píng)分代碼,對(duì)評(píng)分?jǐn)?shù)據(jù)集增加預(yù)測(cè)信息。把新的訂單測(cè)試集與相關(guān)的貸款產(chǎn)品信息連接后,用net1模型去預(yù)測(cè),哪些客戶可能申請(qǐng)到貸款,哪些可能會(huì)被拒

29、絕。每一個(gè)用戶對(duì)應(yīng)的觀測(cè)值(部分)如下:測(cè)試集中大約有9.5%的客戶申請(qǐng)貸款的要求會(huì)被同意,其他客戶申請(qǐng)可能會(huì)被否定。Insight的結(jié)果表給出了每個(gè)用戶申請(qǐng)審批的預(yù)測(cè)結(jié)果,并顯示出result=1即批核結(jié)果為同意的客戶的id等相關(guān)個(gè)人信息和貸款產(chǎn)品信息,由于該數(shù)據(jù)經(jīng)過(guò)特殊處理,申請(qǐng)被同意的客戶的部分特征(如:id、年齡、職業(yè)等)不具有太高的可信度和說(shuō)服力,不足以形成一個(gè)直接可觀的特征群,但是本項(xiàng)目主要解決問(wèn)題的方向是預(yù)測(cè)一批客戶的貸款申請(qǐng)的結(jié)果,根據(jù)模型,得出每一個(gè)user_id對(duì)應(yīng)的result為0還是1,有且只有兩種可能,即同意申請(qǐng)或否定申請(qǐng),因此,利用net1神經(jīng)網(wǎng)絡(luò)模型生成最終的預(yù)測(cè)

30、結(jié)果即可。不僅是此次用于測(cè)試的訂單數(shù)據(jù)集,如果通過(guò)審核和檢測(cè),該模型確實(shí)良好,那么之后所有在融360平臺(tái)上填寫的貸款申請(qǐng)都可利用net1神經(jīng)網(wǎng)絡(luò)模型提前進(jìn)行預(yù)測(cè)金融機(jī)構(gòu)是否會(huì)對(duì)某一申請(qǐng)批核通過(guò)。5.項(xiàng)目評(píng)估與收獲5.1項(xiàng)目改進(jìn)(1)待挖掘的數(shù)據(jù)的完整性和精確度需要提高。究其根本,一個(gè)數(shù)據(jù)挖掘項(xiàng)目的成功與否,很大程度上取決于待挖掘的數(shù)據(jù)集的完整性和精確度,即好的數(shù)據(jù)是成功的數(shù)據(jù)挖掘項(xiàng)目的起點(diǎn)。而我們這次項(xiàng)目的數(shù)據(jù),由于在獲取之前就因?yàn)樯婕暗狡渌说碾[私而被處理過(guò),且缺失值過(guò)多,這使得數(shù)據(jù)的完整性和精確度大大降低,嚴(yán)重影響了我們后續(xù)的挖掘工作。(2)對(duì)數(shù)據(jù)的預(yù)處理與清洗需要更為細(xì)致。在本次的數(shù)據(jù)挖

31、掘項(xiàng)目中,源數(shù)據(jù)共有4張表,每一張表都有很多變量,而我們根據(jù)userid和productid將四張表合并為一張表后,觀測(cè)數(shù)目達(dá)到了79萬(wàn)之多。如何對(duì)這79萬(wàn)的龐大數(shù)據(jù)進(jìn)行科學(xué)合理的預(yù)處理和清洗給我們提出了一個(gè)巨大的挑戰(zhàn)。經(jīng)過(guò)查閱資料和結(jié)合了我們自己的判斷后,我們篩選出了一部分對(duì)結(jié)果影響作用較大的變量來(lái)構(gòu)建模型。在挑選構(gòu)建模型的變量的過(guò)程中,無(wú)可避免的存在疏忽和遺漏,變量的選擇不準(zhǔn)確可能在一定程度上對(duì)我們模型的有效性和準(zhǔn)確性施加影響。(3)對(duì)模型的解讀能力需要提升本次數(shù)據(jù)挖掘項(xiàng)目最終確定的最佳模型是神經(jīng)網(wǎng)絡(luò),而我們?cè)诘玫阶罴涯P秃?,缺乏?duì)最佳神經(jīng)網(wǎng)絡(luò)模型的解讀能力。確定神經(jīng)網(wǎng)絡(luò)為最佳模型的原因是

32、我們?cè)诮5倪^(guò)程中,經(jīng)過(guò)不停的試探修改后,根據(jù)提升圖來(lái)篩選出神經(jīng)網(wǎng)絡(luò)為最優(yōu)。可是在具體查看最佳神經(jīng)網(wǎng)絡(luò)模型的具體參數(shù)設(shè)置時(shí),我們卻缺乏對(duì)其進(jìn)行深入解讀的能力,這影響我們對(duì)該模型的再次改進(jìn)和將之應(yīng)用于新數(shù)據(jù)的可能性。5.2收獲通過(guò)本次數(shù)據(jù)挖掘項(xiàng)目分析,我們的一大收獲是對(duì)利用SAS em中的決策樹、回歸、神經(jīng)網(wǎng)絡(luò)來(lái)建立模型,從而對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)的過(guò)程有了更深的認(rèn)識(shí)與感觸。我們深深意識(shí)到,一個(gè)好的模型的建立并非一蹴而就,而是在不斷的試探過(guò)程中得到的。在試探的過(guò)程中,會(huì)出現(xiàn)各種各樣未曾預(yù)期的差錯(cuò),如我們這次的挖掘項(xiàng)目中有一個(gè)樹的結(jié)點(diǎn)在參數(shù)均設(shè)置無(wú)誤的情況下仍然報(bào)錯(cuò),致使程序無(wú)法正常運(yùn)行,這讓我們百思不得其解。最后迫于無(wú)奈,我們選擇了最為簡(jiǎn)單粗暴的方法,即刪除這

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論