




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 上市公司財務危機預警研究 張志敏提要 本文以a股上市公司作為研究對象,運用python中的sklearn模塊,以隨機森林算法對上市公司財務危機預警指標進行選取,并與依據顯著性相關性選取出的指標進行對比,找出兩者在指標選取上存在的差異,并依據選取的財務指標分別建立隨機森林模型;與此同時,還分別構建logistic回歸模型、svm支持向量機模型、決策樹模型,并進行展開比較。分析表明:充分利用隨機森林展開上市公司財務危機預警研究比傳統的方式更準確,更能夠精確預判上市公司財務危機。關鍵詞:特征遞歸消除;隨機森林;logistic回歸;財務危機預警:
2、f23 :a收錄日期:2020年7月2日一、引言近年來,我國a股市場每年都會出現許多被特殊處理的公司,且上市公司在資本市場上占有很重要的地位,因此,對上市公司的財務危機預警展開研究有著重要的戰(zhàn)略意義。上市公司作為推動經濟發(fā)展的重要主體,對其進行財務危機預警規(guī)避財務風險顯得尤為重要,出現財務危機既不利于公司的穩(wěn)定發(fā)展,還減少了經營管理者及投資人的合法利益,通過財務危機預警分析模型可以對公司財務展開預估,給扭轉財務危機局面提供充裕的空間,減少公司倒閉的概率。隨著機器學習算法、大數據、人工智能的發(fā)展,越來越多的學者將其引入到風險識別及危機預警中,并有研究表明機器學習算法在風險識別及危機預警方面具有較
3、大的優(yōu)勢。二、隨機森林概述隨機森林算法是有由leo breiman和adele cutler(2001)最早提出的,是一種集成學習算法,它將不同的決策樹進行組合,利用這種組合降低單一決策樹有可能帶來的片面性和判斷不準確性,它也是目前機器學習算法和數據挖掘算法最為熱門的研究領域之一。他的基本思想是:首先利用bootstrap重抽樣方法從n個原始訓練樣本中抽取n(n< p>本文會用到隨機森林的一大特點,即利用oob評估來評估模型的分類效果。所謂oob評估是指:當采用bootstrap重抽樣方法時,原始訓練樣本中每個樣本未被選取的(1-1/n)n,n表示訓練集樣本的個數。當n足夠大時,根
4、據重要極限的推到,(1-1/n)n將近似收斂于1/e36.8,這表示原始訓練集中會有將近37%的樣本不會出現在bootstrap樣本中,這些數據被稱為袋外數據。由于有接近37%的誤差不會出現在訓練集中,所以oob數據也可以起到測試集作用,檢驗模型預測效果。另外,本文還利用隨機森林模型的另一個特點變量重要性的度量來對原始變量做篩選,從而建立合理的指標體系。鑒于以上對隨機森林的介紹,本文建立基于隨機森林遺傳算法的財務危機預警模型。在已有文獻研究中,充分利用組合分類算法進行研究的學者還較少,而隨機森林作為一種集成學習算法,具有不易過擬合、善于處理高維度數據、對存在噪聲和缺失的樣本具有很好的魯棒性、具
5、有較高的預測精度等優(yōu)點。三、研究樣本、研究變量和研究設計(一)研究樣本。為保證數據的真實性和可靠性,所選數據全部來自于國泰安數據庫。以公司是否被特殊處理即是否被st及*st為標識,選取2019年首次被特殊處理的82家公司及19902019年上市以來從未被特殊處理過的2,859家公司為研究對象。由于企業(yè)在第t年被宣布st或者*st是由于公司在第t-1年及第t-2年財務上出現較差的情況,所以選用公司在第t-3年財務數據指標基礎上進行建模,當公司在2019年被特殊處理時賦值為1,否則賦值為0。即,選擇2,941家樣本公司在2016年所有可以獲取的財務數據指標進行建模。(二)研究變量。財務危機預警模型
6、包含兩個主要工作:一是從初始財務指標中篩選出危機預警指標,即存在財務危機的企業(yè)都含有怎樣的特征組合;二是進行預警模型算法的選擇。前者是對企業(yè)財務危機預警信息進行深層次的挖掘,后者是對財務危機預警算法技術的應用,兩者同時對企業(yè)財務危機預警產生影響。目前,危機預警理論還缺乏系統的理論支持,學者們對企業(yè)危機預警的研究大都是從可獲得的實際數據出發(fā),采用實際經驗進行研究討論,用試錯的方法,逐個考察變量的組合在實際訓練樣本數據中的體現,挑選出能夠突出判斷能力的變量組合來構建最終的預估分析模型。本文借鑒已有學者的研究,選取了能代表企業(yè)償債能力、經營能力、盈利能力、發(fā)展能力、企業(yè)現金流量、比率結構這六類指標下
7、29個具體的財務指標,具體變量如表1所示。(表1)(三)隨機森林模型的構建。分析預警模型構建之前應該對于數據展開預處理,包括異樣系數缺失系數的處理、訓練樣本不太平衡的處理、經濟指標正態(tài)性檢驗、相關性顯著性檢驗。1、樣本缺失值異常值的處理。對于缺失值,一般可以選擇用這一列數據的“平均值”、“中位數”、“眾數”進行填補,也可以對缺失數據進行整行刪除。但由于本文是以機器學習算法進行建模,是在大數據的基礎上進行建模,如果樣本量過少,會造成模型精度的降低,所以對于缺失值,本文沒有進行刪除,而是以樣本均值對缺失值進行填補。2、類別不均衡的處理。由于2019年首次被st公司只有82家,只占所選樣本的2.8%
8、,出現數據偏斜,即樣本不均衡。樣本不均衡會造成樣本量低的分類所包含的特征過少,并很難從中提取規(guī)律,即使得到分類模型,也很容易產生過度依賴于有限的數據而導致過擬合的問題,當模型應用到新的數據上時,模型的準確性將會很差。本文通過利用python中的smote算法對樣本不均衡進行過采樣處理。smote算法的基本原理為:合成新的少數類樣本,合成的策略是對少數類樣本a,從它的最近鄰中隨機選一個樣本b,然后在a、b之間的連線上隨機選一點作為新合成的少數類樣本。進行smote處理后的樣本分布如圖2。(圖1、圖2)3、隨機森林模型的構建。在構建危機預警分析模型時,不能將所選用的所有初始財務指標均作為預警模型的
9、輸入變量,倘若初始指標很多,反而可能由于指標間的相關關系等問題降低模型的預測性能。特征遞歸消除的隨機森林算法(rfe-rf)把需要的特征集合初始化為整個數據集合,每次去掉一個排序準則分數最小的數據,直到取得最后的特征集,由此可知rfe-rf應是一個基于rf的最大間隔原理的序列后向選擇算法。在本文中,首先根據各指標對模型的貢獻程度進行排序,可以看到排在最前面的指標即貢獻度最大的指標為x27全部現金回收率,排在最末尾的是x16營業(yè)利潤率。然后,我們利用python中的序列后向選擇算法逐一刪除指標,并計算出在該指標下的模型精確度。由圖3我們可以看出,當隨機森林的輸入變量為9個時,此時所挑選的指標最少
10、且模型的精確度較高,由圖4我們可以看出,每個指標對上市公司危機預警的重要程度及重要性排名。(圖3、圖4)本文選取圖4中排名前9位的財務變量作為隨機森林的輸入變量,分別為x27、x5、x28、x4、x13、x26、x8、x24、x6,模型的輸出結果為0.95979,說明他的識別精度為0.95979。4、進一步檢驗。為了進一步驗證隨機森林在進行上市公司財務危機預警時的準確性,本文又進行了進一步的研究。在選擇企業(yè)財務預警指標時選用傳統的相關性顯著性方式選取指標,比較其與充分利用隨機森林展開指標選取時的差異,進而進一步驗證隨機森林的精確性。(1)財務指標的正態(tài)性檢驗。在展開顯著檢驗之前,應當考察樣本的
11、分布情況,并以此來確定使用哪種方法來進行預警指標的差異顯著性檢驗。本文使用算法來做k-s檢驗,來判斷各個財務指標是否服從正態(tài)分布,檢驗結果在所有的p值均小于0.05,說明所有的財務指標均不服從正態(tài)分布。對于不遵從正態(tài)分布的財務指標的差異顯著性檢驗應當選用非參數的檢驗方法。(2)財務指標的差異顯著性檢驗。選用mannwhitneyu檢驗法,對2個獨立樣本進行非參數檢驗。找出對于分辨st公司和非st公司有貢獻的財務指標。檢驗結果如表2所示??梢钥闯?,財務指標x1、x2、x3、x4、x5、x6、x7、x8、x10、x12、x14、x15、x16、x23、x24、x26、x28的p值均小于0.05,通
12、過了顯著性檢驗,剩余其他指標均予以剔除。(表2)(3)財務指標的相關性顯著性檢驗。通過mannwhitneyu顯著性檢驗的指標可能存在相關關系,且本文的財務指標數據均不服從正態(tài)分布,因而本文選擇用斯皮爾曼相關性檢驗方法。通過檢驗,發(fā)現x1、x2、x3具有高度關聯性,去掉x2、x3;x4、x5具有高度關聯性,去掉x5;x7、x8具有高度關聯性,x8、x10具有高度關聯性,去掉x8;x12、x14、x15、x16具有高度關聯性,去掉x1、x15、x16;x23、x26具有高度關聯性,去掉x23。最后剩余的指標為x1、x4、x6、x7、x10、x12、x24、x26、x28。其中,x1、x4為償債能
13、力指標,x6、x7、x10為經營能力指標,x12為盈利能力指標,x24、x26為發(fā)展能力指標,x28為企業(yè)的比率結構。(4)隨機森林模型的構建。將通過顯著顯著性檢驗的指標輸入到隨機森林中建模,得到模型的識別精度為0.94732。將此結果與利用隨機森林的遞歸特征指標篩選法篩選的指標的建模結果進行比較,發(fā)現利用隨機森林篩選出的指標識別率更高些,而且利用隨機森林篩選特征更簡單些。四、模型比較現階段,關于危機預警的分析模型已有很多,但是以往的分析模型一多半采納的是多元線性判斷分析模型,少部分開始采納機器學習算法分析模型,如決策樹模型、支持向量機模型等,因此為了進一步驗證隨機森林在危機預警識別上的優(yōu)勢及
14、準確性,本文又分別建立了logistic、svm向量機、決策樹模型。并比較各個模型在accuracy_score、precision_score、recall_score、f1_score、auc_score上的差異,其中accuracy_score表示模型精度,precision_score表示模型準確率,recall_score表示模型召回率,f1_score表示模型f1得分,auc_score表示roc曲線下面積。(表3)表3結果表明,在所有財務指標度量中,隨機森林也體現出較高的精確性,從而意味著隨機森林分析模型可以將盡量多的存有企業(yè)財務經營風險的公司找出來。五、結論本文的財務危機預警是
15、針對我國a股市場所有上市公司開展的,在借鑒已有學者研究的基礎上,從償債能力、發(fā)展能力、經營能力、每股指標、盈利能力及比率結構這6個方面構建財務危機預警指標,并采用隨機森林算法構建財務危機預警模型。一方面指標的選用對于企業(yè)財務危機預警具有至關重要的影響,本文統計已有研討文獻中選用頻次較高的辦法,一定程度上可以提升企業(yè)財務預警指標的可靠性。與此同時,研討中不但考慮到預警的正確率,并且重點剖析了特性指標的選用,得知隨機森林在妥善處理高維數據指標上具備很大的優(yōu)勢,而且通過實證得知隨機森林遺傳算法比logistic回歸、svm方程機、決策樹分析模型更適合展開危機預警,原因是隨機森林遺傳算法是一種集成學習遺傳算法,在對我國所有上市公司樣本展開危機預警時,不但能夠確保不會預警過分。另一方面對處于危機中的公司有較高的準確率。研究表明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證券登記、結算機構服務項目規(guī)劃申請報告模板
- 2025年壓力容器檢驗員資格考試試卷:壓力容器檢驗員考試輔導教材試題
- 班級里的英雄事跡記人記事作文(8篇)
- 2025年北京市公安機關公務員錄用考試面試技巧試題
- 專業(yè)資格證書證明書專業(yè)資格證書名稱(6篇)
- 2025年電子商務師(職業(yè)資格精英)考試試卷
- 成長路上的一堂課議論文14篇
- 成長的足跡演講比賽演講稿類作文(13篇)
- 2025年初中化學九年級上冊期中測試卷化學實驗原理分析
- 2025年貴金屬首飾與寶玉石檢測員(高級)考試試卷實戰(zhàn)案例分析與解答
- 卓越績效評價準則概述(專業(yè)性權威性實用性)
- GB/T 29894-2013木材鑒別方法通則
- GB 1886.20-2016食品安全國家標準食品添加劑氫氧化鈉
- 國資進場交易工作流程講座
- 當代法律英語翻譯全
- 制冷操作證培訓教材制冷與空調設備運行操作作業(yè)培訓教程課件
- 湖南省長沙市望城區(qū)2020-2021學年八年級下學期期末考試歷史試卷
- 下承式鋼桁梁橋結構設計及優(yōu)化 (跨度64m)
- DB32-T 2665-2014機動車維修費用結算規(guī)范-(高清現行)
- “麥語言”函數手冊
- 外協(外委)單位作業(yè)安全管理制度(附安全告知書)
評論
0/150
提交評論