




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、電信業(yè)客戶分類(多項Logistic回歸)Logistic回歸是一種統(tǒng)計方法,它可根據輸入字段的值對記錄進行分類。這種 統(tǒng)計方法類似于線性回歸,但是它使用的是分類目標字段而非數值目標字段。例如,假設某個電信服務提供商已按照服務使用模式對其客戶群進行了劃分,將 這些客戶分類到四個組中。如果可使用人口數據預測組成員,則可以為單個預期 客戶定制服務使用模式。此示例使用名為telco_custcat.str的流,此流引用名為telco.sav的數據文 件??梢詮娜魏蜟lementine Client安裝軟件的Demos目錄下找到這些文件, 也可以通過從Windows的“開始”菜單下選擇Start Al
2、l Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 telco_custcat.str 位于 Classification_Module 目錄下。本示例將焦點集中于使用人口數據預測使用模式。目標字段custcat有四個可 能的值對應于四個客戶組,如下所示:值標簽1基本服務2電子服務3附加服務4全套服務因為目標含有多個類別,因此將使用多項模型。如果目標含有兩個截然不同的分 類,例如是/否,真/假,或流失/保持,則會轉而創(chuàng)建二項模型。請參閱電信 客戶流失(二項 Logistic 回歸)詳細信息。在Demos文件夾中添加指向telco.sav的SPSS文
3、件源節(jié)點。添加一個用來定義字段的類型節(jié)點,讀取值,確保所有類型均設置正確。例 如,可以將值為0和1的大多數字段視為標志字段,但對于某些字段(如性別), 將其視為具有兩個值的集合字段更為準確。提示:要更改具有相似值(如0/1)的多個字段,請單擊值列標題,以便按值對 字段進行排序,然后按住Shift鍵的同時使用鼠標或箭頭鍵選擇所有要更改的 字段。然后您可以右鍵單擊這些選擇,以更改所選字段的類型或其他特性。因為將性別視為集合比視為標志更精確一些,所以請單擊其“類型”值,然后將 其更改為集合。將客戶類別custcat字段的方向設置為輸出。所有其他字段的方向都應設置 為輸入。因為此示例主要關注人口統(tǒng)計,
4、所以請使用過濾節(jié)點以選取相關字段(地區(qū)、年 齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。 其他字段可以排除在此分析之外。callidX廣callidcallwaitcallwaitforwardforwardconferconferebillebillloglonglaglonglogtoll*lagtolllogequi*lagequilogcard*lagcardlogwirelagwireInincIninccusttatcustcatchurn*4churn(另外,您可以將這些字段的方向更改為無,而不要排除這些字段,或者選擇要 在建模節(jié)點中使用的字段。)在
5、Logistic節(jié)點上,單擊模型選項卡并選擇逐步法。選中多項、主效應和 將常量納入方程式。將目標的底數類別保留為1。模型將對其他客戶與預訂基本服務的客戶進行比較。在“專家”選項卡上,選中專家模式,選中輸出,然后在“高級輸出”對話 框中選中分類表。運行節(jié)點以生成模型,該模型會添加到右上角的模型選項板中。要查看其詳 細信息,請在生成的模型節(jié)點上用右鍵單擊并選擇瀏覽?!澳P汀边x項卡中顯示了用于將記錄分配到目標字段的每個類別的方程式。因為 共有四個可能的類別,而其中之一是底數類別,因此選項卡中有三個方程式,其 中類別3表示附加服務,等等。custca-tC3文件。生成始 園圓倒厘至容全部折疊廠部展開回
6、I|-卜等式用于510.021 57 * address 十0.5556 *ed=1 +071 85 *ed=2 +0.6729 *ed=3 +M 0.4547 *ed=4 + 0.051 33 * employ + 0.03447 * reside +|瀏覽模型皓第+ -1.551-等式用于20.03685 * address +-2.17*ed=1 +-1.508 ed=2 +-0.9709 *ed=3 +-0.6764 *ed=4 +0.02635 + employe 0.1 477 * reside + + 0.049011+等式用于4模型匯總設置注解確定。)職消(C)應用模型匯總設置
7、注解確定。)職消(C)應用重置“匯總”選項卡顯示了(包括其他內容)模型中使用的目標字段和輸入字段(預 測變量字段)。注意,這些字段是根據逐步法實際選擇出來的字段,不是為進行 分析而提交的完整列表。c u.st cat13文件(D 打生成淄I司赤全部折疊C2) |明 全部展開舊:“白勿析-3另段I-&目標 custcat-&輸入?羅 address:/ ed歡 employ羅 reside【+卜口構建設置田口訓孤根要“高級”選項卡上顯示的項目取決于在建模節(jié)點的“高級輸出”對話框中選中 的選項。其中通常顯示的一個項目是觀測值處理概要,它顯示了落在目標字段每 個類別中的記錄的百分比。這將生成一個空模
8、型用作比較的基礎。在不構建使用 預測變量的模型的情況下,最好的預計結果可能是將所有的客戶分配到最普通的組3 (附加服務組)中。如果基于訓練數據將所有客戶分配到空模型,則得到的正確率將是281/1000 = 28.1%?!案呒墶边x項卡還包括其他信息,使您能夠檢查模型的預測。然后,可custcat將這些預測與空模型的結果相比,以查看使用此數據的模型的執(zhí)行效果。Nominal RegressionPercentage23.6%12文件吏)生成囪26.5%28.1H32.2%regian33.4%高綴莊解34 一 custcat將這些預測與空模型的結果相比,以查看使用此數據的模型的執(zhí)行效果。Nomin
9、al RegressionPercentage23.6%12文件吏)生成囪26.5%28.1H32.2%regian33.4%高綴莊解34 一 4%嘛定(Q)取消(C)應用四重置(E)在“高級”選項卡底部,分類表顯示了此模型的結果,其正確率為39.9%。特別 是,此模型在識別全套服務客戶(類別4)時表現(xiàn)優(yōu)異,而在識別電子服務客戶 (類別2)時表現(xiàn)很差。如果想提高預測類別2中客戶的準確性,可能需要再找到一個預測變量來識別此類客戶。13 custcat12苴件0生成圈凰1*111111a.參專類別是:I.oaab,因為此手數冗余,所以將耳設為零-分美觀察值預測值1.002.003.004.00百分
10、此校正1.001228756145.P%2.00581058814.6%8981335147.3%4.0047124313456.8%總百分比31.6%3.8%31.9%32.7%39.9%模型匯總高皺注解確定(0)依賴于您所期望的預測,模型可充分滿足您的需求。例如,如果您對識別類別2 中的客戶并不關心,那么該模型的準確性足以滿足需求。這種情況可能是,電子 服務僅是一種為吸引顧客而出售且獲利微薄的產品。例如,如果投資的最高回報來自于落在類別3或類別4中的客戶,則該模型能 夠提供所需的信息。當構建模型時,可使用“高級輸出”對話框中的大量診斷信息來評估模型實際擬 合數據的程度。請參閱Logisti
11、c回歸模型高級輸出詳細信息。Clementine中 用到的建模方法的數據原理的說明在Clementine算法指南中列出,該指南 位于任何Clementine Client安裝軟件的文檔目錄下;也可以通過從Windows 的“開始”菜單下選擇 Start All Programs SPSS Clementine 11.1 文 檔來訪問此文檔。還請注意,這些結果僅基于訓練數據產生。要評估模型對實際應用中的其他數據 的擬合程度,可使用分區(qū)節(jié)點保留部分記錄,以便于測試和驗證。請參閱分區(qū) 節(jié)點詳細信息。電信業(yè)客戶分類(二項Logistic回歸)Logistic回歸是一種統(tǒng)計方法,它可根據輸入字段的值對記
12、錄進行分類。這種 統(tǒng)計方法類似于線性回歸,但是它使用的是分類目標字段而非數值目標字段。此示例使用名為telco_churn.str的流,此流引用名為telco.sav的數據文件。 可以從任何Clementine Client安裝軟件的Demos目錄下找到這些文件,也可 以通過從Windows的“開始”菜單下選擇Start All Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 telco_churn.str 位于 Classification_Module 目錄下。例如,假設某個電信服務提供商非常關心流失到競爭對于那里的客戶數。如果可 以使用服務使
13、用數據預測有可能轉移到其他提供商的客戶,則可通過定制服務使 用數據來盡可能多地保留這些客戶。本示例將焦點集中于利用使用數據預測客戶的丟失(流失)。因為目標含有兩個 截然不同的類別,因此將使用二項模型。如果目標中含有多個類別,則會轉而創(chuàng) 建多項模型。請參閱電信業(yè)客戶分類(多項Logistic回歸)詳細信息。在Demos文件夾中添加指向telco.sav的SPSS文件源節(jié)點。添加類型節(jié)點以定義字段,讀取值,確保所有類型都已正確設置。例如,值 為0和1的大多數字段都可看作是標志字段,但對于某些字段,例如性別,則 將其看作是含有兩個值的集合字段會更準確些。53 叵叵I 、牌、值ififWS涪隔所有佰g
14、o- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. I53 叵叵I 、牌、值ififWS涪隔所有佰go- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. In .bi1/D1/01/D1/D10.2,91 9、I國 to DI mon 混 equipmon 澎 cardmon VKlremDn 念 longten tcdllen cqulsteri 憊 carcften 澎 wirete
15、n 0 mullllne 0 voltepagr O inlernetD0.77Y0.0.109.250.0.111.95 9.7257.E.0.0.59-16.0IO.D.5028.65I 0,751 5.DO.DJ:5.:;5|1/0canidI/O1/D1/D!/:查看當前手歆蘭看未侵用的字段設置髡型I榕式I注藉確定口) 職謂。)因為將性別看作集合而不是標志會更準確,所以可單擊該字段的類型值并將其更 改為集合。將流失字段的類型設置為標志,并將其方向設置為輸出。所有其他字段的方 向應設置為輸入。將特征選擇節(jié)點添加到SPSS文件節(jié)點并運行。通過使用特征選擇節(jié)點,對于不能為預測變量/目標之間的
16、關系添加任何有用信 息的預測變量或數據,可以將其刪除。將模型結果節(jié)點放入流程區(qū),雙擊,從生成的模型節(jié)點中創(chuàng)建過濾節(jié)點。churn13支件(E)o生成圈畫回回目回o建模節(jié)點模型至選項拔姻回口匝秩 過濾。,秩J重要性回1 tenure 妙連續(xù)1.0回 m2 禽 I叫Icing ,連續(xù)|-| rd 1 1 I haI Ii1 1.0-1 n不是telco.sav文件中的所有數據都對預測客戶 流失有用??梢允褂眠^濾器僅選擇被認為很重要的 數據來用作預測變量。在“生成過濾”對話框中,選擇所有標記的字段: 重要并單擊確定。將生成過濾節(jié)點附加到類型節(jié)點。將數據審核節(jié)點附加到生成過濾節(jié)點,然后執(zhí) 行數據審核節(jié)
17、點。在“數據審核”瀏覽器的“質量”選項卡上,單擊%完成列以便按數值升序 順序對此列進行排序。這樣就可以識別所有含有大量缺失數據的字段;在本示例 中,唯一需要修改的字段是logtoll,其完成值比例小于50%。在logtoll的歸因于缺失列中,單擊指定。對于歸因條件,選擇空白值和Null值。對于固定為,選擇平均值??跉w因設置岡字段:lei gtcill 存儲類型:碾實數字段:lei gtcill 存儲類型:碾實數歸因方法:選擇平均值可確保歸因值不會反過來影響總數據中所有值的平均值。在“數據審核”瀏覽器的“質量”選項卡上,生成缺失值超節(jié)點。為完成此 操作,可從菜單中選擇以下項:生成缺失值超節(jié)點在“
18、缺失值超節(jié)點”對話框中,將樣本大小增加到50%,然后單擊確定。此時超節(jié)點將顯示在流工作區(qū)中,其標題為:缺失值歸因。將超節(jié)點附加到過濾節(jié)點上。將Logistic節(jié)點添加到超節(jié)點。在Logistic節(jié)點上,單擊“模型”選項卡并選擇二項過程。在二項過程區(qū)域, 選擇前進法。在“專家”選項卡上,選擇專家模式,然后單擊輸出。此時顯示“高級輸出” 對話框。在“高級輸出”對話框中,選擇“在每個步驟”作為顯示類型。選擇迭代歷史 和參數估計,然后單擊確定。Logistic回歸:高縝第出15生成畫倒|E: 樣全部折疊%全部展開舊?B分析-目標 39 churn-3輸入 疹 tenure 疥 employP c eq
19、uip? callcard 疥 cardmon voice internet歲 Ininc+ 口構建設置 口訓緣概要匯總高級注解“匯總”選項卡顯示了(包括其他內容)模型中使用的目標字段和輸入字段(預 測變量字段)。注意,這些字段是根據前進法實際選擇出來的字段,不是為進行 分析而提交的完整列表?!案呒墶边x項卡上顯示的項目取決于在Logistic節(jié)點的“高級輸出”對話框 中選中的選項。其中通常顯示的一個項目是觀測值處理概要,它顯示了包括在分 析中的記錄數及百分比。此外,在此匯總中還列出了其中有一個或多個輸入字段 不可用的缺失觀測值的數目(如果有的話),及所有未選定的觀測值數。向下滾動觀測值處理概要以顯示塊0下的分類表:起始塊。開始使用前進逐步法時會有一個空模型(即,沒有預測變量的模型),可將此空 模型用作與最終構建的模型進行比較的基礎??漳P桶闯R?guī)將所有值預測為0, 因此空模型的準確性為72.6%,這僅僅是因為已正確預測到有726個沒有流失 的客戶。但是,根本沒有正確預測到已流失的客戶?,F(xiàn)在向下滾動以顯示塊1(方法二前進逐步)下的分類表。此分類表顯示了模型在每個步驟中添加的預測變量。在第一個步驟中(在僅使用 了一個預測變量之后),模型預測流失的準確性就已從0.0%增加到29.9%。確定(口)觀演值簡測值churn百分比校正.001.00步驟1.00砌58P2.0murn1.0019
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高效證明教育記錄可追溯性與合規(guī)性研究
- 多模態(tài)生物技術與行業(yè)深度融合展望
- 廣告制作過程中的團隊協(xié)作與項目管理技巧的分享
- 2025至2030中國脂肪酸乙氧基化物行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 新時代藥物制劑技術的發(fā)展與應用研究
- 2025至2030中國育亨賓行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國美藤果油行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國細胞培養(yǎng)基行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國線路板行業(yè)市場深度調研及發(fā)展前景與投資報告
- 人工智能在能源管理中的應用
- 領導干部報告?zhèn)€人有關事項檢討14篇
- 計算機組成原理(本全)白中英課件
- 2023中國專利獎申報實務
- 常見骨關節(jié)疾病的評定技術-肩關節(jié)周圍炎的評定技術(康復評定技術課件)
- 益海嘉里(盤錦)糧油工業(yè)有限公司稻殼鍋爐可研報告
- JGJ106-2014 建筑基樁檢測技術規(guī)范
- 醫(yī)務科崗前培訓
- 共青團團課主題班會課件PPT模板PPT
- GB/T 8685-2008紡織品維護標簽規(guī)范符號法
- 合成氨行業(yè)發(fā)展現(xiàn)狀及趨勢分析
- 2022年徐聞縣(中小學、幼兒園)教師招聘筆試試題及答案解析
評論
0/150
提交評論