




已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分析一個存分析數(shù)據(jù)所想到的 出現(xiàn)的問題往往多于結論,吳喜之 閻潔 中國人民大學 統(tǒng)計學院 2004年12月,從教科書可期待什么?,整齊的數(shù)據(jù)(可能有些缺失值) 選好的意義明確的變量 完全確定的研究目標 按照一定的模型進行擬合 得到可合理解釋的結果和漂亮的輸出 根據(jù)理論(條件當然滿足)做出解釋 一切都令人滿意,但是在實際中,數(shù)據(jù)形式和想象的差別可能很大 可能很難摸清大量變量的內在含義和關系 研究目標經常無法事先確定 沒有任何現(xiàn)成的理論來確定什么模型合適 得到各種從統(tǒng)計或醫(yī)學均不易解釋的輸出 永遠不知數(shù)據(jù)是否滿足一些定理和方法的條件 還需面對許多醫(yī)學和統(tǒng)計的決策 這些決策很難說哪個“對”或“錯”,我們的數(shù)據(jù),一個鼻咽癌數(shù)據(jù)* 只有136個觀測值 其中僅有129個可用 一共41個變量,其中包括,性別;病人診斷資料,如原發(fā)癥狀、原發(fā)部位、病理分級、B癥狀有無、國際預兆指數(shù)、國際預兆指數(shù)合并B癥狀、淋巴結大小、腫瘤M分期、WHO得分、分化程度、腫瘤T分期、淋巴結單雙側、腫瘤TNM分期等指標;病人治療資料,如治療方案、化療方案、化療周期;病人治療近期效果資料,放療療效、化療療效、總初次治療療效;病人遠期療效資料,復發(fā)資料-是否復發(fā)、復發(fā)時間、復發(fā)部位、復發(fā)腫瘤的TNM分期,合并癥資料-是否發(fā)生合并癥、合并癥發(fā)生時間,生存資料-是否死亡(指因癌癥死亡)、生存時間。,我們面對的第一個決策問題,我們所關心的是復發(fā)還是死亡 沒有任何理論上的理由來排斥哪一個 它們都和醫(yī)療效果相關,但是 從實踐的角度,復發(fā)數(shù)據(jù)顯然比死亡完整 因此我們僅以復發(fā)事件作為考慮重點 這里我們只考慮和此目的有關的22個變量(其中20個為“自變量”),常規(guī)的分析方法,進行“復發(fā)時間”的常規(guī)生存分析 這些方法包括: 簡單壽命表 Kaplan-Meier分析 Cox比例風險模型 等等,生命表,Kaplan-Meier方法,為了檢驗復發(fā)時間與哪些因素有關 通常采用了以下三種檢驗方法: Log Rank檢驗 Breslow檢驗 Tarone-Ware檢驗 三者的區(qū)別在于其檢驗統(tǒng)計量對不同時間的事件賦予的權重不同。,Kaplan-Meier方法,根據(jù)三種檢驗結果可知 有顯著影響意義的因素包括: T分期、放療療效、化療療效、總初次治療療效 可能有意義的因素包括: 性別、原發(fā)癥狀、ipi和b癥、有無轉移、化療周期數(shù)等 于是可以估計生存函數(shù)(畫圖),一些變量的三種檢驗結果,一些累積生存函數(shù)估計圖,有些可以區(qū)別明顯 有些不明顯 有些看不出來,生存函數(shù)圖(性別區(qū)分),生存函數(shù)圖 (關于T分期),生存函數(shù)圖 (關于初次療效),生存函數(shù)圖 (ipi和b癥),生存函數(shù)圖 (放療療效?),EN:鞏固治療,CR:完全治愈,PR:部分治愈, S:輕微緩解(或者是沒變化) PD:腫瘤進展,生存函數(shù)圖 (化療療效?),EN:鞏固治療,CR:完全治愈,PR:部分治愈, S:輕微緩解(或者是沒變化) PD:腫瘤進展,Cox Regression,自變量:20個變量 逐步回歸:Forward:LR Ordinal變量處理:當作分類變量。,Cox Regression,注: M分期為”有無轉移” T分期為“腫瘤組織學分期”,選中了M分期和T分期,Cox Regression,生存函數(shù)圖(TM分期),對這些結果的解釋企圖:,確診時的T分期和M分期對于腫瘤的復發(fā)有顯著影響。 確診時其T分期較早的話,則治療后復發(fā)的可能性要小于T分期較晚的人群,即使復發(fā),其復發(fā)時間也相對要晚一些。 M分期也是一樣。 因此,能在癌癥早期及時發(fā)現(xiàn)是鼻咽癌診治的一個重點。,三種檢驗不一致時的解釋 :,控制“有無B癥狀”因素,分析放療效果與復發(fā)的關系 其復發(fā)時間分布的Log Rank檢驗結果并不顯著,p-值=0.0744,而另外兩個檢驗的結果是顯著的,Breslow檢驗, p-值=0.0280,Tarone-Ware檢驗, p-值=0.0403,三種檢驗不一致時的解釋 :,多數(shù)文獻只進行Log Rank檢驗,而很少用后兩種 這三種檢驗有什么區(qū)別呢? 看看這些檢驗背后的機理 這三個檢驗的零假設都是檢驗各組間生存分布相同 三個檢驗的統(tǒng)計量均是基于比較每個時點的實際發(fā)生事件數(shù)與期望發(fā)生事件數(shù),三種檢驗不一致時的解釋 :,這三個檢驗的主要區(qū)別在于對不同時間點的權重不同: Log Rank檢驗對每個事件的權重相同,無論其發(fā)生早晚 Breslow檢驗按照在風險中的個體數(shù)對事件加權,而在風險中的個體時間而減少,因此早期發(fā)生的事件權重晚期發(fā)生的事件權重大 Tarone Ware檢驗按照在風險中的個體數(shù)的平方根對事件加權,因此結果則介于前面二者之間,對早期事件的權重要小于Breslow檢驗,大于Log Rank檢驗,因而其統(tǒng)計量和p-值也介于二者之間,三種檢驗不一致時的解釋 :,面對以上的分析數(shù)據(jù),可以認為:放療效果對于復發(fā)來講,是有顯著影響的 但是其影響更多的是對早期復發(fā),而對晚期復發(fā)的影響可能要小一些,定序變量看作分類變量或者定量變量?,一些方便(傻瓜)軟件默認地把定序變量看作分類變量來處理 如果我們把這些Ordinal變量作Interval變量來處理的話,用同樣的Forward:LR方法和自變量,結果又將如何呢?,最后我們發(fā)現(xiàn)結果和上面完全不同。作為分類變量處理時,“T分期”和“M分期”作為兩個重要變量被篩選出來 而作為連續(xù)變量處理時,“國際預后指數(shù)(ipi)合并B癥狀”則是唯一被選中的變量,定序變量看作分類變量或定量變量?,這種結果該如何解釋? 哪個結果更可信呢? 問題是在什么情況下,定序變量可作連續(xù)變量來處理,什么情況可作分類變量來處理呢?,定序變量看作分類變量或定量變量?,對分類變量而言,常將缺失數(shù)據(jù)作為單獨一組(如問卷調查中的“不知道”) 這種處理在數(shù)據(jù)整理中為保證數(shù)據(jù)的工整是無可指責的 但是如果在分析中依然將其作為單獨一組參與分析,則可能對結果會有影響,缺失數(shù)據(jù)處理,而將缺失值不納入分析時,輸出為,不將缺失值(未進行化療者)去掉,有,數(shù)據(jù)量問題,數(shù)據(jù)量不夠導致本該檢測出的差別檢測不出來 在對“有無轉移”進行分析時,我們可以得到以下檢驗結果:,“有無轉移”真的沒有影響嗎?,從醫(yī)學專業(yè)知識來判斷,“有無轉移”對于腫瘤預后而言是有顯著影響的 那究竟是什么地方出了問題呢? 可以察看一下數(shù)據(jù)量 “有轉移”的病例數(shù)為6例,其中有3例是刪失數(shù)據(jù),只有3例發(fā)生了終點事件, “無轉移”病例數(shù)有33例發(fā)生了終點事件, 拿這樣兩組人群進行比較時,由于一組人群數(shù)量太少而不能檢出其差別。,數(shù)據(jù)量問題,數(shù)據(jù)量不夠導致錯誤結論,從專業(yè)知識出發(fā),“ipi合并B癥狀”變量得分越高的人群其疾病的嚴重性越高,而從上面的分析數(shù)據(jù),可以看到得分為2的人群其平均復發(fā)時間要長于得分為1的人群 為什么?,數(shù)據(jù)量問題,這樣一個不合適結論是由數(shù)據(jù)量不夠而導致,作研究時,不能盲目看結果,還要充分考慮樣本量。這一點在很多的文獻中也是被忽略掉的。片面觀察結果,會忽視了結果的可靠性。,分類數(shù)據(jù)的合并問題,在治療方案的分析中,發(fā)現(xiàn)“治療方案”并不是一個顯著因素。,分類數(shù)據(jù)的合并問題,但是觀察其數(shù)據(jù)發(fā)現(xiàn),化療患者只有2人發(fā)生了終點事件,這一類樣本量較少。,分類數(shù)據(jù)的合并問題,如把“化療” 一類剔除,并把“先放后化”、“先化后放”、“化放化”三類合并之后,則有,如把“化療”一類剔除,并把“先放后化”、“先化后放”兩類合并為“化放結合”之后,則會有,結果差別很大;到底應該如何操作呢?,混雜因素,依然舉“治療方案”的例子,如將“性別”作為分層變量來控制其混雜效應,則對于男性:,混雜因素,而對于女性:,混雜因素,對于全體(控制性別影響之后):,值得思考,用決策樹方法(C5.0)進行分析 將“是否復發(fā)”(1為非復發(fā),2為復發(fā))作為目標變量,將其余20個變量作為X變量,分析這些X變量與“復發(fā)”的關系,用決策樹方法進行分析,用決策樹方法進行分析,得到如下規(guī)則。如其中黑體顯示部分表示:T分期為2,性別為2,國際預兆指數(shù)為2的病例有7例,其中71.4%為復發(fā)者,用決策樹方法進行生存數(shù)據(jù)的分析,有兩點要注意: 1)決策樹方法是一種數(shù)據(jù)挖掘算法,它對于樣本量的要求要比一般統(tǒng)計方法要大 2)決策樹方法不能充分利用生存時間信息,其結果的可靠性有待商討。 不過該方法還是可以作為規(guī)律初步探索的工具。,用決策樹方法進行分析,對于連續(xù)數(shù)據(jù)進行離散化時,如本例中的淋巴結大小,按照淋巴結的實際厘米數(shù)將病例劃分為四組,none,6cm 這些分割點看上去是根據(jù)“專業(yè)經驗”而選擇的,它們不見得是合適的 如何確定分割點,而不是人為地、隨意地進行指定呢? 或者根本沒必要將連續(xù)變量進行離散?,分隔點問題,許多分隔據(jù)說是鑒于醫(yī)學經驗 這些醫(yī)學分隔又有沒有統(tǒng)計的支持呢? 上面的分隔很規(guī)整:3cm、6cm及以上 類似于“無信息”先驗分布 有沒有“無信息”先驗分布呢? 誰也說不清哪個空間是“原始空間”還是“變換后的空間” 下面的圖形可能有些啟發(fā),“無信息”vs“經驗”,“等間隔”和“內緊外松”的互相變換,“等間隔”和“外緊內松”的互相變換,“等間隔”和“下緊上松”的互相變換,“等間隔”和“下緊上松”的互相變換,把連續(xù)變量換成離散變量的現(xiàn)象非常普遍。這包括社會、經濟、醫(yī)療衛(wèi)生等幾乎生活的所有方面 這是不是前計算機時代的以定性為主的思維方式的繼續(xù)呢? 但可以肯定的是,離散化不僅失去大量信息、造成處理復雜化,而且必然會產生分隔點確定的合理性問題 也給產生各種“貓膩”留出了大量的空間,分隔點問題,二維列聯(lián)表,在我們數(shù)據(jù)中共有21個變量(包括“是否復發(fā)”)在理論上可以組成210個二維列聯(lián)表,但是其中有143個有一個以上空格 在67個無空穴(共210個)二維列聯(lián)表中Pearson統(tǒng)計量卡方檢驗的p值只有4個小于0.05,二維列聯(lián)表,共有134個二維列聯(lián)表能用不太費時間的Fisher精確檢驗,但只有18個p值小于0.05,從二維列聯(lián)表分析,我們可以看到B癥狀的有無和T分期有密切關系 實際上,有B癥狀的人中T分期較嚴重的比例要大于無B癥狀的人。 而且在列聯(lián)表分析中也可以看到有B癥狀的病例其放療療效也劣于無B癥狀者。 是否復發(fā)和T分期顯著相關,列聯(lián)表的相關性分析雖然
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數(shù)據(jù)助力訂單農業(yè)精準化供應鏈管理
- 2025至2030迷你酒吧行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 江西省撫州市宜黃縣2024年九上化學期末調研試題含解析
- 福建省寧德市2025屆九年級化學第一學期期末質量檢測試題含解析
- 江蘇省南京市六合區(qū)2025屆數(shù)學八上期末考試試題含解析
- 貴州省從江縣2025屆數(shù)學八年級第一學期期末質量跟蹤監(jiān)視試題含解析
- 人才派遣代理招聘服務合同
- 蘇州園林教學設計
- 鄉(xiāng)村衛(wèi)生院網(wǎng)絡信息化建設與升級方案
- 綠色環(huán)保型自修復環(huán)氧樹脂產品的開發(fā)
- 廣州市藝術中學招聘教師考試真題2024
- 工業(yè)自動化設備保修及維修管理措施
- 期末作文預測外研版七年級英語下冊
- 2025-2030中國兒童魚油行業(yè)銷售動態(tài)及競爭策略分析報告
- 統(tǒng)編版五年級升六年級語文暑期銜接《課外閱讀》專項測試卷及答案
- 小小理財家課件
- DB43-T 2622-2023 醫(yī)療導管標識管理規(guī)范
- 譯林版一年級下冊全冊英語知識點梳理
- 案場物業(yè)制度管理制度
- 護理事業(yè)十五五發(fā)展規(guī)劃(2026-2030)
- CJ/T 316-2009城鎮(zhèn)供水服務
評論
0/150
提交評論