本文涵蓋了Prism中可用的生存分析方法,包括Kaplan-Meier生存估計(jì)以及使用Cox比例風(fēng)險(xiǎn)回歸進(jìn)行生存分析。這兩種方法截然不同,它們在各自的頁面上都有詳細(xì)的解釋。
- 生存分析的基本概念
- Prism中的生存分析方法
- 如何進(jìn)行Kaplan-Meier(非參數(shù))生存分析
- Kaplan-Meier生存分析的結(jié)果
- 如何進(jìn)行Cox比例風(fēng)險(xiǎn)回歸
- Cox比例風(fēng)險(xiǎn)回歸的結(jié)果
如何進(jìn)行Cox比例風(fēng)險(xiǎn)回歸
Cox比例風(fēng)險(xiǎn)回歸用于估計(jì)各種預(yù)測變量對某事件發(fā)生時(shí)所經(jīng)過時(shí)間的影響。通常(特別是在生物科學(xué)領(lǐng)域),這種感興趣的事件是死亡,這賦予了其生存分析的名稱。Cox比例風(fēng)險(xiǎn)回歸的目標(biāo)是生成一個(gè)與所觀察人群的風(fēng)險(xiǎn)率相關(guān)的模型,該風(fēng)險(xiǎn)率與該人群的生存函數(shù)直接相關(guān)。然后可以基于模型中的預(yù)測變量值為人群內(nèi)的特定群體或個(gè)體生成生存曲線。
A word of caution!
Cox比例風(fēng)險(xiǎn)回歸是在Prism 9.3.0中引入的。這種分析在行業(yè)內(nèi)作為生存分析的標(biāo)準(zhǔn)已經(jīng)非常成熟,并且允許對多種不同類型的預(yù)測變量(包括分類變量和連續(xù)變量)及其對生存的影響進(jìn)行復(fù)雜的研究。我們已經(jīng)做了大量工作以確保Prism生成的結(jié)果是準(zhǔn)確的,并且在本文中您將找到對這些結(jié)果如何生成的大量解釋,以及如何解釋這些結(jié)果的基本指導(dǎo)。
然而,Cox回歸是高級的-可以說比Prism中可用的任何其他分析都更高級。在使用Cox回歸分析您的數(shù)據(jù)之前,請確保您了解生存分析的基本知識(即Kaplan-Meier生存估計(jì)和用于比較所得生存曲線的各種可用測試:對數(shù)秩檢驗(yàn)、對數(shù)秩趨勢檢驗(yàn)和Gehan-Breslow-Wilcoxon檢驗(yàn))。Cox回歸還嚴(yán)重依賴于統(tǒng)計(jì)概念,這些概念賦予了其他形式的多重回歸(如多元線性回歸和多元邏輯回歸)力量。
- 輸入Cox比例風(fēng)險(xiǎn)回歸數(shù)據(jù)
- 執(zhí)行Cox比例風(fēng)險(xiǎn)回歸
- 示例:Cox比例風(fēng)險(xiǎn)回歸
輸入Cox比例風(fēng)險(xiǎn)回歸數(shù)據(jù)
創(chuàng)建數(shù)據(jù)表
從“歡迎或新建表”對話框中,選擇創(chuàng)建一個(gè)多變量數(shù)據(jù)表。如果您剛開始進(jìn)行Cox比例風(fēng)險(xiǎn)回歸,且沒有自己的數(shù)據(jù),您可以從一個(gè)樣本數(shù)據(jù)集開始。
輸入數(shù)據(jù)
與對多變量數(shù)據(jù)表進(jìn)行的其他分析一樣,該數(shù)據(jù)表的結(jié)果必須遵循一個(gè)通用格式。數(shù)據(jù)表的每一行代表一個(gè)不同的觀察、個(gè)體、參與者等。數(shù)據(jù)表的每一列代表一個(gè)不同的變量。
對于Cox比例風(fēng)險(xiǎn)回歸,至少有三個(gè)變量是絕對必須的:
- 失效時(shí)間(Elapsed time):每個(gè)個(gè)體/觀察直到事件發(fā)生或刪失時(shí)間的持續(xù)時(shí)間。這個(gè)失效時(shí)間可以用任何方便的單位表示,例如天數(shù)、周數(shù)或月數(shù)。輸入的失效時(shí)間值不需要是整數(shù)、目前,Prism并不要求輸入開始時(shí)間和結(jié)束時(shí)間來計(jì)算單個(gè)觀察的持續(xù)時(shí)間。
- 事件/刪失分類器(Event/Censor classifier):一個(gè)變量,其值指示個(gè)體/觀察是否經(jīng)歷了事件或被刪失。這個(gè)變量可以是連續(xù)的或分類變量。通常,此信息被編碼為一個(gè)連續(xù)變量,值為“1”表示經(jīng)歷了事件的個(gè)體,值為“0”表示被刪失的個(gè)體。然而,一個(gè)帶有“死亡”和“刪失”水平的分類變量也可以正常工作。在任何情況下,模型的“分析參數(shù)”對話框中的控制將允許您指定哪個(gè)值(或水平)代表事件,哪個(gè)代表刪失觀察。額外的控制還將允許您指示如何處理所選變量中的任何其他值(它們可以被視為缺失、作為事件處理或作為刪失觀察處理)。
- 至少一個(gè)預(yù)測變量:附加變量(分類或連續(xù))可以包含在Cox回歸中,并且每個(gè)變量應(yīng)輸入到其自己的列中。請注意,您無需對分類變量進(jìn)行手動(dòng)編碼,相反,您可以簡單地輸入文本標(biāo)簽來標(biāo)識分類變量的水平,并且數(shù)據(jù)表中的變量類型應(yīng)設(shè)置為分類。
最后,請注意,模型中不需要為交互作用編寫代碼。除了指定要包含在模型中的預(yù)測變量外,Prism還將允許您指定雙向和三向交互作用(如果您選擇包含它們)。
執(zhí)行Cox比例風(fēng)險(xiǎn)回歸
要開始分析,請點(diǎn)擊工具欄“分析”部分中“分析”按鈕,或者打開“分析”菜單并選擇“回歸和曲線>Cox比例風(fēng)險(xiǎn)回歸”(Cox比例風(fēng)險(xiǎn)回歸也可以在“生存分析”部分的“分析菜單和分析數(shù)據(jù)對話框”中找到。該分析參數(shù)對話框包含八個(gè)選項(xiàng)卡):
- 模型(Model):指定分析的時(shí)間-事件(響應(yīng))變量和結(jié)果(事件/刪失)變量。這兩個(gè)變量是進(jìn)行每個(gè)Cox比例回歸分析所必須的。指定哪個(gè)值(或水平)代表觀察到的“事件”,哪個(gè)代表觀察到的“刪失”,以及如何處理所選變量的任何其他值或水平。在此選項(xiàng)卡上,還可以指示Prism應(yīng)如何處理重復(fù)時(shí)間、交互作用和您希望在模型中包含的轉(zhuǎn)換(使用“定義模型”部分)。
- 參考水平(Reference level):為每個(gè)分類預(yù)測變量設(shè)置一個(gè)參考水平。該參考水平指示分類變量的“基線”或“通!彼,對解釋分析結(jié)果很重要。
- 預(yù)測(Predictions):使用Prism估計(jì)的模型,根據(jù)每個(gè)預(yù)測變量的特定刪失時(shí)間預(yù)測生存概率。
- 比較(Compare):選擇第二個(gè)模型并指定如何比較這兩個(gè)模型。
- 選項(xiàng)(Options):指定Prism應(yīng)報(bào)告的結(jié)果(注:擬合優(yōu)度、殘差和圖表選項(xiàng)卡還包含用于自定義分析結(jié)果輸出的重要選項(xiàng))。
- 擬合優(yōu)度(Goodness-of-fit):指定Prism應(yīng)報(bào)告哪些分析指標(biāo)。這些指標(biāo)對了解模型對給的那個(gè)數(shù)據(jù)的擬合程度提供了一些見解。
- 殘差(Residuals):選擇Prism應(yīng)報(bào)告和繪制哪些分析殘差。請注意,Cox比例風(fēng)險(xiǎn)回歸中的“殘差”在數(shù)學(xué)上與線性回歸中的殘差不同。相反,這些值用于回答關(guān)于回歸模型的類似問題并測試類似假設(shè),標(biāo)準(zhǔn)殘差通常用于線性回歸。
- 圖表(Graphs):使用Prism估計(jì)的模型,根據(jù)模型中所選預(yù)測變量的值生成跨越數(shù)據(jù)中所有觀察時(shí)間點(diǎn)的預(yù)測生存曲線。
示例:Cox比例風(fēng)險(xiǎn)回歸
- 設(shè)置并運(yùn)行分析
- Cox回歸分析示例結(jié)果
- 示例分析總結(jié)
設(shè)置并運(yùn)行分析
數(shù)據(jù)
首先,我們要從歡迎對話框中創(chuàng)建一個(gè)新的多變量數(shù)據(jù)表。
選擇在多變量數(shù)據(jù)表的教程數(shù)據(jù)集列表中找到的Cox比例風(fēng)險(xiǎn)回歸樣本數(shù)據(jù)。數(shù)據(jù)的一部分如下所示:
這些數(shù)據(jù)是一項(xiàng)臨床研究之后發(fā)布的,該研究旨在套索冠心病(CHD)死亡的潛在預(yù)測變量。這項(xiàng)研究包括299名參與者(105名女性和194名男性),并對每位參與者測量了11個(gè)不同的變量。此外,該數(shù)據(jù)集還包括一個(gè)事件變量,用于指示每位參與者是死于CHD還是被刪失。最后,時(shí)間變量包含每個(gè)個(gè)體從進(jìn)入研究到死亡或被刪失的生存時(shí)間(觀察的失效時(shí)間)。
數(shù)據(jù)集中有三個(gè)連續(xù)變量:
- 年齡(以年為單位)
- 血清鈉水平
- 肌酸磷酸激酶水平
數(shù)據(jù)集中有八個(gè)分類變量:
- 性別(男、女)
- 吸煙狀況(是、否)
- 糖尿病狀況(是、否)
- 高血壓(是、否)
- 貧血(以血細(xì)胞比容水平低于36衡量)(是、否)
- 射血分?jǐn)?shù)(低、中、高)
- 血清肌酐水平(正常、高)
- 血小板計(jì)數(shù)(低、正常、高)
使用這些Cox比例風(fēng)險(xiǎn)回歸數(shù)據(jù),我們應(yīng)該能夠回答一些問題,包括:
- 與無預(yù)測變量的空模型相比,帶有選定預(yù)測變量的指定模型在估計(jì)該人群中個(gè)體的風(fēng)險(xiǎn)率/生存時(shí)間方面是否做得更好?使用模型診斷來回答。
- 每個(gè)預(yù)測變量對該人群中個(gè)體的風(fēng)險(xiǎn)率/生存時(shí)間是否有單獨(dú)的影響?使用參數(shù)估計(jì)的置信區(qū)間、風(fēng)險(xiǎn)比或P值來回答。
- 給定預(yù)測變量的不同值(水平)對風(fēng)險(xiǎn)率/生存時(shí)間有什么影響?使用風(fēng)險(xiǎn)比來回答。
啟動(dòng)分析
要開始分析,點(diǎn)擊工具欄“分析”部分中的“分析”按鈕,然后從可用的多變量分析列表中選擇“Cox比例風(fēng)險(xiǎn)回歸”;蛘,您可以使用“分析”菜單,并在“回歸和曲線”或“生存分析”下找到“Cox比例風(fēng)險(xiǎn)回歸”。
分析對話框
選擇分析后,參數(shù)對話框?qū)⒊霈F(xiàn)。對于這個(gè)示例,我們將接受Prism提供的大多數(shù)默認(rèn)選項(xiàng)。這里將簡要討論所選選項(xiàng)的結(jié)果,但在“參數(shù):多重Cox回歸”的各個(gè)不同選項(xiàng)卡上還有許多可用選項(xiàng)。
在上述顯示的對話框的模型選項(xiàng)卡上,您可以看到Prism已經(jīng)為事件發(fā)生時(shí)間(響應(yīng))和結(jié)果(事件/審查)變量選擇了變量。此外,由于結(jié)果變量(事件)是一個(gè)分類變量,我們應(yīng)該驗(yàn)證“表示事件的值”。在這種情況下,這兩個(gè)也是正確的。展開“定義模型”部分中的“主要效應(yīng)”,您可以看到所有預(yù)測變量都包含在默認(rèn)模型中(這在標(biāo)簽底部的黃色文本框中得到確認(rèn),該文本框提供了要執(zhí)行的模型的簡單表示)。
在我們單擊“確定”之前,我們將切換到“圖表”選項(xiàng)卡。此選項(xiàng)卡上的控件用于為指定模型中的變量所代表的不同組生成估計(jì)生存曲線。此選項(xiàng)卡上的兩組控件用于:
- 定義您想要?jiǎng)?chuàng)建的圖表數(shù)量
- 指定用于定義Prism應(yīng)為每個(gè)圖表生成估計(jì)生存曲線的組的變量
本文提供了一個(gè)完整的示例,說明如何使用這些控件來生成各種不同的估計(jì)生存曲線。處于本示例的目的,讓我們創(chuàng)建一個(gè)單一圖表,并添加以下變量值:
- 高血壓(兩個(gè)水平:“是”和“否”)
- 年齡(樣本群體中觀察到的最小年齡值為40)
設(shè)置了這些選項(xiàng)后,我們可以點(diǎn)擊“確定”,然后我們將被帶到結(jié)果表。
Cox回歸分析示例結(jié)果
參數(shù)估計(jì)
您將看到的第一部分結(jié)果是針對指定模型的回歸系數(shù)(β系數(shù))的最佳擬合值。請注意,與其他一些多重回歸技術(shù)不同,Cox比例風(fēng)險(xiǎn)回歸不包括截距項(xiàng)(β0)。即使強(qiáng)制將截距項(xiàng)加入模型,它也會(huì)被基線風(fēng)險(xiǎn)(h0(t))“吸收”。此外,請注意當(dāng)分類變量包含在模型中時(shí),這些變量會(huì)被“虛擬編碼”自動(dòng)處理,從而為分類變量的每個(gè)水平產(chǎn)生一個(gè)單獨(dú)的參數(shù)估計(jì)值,而不是像連續(xù)變量那樣只有一個(gè)估計(jì)值。因此,我們的模型結(jié)果包括十三個(gè)單獨(dú)的β系數(shù),如下所示:
對這些參數(shù)估計(jì)值的解釋與標(biāo)準(zhǔn)多元線性回歸有很大不同?紤]本分析的Cox比例風(fēng)險(xiǎn)模型:
如果我們通過除以基線風(fēng)險(xiǎn)重新排列這個(gè)等式,我們得到:
最后,我們對兩邊取自然對數(shù),我們得到:
使用這種形式的方程,可以看出左側(cè)是特定個(gè)體或群體(使用特定預(yù)測變量對應(yīng)于該個(gè)體或群體)的風(fēng)險(xiǎn)比的對數(shù),除以基線風(fēng)險(xiǎn)(這代表當(dāng)所有預(yù)測變量都設(shè)置為零或其他參考值時(shí)的風(fēng)險(xiǎn)率)。這就是比例風(fēng)險(xiǎn)(proportional hazards)的概念來源,因?yàn)樵诖朔治鲋,模型?shí)際上是在估計(jì)風(fēng)險(xiǎn)比(使用不同預(yù)測變量的組與基線組相比)。
了解這一點(diǎn)后,我們可以看到β系數(shù)的值表示對數(shù)風(fēng)險(xiǎn)率的增加(對于正值)或減少(對于負(fù)值)。例如,在我們的結(jié)果中,β1(Sex[Male])等于-0.1879。這意味著與女性相比,男性的對數(shù)風(fēng)險(xiǎn)率在所有時(shí)間點(diǎn)都降低了0.1879。對于β6 (Age)的值為0.04589。這意味著每增加一歲,個(gè)體的對數(shù)風(fēng)險(xiǎn)率增加0.04589。
風(fēng)險(xiǎn)比
直接解釋β系數(shù)是復(fù)雜的,因?yàn)檫@些系數(shù)與對數(shù)風(fēng)險(xiǎn)率的變化相關(guān),而在線性尺度上理解變化通常更容易。因此,結(jié)果的溪西岸一部分是風(fēng)險(xiǎn)比。
本質(zhì)上,風(fēng)險(xiǎn)比表示當(dāng)預(yù)測變量增加一個(gè)單位時(shí),風(fēng)險(xiǎn)率增加(或減少)的倍數(shù)。再次,以年齡為例,我們看到風(fēng)險(xiǎn)比等于1.047。這意味著每增加一歲,參與者的風(fēng)險(xiǎn)率就會(huì)乘以1.047。從數(shù)學(xué)上講,風(fēng)險(xiǎn)比就是指數(shù)化的β系數(shù)(例如,年齡的風(fēng)險(xiǎn)比為exp(0.04589),其中0.04589是年齡的β系數(shù))。
綜合考慮所有這些因素,我們可以看到,這個(gè)模型的一般結(jié)論是,我們預(yù)計(jì)那些心臟功能較差(低射血分?jǐn)?shù))、血壓高和腎功能差(高血清肌酐)的老年人的風(fēng)險(xiǎn)率會(huì)增加(因此生存期會(huì)縮短)。還應(yīng)注意,盡管年齡的風(fēng)險(xiǎn)比似乎相對較小(例如,年齡為1.047,而血清肌酐高則為2.226),但這是每年的影響。這意味著每增加一歲,風(fēng)險(xiǎn)率只會(huì)增加1.047=1.047倍,即每十年增加1.58倍。
P值
默認(rèn)情況下,參數(shù)估計(jì)值的P值不會(huì)給出,因此這里不會(huì)詳細(xì)討論。但是,如果您想在表格結(jié)果中包含P值,您可以通過分析對話框中的“選項(xiàng)”選項(xiàng)卡啟用此選項(xiàng)。
模型診斷
Cox比例風(fēng)險(xiǎn)回歸結(jié)果的下一個(gè)表格部分提供了將指定模型與不含預(yù)測變量(協(xié)變量)的模型進(jìn)行比較的信息。默認(rèn)情況下,這里顯示的數(shù)值包括每個(gè)模型的參數(shù)數(shù)量和赤池信息準(zhǔn)則(Akaike’s Information criterion, AIC)值。其他診斷值可以通過分析對話框中的“選項(xiàng)”選項(xiàng)卡添加。
本節(jié)中列出的AIC值允許您快速評估分析中指定的模型在擬合數(shù)據(jù)方面是否比空(null)模型做得更好。計(jì)算AIC值的方法有點(diǎn)復(fù)雜,但是使用這些值來比較兩個(gè)模型實(shí)際上很簡單:AIC越小表示模型擬合越好。沒有協(xié)變量的模型值為1018,分析中指定的模型值為960.5,我們可以確定指定的模型在描述觀測數(shù)據(jù)方面做得更好。
數(shù)據(jù)匯總
Cox比例風(fēng)險(xiǎn)回歸的表格結(jié)果頁面的最后一部分簡單地提供了輸入數(shù)據(jù)的詳細(xì)摘要,包括輸入數(shù)據(jù)表中的數(shù)據(jù)行數(shù)、被跳過的行數(shù)以及這兩個(gè)值之間的差異導(dǎo)致分析中包含的觀測數(shù)。接下來,本節(jié)報(bào)告關(guān)聯(lián)的數(shù)量(對具有相同運(yùn)行時(shí)間的事件的觀察)。在此之后,提供經(jīng)過審查的觀察結(jié)果的數(shù)目和記錄了有關(guān)死亡/事件的觀察結(jié)果的數(shù)目。根據(jù)這兩個(gè)值,報(bào)告了截尾觀測值與事件的比值。根據(jù)所研究的事件,這個(gè)比例可能會(huì)有很大的變化(當(dāng)事件相對不常見時(shí),審查后的觀測與事件的比例可能很大,例如在這個(gè)例子中;當(dāng)事件很常見時(shí),該比率可能非常小,因?yàn)榇蠖鄶?shù)觀察都會(huì)導(dǎo)致事件發(fā)生)。
此外,在本節(jié)中,剔除的觀測數(shù)和總觀測數(shù)以及這兩個(gè)值的比值(提供分析中使用的剔除的觀測數(shù)的比例)被重復(fù)。最后,重復(fù)記錄有興趣的死亡/事件的觀測次數(shù),以及參數(shù)估計(jì)的總數(shù)和這兩個(gè)值的比率。通常,每個(gè)參數(shù)的事件數(shù)的比率應(yīng)該在10左右。
個(gè)體值
有兩個(gè)由Cox比例風(fēng)險(xiǎn)回歸默認(rèn)生成的結(jié)果標(biāo)簽頁。第一個(gè)是個(gè)體值標(biāo)簽頁。顧名思義,該表為輸入數(shù)據(jù)表中的每個(gè)個(gè)體(行)提供計(jì)算值。該表包含每個(gè)個(gè)體的失效時(shí)間,以及根據(jù)生成模型計(jì)算出的線性預(yù)測值、風(fēng)險(xiǎn)比(指數(shù)化預(yù)測值)、累積風(fēng)險(xiǎn)和累積生存概率。
基線值
除了為輸入數(shù)據(jù)表中的每個(gè)特定觀察(行)提供估計(jì)值外,Prism還會(huì)生成一個(gè)基線值表,其中包括基線累積風(fēng)險(xiǎn)(H0(t))和基線累積生存概率(S0(t))。與個(gè)體值表不同,該表為輸入數(shù)據(jù)中的每個(gè)唯一時(shí)間包含一行,并按這些時(shí)間值的升序排列。
基線累積風(fēng)險(xiǎn)和基線累積生存概率的計(jì)算在單獨(dú)的頁面上進(jìn)行,但需要注意的是,該表用于生成可以設(shè)置為顯示基線累積風(fēng)險(xiǎn)或基線累積生存概率(本分析中顯示的兩個(gè)示例如下)的基線值圖。
重要的是,這些基線圖可以用來構(gòu)建使用參數(shù)估計(jì)(或風(fēng)險(xiǎn)比)的特定人群的估計(jì)生存/風(fēng)險(xiǎn)曲線。
殘差圖
默認(rèn)情況下,Prism會(huì)生成三種不同的殘差圖:
- 標(biāo)準(zhǔn)化Schoenfeld殘差vs時(shí)間/行順序
- 偏差殘差vs線性預(yù)測值/HR
- 偏差殘差vs協(xié)變量
這些圖可以用來檢查模型擬合的不同方面。
標(biāo)準(zhǔn)化Schoenfeld殘差vs時(shí)間/行順序
此圖的主要用途是檢驗(yàn)指定模型中的比例風(fēng)險(xiǎn)假設(shè)。對于模型中包含的每個(gè)參數(shù)(在我們的例子中,β1到β13)都會(huì)生成一組標(biāo)準(zhǔn)化的Schoenfeld殘差。通過將這些殘差在Y軸上與X軸上的時(shí)間(或行順序)進(jìn)行繪圖,我們期望在繪制的數(shù)據(jù)中沒有顯著趨勢?梢栽谕粡垐D上檢查每組不同的殘差(使用“格式圖”對話框更改Y軸上繪制的變量),并且這些殘差中的任何強(qiáng)趨勢都表明比例風(fēng)險(xiǎn)假設(shè)可能已被違反。在我們的例子中,對于β1:Sex[Male]和β6:Age,這些似乎是成立的(下面給出示例)。
偏差殘差vs線性預(yù)測值/HR
這張殘差圖可用于檢查數(shù)據(jù)中是否存在潛在異常值。這些殘差應(yīng)大致圍繞零值分布。極大或極小的值可能代表數(shù)據(jù)中的潛在異常值。這些點(diǎn)表示那些經(jīng)歷事件的時(shí)間比模型預(yù)測的要早得多(極大的正殘差)或晚得多(極大的負(fù)殘差)的個(gè)體。通過使用“格式圖”對話框(雙擊繪圖區(qū)域打開),可以將每個(gè)觀察值的線性預(yù)測值或風(fēng)險(xiǎn)比(基于個(gè)體值標(biāo)簽頁上的結(jié)果值)繪制在X軸上。這兩者之間的唯一區(qū)別在于,風(fēng)險(xiǎn)比是線性預(yù)測值的指數(shù)化。請注意,由于數(shù)據(jù)集中存在大量刪失觀察值,繪圖區(qū)域中左下角的點(diǎn)聚集在一起。根據(jù)定義,刪失觀察值必須具有負(fù)偏差殘差(基于用于計(jì)算殘差的數(shù)學(xué)公式,此處未顯示)。直觀地說,這是有道理的。一個(gè)被刪失的觀察值沒有觀察到事件的時(shí)間,因此,這些觀察到事件時(shí)間不能早于模型預(yù)測的時(shí)間(偏差殘差為正的要求)。因此,所有刪失觀察值都必須具有負(fù)偏差殘差。