生物醫(yī)學(xué)試驗(yàn)中合理的樣本量是決定整個(gè)試驗(yàn)成敗的重要因素之一。
樣本量需要多大?答案當(dāng)然是“視情況而定”。
GraphPad Prism官方統(tǒng)計(jì)教程中解釋了樣本量會(huì)受哪些因素影響。請(qǐng)注意,Prism不會(huì)進(jìn)行任何樣本量計(jì)算,但是會(huì)從幾個(gè)不同的角度告訴大家如何決定合適的樣本量、如何計(jì)算樣本量等。
之前跟大家一起探討了GraphPad如何輔助判斷“樣本量”(點(diǎn)擊回顧)。本篇繼續(xù)圍繞“樣本量”這個(gè)話題,我們來聊聊“為何要預(yù)先選擇樣本量?”。
靈魂拷問:“為什么要提前選擇樣本量?”
01“一邊研究一邊確定樣本量的吸引力?”
對(duì)于許多人而言,在研究開始前計(jì)算樣本量是件令人討厭的事情。
大家可能會(huì)提出疑問:為什么不在收集數(shù)據(jù)的時(shí)候進(jìn)行分析呢?如果結(jié)果不具有統(tǒng)計(jì)學(xué)顯著性,表示需要收集更多數(shù)據(jù),重新分析。如果結(jié)果具有統(tǒng)計(jì)學(xué)顯著性,就可以停止研究,不要把時(shí)間和金錢浪費(fèi)在更多的數(shù)據(jù)收集上。
但這個(gè)方法會(huì)有一個(gè)問題:如果你不喜歡這個(gè)結(jié)果,你會(huì)想要繼續(xù)做;但如果你喜歡這個(gè)結(jié)果,你會(huì)停下來。結(jié)果變成,如果虛假設(shè)(null hypothesis)為真,獲得“顯著”結(jié)果的機(jī)率遠(yuǎn)高于5%。
02“模擬展示沒有預(yù)先選擇樣本量的危險(xiǎn)!”
下圖我們通過模擬數(shù)據(jù)說明這一點(diǎn)。
我們通過繪制高斯分布的值,模擬數(shù)據(jù)(平均值 = 40,SD = 15,*這些值是任意的數(shù)值)。兩組均使用完全相同的分布進(jìn)行模擬。我們?cè)诿拷M中選擇N = 5,計(jì)算非配對(duì)t檢驗(yàn)并記錄P值。然后我們給每組增加一名受試者(此時(shí),N = 6),并重新計(jì)算t檢驗(yàn)和P值。我們重復(fù)該過程,直至每組中的N = 100。然后我們重復(fù)三次整個(gè)模擬的過程。這些模擬是通過比較具有相同總體平均值的兩組進(jìn)行的。因此,我們獲得的任何具有“統(tǒng)計(jì)學(xué)顯著性”的結(jié)果都必須是巧合-I型錯(cuò)誤。
該圖在Y軸上繪制P值,在X軸上繪制樣本量(每組)。 圖底部的綠色陰影區(qū)域顯示P值小于0.05,因此被視為“具有統(tǒng)計(jì)意義”。
綠色曲線顯示了第一組模擬實(shí)驗(yàn)的結(jié)果。N = 7時(shí),P值小于0.05,但對(duì)于所有其他樣本量,P值高于0.05。紅色曲線顯示了第二個(gè)模擬實(shí)驗(yàn)。當(dāng)N = 61以及N = 88或89時(shí),P值均小于0.05。藍(lán)色曲線顯示了第三個(gè)模擬實(shí)驗(yàn)。當(dāng)N = 92至N = 100時(shí),其P值小于0.05。
如果采用順序方法,我們會(huì)宣布所有三個(gè)實(shí)驗(yàn)的結(jié)果均“具有統(tǒng)計(jì)學(xué)顯著性”。當(dāng)綠色實(shí)驗(yàn)中的N = 7時(shí),我們會(huì)停止,那么永遠(yuǎn)不會(huì)看到其曲線的虛線部分。當(dāng)N = 61時(shí),我們會(huì)停止紅色實(shí)驗(yàn),而當(dāng)N = 92時(shí),我們會(huì)停止藍(lán)色實(shí)驗(yàn)。在這三種情況下,我們都將稱結(jié)果具有“統(tǒng)計(jì)學(xué)顯著性”。
由于這些模擬是為兩個(gè)總體的真實(shí)平均值相同的值創(chuàng)建,因此任何具有“統(tǒng)計(jì)學(xué)顯著性”的聲明均為I型錯(cuò)誤。如果虛假設(shè)為真(兩個(gè)總體的平均值相同),我們期望在5%的實(shí)驗(yàn)中看到這種I型錯(cuò)誤(如果我們使用傳統(tǒng)的alpha = 0.05的定義,那么P值小于0.05的聲明為重大)。
但采用這種順序方法,我們所有三個(gè)實(shí)驗(yàn)都會(huì)導(dǎo)致I型錯(cuò)誤。 如果將實(shí)驗(yàn)延長足夠長的時(shí)間(無限長N),所有實(shí)驗(yàn)最終都將達(dá)到具有“統(tǒng)計(jì)學(xué)顯著性”。當(dāng)然,在某些情況下,即使不具有“統(tǒng)計(jì)學(xué)顯著性”,最終也會(huì)放棄。這種順序方法也將在超過5%實(shí)驗(yàn)中產(chǎn)生“顯著”結(jié)果。所以即使零假設(shè)為真,該方法也是無效的。
03最后,很重要的一點(diǎn)...
選擇一個(gè)樣本量且堅(jiān)持下去是很重要的。
看到想要的結(jié)果就停下來,或者看到不想要的結(jié)果就繼續(xù)進(jìn)行,是一種自欺欺人的表現(xiàn)。換句話說,實(shí)驗(yàn)在結(jié)果不具有統(tǒng)計(jì)學(xué)顯著性的時(shí)候繼續(xù),但在具有統(tǒng)計(jì)學(xué)顯著性的時(shí)候停止,則錯(cuò)誤地認(rèn)為結(jié)果具有統(tǒng)計(jì)顯著性的機(jī)會(huì)遠(yuǎn)大于5%。
有一些特殊的統(tǒng)計(jì)學(xué)技術(shù)用于順序分析數(shù)據(jù)。如果結(jié)果不明確,可以增加更多受試者,如果結(jié)果清晰,就停止實(shí)驗(yàn)。
感興趣的話,大家可以在一些高級(jí)統(tǒng)計(jì)學(xué)書籍中查找“順序醫(yī)學(xué)試驗(yàn)(sequential medical trials)”,了解更多信息。
GraphPad Prism 9 已經(jīng)上線了,大家可以升級(jí)啦!有不少新增功能。