文章中常見(jiàn)的ROC曲線圖
01:ROC曲線圖怎么用?
1)評(píng)價(jià)某個(gè)或多個(gè)指標(biāo)(比如建立的模型或多個(gè)關(guān)鍵基因)對(duì)兩類(lèi)測(cè)試者(如患者和正常人)分類(lèi)及診斷的效果。通過(guò)繪制某個(gè)指標(biāo)或多個(gè)指標(biāo)的ROC曲線并計(jì)算各自的AUC,就可以知道哪個(gè)指標(biāo)的分類(lèi)/診斷效果更好;(劃重點(diǎn):這是ROC曲線在目前生信文章里主要的作用,也是用的多的功能哦)
2)尋找佳的指標(biāo)閾值(也就是cutoff值)使得分類(lèi)效果佳。
02:ROC曲線圖怎么看?
先介紹幾個(gè)小概念:
真陽(yáng)性率(TPR):所有實(shí)際為陽(yáng)性的樣本被正確地判斷為陽(yáng)性的個(gè)數(shù)與所有實(shí)際為陽(yáng)性的樣本個(gè)數(shù)之比(也就是真的是真的),TPR又稱(chēng)為Sensitivity(靈敏度);
假陽(yáng)性概率(FPR):所有實(shí)際為陰性的樣本被錯(cuò)誤地判斷為陽(yáng)性的個(gè)數(shù)與所有實(shí)際為陰性的樣本個(gè)數(shù)之比(即假的誤認(rèn)為是真的,被誤報(bào)了),F(xiàn)PR等于1-Specificity(特異度);
Specificity(特異度):所有實(shí)際為陰性的樣本被正確地判斷為陰性的個(gè)數(shù)與所有實(shí)際為陰性的樣本個(gè)數(shù)之比(也就是假的是假的),Specificity又稱(chēng)為真陰性率(TNR);
約登指數(shù)(Youden Index):也稱(chēng)正確指數(shù),其反映了區(qū)分真正的患者與非患者的總能力。Youden index = Sensitivity + Specificity ? 1=TRP-FRP,范圍取值介于0-1之間,約登指數(shù)越大,表示分類(lèi)模型性能越好。約登指數(shù)大值也就對(duì)應(yīng)著該方法的佳診斷臨界值,即cutoff值;
AUC(Area under Curve):ROC 曲線下的面積,介于 0.1 和 1 之間,作為數(shù)值可以直觀的評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確性,AUC值越大預(yù)測(cè)準(zhǔn)確率越高。
坐標(biāo)軸:
橫坐標(biāo)1-Specificity(FPR)是特異性,即假陽(yáng)性率(False Positive Rate, FPR)
縱坐標(biāo)Sentivity(TPR) 是敏感性,即真陽(yáng)性率(True Positive Rate, TPR)
ROC曲線圖是反映敏感性與特異性之間關(guān)系的曲線,X軸越接近零準(zhǔn)確率越高,Y軸越大代表準(zhǔn)確率越好。
AUC判斷預(yù)測(cè)性能:
理論上來(lái)說(shuō)如果AUC值越接近于1,說(shuō)明曲線下方面積越大,表明預(yù)測(cè)模型的準(zhǔn)確率越高,反之則說(shuō)明預(yù)測(cè)模型的準(zhǔn)確率較低。如果曲線越接近左上角,即橫坐標(biāo)越小,縱坐標(biāo)越大,表明預(yù)測(cè)預(yù)測(cè)模型的準(zhǔn)確率越高。
AUC =1,是完 美的分類(lèi)器,該模型至少存在一個(gè)閾值,可以將正負(fù)樣本完 美的劃分開(kāi)
0.5 < AUC < 1,優(yōu)于隨機(jī)猜測(cè),數(shù)值越大,分類(lèi)器越好
AUC = 0.5,相當(dāng)于隨機(jī)猜測(cè),模型沒(méi)有預(yù)測(cè)價(jià)值
AUC < 0.5,比隨機(jī)猜測(cè)要差,然而若反向預(yù)測(cè),該模型也可優(yōu)于隨機(jī)猜測(cè)
03:怎么繪制ROC曲線?
使用SPSS軟件或MedCale軟件都可以繪制ROC曲線,對(duì)比兩種軟件,MedCale軟件繪制ROC更專(zhuān)業(yè)一站式結(jié)果比較全面,本文主要介紹下MedCale軟件的操作方法,感興趣的同學(xué)可以自行學(xué)下SPSS軟件的操作方法。
整理數(shù)據(jù)并導(dǎo)入MedCale
可以將SPSS中的數(shù)據(jù)直接復(fù)制到MedCale中,在上面一行填寫(xiě)變量名稱(chēng);或者原始數(shù)據(jù)在Excel中,可以用MedCalec直接打開(kāi)Excel文件。
數(shù)據(jù)說(shuō)明:A列g(shù)old是金標(biāo)準(zhǔn)判斷規(guī)則,1是陽(yáng)性,0是陰性。B列method1代表使用新方法診斷的連續(xù)變量,目的是繪制新方法1的ROC曲線并找到佳截?cái)嘀礳ut-off值。
執(zhí)行操作程序
在標(biāo)簽欄中選擇Statistics—ROC curves—ROC curve analysis-主對(duì)話框設(shè)置:在Variable一欄中選擇我們研究的變量(method1),Classification variable一欄中選擇診斷結(jié)局(gold),其他可以按原始設(shè)置→OK。
結(jié)果解讀
可讀AUC=0.947和特異度為91.11%、靈敏度90.91%、約登指數(shù)是0.8203,對(duì)應(yīng)的截?cái)嘀礳ut-off為108.9。