此内容仅用于个人学习和研究
第一篇文章:ROC曲线套路全解析
但凡涉及到诊断学的研究或者预后评估,都会用到receiver operating curve(简称 ROC),可以说这是一个入门级的数据分析工具。很多人对这个入门级的工具都一知半解,在研究中错误地解读数据,甚至得到荒唐的结论。
下面我们一起看看ROC的几个基本概念:
1、y轴是敏感度(sensitivity),可以理解成真阳性率。也就是说100个病人在你面前,用你的方法检测,检出95个,漏检5个,敏感度就是0.95。
2、x轴是1-特异度(1-specificity),特异度越高x轴就越靠近起点,特异度可以理解成真阴性率。也就是说100个没病的人,用你的方法检测,90个结果正确、也就是阴性,10个错误地标为阳性,特异度就是90%, x轴的1-特异度是10%。
3、敏感度和特异度取决于阳性的定义,也就是阳性和阴性的分水岭、截断值是如何设定的。
以122-5p为例,截断值如果设定在下图我画的这条红线上面,那你能够检出所有的宫颈癌患者,敏感度就是100%,但是,健康人对照中的大多数人,目测大概是80%,会被错误地标成阳性,特异度只有20%,这是一个极端。
另一个极端,阳性和阴性的截断值设在下图我画的这条蓝线上面,健康对照被错误的标成阳性的比例是0,特异度是100%,但是,你会漏掉绝大多数宫颈癌患者,敏感度目测大概是5%。
4、下图ROC曲线的右上方顶端,代表的是我们上述画的那条红线,敏感度很高但特异度很低;曲线左下方的起点处,代表的是我们上述画的那条蓝线,特异度很高但敏感度很低。这个曲线从左下开始到右上,敏感度逐渐增高,特异度逐渐降低,2个指标相互制约,此消彼长。
总结:
1、ROC曲线本身无法用于临床实践,必须在曲线上选取某一个特定的截断值,作为阳性和阴性的分水岭。
2、研究者需要从特定的临床场景出发,考虑敏感度和特异度的平衡,进行合理的取舍。
3、ROC曲线下面积多大才算好,没有通用的标准。
具体要怎么做呢?不怕不识货,就怕货比货,你的方法好还是不好,必须和现有的、大家都在使用的方法进行对比:具体到上述这篇论文,必须在同一个样本中和HPV检测、和涂片检查进行对比。
第二篇文章:干货|ROC曲线的绘制及结果解读
受试者工作特征曲线(ROC曲线),是用真阳性率和假阳性率作图得出的曲线,可反映灵敏度和特异度的关系。
横轴表示假阳性率(1-特异度),纵轴表示真阳性率(灵敏度),曲线上的任意一点代表某项筛检试验的特定阳性标准值相对应的灵敏度和特异度。
随着灵敏度的上升,1-特异度值增加,即特异度下降,反之亦然。通常将最接近ROC曲线左上角那一点定为最佳临界点。在此临界点上,可同时满足筛检试验的灵敏度和特异度相对最优。
曲线下面积(AUC)反映了诊断试验价值的大小,面积越大,越接近1.0,诊断的真实度越高;越接近0.5,诊断的真实度越低;当等于0.5时,则无诊断价值。
AUC = 0.5~0.7,较低准确性;
AUC = 0.7~0.9,有一定准确性;
AUC > 0.9,较高准确性。
第三篇文章:解读文献里的那些图——ROC曲线
在理解ROC曲线图之前,我们先来了解几个基本的概念:
1)真阳性率(TPR, Truepositive rate):所有实际为阳性的样本被正确地判断为阳性的个数与所有实际为阳性的样本个数之比(也就是真的是真的),TPR又称为Sensitivity(灵敏度);
2)假阳性概率(FPR, Falsepositive rate):所有实际为阴性的样本被错误地判断为阳性的个数与所有实际为阴性的样本个数之比(即假的误认为是真的,被误报了),FPR等于1-Specificity(特异度)。
3)约登指数(Youden Index):也称正确指数,是在假定假阴性(漏诊率)和假阳性(误诊率)的危害性有同等意义时常用的方法,其反映了真正的患者与非患者的总能力。约登指数=灵敏度+特异度-1(也就是ROC曲线的Y轴减去X轴),约登指数越大说明真实性越大。约登指数最大值也就对应着该方法的最佳诊断临界值,即cutoff值。
ROC曲线其实就是以FPR为横坐标,TPR为纵坐标绘制出来的曲线。
ROC曲线图是反映敏感性与特异性之间关系的曲线。横坐标X轴为 1 – 特异性,也称为假阳性率(误报率),X轴越接近零准确率越高;纵坐标Y轴称为敏感度,也称为真阳性率(敏感度),Y轴越大代表准确率越好。
根据曲线位置,把整个图划分成了两部分,曲线下方部分的面积被称为AUC(Area Under Curve),用来表示预测准确性,AUC值越高,也就是曲线下方面积越大,说明预测准确率越高。曲线越接近左上角(X越小,Y越大),预测准确率越高。
所以,根据ROC曲线的定义我们可以知道,其主要有两个用途:
1.评价某个或多个指标对两类测试者(如患者和正常人)分类及诊断的效果。通过绘制某个指标或多个指标的ROC曲线并计算各自的AUC(areaunder ROC,ROC曲线下的面积),就可以知道哪个指标的分类/诊断效果更好。
2.寻找最佳的指标阈值使得分类效果最佳。约登指数最大值处即为最佳的指标阈值。
这两个用途也就是我们读图时要抓住的点,以下图为例:这是两种新型的血糖检测方法,要判断哪种检测方法对糖尿病的诊断更准确。TEST1是蓝色的线条,TEST2是红色的线条,即使不看AUC值我们也很快可以知道TEST2比TEST1诊断效果要好。
第四篇文章:教你快速看懂ROC曲线图
小伙伴们,大家好呀,很高兴和大家见面,小云最近在写作时遇到了不会分析ROC曲线图,小云很是困扰,为此特地去学习了ROC曲线图,今天小云就把自己学到的与各位小伙伴分享就下,让给大家不在不再为ROC图谱解读而困扰。以下是小云自己在做分析时的五个基因在两个不同数据集中的ROC曲线结果图:
在进行ROC曲线解读前,首先我们了解下它是什么?它可以做什么?
ROC曲线的全称为Receiver Operating Characteristic Curve,中文翻译过来为受试者工作特征曲线,由于可以反映模型在选取相同阈值或不同阈值时候的模型敏感性和准确性的走向,也将该曲线称为感受性曲线(sensitivity curve)。
接下来我们来看图,横坐标1-Specificity(FPR)是特异性,即假阳性率(False Positive Rate, FPR);纵坐标Sentivity(TPR) 是敏感性,即真阳性率(True Positive Rate, TPR),也可以将ROC曲线理解成反映敏感性与特异性之间关系的曲线;AUC(Area under roc Curve)是指ROC曲线下的面积,为了量化模型好坏或预测模型准确性。
图中不同颜色的线代表不同的模型,形成的曲线即为不同模型的受试曲线。理论上来说如果AUC值越接近于1,说明曲线下方面积越大,表明预测模型的准确率越高,反之则说明预测模型的准确率较低。如果曲线越接近左上角,即横坐标越小,纵坐标越大,表明预测预测模型的准确率越高。
作为一名科研工作者,时时刻刻都在和时间赛跑。吾必须时时刻苦钻研科研,掌握现代科研的知识和技能。愿在未来,不忘初心,牢记使命。只争朝夕,不负韶华,为成为一名优秀的科研工作者而努力,努力践行科学发展观,认真学习科学发展观努力做好本职工作。
科学技术是人类社会发展的原动力。要将“做科研”培养成为一种兴趣,将实践和科研思维结合进行科学创新,才能真正推进科技进步。要如何做研究?--从实践中发现问题;运用知识储备提出问题;依赖先进的技术研究问题;最终的研究成果,要不忘初心,应用于解决实践中的问题上。
读书学习之道,看似无边无际,不知何去何从,倘若勤奋刻苦,书山自有石经,学海岂无彼岸。故不积跬步,无以至千里;不积小流,无以成江海。作为科研工作者,吾应发奋图强,刻苦学习!方能在科研方面更进一步!
此内容为个人学习笔记,外人禁止查看