将测试样本进行排序,“最可能”是正例的排在最前面,“最不可能”是正例的排在最后面。
分类过程就相当于在这个排序中以某个“截断点”(见图中阈值)将样本分为两部分,前一部分判作正例,后一部分判作反例。
我们根据学习器的预测结果对样例进行排序,按此顺序把逐个样本作为正例进行预测,每次计算出FPR, TPR,分别为横纵坐标作图,可得“ROC曲线”。
P表示“正”的,为预测为“好的”,即要从总体中挑出来的。
真正例率 TPR = TP / (TP + FN)
表示,预测为正例且真实情况为正例的,占所有真实情况中正例的比率。
假正例率 FPR = FP / (TN + FP)
表示的,预测为正例但真实情况为反例的,占所有真实情况中反例的比率。
TPR越大,则表示挑出的越有可能(是正确的);FPR越大,则表示越不可能(在挑选过程中,再挑新的出来,即再挑认为是正确的出来,越有可能挑的是错误的)。
TPR 与 FPR 呈反相关,随着采样的继续(见上文:“按此顺序把逐个样本作为正例进行预测,每次计算出FPR, TPR”),越不可能是正例的被采样出来,TPR降低,FPR升高。