在第四部分,吾輩始習分類之術,並解kNN之法.
今已達境,可構建一竄劣之分類器。然若人問曰:“其效何如?,
然吾辈所能应者,不过云:“噫……于试炼之选,此模正确应之,得百分之p焉。”
一则,古语有云:宁有五百卢布,无有二百。然高p%者,果能保模之质乎?
今当辨此诸问,察机器学习之质度,知其所以需,并明其宜解之理.
Accuracy
于引言中,吾等已论及此度。其显模型正答之率.
吾当先言,虽Accuracy常译为“正”,然于机器学习,易致混淆。故非译其名,或称之曰答对之率,或直曰Accuracy.
此何利耶?Accuracy示模型优劣之简明:其示凡百事中,模型得正类者几何。此乃良基之指,尤宜于题设之类均衡(即各类元素数相仿)且诸般谬误皆等重之时。
然此指标有重大局限——其于事无补。此模型何所失哉?.
观奇异之创业,千中得一见其成。若模型恒应"终无成",则其准确率当为九十九点九。
礼之成也,善矣,然其实用之效,未可知也...
惟此等事,精微之度,已非所恃矣——其隐要失之甚巨,尤当类之不均或失之之价殊异时。
精核
精核(或阳性之精核)显之,凡模型归为正类之诸物,其果为正类者几何。
返观初创企业之例,precision示之,模型预为成功者之初创企业,其果为成功者,十中几何。
精微之要,在于不欲模型频发虚警。譬如银行之务,岂悦模型每废二交易,以为诈欺乎?
试观小例:
设吾有百创企之议,其实仅五得成。
模型所呈之果如下:
из пяти успешных стартапов, она верно нашла три, а оставшиеся два сочла неудачными;
из девяноста пяти провальных стартапов модель правильно определила девяносто как провальные, но еще пять ошибочно приняла за успешные;
Тогда:
всего модель дала девяносто три правильных ответа из ста, то есть точность равна девяносто трем процентам.
計有八創業,然實成者三。故精確率為三分之八(三成七五)。
蓋準確雖高,然信其陽斷,猶為難也。
Recall
Recall(或全備)者,示機器於眾陽中,能得幾何。
吾侪之例也,乃成事之新创企业之比,模型所能辨识为成事者(例中得三于五,故召回率六成也)。
忆尤重于事,其要在于此。勿失善境譬如,于寻疾之时,recall之数低,则模型多漏真患之人。
F分数
吾辈遇一难题:precision与recall几若相争。
譬如,模型鲜少能预言"成功之创业"。是故其precision甚高——盖其误判甚微。然recall则低,盖模型多漏却实属成功之项目。
反之:若模型几将所有皆标为成功,recall自增,然precision则骤降。
故实践中常取F-score——此度,欲兼顾precision与recall。尤以F1-score为谐均之,取Precision () 与 Recall (
) 之
。然F1-score惟当precision与recall俱足时,方得为大。
除F1外,尚有Fβ之泛化版本。F1之于precision与recall,其敏感度无别,(公式对P与R具对称性),则Fβ可令吾人自主调衡二者之重。其计算之法若此:
若吾辈欲更重precision,则取。若recall更为紧要,则择
。
若二者俱重,则用之。,此与标准F1分数相合。
是故,Fβ之法,可权变于精准与召回之间。
混淆矩阵
行前,且以"四骑士末日"之喻,论及此理。诚然,此度之解,吾心不甚悦——易惑,然常言道,须得 Федя,须得...
设此模为系统,判万物:善耶?恶耶?
凡此等判词,必归四途之一.
TP — 真正之阳(True Positive)
此乃模型断曰:“是也,为阳”,而果得其实.
模型决曰:“此创举为成”,而其果为成.
FP — 假阳之误(False Positive)
模型断曰:“是阳”,然谬矣:
模型以为创业公司成矣,然实则败也.
FN — 假阴性(误否之谓也)
模型言:“此乃阴性之物”,然谬矣.
模型以为创业公司败矣,虽实则成也.
TN — 真阴性(确否之谓也)
模型确识阴性之属。
此创业公司实属失败,其果真失败也.
小引,记如何忆之.
诚然(T)——模型所断,果如其然.
谬误(F)——模型所断,实非其然.
阳(P)——模型归物于阳类(类一).
阴(N)——模型归物于阴类(类零).
譬如:
TP: T - 模式之权,盖因 P - 归类物于正类也
FN: F - 模式之误,盖因 N - 归类物于负类也
乃知吾辈前所论之诸度,实乃观此四数之异途耳
复可展 F1 之式
奇哉,TN不参F1分之计,故此度非关正确分类之负例多寡。
由是观之,F1尤适于类不平衡之务,盖因正类稀现,而其判识之质尤关紧要也。
处此之务,非惟重其能辨万物,实乃贵其能察稀而要——如疾疫之患,诈欺之交易是也。
精确-召回(PR)之曲线
世俗所用之模,多非直判类别,而乃示其属正类之几率。 属于正类之概率
吾辈择阈也阈限若概率逾乎半,则谓之正;不尔,则谓之负。
于此显要之理:若易此阈,则 precision 与 recall 亦随之易。
阈限甚高,则模型几无所标为正。然其精度颇高,而召回则甚微。
减少阈值,则模型将更多对象标为正例,故而召回率增,精确率降
若对每阈值计算精确率与召回率,继而互相对置之,则得 精确率-召回率曲线(PR-曲线)

曲线愈近右上隅,愈善其模(精审与回召俱高)。曲线骤坠,则谬误失衡;其位甚卑,则判别之力微。
ROC曲
虽显明,然PR曲非尽善之评器。
其主弊在于未言模型辨析负类之良否。专注正类,于失衡之务尤效,然时犹不足尽察模型之行止。
ROC曲线,则审视任务更“均衡”之态——兼顾模型于二类之表现。示模型于误报增时,探其辨正之能如何变迁。
欲明ROC曲线,当立二量:TPR与FPR。(真阳性率与假阳性率):
真阳性率显模型寻得真阳性之比.
此实即吾辈所谓名义检出率:
假阳性率示模型误将阴性认作阳性之比:
若如PR曲线,吾更阈限,于每值计TPR与FPR。继而,若绘图,以X轴为FPR,Y轴为TPR,可得ROC曲线.

如何运用之:
曲线愈近左上角(点(0,1)),则模型愈优。此谓模型能得正例(TPR高)而少生误报(FPR低)。
若曲线骤右而降,则示模型于负例处谬误甚巨,盖求正例愈多也。
对角线(自 (0,0) 至 (1,1) 之线)合于随机之模,此模不辨类属,实乃“盲猜”。
ROC-AUC
ROC之曲线,显模型于异阈之际,TPR与FPR之权衡。
然此图不便较诸模型——盖非一数,乃全曲也。
为简明比较,故用ROC-AUC(曲线下面积)——ROC曲线下面积.
所获之数,示模型于诸可能阈限间,区分正负对象之平均优劣也。
可如此解之。
AUC等于一 → 理想之模(类分尽别)
AUC = 0.5 → 任意之模(若掷铜钱)
AUC< 0.5 → 模型劣于任意(妙法:但反其预测,即可得佳模)
结语
今若问曰:“汝之分类器工乎?” — 吾等已非止于准确率之一数.
吾等悟矣,模型之质,乃多面之物,可自不同之方观之:
由混淆矩阵及基本之误(真阳性、假阳性、假阴性、真阴性);
由精确率与召回率,二者显不同之误。
依 F-score 平衡之;
依 PR-曲线显精准与召回之折衷;
依 ROC-曲线察模型于二类之表现;
亦依 ROC-AUC 汇诸端为单数。
至要者,当记之:无正確之質量標準。唯有多種測量不同錯誤之法。然必選合乎任務者。
既知評估之法,則於後節可坦然論及邏輯斯梯克之回歸,觀模型如何不僅僅被評估,更於資料中學習。











