探微机器学习无滥：自基础至Attention。第五篇：质量之度

在第四部分，吾輩始習分類之術，並解kNN之法.

今已達境，可構建一竄劣之分類器。然若人問曰：“其效何如？，
然吾辈所能应者，不过云：“噫……于试炼之选，此模正确应之，得百分之p焉。”

一则，古语有云：宁有五百卢布，无有二百。然高p%者，果能保模之质乎？

今当辨此诸问，察机器学习之质度，知其所以需，并明其宜解之理.

Accuracy

于引言中，吾等已论及此度。其显模型正答之率.

吾当先言，虽Accuracy常译为“正”，然于机器学习，易致混淆。故非译其名，或称之曰答对之率，或直曰Accuracy.

此何利耶？Accuracy示模型优劣之简明：其示凡百事中，模型得正类者几何。此乃良基之指，尤宜于题设之类均衡（即各类元素数相仿）且诸般谬误皆等重之时。

然此指标有重大局限——其于事无补。此模型何所失哉？.

观奇异之创业，千中得一见其成。若模型恒应"终无成"，则其准确率当为九十九点九。
礼之成也，善矣，然其实用之效，未可知也...

惟此等事，精微之度，已非所恃矣——其隐要失之甚巨，尤当类之不均或失之之价殊异时。

精核

精核（或阳性之精核）显之，凡模型归为正类之诸物，其果为正类者几何。

返观初创企业之例，precision示之，模型预为成功者之初创企业，其果为成功者，十中几何。

精微之要，在于不欲模型频发虚警。譬如银行之务，岂悦模型每废二交易，以为诈欺乎？

试观小例：

设吾有百创企之议，其实仅五得成。

模型所呈之果如下：

из пяти успешных стартапов, она верно нашла три, а оставшиеся два сочла неудачными;
из девяноста пяти провальных стартапов модель правильно определила девяносто как провальные, но еще пять ошибочно приняла за успешные;

Тогда:

всего модель дала девяносто три правильных ответа из ста, то есть точность равна девяносто трем процентам.
計有八創業，然實成者三。故精確率為三分之八（三成七五）。

蓋準確雖高，然信其陽斷，猶為難也。

Recall

Recall（或全備）者，示機器於眾陽中，能得幾何。

吾侪之例也，乃成事之新创企业之比，模型所能辨识为成事者（例中得三于五，故召回率六成也）。

忆尤重于事，其要在于此。勿失善境譬如，于寻疾之时，recall之数低，则模型多漏真患之人。

F分数

吾辈遇一难题：precision与recall几若相争。

譬如，模型鲜少能预言"成功之创业"。是故其precision甚高——盖其误判甚微。然recall则低，盖模型多漏却实属成功之项目。

反之：若模型几将所有皆标为成功，recall自增，然precision则骤降。

故实践中常取F-score——此度，欲兼顾precision与recall。尤以F1-score为谐均之，取Precision () 与 Recall () 之

$F_1 = \frac{2PR}{P+R}$

。然F1-score惟当precision与recall俱足时，方得为大。

除F1外，尚有Fβ之泛化版本。F1之于precision与recall，其敏感度无别，（公式对P与R具对称性），则Fβ可令吾人自主调衡二者之重。其计算之法若此：

$F_\beta = (1+\beta)^2 \frac{2PR}{\beta^2 P + R}$

若吾辈欲更重precision，则取 $\beta < 1$ 。若recall更为紧要，则择 $\beta > 1$ 。
若二者俱重，则用之。 $\beta = 1$ ，此与标准F1分数相合。

是故，Fβ之法，可权变于精准与召回之间。

混淆矩阵

行前，且以"四骑士末日"之喻，论及此理。诚然，此度之解，吾心不甚悦——易惑，然常言道，须得 Федя，须得...

设此模为系统，判万物：善耶？恶耶？

凡此等判词，必归四途之一.

TP — 真正之阳（True Positive）

此乃模型断曰：“是也，为阳”，而果得其实.
模型决曰：“此创举为成”，而其果为成.

FP — 假阳之误（False Positive）

模型断曰：“是阳”，然谬矣：
模型以为创业公司成矣，然实则败也.

FN — 假阴性（误否之谓也）

模型言：“此乃阴性之物”，然谬矣.
模型以为创业公司败矣，虽实则成也.

TN — 真阴性（确否之谓也）

模型确识阴性之属。
此创业公司实属失败，其果真失败也.

小引，记如何忆之.

诚然（T）——模型所断，果如其然.
谬误（F）——模型所断，实非其然.
阳（P）——模型归物于阳类（类一）.
阴（N）——模型归物于阴类（类零）.

譬如：

TP: T - 模式之权，盖因 P - 归类物于正类也
FN: F - 模式之误，盖因 N - 归类物于负类也

乃知吾辈前所论之诸度，实乃观此四数之异途耳

$Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$ $Precision = \frac{TP}{TP+FP}$ $Recall = \frac{TP}{TP+FN}$

复可展 F1 之式

$F_1 = \frac{2TP}{2TP +FP + FN}$

奇哉，TN不参F1分之计，故此度非关正确分类之负例多寡。
由是观之，F1尤适于类不平衡之务，盖因正类稀现，而其判识之质尤关紧要也。

处此之务，非惟重其能辨万物，实乃贵其能察稀而要——如疾疫之患，诈欺之交易是也。

精确-召回（PR）之曲线

世俗所用之模，多非直判类别，而乃示其属正类之几率。 属于正类之概率

吾辈择阈也阈限若概率逾乎半，则谓之正；不尔，则谓之负。

于此显要之理：若易此阈，则 precision 与 recall 亦随之易。

阈限甚高，则模型几无所标为正。然其精度颇高，而召回则甚微。
减少阈值，则模型将更多对象标为正例，故而召回率增，精确率降

若对每阈值计算精确率与召回率，继而互相对置之，则得 精确率-召回率曲线（PR-曲线）

曲线愈近右上隅，愈善其模（精审与回召俱高）。曲线骤坠，则谬误失衡；其位甚卑，则判别之力微。

ROC曲

虽显明，然PR曲非尽善之评器。
其主弊在于未言模型辨析负类之良否。专注正类，于失衡之务尤效，然时犹不足尽察模型之行止。

ROC曲线，则审视任务更“均衡”之态——兼顾模型于二类之表现。示模型于误报增时，探其辨正之能如何变迁。

欲明ROC曲线，当立二量：TPR与FPR。（真阳性率与假阳性率）：

真阳性率显模型寻得真阳性之比.
此实即吾辈所谓名义检出率：

$TPR = \frac{TP}{TP+FN}$

假阳性率示模型误将阴性认作阳性之比：

$FPR = \frac{FP}{FP+TN}$

若如PR曲线，吾更阈限，于每值计TPR与FPR。继而，若绘图，以X轴为FPR，Y轴为TPR，可得ROC曲线.

如何运用之：

曲线愈近左上角（点(0,1)），则模型愈优。此谓模型能得正例（TPR高）而少生误报（FPR低）。

若曲线骤右而降，则示模型于负例处谬误甚巨，盖求正例愈多也。

对角线（自 (0,0) 至 (1,1) 之线）合于随机之模，此模不辨类属，实乃“盲猜”。

ROC-AUC

ROC之曲线，显模型于异阈之际，TPR与FPR之权衡。

然此图不便较诸模型——盖非一数，乃全曲也。

为简明比较，故用ROC-AUC（曲线下面积）——ROC曲线下面积.
所获之数，示模型于诸可能阈限间，区分正负对象之平均优劣也。

可如此解之。

AUC等于一 → 理想之模（类分尽别）
AUC = 0.5 → 任意之模（若掷铜钱）
AUC< 0.5 → 模型劣于任意（妙法：但反其预测，即可得佳模)

结语

今若问曰：“汝之分类器工乎？” — 吾等已非止于准确率之一数.
吾等悟矣，模型之质，乃多面之物，可自不同之方观之：

由混淆矩阵及基本之误（真阳性、假阳性、假阴性、真阴性）；
由精确率与召回率，二者显不同之误。
依 F-score 平衡之；
依 PR-曲线显精准与召回之折衷；
依 ROC-曲线察模型于二类之表现；
亦依 ROC-AUC 汇诸端为单数。

至要者，当记之：无正確之質量標準。唯有多種測量不同錯誤之法。然必選合乎任務者。

既知評估之法，則於後節可坦然論及邏輯斯梯克之回歸，觀模型如何不僅僅被評估，更於資料中學習。

推薦訂閱源

Все публикации подряд на Хабре