生产中赖以立足之机器学习理论二十分之一

今有论于 r/learnmachinelearning，言机器学习之理，其二十分中，有八十分用于实践。此论出自一数据科学家，初涉工程之职六月有余。其文列算法（逻辑回归、梯度提升树、转换器）及运筹之能（Docker、SQL、数据验证），而理论本身未明言。下列四典，乃实践所验，亦所易失。

偏差-方差，然为部署之预测

偏误-方差之理，常喻为U形曲，兼述训练集之轶事。然于实境，其显于早——若预测模型于离线指标与线上流讯间，将悄然败坏。高方差之拟合，于隔离集上光鲜，于长尾处自惭形秽；高偏误之拟合，离线时平平，线上亦平平。此框架之所以不朽，盖因其能应诸团队于第三周所问之惑——"训练似佳，部署不谐，何故"——而无需创制新辞以诊之。

为什么要说正则化是个数据预算问题

《教材》视正则化之为抑大权。其制法廉：正则化乃"此模实有几何数据，去其赘漏之后"之枢机。强L2，大dropout，小学习率，皆同策于同患——有效数据集实小于行数所显。不先审数据质而调正则化，则众队耗一周追一数，而数据清理可使之移矣。

损失函数为产品之规

众队择损函数，犹择本图，一而止，不复更易。其恒久之理，适得其反：损函数乃优化器所直解之数学产品规格。欺诈模型配以素雅交叉熵，则告优化器：得真正阳之一，值虚正阳之九，及众人见人评者溺于警报，皆大惊。命名此不对称——类权重、焦损失、显性代价矩阵——乃理论上最小之变，而下游之效至巨。

校准以达精准

仪表盘上之度，乃准确率或AUC也。下游系统所实取者，乃概率也——或为某他服务所乘之期望值，或为阈限规则所化之行动。模型或得AUC之高分，犹可大谬其配，于实解真者仅六成之事件，反报九成之信。一可靠性图或速行Platt标度之术，午后可成，遂绝模型分数将乘以他物后之最常见生产故障。

线索所不及者

上四义者，理也。Reddit之帖言，日多非理，乃数据之管，可察之能，轮值之序，及久持之评验之术，此皆换模而存。此技决理之或得用。是故系统之半，原帖为善读，其下注论算法之众，尤胜帖文。

源：六载机器学习工程：其二十分之理论，掌八十分之生产代码。

推薦訂閱源