今有论于 r/learnmachinelearning,言机器学习之理,其二十分中,有八十分用于实践。此论出自一数据科学家,初涉工程之职六月有余。其文列算法(逻辑回归、梯度提升树、转换器)及运筹之能(Docker、SQL、数据验证),而理论本身未明言。下列四典,乃实践所验,亦所易失。
偏差-方差,然为部署之预测
偏误-方差之理,常喻为U形曲,兼述训练集之轶事。然于实境,其显于早——若预测模型于离线指标与线上流讯间,将悄然败坏。高方差之拟合,于隔离集上光鲜,于长尾处自惭形秽;高偏误之拟合,离线时平平,线上亦平平。此框架之所以不朽,盖因其能应诸团队于第三周所问之惑——"训练似佳,部署不谐,何故"——而无需创制新辞以诊之。
为什么要说正则化是个数据预算问题
《教材》视正则化之为抑大权。其制法廉:正则化乃"此模实有几何数据,去其赘漏之后"之枢机。强L2,大dropout,小学习率,皆同策于同患——有效数据集实小于行数所显。不先审数据质而调正则化,则众队耗一周追一数,而数据清理可使之移矣。
损失函数为产品之规
众队择损函数,犹择本图,一而止,不复更易。其恒久之理,适得其反:损函数乃优化器所直解之数学产品规格。欺诈模型配以素雅交叉熵,则告优化器:得真正阳之一,值虚正阳之九,及众人见人评者溺于警报,皆大惊。命名此不对称——类权重、焦损失、显性代价矩阵——乃理论上最小之变,而下游之效至巨。
校准以达精准
仪表盘上之度,乃准确率或AUC也。下游系统所实取者,乃概率也——或为某他服务所乘之期望值,或为阈限规则所化之行动。模型或得AUC之高分,犹可大谬其配,于实解真者仅六成之事件,反报九成之信。一可靠性图或速行Platt标度之术,午后可成,遂绝模型分数将乘以他物后之最常见生产故障。
线索所不及者
上四义者,理也。Reddit之帖言,日多非理,乃数据之管,可察之能,轮值之序,及久持之评验之术,此皆换模而存。此技决理之或得用。是故系统之半,原帖为善读,其下注论算法之众,尤胜帖文。












