






















离线预测+在线预测
监控点击率的稳定性
真实点击率的稳定性
计算相邻两个区间内点击率分布的 PSI(Population Stability Index, 群体稳定性指标), 小于 0.1 可认为数据相对稳定;
预测点击率的稳定性
与系统本身和用户发生变化有关;
预测点击率和真实点击率差异的稳定性
监控预测AUC的稳定性
考虑展现偏差;
监控特征覆盖的稳定性

特征生成器 = 一组配置数据 + 一组解析程序;
典型: 根据用户的 key 和物品的 key 到原始特征库中获取所需要的原始特征, 然后按照配置的要求进行处理, 得到最终可用的特征;
特征生成器:
特征生成器的好处:

Logistic Regression, LR

\[y = f(x) = \frac{1}{1+e^{-z}}, z = \sum_i{w_i \times x_i} \]
线性部分(z)+logistic部分;
y 表示一个物品被用户点击的概率, 1-y 即用户不点击该物品的概率;
\(odds = y/(1-y)\), 一件事情发生与不发生的的比例;
\[log\frac{y}{1-y} = log\frac{1}{e^{-z}} = loge^z = z \]
LR 模型将 log-odds 统计量建模为线性问题;
优点:
缺点:
优先尝试的模型
Gradient Boosting Decision Tree, 梯度提升树 = 梯度方法(gradient) + boosting + 决策树(decision tree);

优点:
缺点:
facebook 2014年提出;

流程:
区分A, B组数据, 是不希望参与树模型训练的数据再参与 LR 模型的训练, 造成过拟合;
Factorization Machine, FM
\[y = f(x) = w_0 + \sum_{i=1}^n w_ix_i + \sum_{i=1}^n\sum_{j=i+1}^n <v_i, v_j>x_ix_j \]
每个组合特征是由两个 k 维向量 v 计算内积得到的, 即 n 个 x 的 v 向量组成了全部的组合特征的参数, 数量是 nk 个, O(nk) 量级;
\[M = VV^T \]
优点:
与 FM 模型的区别: 使用深度神经网络构造非线性特征;


DIN, DCN, PNN, DeepFM等
知其然, 知其所以然;
提出模型的原因, 与其他模型的关系;
反模式:
只见模型, 不见系统;
以系统全局观看到问题, 模型优化服务目标是最终是为了调优系统;
忽视模型过程和细节;
LR 模型适合用于排查模型内部异常参数; 把控训练过程细节来把控最终模型;
不注重样本精细化处理;
对负样本的界定不够细致; 对样本概念的理解不到位;
过于依赖算法;
核心数据缺乏控制;
用数据的人保证对数据的控制性;
团队不够全栈;
关注整个系统的全局性思维;
系统边界模糊导致出现"巨型系统";
巨型系统特点:
不重视基础数据架构建设;
样本数据, 原始特征数据, 处理后的特征数据, 支撑数据等;
保证数据的可用性和可探索性;
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。