






















关联规则算法, 由于限制较大, 所以相关性较强, 但覆盖率较低;
协同过滤算法, 覆盖率更高, 相关性较差;
以上两者基于行为, 有冷启动问题, 所以需要内容相关性算法来托底;
三种算法的融合得出最终的结果;
数据血统: 对数据的来源进行记录与分析的相关数据和过程;
\[score_i = \sum_j(w_j \times score_{j,i}) \]
如果推荐算法下没有直接给出得分(score), 只有一个排序, 则可以选择平均点击率作为拟合目标:
\[ctr_i = w_i \times order_i + b \]
存在两个问题:
\(w_j\) 可根据不同算法的 CTR, CVR 等客观指标来分配权重,
\[w_j = \frac {ctr_j} {\sum_k ctr_k} \]
平均点击率必须是不同算法在同一位置上的平均点击率;
或者采用网格搜索;
使用一组规则将来自不同推荐算法的结果进行融合, 规则的核心要素:
优先级高的算法一般具有以下特点:
线性加权融合和优先级融合, 均是粗粒度的算法级融合, 不是细粒度的物品级融合; 模型结构简单, 优化空间小; 融合方法没有结合用户反馈;
机器学习的排序融合, 在某个衡量指标(CTR)的指引下, 基于物品本身的特征, 当前场景的特征以及物品和场景的组合特征, 为当前场景下的每个参与排序的候选物品计算该指标(CTR), 并使用该估计值进行排序;
时效性要求不高, 策略多样复杂, 召回数据量大的情况时, 并不一定需要实时融合;
计算每种策略在结果中的占比分布, 每种策略平均能贡献多少个结果, 以及这些结果的平均分数如何;
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。