























推荐系统的用户画像取上图中可以将用户和系统中物品连接起来的格子;
基于算法二次加工后的画像数据:
推荐系统中的用户画像分:
常用方法: 召回(粗排), 排序;
有效连接;细致刻画; 根据画像数据中每个取值平均能够覆盖的用户或物品的多少来判断;覆盖率; 指一份画像数据能够覆盖到多大比例的用户或物品;差异化能力; 能否标识出不同用户, 能够映射到不同的物品上;计算用户侧画像的基础
文本数据的结构化信息抽取
在分词和词性标注后, 构造一套针对自己领域和业务的知识图谱以及配套的抽取解析算法, 再根据效果反馈不断调优;
结构化信息抽取流程:
非结构化物品标签, 文本类标签数据+行为类标签数据
复合类型的物品画像, 对物品的深层次描述, 是基于客观属性以及行为数据, 通过算法深层次加工计算得到的;
大部分是通过用户与物品之间的行为计算得到; (局限性: 局限于历史兴趣范围内, 不能给出用户未曾有过行为的兴趣维度)
输入 = 用户行为序列 + 物品的多维度画像;
输出 = 建立在物品画像基础上, 用户对每个维度画像的兴趣 map;
见文末的用户画像系统架构图
常用用户画像的计算方式:
时间衰减法
用户对某个维度的兴趣在行为刚产生时最大, 随着时间不断衰减, 直到可忽略不计;
兴趣的初始最大值, 衰减方式;
\[w_t = w_0 \times e^{-\alpha \times \delta_t} \]
\(w_t\) 时间 t 对应的兴趣权重; \(w_0\) 初始兴趣权重, \(\delta_t\) 时刻 t 相比初始时刻过去的时间;
选择指数函数原因:
\(w_0\) 初期根据业务经验调整;
\(\alpha\), 兴趣的衰减速度, 以"半衰期"计算值, \(0.5x=x \times e^{-\alpha \times \delta_0}\)
时间衰减法的流程:
为不同类型的画像和行为设置不同的初值 \(w_0\);
当用户对物品产生行为时:
每次更新用户的画像兴趣度时, 对所有画像维度的兴趣度进行衰减更新, 更新后低于所设置的阈值就从列表中删除, 并将剩余结果进行排序, 以减少后期读写压力;
在使用用户画像时, 首先从存储列表中读取对应维度的画像, 并使用时间差进行时间衰减更新, 然后在下游流程中使用;
缺点:
分析模型预测法
将用户对某个维度画像的兴趣投射到具体行为上, 把这个行为产生与否建模成二分类问题;
向量(嵌入)表示类画像方法
数据特点: N 维的稠密连续向量, 作为一个整体对待;
函数: 输入是代表用户对象画像历史行为的若干向量表示的画像数据; 输出是一个或多个代表用户当前兴趣的向量;
除了基于历史兴趣给出当前兴趣, 需要一些其他方法对用户兴趣进行发散扩展, 保证推荐具有一定的新鲜度和惊喜度;
一跳相似度, 如果有大量用户同时访问了两个物品, 基于此计算出两者之间的相似度;
基于行为的相关性算法缺陷:
基于知识图谱的相关性计算推理
基于路径的方法
用户画像和排序特征的关系
用户画像的维度都可作为排序特征;
所有的排序特征也可以用作用户画像;
本质都是区别用户和物品的关系;
区别: 用户画像看重可解释性, 排序特征对可解释性要求不高(例如为了降低特征维度, 会对原始特征用 PCA 等方法降维, 降维后可解释性就大打折扣);
用户画像系统 = 物品画像 + 基于物品画像使用各种算法生成的用户画像
三个子模块:
通常每人都会负责生成, 存储, 提供调用以及维护等数据的全生命周期;(起步阶段必要经历, 但是不宜时间过长, 会留下技术债)
存在问题:
物品画像系统的架构:

画像生产模块, 统一接收同样格式的输入, 给出同样格式的输出, 即统一的接口实现;
用户画像系统的结构:

画像算法对于处理的是何种画像数据应该是无感知的;
最后的数据服务模块是必要的, 由于写入的数据并不是可直接使用的数据;
本文仅作为读书笔记使用!
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。