新浪博客

推荐系统

2022-12-08 16:58阅读:
推荐系统的数据:以user_id为group做训练集和验证集。
其中每个数据集最终处理成三个集合:user_feature(用户的各种特征,用户购买商品的特征), item_feature(商品的特征),cate_feature(商品的种类和id,作为全部待选商品/广告。)
特征表示:矩阵,DNN,graph
特征交叉:
一维线性:LR,LR+GBDT,(id)
二维交叉:FM(二阶交叉, 用户和item的embedding相乘)
多维交叉:DNN(深度学习)
混合交叉:wide&deep, deep&fm..
考虑时间维度交叉:DIN,DIEN交叉,考虑网络深度:deep&cross
损失函数:
1)sampled_softmax 函数
2) hinge
3)binary_cross_entropy (pair-wised loss)
目标:
单目标:Pctr,Pcvr
多目标:Pctcvr
ESMM:多目标模型(数据,模型,training/main --- code的三个部分)
DIEN:利用点乘得到即keys和query embedding的点乘形式得到。
DIN:利用了activation units模块,应用keys和query的embedding,以及相减,相乘做concatenate,dnn之后做softmax得到。
声音识别中使用到attention:即是双层lstm,其中第一层lstm得到的hidden cell state 和第二层lstm的cell state作为输入第二层lstm的输入,得到hidden cell state后经过dnn做softmax,得到attention。
注意力就像是人的注意力一样,在大街上,漂亮的,女孩,有特殊气味,奇形怪状的东西 ,更能让人多看一眼。
multihead-attention 1. multihead是多个head的叠加
2. attention计算
容易理解:渣男论 https://www.modb.pro/db/488036
目的就是增加模型的泛化能力也就是表达能力,增强他的预测能
力!
模型的评价: evaluation
ROC--AUC:跟排序有关可以用,跟两/多个模型的比较可以用,在(0,1)之间变动,越接近1模型表现越好,相反,则越差。
PR-AUC:跟临界值选取有关,在0-1之间变动,在recall开始下滑的时候,寻找precision的最佳点。

我的更多文章

下载客户端阅读体验更佳

APP专享