Neural Collaborative Filtering论文笔记
创始人
2024-01-27 16:57:35
0

ABSTRACT

 

1f3b8f7f157a43ab8e4d65efcdc56bb6.png

        深度神经网络在语音识别、计算机视觉和自然语言处理等方面取得了巨大的成果,但是对于推荐系统尚且缺少。虽然即使有用深度学习作为推荐,但是都是对建模起辅助作用。当涉及到用户和项目之间的交互,都会选择流行的矩阵分解(MF),因此基于上面的情况这篇论文的作者提出了一个基于协同过滤的神经网络通用框架——NCF,其中选择使用MLP来学习用户-项目的交互函数。

1. INTRODUCTION

        个性化推荐主要使用矩阵因子分解,通过用户过去与项目的互动来建模从而得出用户对项目的偏好,同时对于后续的研究也基本都是致力于增强MF,但是提升效果并不是很大。基于此论文做出的主要三点贡献

821e58b95c3b4e8ea03252a9b799efae.jpeg

         (1)提出了一种神经网络结构来建模用户和项目的潜在特征,并设计了一个基于神经网络的协同过滤的通用框架NCF。

        (2)表明,MF可以被解释为NCF的一个专门化,并利用一个多层感知器来赋予NCF模型一个高水平的非线性。

        (3)在两个真实世界的数据集上进行了广泛的实验,证明NCF方法的有效性和对协作过滤的深度学习的前景。

2.PRELIMINARIES

        主要讲述了隐式反馈进行协同过滤的解决方案,简要概括MF

2.1 Learning from Implicit Data

        定义Y是一个M*N的用户-项目交互矩阵,矩阵中的元素根据用户和项目之间是否存在交互关系来定义,即:

a68d18fb65b944e499db7e1f0fb4b653.jpeg

        如下图所示:

c6852747c2cc41c1819c3411338a1149.jpeg

         注意:这里用户i对应项目i的1并不一定是喜欢,同时用户i对应项目i的0不一定是不喜欢,有可能是因为用户完全还不知道有这个项目,从而导致数据的缺失形成的情况,这也是隐式数据的一个特点。

2.2 Matrix Factorization

       将每个用户和物品和一个潜在特征的实值向量联系起来,用gif.latex?p_ugif.latex?q_i分别表示用户和项目,通过内积的方法来预测用户对该项目的爱好程度:

11544a84870946fb87be2ea9b6b07fd3.jpeg

        这里通过Jaccard作为两两用户相似性的计算方法:

gif.latex?S_ij%3D%5Cfrac%7Bp_i%20%5Ccup%20p_j%7D%7Bp_i%5Ccap%20p_j%7D

        这样通过简单的计算内积计算得到复杂的用户与项目直接的关系,可能会使MF存在一定的局限性,同时也很容易导致结果过拟合。

 3. NCF model

 3.1 模型架构图

cd60f6a5bc494d52bfba7be1e15e9f03.jpeg

3.2 模型架构公式

        (1)NCF预测模型

9ac6ca20be4f4e7cbb50b8a65f9ce9e0.png

        (2)上面公式中f()函数定义的多层神经网络,它表示如下:

2a881a2b9e024a509c5070f3a9014156.jpeg

3.3  网络层描述

3.3.1 输入层

         输入的是过了一层one-hot用户矩阵向量和项目矩阵向量

3.3.2 embedding层

         因为经过one-hot出来的用户矩阵和项目矩阵是稀疏矩阵,这里经过embedding层将稀疏矩阵映射成稠密矩阵

3.3.3 Neutral CF层

         网络模型架构这里是经过多层的全连接进行映射,不断的进行维度变化,使得来逼近训练数据的真实概率分布。

      (这里也有点困惑,后面的由Neutral CF的模型架构与这又是否有区别,我的认识是这里就是多层的下面的模型架构堆叠,当然这只是我自己的理解。)

3.3.4 输出层

         通过sigmoid函数将结果映射到输出的维度,得到最后的预测结果。

3.4 损失函数

      (1)一般常用的损失函数是平方损失回归:81da38f2000740edafe6fcc8fb2d5db0.jpg

       (2)论文中提出来一个新关注于隐式数据的损失函数

4f5e68e0fc5e49f3bdb1577bdd3008c0.jpg

3.5 Neutral CF

3.5.1 模型架构图

f69dafe9caa14ea9aa645ee75d045e0b.jpg

3.5.2 GMF

      (1)模型架构在上面就是将用户和项目矩阵做内积,然后通过一层激活函数,进行维度映射。(激活函数选择为sigmoid函数)

      (2)模型公式

ba352b3d88dc48ef9ee270f6c6c63754.jpg

3.5.3 MLP

      (1)和我们平常理解的MLP模型相同,这里主要是对用户和项目做交互,更换了以前的MF的简单不足,当然这里的模型架构也是在上面图中,用户和项目经过多层MLP进行不同维度的全连接,网络层级为塔型,逐级减半,提取更多的隐式特征。(选择的激活函数是ReLU)

      (2)模型公式(n层MLP)

710ff0001bea47ffae510b3a6874e4a9.jpg

3.5.4 GMF和n层MLP的fusion

      (1) 一种简单的方法

b06c80090b504d6ca79a24d493bcd606.jpg

       (2)分开训练,最后连接隐藏层h。

770d91e2cc86401baf67db30168969a5.jpg

 3.4 Pre-training

      将GMF和MLP单独分开训练,然后加载预训练好的权重,通过给出不同的权重值进行组合,从而实现Pre-training(个人理解,不是很清楚)

cd3a56518a804bfe8d92d5bd00f18578.jpg

4.具体案例代码

4.1 NCF实例代码模型架构

        此代码来自Datawhale推荐系统论文组队学习task1中的代码实现,以下主要展示模型的架构。

class NCF(nn.Module):def __init__(self,# 经过embedding层之后的维度embedding_dim = 16,# 映射层vocab_map = None,# 损失函数loss_fun = 'torch.nn.BCELoss()'):super(NCF, self).__init__()# 定义各个层的维度变化# embedding层self.embedding_dim = embedding_dim# 映射层self.vocab_map = vocab_map# 损失函数self.loss_fun = eval(loss_fun) # self.loss_fun  = torch.nn.BCELoss()# 用户矩阵过embedding层self.user_emb_layer = nn.Embedding(self.vocab_map['user_id'],self.embedding_dim)# 项目矩阵过embedding层self.item_emb_layer = nn.Embedding(self.vocab_map['item_id'],self.embedding_dim)# MLP层self.mlp = nn.Sequential(nn.Linear(2*self.embedding_dim,self.embedding_dim),nn.ReLU(inplace=True),nn.BatchNorm1d(self.embedding_dim),nn.Linear(self.embedding_dim,1),nn.Sigmoid())def forward(self,data):# embedding层user_emb = self.user_emb_layer(data['user_id']) # [batch,emb]item_emb = self.item_emb_layer(data['item_id']) # [batch,emb]# 进行全连接mlp_input = torch.cat([user_emb, item_emb],axis=-1)# 过n层MLPy_pred = self.mlp(mlp_input)if 'label' in data.keys():loss = self.loss_fun(y_pred.squeeze(),data['label'])output_dict = {'pred':y_pred,'loss':loss}else:output_dict = {'pred':y_pred}return output_dict

4.2 Neural MF实例代码模型架构

        此代码经过自己修改上面的模型架构得到的Neural MF模型,当然各个网络层的映射与上面原论文中的参数设置并不相同。

class NeuralMF(nn.Module):def __init__(self,embedding_dim = 32,vocab_map = None,loss_fun = 'torch.nn.MSELoss()'):super(NeuralMF, self).__init__()self.dim_mlp = [64, 256, 128, 64, 32]self.embedding_dim = embedding_dimself.vocab_map = vocab_mapself.loss_fun = eval(loss_fun) # self.loss_fun  = torch.nn.BCELoss()# gmf对用户id和项目id进行编码(输出为16)self.user_emb_layer_gmf = nn.Embedding(self.vocab_map['uid'], 32)self.item_emb_layer_gmf = nn.Embedding(self.vocab_map['iid'], 32)# mlp对用户id和项目id进行编码(输出为16)self.user_emb_layer_mlp = nn.Embedding(self.vocab_map['uid'], 32)self.item_emb_layer_mlp = nn.Embedding(self.vocab_map['iid'], 32)# 过一个线性+激活函数+归一化+(这里线性先不进行)self.fc_layers = torch.nn.ModuleList()for idx, (in_size, out_size) in enumerate(zip(self.dim_mlp[:-1], self.dim_mlp[1:])):self.fc_layers.append(torch.nn.Linear(in_size, out_size))# 最后过一个线性self.affine_output = nn.Linear(2 * 32, 1)self.logistic = torch.nn.Sigmoid()def forward(self,data):# gmf_vector进行矩阵相乘user_emb_gmf = self.user_emb_layer_gmf(data['uid']) # [batch,emb]item_emb_gmf = self.item_emb_layer_gmf(data['iid']) # [batch,emb]mf_vector = torch.mul(user_emb_gmf, item_emb_gmf)# 进行连接并过一层mlpuser_emb_mlp = self.user_emb_layer_mlp(data['uid']) # [batch,emb]item_emb_mlp = self.item_emb_layer_mlp(data['iid']) # [batch,emb]mlp_vector = torch.cat([user_emb_mlp, item_emb_mlp], dim=-1) for idx, _ in enumerate(range(len(self.fc_layers))):mlp_vector = self.fc_layers[idx](mlp_vector)mlp_vector = torch.nn.Dropout(0.8)(mlp_vector)mlp_vector = torch.nn.ReLU()(mlp_vector)# 将上面gmf和mlp进行组合vector = torch.cat([mlp_vector, mf_vector], dim=-1)y_pred = self.affine_output(vector)if 'label' in data.keys():loss = self.loss_fun(y_pred.squeeze(),data['label'])output_dict = {'pred':y_pred,'loss':loss}else:output_dict = {'pred':y_pred}return output_dict

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...