Exploit Latent Dirichlet Allocation for One-Class Collaborative Filtering
文件大小:
368k
资源说明:一、推荐系统与协同过滤问题
推荐系统的目标是自动向每个用户推荐他们可能感兴趣的项目。传统的协同过滤方法通过挖掘用户评分历史数据来预测用户的兴趣,这些评分数据是多值分数,可以被归类为“多类”推荐问题。许多基于机器学习的算法被设计出来,用于在这些多值数据上预测用户的兴趣,其中基于矩阵分解的算法是最常见的一种。
二、单类协同过滤
单类协同过滤(OCCF)问题研究包括基于点的方法、基于对的方法和基于内容的方法。这些方法所做的基本假设大致相同,它们都将所有缺失值视为负值。然而,这并不合理,因为实际上缺失值是正面和负面示例的混合体。一个用户没有对某个项目给出积极反馈可能仅仅是因为她/他不知道该项目,但实际上她/他是喜欢它的。此外,基于内容的方法,例如协同主题回归(CTR),通常需要项目的文本内容信息。在某些情况下,这无法得到满足。
三、隐含狄利克雷分配模型
本文提出在OCCF问题上利用隐含狄利克雷分配(LDA)模型。它假设缺失值未知,并且只建模观察到的数据,同时它也不需要项目的文本内容信息。在我们的模型中,项目被视为词汇,用户被看作文档,用户-项目反馈矩阵表示语料库。实验结果表明,我们提出的模型在各种基于排名的评估指标上优于先前的方法。
四、隐含狄利克雷分配模型的运用
LDA是一种主题模型,用于从大规模文本数据集中发现主题信息。它是概率模型,对文档集中的每个文档都建模成一组主题的概率分布,而每个主题又是一组词汇的概率分布。在推荐系统中运用LDA模型,可以把用户和项目分别映射为文档和词汇,用户的兴趣和项目的特征通过主题关联起来。
五、缺失值的处理
在OCCF问题中,由于用户对某些项目的评分信息缺失,而这些缺失值实际上包含着对项目正面和负面的评价。本文提出的方法中,缺失值被视为未知,并不直接参与模型的训练过程。这就避免了将缺失值直接解释为负面反馈带来的不合理性。
六、文本内容信息的需求
一些基于内容的推荐系统方法需要项目本身的文本内容信息。在实际应用中,并非所有项目都有足够的文本内容信息供算法使用。本文提出的基于LDA的方法不需要使用项目的文本内容信息,从而解决了这一局限。
七、模型评估标准
实验结果表明,本文提出的基于LDA的单类协同过滤方法在各种基于排名的评估指标上优于先前的方法。这意味着该方法能够更准确地预测用户对于项目的真实兴趣,并在实际的推荐系统中提供更为合理的推荐结果。
本文提出的单类协同过滤方法在解决用户评分缺失问题以及不需要项目文本内容信息的前提下,通过隐含狄利克雷分配模型提供了一种更高效的推荐系统设计思路。这种方法既满足了当前推荐系统的实际需求,也避免了传统方法中存在的一些缺陷,显示出良好的实际应用潜力。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。