协同过滤算法研究综述
协同过滤算法研究综述
摘 要 本文在介绍传统协同过滤算法的基础上,分析其存在的一些弊端,文章着重介绍了协同过滤算法的研究情况,目的是为协同过滤算法改进提供引导作用。
关键字 协同过滤;个性化推荐;稀疏性
0引言
随着网络和电子商务的迅猛发展,用户可以在网上随意寻找自己感兴趣的商品,但随着信息爆炸式增长,用户在这过程中浪费了很多时间,个性化推荐系统对电子商务网站的业绩有很深的影响,其主要作用表现在以下几方面:可以把随意浏览网站的潜在客户转变为实际购买者;提升电子商务网站交叉销售能力;提升客户对网站的忠诚度。其中协同过滤技术是目前运用最广泛的个性化推荐技术。
1协同过滤算法
协同过滤技术是通过收集整理过去用户产生的数据来寻找邻居用户,其基本原理是根据相似用户的兴趣来推荐当前用户没有参与但是很有可能会感兴趣的项目,所基于的假设是如果两个用户兴趣类似,那么很有可能当前用户会喜欢另一个用户所喜欢的项目。协同过滤推荐技术分为3个阶段:评分数据表示;最近邻居形成;推荐项目集产生
1)评分数据表示:将用户对于项目的评分收集整理后描述成一个的用户-项评分矩阵,其中m 表述用户数,n 表式项目数。矩阵中元素表述用户 对项目的评分;
2)最近邻居形成:指根据项目评分矩阵来发现目标用户的最近邻居。协同过滤技术是通过计算用户之间的相似性来找到目标用户的最近邻,所以算法的关键就在于如何准确找到目标用户的最近邻。常用的用户之间的相似度算法有Pearson 相关系数和余弦相似性;
3)推荐项目集产生:目标用户的最近邻居集产生后,可以得出目标用户对未评分项的预测分,将分值按照高低排列,产生TOP-N 的推荐项目集合;
这就导致了协同过滤技术过分依赖于用户评分,但目前电子商务网站的用户和商品数量一直在上升,同时用户对商品项的评分却非常稀少,通常在1%以下,使得用户-项目评分矩阵过于稀疏,导致个性化推荐质量下降:
1)评分矩阵稀疏使得寻找最近邻的准确度降低;