基于标签和协同过滤的个性化资源推荐
基于标签和协同过滤的个性化资源推荐
蔡强1韩东梅1李海生1
胡耀光2陈谊1
(北京工商大学计算机与信息工程学院
北京100048)1
(北京理工大学工业设计研究所北京100081)2
摘要传统的协同过滤算法以用户评分体现用户兴趣偏好及资源相似度,忽视了用户、资源自身的特征,并且对稀疏数据和新资源的推荐质量明显下降。在Web2.0时代下,标签可被用户依个人偏好进行自由资源标注。因此,提出了基于标签和协同过滤的推荐算法。其基本思想是将标签作为体现用户兴趣偏好和资源特征的信息,依据用户、标签及资源的多维关系生成用户及资源的标签特征向量,并计算用户对资源的偏好程度和资源相似度,然后基于用户的历史行为预测用户对其他资源的偏好值,最后依据预测偏好值排序产生Top-N推荐结果。通过与传统的协同过滤算法的比较,验证了本算法能有效缓解数据的稀疏性,解决推荐的冷启动问题,提升推荐的准确性,获得更好的推荐效果。关键词标签,协同过滤,推荐算法,用户偏好,资源相似度中图法分类号TP301
文献标识码A
PersonalizedResourceRecommendationBased
on
TagsandCollaborativeFilteringCAIQian91
HANDong-meil
LIHabshen91
HUYao-guangz
CHENYil
(sch00lofComputerandInformation,BeijingTechnologyandBusinessUniversity,Beijing100048,China)1
(InstituteofIndustrialDesign。BeiiingInstituteofTechnology。Beijing100081,ClliIla)2
Abstract
Traditionalcollaborativefilteringalgorithmreflectsthe
user
interestpreferencesandsimilarityofitemsby
user
ratings.It
ignoresthecharacteristicsofuser
and
project,andperforms
notvery
wellforsparsedataandnewitems.
Undertheage
of
Web2.0,social
taballowsthe
user
tO
label
resources
based
on
personalpreferences
freedom.To
solve
theproblems.ahybridalgorithm
based
on
tagsand
collaborativefilteringrecommendation
algorithm
wasproposed.The
method
uses
the1abel
aS
the
user
interestinformationandtheitemd】aracte五stic.Throughmaking
use
ofthemuhidi—
mensionalrelationshipoftheuser,socialandlabeling,algorithmgenemtesuserfeature
vectorand
Item
feature,and
eal—
culatestheuserpreferencesforitemsandpmjectssimilarity.Thenbased
on
thehistoricalbehaviorofthe
user,user
preference
on
otherproiectsispredicted.Finally,sortingthepredictedpreference,recommended
results
are
generated.
Experimental
resultsshow
that
our
algorithm
can
effectivelyalleviatedatasparsity,solvethecoldstart,andenhancethe
accuracy
oftherecommendation.Keywords
Tag,Collaborative
filtering,Recommendationalgorithm,Userpreference,Itemsimilarity
1
引言
推荐算法应用较广泛。传统的协同过滤算法基本思想是使用
统计技术寻找与目标用户有相同或相似兴趣爱好的邻居用信息技术特别是互联网技术的飞速发展使人类进人了信
户[3],如根据邻居用户的评分预测目标用户对资源的评分值,
选择预测分值较高的N个资源推荐给目标用户。而事实上资源的评分数据较稀疏,无法获知用户的偏好,导致推荐系统的性能下降。因此,研究者基于用户的协同过滤算法进行了由组织、管理和搜索所需的资源[1]。这种易使用性使标签成改进,并提出了基于邻域、基于隐语义模型的协同过滤推荐算法。如基于邻域最近邻的协同过滤推荐算法[3],缓解了评分数据稀疏性的问题,但忽视了资源自身的特征,且存在冷启动
目前,推荐系统在电子商务、信息检索以及移动应用、互
问题;不确定近邻的协同过滤推荐[43依据用户场景动态选择
推荐方法,虽能改善推荐效果,但依据用户评分数据对资源分
本文受国家自然科学基金项目(71071019),国家高技术研究发展计划(863项目)(2012AA
・
69
・
万方数据
息爆炸的时代,给人们带来了很大的信息负担。个性化推荐
系统的出现为互联网信息过载提供了一个有效的工具。尤其在Web2.0时代下,用户使用社会标签对信息进行分类,可自为信息分类与索引的重要方式[2],既能反映出用户的兴趣爱好,又能体现资源特征。
联网广告等众多应用领域中取得了较大进展,其中协同过滤
到稿日期:2013-04-27返修日期:2013—06—02040904),北京市属高等学校人才强教计划资助项目(P}玎R201108075),重点学科一计算机应用技术(PXM2013_014213_000030_00042300)资助。蔡强(1969一),男,博士,教授,主要研究方向为智能信息处理、科学可视化,E-mail:eaiq@th.btbu.edu.LTI;韩东梅(1988一),女,硕士生,主要研究方向为智能信息处理,E-mail:hdm26122@126.tom(通信作者);李海生(1974一),男,博士,教授,主要研究方向为智能信息处理、科学可视化;胡■光(1974一),男,博士,主要研究方向为敏捷制造、信息化咨询等;陈谊(1963一),女,博士,教授,主要研究方向为信息可视化与可视化分析、智能信息处理。
类,也忽视了用户、资源自身的特征信息;基于矩阵分解模型的协同过滤算法[5],虽能提高推荐效果,但未能很好地解决数
据稀疏性问题。
鉴于此,将标签自由标注的特性作为用户、资源的特征信
息,将标签应用到推荐算法可提高推荐质量。针对标签推荐,
研究者提出了多种推荐算法,其中文献[6]基于标签计算用户
的兴趣爱好相似度,并构建信任网络,使用随机游走算法进行Top-N推荐,但该算法计算较耗时,并且存在冷启动问题。文
献[7]将用户、标签及资源数据用张量表示,并进行高阶奇异
分解,可有效减小数据稀疏性,提高了推荐质量,其缺点是数据量计算耗时。
现有的推荐算法存在冷启动,忽视用户、资源自身的特
征,不能反映出产品兴趣爱好及产品特征的不同,或者由于计算量较大,不能直接应用于实际推荐系统等问题。因此,为解决上述问题,本文结合标签和协同过滤推荐提出了一种新的推荐算法。依据标签计算用户偏好程度和资源特征相似度,结合基于资源的协同过滤推荐实现对资源的个性化推荐。
2基于标签的用户偏好和资源相似度计算
2.1用户对资源的偏好
传统的协同过滤算法是基于用户对资源的评分来衡量用户的偏好,将与用户有相同兴趣爱好的用户喜爱的资源推荐给该用户。由于大型电子商务站点及商品项的数量庞大且不断增加,使得用户一资源评分矩阵成为高维矩阵,同时用户给予评分的资源很少,导致评分数据稀疏,无法提取标识用户兴趣偏好的特征。社会标签可实现对信息的分类嘲,被用户自由标注资源,通过用户使用标签标记资源的记录从用户、资源两个角度[9]挖掘对资源的喜爱程度。鉴于此,利用用户使用的标签作为用户偏好模型的特征,并利用用户、标签和资源间的多维关系,计算用户对资源的偏好模型。
定义用户集合U一{U。,Uz,…,M∥..,UM),其中M为用
户总数,J=1,2,…,M;所有资源的集合为j={i・,i2,…,玉,
…,iⅣ),其中N为资源总数,歹=1,2,…,N;用户使用的标签集合为丁一{tt,t2,…,白,…,轧),其中L为标签总数,J=1,2,
…,L。
(1)用户及资源的标签特征向量
用户的标签特征向量[1叼是利用用户常使用的标签来表示用户的兴趣特征,记为
芘一c鲁log筹,…,等log篆,…,等,昭筹,㈣
式中,nti。表示使用标签t』的用户数,M表示用户的总数,‰i
表示用户U使用标签t,的次数,%表示用户U所使用的标签
的数量,导表示“使用标签的频率,log笋表示在用户所有
¨堪
¨0。
标签中该标签的重要度,箸log拦项表示标签对该用户甜
,‘啦
¨0“
的重要度。
资源的标签特征向量是用标记该资源i的标签表示物品特征,记为
芄=(等log鬈,…,兰nitlog盟ntji,…,等,og。Nt;)
(2)
式中,‰i表示被标签tj标记的资源数,N表示资源的总数,
・
70・
万方数据
q表示资源i被标记的标签数,鲁表示标签f』标记该资源
的频率,log芸表示针对资源i所有标签中标签f』的重要度,
一0‘
-丝玎-。Zlog尝项表示各标签对该资源i的重要度。
(2)用户对资源的偏好向量用户嘶对资源it的偏好程度记为
■45■t・R。一善■t×%
(3’
式中,吩∈U,歹一1,2,…,M;如∈J,k=l,2,…,N。
用户嘶的资源偏好特征向量表示记为
■一(‘"巳"…,■妒…,巳tN)
(4)
式中,只^表示用户Uj对资源it的喜爱程度。
依据用户对资源的偏好向量构造用户一资源偏好矩阵,记为
●
●
舯
¨
●
,k
N
●
●
缈
%
Ⅳ
(5)
..
●
所;肋;M
●●
似
¨
●
.~
掣.■.∥
削
式中,嵋∈U,j=1,2,…,M;如∈J,是=1,2,…,N;该矩阵记录
了用户的兴趣爱好向量,且能反映用户对各资源的喜爱程度。
在计算用户及资源特征向量时,借助TF-IDF思想计算标签对用户、标签对资源的重要性,用以对较流行的标签和资源降低权重,增进推荐结果的新颖性和个性化。
2.2资源相似性计算
资源的相似性表示两个不同资源之间的相似程度n¨。
传统的协同过滤算法是利用不同用户间共同喜爱的物品数量或资源计算,这种方法忽视了资源自身的特征。鉴于此,利用标签,将用户标记资源的历史行为作为资源特征信息并用于相似度计算,也利于用户发现新资源[1
3|。
资源的特征信息可用基于标签的资源特征向量厶表示:
厶一(桃l,铊北,…,%,…,舰)
(6)
式中,五一1,2,…,N;i=l,2,…,L;粕表示ti被用来标记资源
it归一化后的值。
所有资源的特征信息可用资源特征向量矩阵厶×。表示:
kl=I;
卜…弛1
‘.
i
l
(7)
【,娃,…,玻J
资源的相似度计算有多种方式,本文采用的是余弦相似
度计算。通过资源特征向量计算资源间的余弦相似度:
sim(6,矗)一cos(b,Ik)一=}—了
.÷
—+—+
I;・Il
(8)
lj,f×I厶I
通过计算资源间的相似度,可构造资源相似度矩阵sN。Ⅳ,用以描述不同资源间的相似度:
¨
¨
SU
..
1
(9)
..
●;跚;I雾
¨
SNj
一
趴;趴;晰
式中,J一1,2,…,N椭表示资源i;和i,的相似度。
2.3预测偏好值计算
依据用户历史行为及资源相似度,可计算用户U对未使用资源iJ的偏好程度,并用预测偏好值PP-;表示:
M
R刎仁型i咏两一
H∈U
户如一蚤如t^×siki,
示资源ik和ij的相似度。
(10)
式中,P。^表示用户U』对历史使用资源ik的偏好程度,嗣“表
4.3实验结果
F-measure—Precison+Recal
推荐结果的召回率定义为:
∑IR(“)nT(“)I
F-measure定义为:
一
(12)
2×PMision×Recall
LloJ
…、
预测偏好值通过用户使用的历史资源it,计算各历史资
源与资源ii的相似度,进而求得用户U对ij的偏好程度。充分利用用户历史行为和资源相似度,提高了推荐准确度。
在实验中,Top-N推荐时Item的个数在很大程度上会影响推荐结果,将Item数目选取300、500、800、1300等不同数值计算推荐结果,并与传统的协同过滤算法进行比较,其中CF为基于资源的协同过滤算法,该算法根据用户浏览的资源记录,计算物品间相似度,并产生推荐结果;TCF为结合标签和协同过滤的推荐算法;CF++是基于用户行为仅在求项目相似度时使用标签的算法。实验结果如下所示:图l表示
3基于标签和协同过滤的推荐算法描述
设usertags(u,t)为用户_标签矩阵,表示用户u使用标签t的次数;tag_item(t,i)为标签一资源矩阵,表示资源i被标签t标记的次数;竹。为标签t被不同“使用的用户数,瑰为物品i被不同的t标记的次数,p加二为用户对资源i,的预测偏
Iten诹不同值时的准确度,图2表示N取不同值时的Preci—
sion,图3一图5分别是当Item值取1300时,Top-N取不同
N值时的Precision、Recall和F-measure。图4是当Item取1300时,随Top-N的N值增大Recall与Precision的变化。
好值,k为Top-N推荐集。则基于标签的协同过滤算法表述
如下:
输入:用户一标签一资源记录、推荐集I。资源数N输出:目标用户u的Top-N推荐集I。
第1步通过用户-标签一资源记录中的用户一标签关系,统计user—
tags和nm,通过标签一资源关系,统计tag_items和nit。
第2步计算用户对资源的偏好矩阵。首先分别依据式(1)、式(2)计
算用户的标签特征向量和资源的标签特征向量,依据式(3)计算用户偏好向量,并构建用户一资源偏好矩阵PM×N。
第3步基于资源的特征信息Ik,根据式(8)计算资源相似度,并构造
资源相似度矩阵SN×N。
第4步基于用户对资源的历史记录,查询用户U曾标记的资源与其
他资源的相似度‰,并用式(10)依次计算用户与这些资源相似资源的预测偏好值PPui.。
广—=———————————]
漱穗i
一
一一
一一
笼《器,
第5步按预测偏好值p%从大到小排序,并取前N个资源组成
Top-N推荐集I。={il,i2,…,iN}并输出。
4实验结果与分析
4.1推荐算法数据集
本实验采用的数据集是在第五届推荐系统大会上公布的Last.fm数据集。Last.fm是一个音乐网站,允许用户用标签标记音乐和歌手。该数据集有1892个用户、11946个标签和17632个资源,共有186479个标记记录。本实验依据各标签被使用过10次以上且每个用户至少对音乐或歌手标记过10次的原则选取记录作为数据集,数据集被随机分为90%和10%,90%部分的数据作为训练集,其余部分为测试集。4.2推荐质量的度量标准
推荐的准确度是评价推荐算法最基本的指标。本文试验中采用准确率(Precision)和召回率(Recall)作为度量算法优劣的标准。准确率表示用户对系统推荐资源感兴趣的概率,召回率表示一个用户喜欢的商品被推荐的概率。准确率和召回率越高,表示推荐效果越好。此外,本文还采用F-measure指标[12]度量算法。设R(“)是根据用户在训练集上的行为给用户作出的推荐列表,T(“)是用户在用户测试集上的行为列表。那么推荐结果的准确率定义为:
甄一
能明显提高推荐结果的质量。
|茎监溢黜嗡
藿匿嚣。
款蓁m
一一一h一
_~董鼎一!{。藿舯黼一_~囊蒜一_;i;鲞∞一一
一
图5推荐结果准确率和召回率
从图1中可看出,Item的数量越多,算法的准确度越高。从图2~图5可以看出,本文算法在准确率、召回率和卜measure上明显优于CF和CF++,且CF++在推荐质量上优于CF。表明标签能有效提高推荐准确度,本文的算法确实
结束语利用可自由标注的社会标签,并结合基于资源的协同过滤思想,提出一种满足用户个性化需求的推荐算法。该算法使用标签作为用户兴趣偏好及资源特征,既能提高推荐算法的质量,又能提供推荐解释;利用资源的标签特征向量计算资源相似度,可解决传统协同过滤算法的冷启动问题。另外,相比较基于图的推荐算法,该算法复杂度较低。但该方
Precision=生L可币万・广岛mⅧ,I
善,IR(u)nT(“)I
万方数据
(11)
法在实际应用中仍有若干问题有待解决,如标签的质量及推
(下转第110页)
・
71
・
表2人工免疫算法、遗传算法和细胞优化算法的比较[5]MondalA,TrestianI,QinZ,eta1.P2Pas
a
CDN:Anewservice
modelforfilesharingFJ].ComputerNetworks,2012,56(14):
3233—3246
[6]KideokC,Hakyung
[J].IEEE
通过以上实验,我们验证了细胞优化算法的并行性、鲁棒性,以及与同类算法相比较,在CDN缓存资源分配问题上的高效能、解决问题的有效性。
结束语由于目前存在的自然演化方法有其局限性,本
J,etaLHoweOffl
an
ISPmergewith
a
CDN?
Co.rnmunications,2011,49(10):156—162
E7]叶剑虹,叶双.基于混合模式的流媒体缓存调度算法口].计算机
科学,2013,40(2):61-64
[8]MondalA,TrestianI,QinZ,eta1.P2Pas
model
for
a
CDN:Ailewservice
file
sharingrJ].ComputerNetworks,2012,56(9):
3233—3246
文模拟自然细胞系统细胞内部结构和原理,对细胞核、细胞质
的浓度、细胞间的亲和度、细胞优化机制、细胞的动态演化过程建立数学模型,以弹性网络理论和方法为基点,CDN网络缓存分配问题为平台,发展提出了一种新的基于力的仿生算
[9]Calafate
content
C
T,FortinoG,FritschS,eta1.Anefficientandrobust
deliverysolutionforIEEE802.11Pvehicularenviron—
ments[J].JournalofNetworkandComputerApplications,
2012,35(2):753—762
法——细胞优化算法。
参考文献
D-1
Denning
[10]ManfrediS,OlivieroF,Romano
S
P.Optimisedbalancingalgo-
rithmfor
content
deliverynetworksFJ].IETcommunications,
2012,6(7):733-739
P.Computingis
a
natural
science[J].Communications
[11]ChakareskiJ.Multi—pathcontentdelivery:Effidencyanalysis
andoptimizationMgofithmsEJ].JournalofVisualCommunica—
oftheACM,2007,50(7):13—18
[2]DurbinR,Willshaw
salesmanproblem
D.Ananalogueapproach
aJl
to
thetravelling
tion
andImageRepresentation,2012,23(11):1189—1198
Systemsbiology:acellin
a
using
elastic
net
method[J].Nature,
[12]IsalanM
computer[J].Nature,
1987,326(6114):689-691
2012,488(7409):40-41
[3]惠雯,尹浩,林闯,等.内容分发网络请求路由研究[J].计算机科
学,2012,39(2):卜7[4]SoJ
C
[13]Kelly
T
P,JarminS,MacKie-MasonJI(.VariableQoSfrom
SharedⅥrebCaches:Uset-CenteredDesignandValueSensitive
inResource
in
H,WongP.GeneticAlgorithm
Live
ProviderSe-Replacement[C3}{Proc.MITWorkshop
lityEconomics.1999,12:14
Internet
ServiceQua-
lectionforPersonal
Content
11th
Delivery
User-Provided
Platform[C]∥2012
IEEEInternational
Conference
on
[14]BreslauL,CaoLP,et
a1.WebCachingandZipf-LikeDistribu—
Trust,SecurityandPrivacyinComputingand(TrustCom).Liverpool,United
Communicationstions:EvidenceandImplications口].Proc.INRⅨ:0M,1999,1(1):126—13
Kingdom,2012:1748-1754
(上接第71页)
荐实时性问题等都有待进一步研究。
sonalized
music
recommendationbased
on
on
cubicanalysis
of
so-
cialtagsFJ].IEEETranss吐ionAudio,Speech,and
Language
Processing,2010,18(2):407—412
参考文献
E1]
KohiA,EbrahimiSJ,Jalali
dency
[8]RauJer-wei,HuangJen-wei,YungSheng.Improvingthequality
theaccuracyandeffi-
oftagsusing
state
MImproving
transition
on
progressiveimagesearchand
oftagrecommendationsystemby
1st
applyinghybridme-
on
recommendationsystemiC]{f2012IEEEInternationaleIlce
on
Confer-
thods.comper[C]ff2011
InternationaleConference
Com-
[9-1
Systems,Man,andCybernetics.Seoul,2012:3233—3238
ZbangAutomatic
tag
puterandKnowledgeEngineering.Mashhad,Iran,2011:242-248[2]
张斌,张引,高克宁,等.融合关系与内容分析的社会标签推荐[J].软件学报,2012,23(3):476-488[3]
李聪,梁昌勇,马丽.基于协同过滤与划分聚类的改进推荐算法i-J-I.计算机研究与发展,2008,45(9):1552—1538[4]
黄创光,印鉴,汪静,等.不确定近邻的协同过滤推荐算法口].计算机学报,2010,33(8):1369-1377
Song
Yang,Lu
recommendationalgo-
on
rithms
[i0-1
Xia
forsocialrecommendersystems[J3.ACMTransaction
theW曲.2011,5(1):1-31
Xitrfeng,ZhangShu,LiXiao-ming.Apersonalizedreeom—
on
mendationmodelbasedshop
on
social
tags[q{}International
Work-
Database
TechnologyandApplicatiorl&Wuban,2010:1-5
[11]韦素云,业宁,朱健,等.基于资源聚类的全局最近邻的协同过滤
算法[J].计算机科学,2012,39(12):149-152
[5]KorenY。BellR,VolinskyCMatrixFactorizationtechniquesforrecommendersystems[J].IEEE(8):30-37
Computer
Society,2009,42
[12]Hao
Fei,ZhongSheng-tong.Tag
recommendation
International
based
onuser
interestlattice
A
matching[Q}}IEEE
Conference
on
[6]JinJian,ChenQurLTrust-basedtop-krecommendersystem
Computer
276—280
ScienceandInformationTechnology.Daejeon,2010:
usingsocialtaggingnetwork[C]}}20129thInternationalCon-
ference
on
Fuzzy
SystemsandKnowledgeDiscovery.China,
[13]Olvera
E
P,GodoyD.Valuatingtermweighting
insocialtagging
schemes
for
2012:1270-1274
content—basedtagrecommendation
IEEELatin
systems[J].
r7-1NanopoulosA,RafailidisD,SymeonidisP,etaLMusicBox:per-
AmericaTransaction,2012,10(4):1973—1980
万方数据
基于标签和协同过滤的个性化资源推荐
作者:作者单位:刊名:英文刊名:年,卷(期):
蔡强, 韩东梅, 李海生, 胡耀光, 陈谊, CAI Qiang, HAN Dong-mei, LI Hai-sheng, HU Yao-guang , CHEN Yi
蔡强,韩东梅,李海生,陈谊,CAI Qiang,HAN Dong-mei,LI Hai-sheng,CHEN Yi(北京工商大学计算机与信息工程学院 北京100048), 胡耀光,HU Yao-guang(北京理工大学工业设计研究所 北京100081)计算机科学
Computer Science2014,41(1)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjkx201401011.aspx