复杂网络中社团结构划分的快速分裂算法
第28卷第4期2011年4月
计算机应用研究
ApplicationResearchofComputers
V01.28No.4
Apr.2011
复杂网络中社团结构划分的快速分裂算法
张聪,沈惠璋,李峰
(上海交通大学安泰经济管理学院,上海200052)
摘要:针对已有分裂算法时间复杂度较高,不适用于社团数目未知的大型网络等问题,借鉴电压谱分割算法
和GN算法的思想,提出以扩散距离为分割依据,以模块度函数为社团结构划分满意度的快速分裂算法。实验结果表明,与已有的社团结构划分算法相比,基于扩散距离的快速分裂算法能够得到高质量的社团结构,其时间复杂度较低,不仅对稀疏网络能够快速运算,对非稀疏网络更能高效求解,这进一步体现出算法具有较高的稳定性。
关键词:复杂网络;社团结构;分裂算法;模块度;扩散距离中图分类号:TPl81
文献标志码:A
文章编号:1001—3695(2011)04-1242—03
doi:10.3969/j.issn.1001.3695.20ll,04.010
Fastsplittingalgorithmforpartitioningcommunity
ZHANG
structure
incomplexnetworks
Cong,SHENHui—zhang,LIFeng
(Area/CollegeofEconomics&Management,ShanghaiJinotong
Abstract:Mostofthepmposedsplittingalgorithmsityandunknown
are
Uniwrsi牡,鼬8,劬戚200052,China)
not
suitableforverylargenetworksbecauseoftheirhightimecomplex—
quantity
a
ofcommunitynumber.ReferencingthevoltagespectrumsegmentationalgorithmandGNalgorithm,
on
thispaperproposed
was
fastsplittingalgorithmbased
diffusiondistanceandthemodularityfunction.Itssegmentationbasis
thediffusion
distance,and
structure
theabilityofmodularityfunctioncouldfindthebestcommunitynumberinlargenetworks.Ex-
perimentalresultsshowthatthealgorithmhasningcommunity
betterpartitioningabilityandlowertimecomplexitythantheproposedpartitio—
capableoffastoperationforthespIarsenetwork,butalsoforthenon-sparse
algorithm;modularity;diffusiondistance
algorithms.Notontyitis
network,whichreflectsthealgorithmhashighstability.Keywords:complex
networks;communitystructure;splitting
’许多研究领域中的复杂系统都可以被表述成由节点或顶点集通过线或边的连接而构成的网络,如现实世界中的互联网、万维网、新陈代谢网、食物链网、神经网络、通信与分布式网络以及社会网络【ljl。近年来在对以上网络的研究中发现它们存在一个共同的性质,称为社团结构。它是指整个网络由若干个组或簇构成,组内节点间的连接比较紧密,而组间节点的连接比较松散_J。发现网络中的社团结构并对其进行分析是了解整个网络结构、特征和功能的重要途径,在生物学、物理学、计算机科学和社会学研究领域中都有着广泛的应用¨’4J。
网络中社团结构的划分方法主要有四类:分裂方法、凝聚方法、谱分析法和搜索方法口“引,其中分裂方法是近年来研究比较广泛的一类。计算机科学中的图分割是该类方法的研究起源。由Girvan等人口1提出的GN算法是一种典型的分裂方法,它的基本思想是通过不断地从网络中移除介数最大的边来达到划分网络的目的;而Radicchi等人∞1则是利用边聚类系数代替GN算法中的边介数来作为发现社团结构的依据;Tsuch-iura等人【60引入了布朗微粒来衡量网络中两个节点之间的距离;zIlon【7舟1基于这种距离矩阵,引入了相异性指数来表示两个最相邻节点属于同一个社团的可能性大小;Fortunato等人归1提出了一种利用信息中心度来划分网络的算法;赵风霞等
收稿日期:2010,11-03;修回日期:2010—12-09资助项目(20070248054)
人¨训在Fortunato的信息中心度的基础上,提出了一种基于K—means聚类算法的划分方法;李峻金等人…1将社团结构划分问题转换为空间数据聚类问题,将粒子群算法应用到社团结构的划分。以上算法均可得到层次结构的社团结构,但是它们也有各自的局限,例如GN算法的边介数计算的时间复杂度较高,又需反复计算,总时间复杂度为D(m2n);Radicchi的算法则在很大程度上依赖于网络中存在的三角形数目;基于相异性的算法需重复计算距离矩阵和相邻节点的相异性指数;基于信息中心度的算法同样要反复计算移除每条边后造成的信息有效率减小的相对量;基于K—means聚类算法和基于粒子群算法的划分方法则需将网络结构转换为空间数据后再运算得到聚类,而这些转换过程将在不同程度上造成数据的偏差和失真。本文在分析上述算法优缺点的基础上,提出一种网络社团结构快速分裂算法。该算法借鉴电阻网络电压谱的思想,通过一系列的迭代过程,不断找到最大“电阻”或“距离”所对应的边,切断这些边。从而达到自然分割为层次社团结构的目的。
1
电压谱分割法
本算法是以wu等人m1的基于电阻网络电压谱的快速谱
分割法为基础而提出的(下文简称WH算法)。下面简要介绍
基金项目:国家自然科学基金资助项目(71071096);高等学校博士学科点专项科研基金
作者简介:张聪(1975.),男,安徽阜阳人,讲师,博士研究生,主要研究方向为复杂网络、数据挖掘(g_e—cn@163.coin);沈惠璋(1958一)。男,天津人,教授,博导,博士,主要研究方向为数据挖掘、网络安全;李峰(1976-),男,辽宁辽阳人.讲师,博士研究生,主要研究方向为复杂网络、数据挖掘.
第4期张聪,等:复杂网络中社团结构划分的快速分裂算法
・1243・
WH算法:无向加权图G=(y,E,∽,V是节点集,E是边集,n
人定义了一个用以评价网络划分满意度的指标,称为模块是节点个数,m是边的条数,W=[埘。]。。。是边的权值矩阵。假度¨“1¨(modularity)。模块度函数定义为
设G可以划分为两个社团G,和G2,且已知节点A和日分别属于这两个社团。初始时令节点A为源节点,电压值为l,而节种加。叁[∞舁一c黼,2】
㈤
点B为终节点,电压值为0,其他节点的电压值也为O,即K=其中:只是指将网络划分为k个社团的一种划分情况,L(∥,1,%=0,…,K=O。将网络中的每条边都视为一个电阻R。=矿)=∑。eV'de旷埘(1J)。模块度函数Q的物理含义是:网络中埘i1,整个网络就可以看做一个电阻网络,从而利用Kirehhoff社团内部的边的比例减去在同样的社团结构下随机连接节点定理求得各个节点的电压值。然后选取一个电压阈值V(0<的边的比例的期望值。Q值越大,说明网络的社团结构越V<1),若节点i的电压值K>V,则认为它属于源节点A所在明显。
的社团,否则属于终节点曰所在的社团。一般情况下,利用本文使用模块度函数Q来衡量社团划分的结果,在网络Kirchhoff定理求各节点的电压,算法时间复杂度为0(n3)。逐渐分裂的过程中,Q值会逐渐增加,当划分为七。。个社团时wu等人进一步简化了算法,按照式(1)运算,只需迭代一定次将达到峰值,之后开始减少,那么算法的终止条件就是当Q值数,使电压谱达到一定精度,就足够进行网络的一分为二。
减小时算法停止。
1
1
2.3算法描述
K
2玄(。最E匕2彘孙‰for
i=3,…,n(1)
本算法是一种社团划分的分裂算法,在WH算法的基础划分时,将每个节点的电压值列在电压谱中,然后只要在上提出了对所有节点都运行式(1),在迭代过程中,逐渐切断接近中间位置且电压存在最大差值的两根谱线之间划开,就可扩散距离最大的边,达到快速分割成为社团的目的。采用模块以将整个网络分为两个社团。简化后计算速度大大改善,算法度函数作为衡量最佳社团结构的标准,即通过模块度函数确定的时间复杂度为D(n+m)。
最佳的社团数目。具体算法如下:
以上方法是针对二分网络的情况,对于多社团的情况,Wuinput:复杂网络G=(V,E,W),社团数目k=1,确定最大扩散距离等人做了进一步的推广,还是以电压谱为基本运算,而后应用边所需的累计数J。
统计的方法得到多个社团。虽然该算法时间复杂度较低,但是output:社团划分结果‰。。
a)对每个节点赋随机数K=randornforl=1,…,rt。必须已知网络社团数目,这大大缩小了算法的适用范围。
b)对每个节点计算式(3)。
K
2
基于扩散距离的快速分裂算法
2吉(。五E嵋2竞邑巧~for括l・…,-.
(3)
c)通过计算网络中相连接节点的数值差的绝对值得到边的扩散距离,见式(4)。
2.1
扩散距离与算法思路
D。=abe(K—E)(ij)EEforg=1,…,m
(4)针对WH算法的限制条件,本文算法无须预先知道网络
d)求本次循环中的max(D。),记录此边的编号g。。。
e)如果最近J次循环中的g一不同,转到b);如果相同,即确定最
社团数目,也不需要预先设定源节点和终节点,而是在初始时大扩散距离边。
赋给每个节点随机数;迭代过程中每一步对所有节点做加权平f)切断最大扩散距离边,在E中将该边删除,在W中将该权值设为0。
均运算,即所有节点都运算式(1);然后用相邻节点差值的绝g)如果当前的社团数目k未增加,转到a)。
对值代表每条边的扩散距离(类似于WH算法中的电位差);果小于上次的模块度即为最大模块度,其所对应的社团结构‰。是最
h)按照式(2)计算模块度q,如果大于上次的模块度,转到a);如
在迭代过程中,虽然网络中所有节点的值都会逐渐趋近于某个佳社团结构划分,算法终止。
固定数值,但是由于网络中节点连接的疏密不同,社团内部节2.4时间复杂度分析
点的数值会相对聚集在一起,而社团之间的节点数值则会差距从算法描述中可以看出,a)赋随机数的时间复杂度为0相对较大,这就是本文划分社团的基础。
(n);b)~d)是以边为核心的运算,时间复杂度为0(m);要找WH算法是通过计算节点电压,然后利用电位差来分割网到最大扩散距离边所需的循环次数,需要所有节点的数值扩散络的,而本文算法是利用扩散或传播的概念来划分网络的。
到比较平均的程度,这明显取决于网络的平均路径长度L;算WH算法中源节点和终节点的数值(电压)是固定不变的,本文
法最终切断边的条数在最差情况下是m,但在一般情况下,切算法中所有节点的数值都在变化,这个变化其实是不断的扩散断边的条数与网络节点数和边数目是无关的,所以算法在最差或传播过程,虽然最终所有节点都会趋于一致,但是在这个过情况下的时间复杂度是0(Lm2)。需要指出的是,WH算法在
程中连接紧密的节点间的差异明显小于连接松散的节点间的二分网络时的时间复杂度应是0(加),而其在划分多社团的
差异,这个节点差异其实就是上述边的扩散距离。在迭代一定最差情况下与本算法的时间复杂度是一样的,因为计算节点电次数后,网络中的最大扩散距离的边趋于稳定,即某条边在迭压的过程实际上也是一个扩散过程,那么也是取决于网络的平代一定次数后会稳定成为最大扩散距离边(在下文中讨论迭均路径长度£的。.当网络是稀疏网络时,m一托,L—m,算法的代次数问题)。切断最大扩散距离所对应的边,形成新的网时间复杂度是0(n3),与GN算法的时间复杂度是一样的;当络,再进行上述初始赋值和迭代过程,再切断最大边,如此重边数目远大于节点数时,即m>>n,平均路径长度将远小于边复,会将网络逐渐分割开来。当满足算法终止条件时,即完成数目,即L<<m,而且最终切断边的条数一般来说是远小于m了划分网络社团的任务。的,那么算法的时间复杂度就约等于0(m)。可见,本算法在2.2模块度函数。
边数目远大于节点数的情况下,比GN等分裂算法有较大的优所有的网络社团结构划分算法都需要一个评价准则来判势,而且时间复杂度对于网络的规模是不敏感的,对于社团结断划分得到的社团结构的合理性和有效性。因此,Newman等
构较强的网络往往很快就分裂成几个独立的部分,这样就大大
244
计算机&m研究弟28巷
减小T后续∞汁算&
3实验
3’空手道僵¥部月络
znchwM络是社会嘲络丹析的
个&典目艇。20m2
70年代初期,肺h叫用T两年的时间来观察美国一所大学中
的§手道俱乐部成员月的月§ne*系.从而构造T谈网络,该俱乐部的±臂。_校妊2月目B§提高俱乐部收费问蹲mP生T争执,结果诚俱乐部分裂成丁两个分别“±管自枝长为榱。的小俱乐部。月L中∞#^I自节点33分别代丧7俱乐部±管Ⅷ《长,Ⅻ左侧∞18个节点#右侧∞16十∞^*剖代表r丹裂目的小惧乐部中纳各个成目。苴中节点3是有歧女的.々■边的《接数都是5.GN算法将节点3划^左边的牡Ⅻ,¥文算*将*点3划^☆边∞社目。ZaehⅢr5网络日址一步丹裂,得到6个社脚的结粜,如图I所*,其中在分裂为3个社目时a值4Ⅻ最太HHⅡ自m社目丹#&∞点5
6
7“"17所
构成的社团时p值最大,网络的层次结构在《步的分裂过程中根清楚地月现出来,如图2所示.其中罔2(a)是社厨数逐渐增加时模块度p的变化情M,(h)为分裂∞目攻结构图.(a)Ⅻ(b)m图是相对&∞:
豁。
目¨ch3ryⅢ女∞{}mm%#自∞mⅢ*i月%
『且)
雯
(bJ
月2
zⅡFhar/目镕自H¨目∞目&镕#目#*Ⅸ
3
2羹垦大学撒植球联盟月镕
丰i宴验研究的第=个网络是美旨大学赣髓球联盟,障塔
十115十节点&示115支球队,Ⅲ613条曲代表r613场赛事。遗§球队破分成若干小组,姆个小组由8—12点球队组成同组内球队之同的比赛g&组间球队之间的M赛多。
麻用本文算法得到的模块度最大时的社团结掏如图3所i,此时社目数为12,Q=nH。图4是随着井裂*到的社目数目的增加、横块度值的变化情况。从目中Ⅱ知.Ⅱ§十M镕连渐分裂∞过程中模块度值T断韭大,但到T峰值(&=12)“后,0值开始变小。按大学所处的地理位置(12个地R)划分时p=O她,*据GN算法得到的杜团结构与目3i本一致.#块Ⅲ也BO54.№的E别在于节点”*月∞社Ef目。
丹gU科目cn算法,FCM算法、wH算法和率文算法计算美目大学橄榄球联Ⅲ网络,M得豹结果如表I所m。从※十∞散据日m看出,本文算*划分#Ⅻ∞№确率较高。
^
目4}t目&一**&**目
mL*#***mm#E口目*¨%※"№
4结束语
¥i借鉴电n、谱分割算法的思想.设1{T一种杜目结构蚓丹的快速分裂方法。算法通过{断地切断扩散距离最太的边宴现社团分裂,“模块度自数作自评价标准得到最佳的杜目结构。与e有的社Ⅷ划分舟※算法目№奉算法时日复杂睦鞍低,划分杜周的准确率高.能够在结构未Ⅻ的大型网络中得到高Ⅲ茸的社Ⅲ结构参考女献:
I
JE十M,}№,H*}£女月#g*&#&目【Mn¥:*
[2】MwM…E
}^}m*#.蹦
JMDdul∞…and
n帆㈣tv。l…"in
netwm
s
。J
J
P—eding
of
the
NⅫona{ACademyof
scI—s
d
t№
UnitedStetesofArnenca
2000
103123):8577
8582
[3lGIX、『ANM,、EwM^NMR
J(碥munily
m……min州】dad
s啪m%“the州S自㈣f
hd。目cmnHw。^}[J
p眦eedingoftheNaI啪aI^oademyol
Amerh2002,∞(12)782[
7826
:4]GLEISERn
D^NoNL
c………c【……【J]Advan嘴
[5]IIAD[(.Cfll-【,^sⅢII^….CECCONIin∞n口ex∞m
2.003
6(4):565
573
ldPnl_々。……¨ntI…in
F.w“啪ning““
etmrL5【J】prⅫeding
^∞d
e||_v
unned
101(9)・2658姗
of勘…s“{he
9蝴f^…2004
oftheNefoMl
(T#*1250Ⅲ)
・1250・
计算机应用研究第28卷
然后根据社区成员在群体中的角色和地位,绘制如图l所示的小世界社区网络关系图。
阴《苫
Z
12
瑗测用户已评分项日的数目
图3参数z对MAE的影响图4MAE对比
5结束语
在社区网络中根据基于内容的个性化推荐算法提供用户
图I小世界社区网络关系图
有可能感兴趣的信息,不但方便了用户查看,而且还提高了用户查看内容的效率和质量,同时也为企业带来了丰厚的经济利润。使用社区网络分析技术加快了相同兴趣用户的挖掘,小世界社区网络验证了本文提出的解决方案,通过实验结果发现这种算法优于协同过滤算法。在衡量社区网络内容相似性的过程中,加上关键字分析或语义分析,将是本文接下来的研究目标。参考文献:
[1]刘耀庭.社交网络结构研究[D].杭州:浙江大学,2008.[2]YOUNG
privacy
A
这个图形清晰地反映用户是处于“核心参与者”或“边缘参与者”的地位,以及用户与用户之问的关系。小世界社区网络中有15个用户,关系数据库中的数据表示这15个用户之间的相互联系和互动关系。小世界社区网络的密度为0.5028、距离是0.653、度中心性和接近中心性分别为0.6122和0.5291。以小世界社区网络关系数据库中的关系为依据,建立关系矩阵,并将该数据命名为coummunity。把coummunity数据导入UCINET6.0,通过SNA得到小世界社区网络中相同兴趣用户聚类结果,如图2所示,发现用户2、1、3在同一个聚类簇中即有共同的兴趣。
I
7
2
3
L,QUAN—HAASEA.InformationrevelationandIntemet
on
concernssocialnetworksites:a
case
studyoffacebcokCommunitiesand
[c]//Pomofthe
4thInternationalConference
on
:2
2l
n
8
Technologies.NewYork:ACM
pr--%,2009:265-274.
for
[3]LIYung—ming,HSIAOHan—wen.Recommenderservice
workbased
secial
net-
application[C]//Proe
ofthe1lthInternationalConfe-
6¨n
5
3¨7
486
renceon
Electronic
Commerce.NewYork:ACMPress,2009:378・
381.
9”35
[4]WALTERFE,BATI'IS,110NS,SCfIWErrZERF.Amodelof
trust・basedrecommendation
system
on
a
a
social
network[J].Autono-
m儿2
4●
mousAgentsandMulti・agents
加¨堙U
Systems,2006,16(1):57—74.
networkinthe
[5]WUHui-ju,TING
I
H,WANGKai-yu.Combiningsocial
to
图2用户兴趣聚类树
4.2算法验证
根据小世界社区网络用户规模和用户信息结合MAE评价方法,首先进行相似度阈值z的优化,以提高内容相似性算法效率。实验结果如图3所示,当z一0.43时,MAE最小。
协同过滤算法是目前应用最为广泛的个性化推荐算法。由于MAE的值越小,推荐精度越高,且推荐精度随着预测用户评分数目的增多而提高。由图5可以发现,本文提出的研究方案(简称为TBC)在社区网络中推荐内容的精度更高。
(上接第1244页)f61
TSUCHIURAH,OGATAM.TANAKAY,以a1.Electronicstates
analysisandWebminingtechniques
discoverinterest
groups
blogspace[C]//Precofthe4thInternationalConference
ComputingIntemation
onInnovative
andContr01.2009:1180-1183.
[6]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,
13(10):1952—1961.
[7]BALABANOVICM,SHOHAMY.Content.basedcollabomtive
mendation[M].NewYork:ACMPress,1997:66-72.
l'ccom.
[8]HERLOCKERJ,KONSTANJ.Evaluatingcollaborativefiltering
ommender
rec—
systems[J].ACMTrans
on
InformationSystems,
2004.22(1):5-53.
of
Amedca,2007,104(39):15224-9.
V
[13]BLONDEL
unfoldingofStatistical
10008.
D,GUILLAUMEJL,LAMBIOTrER,eta1.Fast
hierarchies
in
high-Tesuperconductorsbased
model[J].PhysicalReviewB,2003,68(1):012509.
around
avortexcore
in
on
thet-J
communitylarge
networks[J].Journalof
Mechanics:Theery
and
Expenment,2008,10:
f7]f81
9
Hai-jun.NetworklandscapefromaBmwnianparticle’sper-
spective[J].PhysicalReviewE,2003,67(4):041908.
ZHOUZHOU
Hai-jun.Distance。dissimilaritvindex.andnetworkconmflu-
nitystructure[J].PhysicalReviewE,2003,67(6):061901.
FORTUNATeS.LATeRAV,MARCHIO磁M.Amethodtofind
community
[14]NEWMANMEJ.Findingcommunitystructureinnetworksusing
theeigenvectomofmatrices[J].PhysicalReviewE,2006,74(3):
036104.
structuresbased
on
informationcentralityfJ].PhysicaI
ReviewE.2004.70(5):056104.
[10]赵凤霞,谢福鼎.基于K—m∞ns聚类算法的复杂网络社团发现新
方法[J].计算机应用研究,2009,26(6):2041—2043,2049.[11]李峻金。向阳,牛鹏,等.一种新的复杂网络聚类算法[J].计算
机应用研究,2010,27(6):2097—2099.
『121SALES.队RDOMR.GUIMERAA。MOREIRAA.eta1.Extrac.
ringtIIehierarchical
[15]wuFang,HUBERMANBA.Findingcommunitiesinlineartime:
aphysicsapproach[J].TheEuropeanPhysicalJournalB,2004,38(2):331・338.
[16]NEWMANMEJ,GIRVANM.Findingandevaluatingcommunity
structureinnetworks[J].PhysicalReviewE,2004,69(2):
026113.
[17]CLAUSETA,NEWMAN
structure
in
very
ME
J,MOOREC.Findingcommunity
large
networks[J].PhysicalReviewE,2004。70
organization
ofcomplex
systems[J].Proceed・
ingoftheNationaIAcademyofSciencesoftheUnitedStates
(6):066111.
[18]NEWMANMEJ.Fastalgorithmfordetectingcommunitystructure
innetworks[J].PhysicalReviewE,2004,69(6):066133.
复杂网络中社团结构划分的快速分裂算法
作者:作者单位:刊名:英文刊名:年,卷(期):
张聪, 沈惠璋, 李峰, ZHANG Cong, SHEN Hui-zhang, LI Feng上海交通大学,安泰经济管理学院,上海,200052计算机应用研究
APPLICATION RESEARCH OF COMPUTERS2011,28(4)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjyyyj201104010.aspx