新的模糊聚类有效性指标
JournalofComputerApplications
ISSN1001.9081CODENJYIIDU
2014.08.10
计算机应用,2014,34(8):2166—2169文章编号:1001—9081(2014)08.2166.04
http://www.joca.cn
doi:10.11772/j.issn.1001・9081.2014.08.2166
新的模糊聚类有效性指标
郑宏亮,徐本强,赵晓慧,邹
(}通信作者电子邮箱zheng-hi@263.net)
丽
(辽宁师范大学计算机与信息技术学院,辽宁大连116081)
摘要:在经典的模糊c均值(FCM)算法中,聚类数需要预先给出,否则算法无法工作,这在一定程度上限制了FCM算法的应用范围。针对FCM算法中聚类数需要预先设定问题,提出了一种新的模糊聚类有效性指标。首先,通
过运行FCM算法得到隶属度矩阵;然后,通过隶属度矩阵计算类内紧密性和类间重叠性;最后,利用类内的紧密性和类问的重叠性定义了一个新的聚类有效性指标。该指标克服了FCM算法中类数需要预先设定的缺点.利用该指标可
以发现最符合数据自然分布的类的数目。通过对人工数据集和实际数据集的测试表明,对于模糊因子取1.8,2.0和
2.2三个不同的常用值,均能发现最优聚类数。
关键词:模糊聚类;模糊C均值算法;有效性指标;模糊因子;最佳聚类数中图分类号:TPl8;TP391
文献标志码:A
Novelvalidityindexforfuzzyclustering
ZHENGHongliang’,XUBenqiang,ZHAOXiaohui,ZOULi
(SchoolofComputer
and
Information
a
Technology,LiaoningNormalUnivers饥DalianLiaoning116081,China)
C-means(FCM)algorithm.Otherwise,FCM
Abstract:Itisnecessarytopre-definealgorithm
can
clusternumberinclassicalFuzzy
not
worknormally,whichlimitstheapplicationsofthisalgorithm.Aimingattheproblemofpre-assigningcluster
numberforFCMalgorithm,anewfuzzyclustervalidityindexWaspresented.Firstly,themembershipmatrixwasgotby
running
the
FCMalgorithm.Secondly,the
intra
classcompactnessandthe
inter
classoverlap
were
computed
bythe
membershipmatrix.Finally,anewclustervalidityindexwasdefinedbyusingtheintraclasscompactnessandtheinterclassoverlap.Thenumber
proposal
overcomestheshortcomingsofFCMthattheclusternumbermustbepre—assigned.Theoptimalcluster
Can
beeffectivelyfoundbytheproposed
can
index.The
experimentalresults
onare
artificial
and
realdatasetsshowthe
validityoftheproposedindex.Italso
be
seen
thattheoptimalcluster
number
obtainedforthreedifferentfuzzyfactor
valuesof1.8,2.0and2.2whicharegeneralusedinFCMalgorithm.
Keywords:fuzzyclustering;Fuzzy
C・Means(FCM)algorithm;validityindex;fuzzyfactor;optimalclusternumber
019
0
引言
聚类分析是数据挖掘领域中用于数据处理的重要方法之
Fukuyama等¨刮提出的‰有效性指标,Gunderson
J的分离
系数指标等。1979年,Davies等Ⅲo利用类间的Fisher距离定义了分离性测度DB指标。Gath等Bu对于非欧氏距离的情况,基于模糊c均值引入了模糊超体积和模糊密度的概念,提出了(FuzzyHypervolume,FHV)指标。1991年,Xie等““利用FCM的优化目标函数和类间距离,定义了Xie—Beni聚类有效性指标。
对于具有良好分离性的数据集,已提出的各类有效性指标均能发现优化的聚类数目,这是因为这些指标充分考虑了类内的紧致性和类间的分离性。但是,对于多数情形下,数据的分布是非均匀的或类间有重叠的情况,已提出的各种有效性指标不能有效地发现理想的聚类数,因为这些指标没有考虑类间重叠的情况。而类间的数据重叠正是引起误分的原因之一,且在已存在的各类有效性指标公式中,均没有涉及到类
一。作为一种无监督的分类过程,没有类的先验知识可用。因此,如何发现最符合数据自然分布的类数,是研究聚类问题的一个最基本的问题。一般来说,聚类结果往往依赖于算法
中的参数¨。J。如何定义一个指标来发现最优的聚类数目,
揭示数据集的内在结构,在过去的几十年里,许多学者借助于模糊c均值(FuzzyC.Means,FCM)算法,对该问题进行了许多的研究工作一““。
1974年,Bezdek利用FCM算法的隶属度矩阵,借助Dunn【121的分离性指标第一次提出了有效性指标的划分系数(PartitionCoefficient,PC)¨”“。和划分熵(Partition
Entropy,
PE)¨51的概念;Dave【1刮为了减弱PC与PE指标随聚类个数的单调变化趋势,对其公式作了修改;WindhamⅢ1利用隶属度最大值提出了比例指数(WindhamProportionExponent,wPE)的有效性定义。另外,利用数据集类内紧密性和类间分离性的不同计算方法,产生了不同的有效性函数,如
收稿日期:2014.04—20;修回日期:2014.05.20。
间重叠的计算问题。针对这一问题,本文提出了一个新的有
效性指标,充分考虑了类内的紧致性和类间的重叠度。在类间有重叠的情形下,利用所提出的指标,可以发现最优的聚类数目。部分克服了在类间有重叠的情形下,难以得到优化聚
基金项目:国家自然科学基金资助项目(61105059)。
作者简介:郑宏亮(1970一),男,辽宁铁岭人,讲师,硕士,主要研究方向:人工智能、数据挖掘;徐本强(1978一),男,黑龙江双城人,讲师,硕士,主要研究方向:人工智能;赵晓慧(1987一),女,辽宁大连人,硕士研究生,主要研究方向:数据挖掘;邹丽(1971一),女,辽宁大连人,副教授,博士,CCF会员,主要研究方向:智能信息处理。
第8期
郑宏亮等:新的模糊聚类有效性指标
2167
类数的弱点。实验结果表明,利用该指标可以有效地发现数据的最优聚类数。1
新的模糊聚类有效性指标
本文提出的模糊聚类有效性指标,同时考虑了类内紧密
性和类问重叠性的特点。聚类结果的类内紧密性越好,紧密性函数值越大;类间重叠性越低,重叠性函数值越小。显然,可以构造一个指标,,对于理想的聚类结果使其达到最大值。
1.1
FCM算法
聚类算法大体可以分成两类:硬聚类和软聚类。硬聚类
是将数据集中的每个数据对象严格地划分到某一类中,划分界限十分鲜明;软聚类也被称作模糊聚类,每个数据对象以不同的隶属度被指派到每个类中。其中,应用范围最广、效果最为突出的是模糊C均值算法。
其算法描述如下。
给定数据集合x={工。,工2,…,工。}cR5,其中:工i=[石¨,
茗:∥一,茹;i]T∈斟,/7,为数据对象个数。则公式为:
min
L(£,,V,x)=∑∑u;o一一y;||.2;l<rrt<oo,
∑ug=l,1≤j≤n,1≤i≤C,H#E
Eo,11
(1)
其中:U=[“4]。。。,是数据对象工,属于第i类的隶属度矩阵;c为聚类个数(1<c<n);V=[vI,l,2,…,pc]州是类中心矩
阵;m是模糊因子,控制隶属度的模糊性,通常取m=2;矩阵范数A定义为数据对象薯与第i类类中心的相似性度量规则,一般使用欧氏距离。pi和vi的计算公式分别如下:
铲・/荟(鲁等)一1;l≤i≤C,1≤J≤n
(2)
pi=(∑u;t)/(∑M;);1≤i≤C
(3)
则FCM算法的计算步骤如下:
步骤1给定模糊因子m,初始化类中心集合y及隶属度矩阵U=[ui]‰。步骤2
根据式(3)更新类中心矩阵V=[y。,p:,…,
Vc]僦。
步骤3根据式(2)更新隶属度矩阵U=[u。]。。。。
步骤4
计算L,占为终止阈值。若1.,。一露i”l≤占,则
停止;否则转到步骤2。1.2紧密性
类内数据的紧密程度是衡量模糊聚类结果有效性的重要标准和基本条件之一。基于FCM算法,本文提出了模糊聚类有效性指标中的紧密性定义,其公式如下:
Comp(k,£,)=专×篇萎8(、‰ma;x。Ixic);
熙“n≥a艿(熙u*)2{熙‰13≤熙Ⅱi<a
、f1,
(4)
【o,。臻u。<13
其中:S为最大隶属度.max,Ⅱi≥13的数据对象个数;n为数据集中所有数据对象的个数;U为隶属度矩阵;七为聚类个数,其
最大值一般取五;a和口是两个参数。当数据对象的最大隶属
度大于阈值a时,令占(.ma蔓ui)的值为1,表明该数据对象属
于对应的类;当最大隶属度介于a和13之间时,令6(.max、l≤…u。)
的值等于最大隶属度,记录了该数据对象最有可能属于某个
类的程度;当最大隶属度小于口时,表明该数据对象隶属于某
个类的程度较低,可能处于类间重叠区域。通过对6(.max.ui)
、I《c《k
’
值的计算可以获得类内紧密程度。Comp(k,U)值越大,表明模糊聚类的类内紧密程度越高。1.3重叠性
对于6(。墨笔ui)2
o,即墨笔u。<卢的数据对象工i,其最
大隶属度没有达到阈值13,所以它可能处于多个类边界的重叠区域。为了找到这样的数据点,设阈值y,对于V1≤P≤k,1≤q≤||},若存在IM,一n自I≤’,,则认为数据对象x.处于类P
和类q的重叠区域。重叠性定义为式(5):
Overlap(k,u)。i1×丽南×善,。磊;,(h一Ⅱ目I)
(5)
苴由.,n㈨.
舯妒(1圹u挑”矿ii巍”~~~;
,.I、
一f1,熙%<13且h—Ix/q
I≤y.
R为满足。戮Uie<13且I
trip—ttiq
I≤y条件的矩阵元素的个
数;n为数据集中全部数据对象的个数;U为隶属度矩阵;七为
聚类个数,其最大值一般取石。设定阈值y,当最大隶属度小
于13时,即该数据对象处于多个类边界的重叠区域,若同时满
足1
ui—ui
I≤7,表明该数据对象隶属于这两个类的程度相
等,令此时的妒(I
Mp一Ⅱi
l)。乱删值等于1,将所有符合以上
条件的妒(IⅡ自一u目I)-《p'。;t=1相加求平均,则获得重叠性
定义Overlap(k,U)。Overlap(k,U)值越小,聚类重叠性程度越低。
1.4提出的有效性指标
基于紧密性和重叠性定义,本文提出了一种新的模糊聚类有效性指标。对于紧密性和重叠性的计算,取C=2,3,…,e。。,得到式(6)~(7):
Comp(k,U)={Comp(2,u),Comp(3,U),…,
Comp(c。。,U)}
(6)Overlap(k,U)={Overlap(2,U),Overlap(3,U),…,
Overlap(e。。,U)}
(7)分别得到最大值如下:
Comp。。=max
Y
Comp(k,U)(8)Overlap。。=max
丫
Overlap(k,U)
(9)
利用最大值,对两者进行归一化处理,得到式(10)一(11):
Comp‘(k,U)=Comp(k,U)/Comp。。(10)Overlap。(k,U)=Overlap(k,U)/Overlap。。
(11)
其中:Comp’(七,U)∈[0,1],Overlap’(k,U)∈[0,1]。结合
式(10)和式(11),得到模糊聚类有效性指标,如式(12)所
示:
F=Comp+(k,U)一Overlap+(k,U)
(12)
该指标表明,模糊聚类的类内紧密程度越大,Comp+(k,U)值越大;类问重叠程度越小,Overlap+(k,U)值越小。由上
述特点可得,聚类结果越好,F值越大。因此,可以通过得到的最大F值,发现理想的聚类结果。本文的参数取值分别为:
2168
计算机应用
第34卷
下面对6个实际的数据集进行了测试。测试数据集为
Ot=0.7,卢=0.6,7=0.11。2
实验结果与分析
为了证明该指标的可行性和有效性,本文进行了仿真数
UCI中的Iris数据集、Wine数据集、WBCD数据集和WDBC数据集以及EamonnKeogh提供的SonyAIBORobotSurface和CBF。Iris数据集中的每个数据对象均为四维,数据集共分3类,每一类含有50个样本,第一类与后两类线性分离,后两类之间存在重叠;WDBC数据集有569个数据对象,分两类,每个数据对象有30个特征;Wine数据集有178个数据对象,分3类,每个数据对象有13个特征;SonyAIBORobotSurface分成两类,每条时间序列长度为70,共有20条时间序列;CBF分为3类,数据长度为128,共有30个序列。对6个数据集进行模糊聚类,结果如表3—5所示,并将其与7个常用的模糊聚类的有效性指标:FS(Fukuyama
andSugeno)。1“、xB(Xieand
Hyper
据和真实数据的测试,实验平台为主频2.2GHz,内存
1.00GB,Windows
XP操作系统的电脑,测试软件使用Matlab
2007。通过FCM算法对数据集进行聚类,模糊因子取m=1.8,2.0,2.2。由于篇幅有限,这里仅列出了部分结果。
仿真数据是聚类个数分别为4类与5类的高斯分布数据集,每类均含100个数据点,如图1~2所示。
5O4S4035k30
252
0
Beni)’221、SC(SeparationCoefficient)‘2“、FHV(Fuzzy
Volume)川、PCAES(PartitionCoefficientandExponentialSeparation)㈦、PBMF(PakhiraBandyopadhyayMaulik
Fuzzy)‘261和CWB(ComposeWithinandBetweenscattering)…进行比较,结果如表6所示(c+为原始的类数)。
X
l5l0
表3
m
2
1.82.0
3
4
5
Iris数据集的F值
C
6
7
8
9
10
1l
12
雪1分4类的高斯分布数据集
60S5504S40
k
0.9080.9060.9040.7930.7氆0.6540.5町0.243O.2620.040一0.083
0.9350.9鼯O.80l0.7870.621O.472O.2580.373O.116—0.057—0.114
0.123
0.115
353
0
2.20.9400.9700.7840.7150.,92O.5110.359O.136O.00B
2520l510
.|
吲2分5类的尚斯分n・数抛q二
使用本文提出的模糊聚类有效性指标式(12),对这两个数据集进行聚类分析,得到的结果如表l一2所示。
表1
4类的高斯分布数据集的F值
C
…—r—了—了—1—■■—F—i—百—1F百
1.82.O
1.0001.000
O.9950.996O.9860.9940.9490.990
O.955O.8870.92l0.8530.9170.799
O.7900.6410.6480.5150.7330.66lO.5750.4320.7760.4880.4390.306
0.513O.3950.325
2.21.000
1.81.0000.992O.93l0.8160.77l0.6,700.668O.6250.5780.4580.424
2.01.000
0.9790.9300.86l0.7550.6910.6260.5940.5690.4410.398
0.727O.655O.6950.6440.6150.627
2.2O.9830.9290.8940.829O.82l
表6聚类个数结果对比
表2
m
2
3
4
5
6
7
8
9
10
1l
12
5类的高斯分布数据集的,值
C
数据集
Iris
C’FSXB332232
513121232
232232
SC322232
F}ⅣPEAKSPBMFCWB
3322232
223232
332232
225232
F值
332232
1.80.7190.965
0.缁O.995
WineWDBCWBCD
CBF
SonvAIBORobotSurface
0.9100.8400.800O.7270.53l0.4430.3320.904
2.OO.8380.9170.8360.9852.2
O.8420.9200.8840.968
0.勉O.刀8
0.7010.656
O.说0.363
O.8660.8040.6770.6470.4630.3740.262
由表1可知,当聚类个数为两类时,F值最大,其次是聚类个数为4类的F值,说明最佳聚类个数为两类,其次数据集分布也可能具有4类的特点。结合图l,数据分布最佳情况为左右两类,也可以分成4类,与实际情况吻合。当C=2时,F值为其取值范围内的最大值1.000,聚类个数为两类的情况最为理想。取FCM算法的不同模糊因子m值,对此模糊聚类有效性的计算并不产生影响,说明此指标具有较好的稳定性。
在表2中可以看到,当聚类个数为5类时,对应的F值最大,说明此时的聚类效果最好,C=5为最佳聚类数,该结果与图2数据的实际分布吻合,并且模糊聚类有效性指标的计算不依赖于m值的变化。
本文所提出的聚类有效性指标是基于FCM算法得到的隶属度计算出来的,但由于FCM算法不能有效地聚类高维数据’2…,所以本文并没有对于高维数据集进行测试。实验结果表明,对于实际的数据集,可以根据所提出的指标发现最佳的聚类数目,且与实际结果相吻合。对于3个常用的模糊因子m,都可以发现正确的聚类数,表明本文提出的有效性指标对模糊因子m具有良好的稳定性。3
结语
借助于FCM算法,本文提出了一个聚类的有效性指标。
第8期
郑宏亮等:新的模糊聚类有效性指标
2169
况下,由于数据分布的不均匀性导致计算模糊程度不准确的
【14]
BEZDEK
Jc-Clustervaliditywithfuzzyse‘s【J】・Jou“alofcY’
缺点。实验结果表明了所提出指标的有效性,且所提出的指beme‘ics,1974,3(3):58—73_
[151BEZDEKJc・N“”d。al‘axon。“Y”ith
标对模糊子具有较好的鲁棒性。由于数据分布特征的多样
Math。“8‘i。al
fuzzy
8828[J】.J。““alof
性,如何定义一个更好的有效性指标,快速地发现最符合数据参考文献:
【l1
B‘0109y,1974,1(1):57—71‘
尝竺分!的聚类结果,仍是一个值得深入研究的问题。
REzAEEB・Aclu8‘er
¨61。D。A。或V。E打。R。N【J】._::19R兰二=‘kion饥s。。ob,ta。in。e%d,‘譬篙:c老:
623.
V蛐index
f0‘如zzy
clusteri删・呦
【171
WINDHAMMP.clustervalidityfor
…
【21:H磐¨,W.ANG…WN.,攀№℃,n烹7al…idity.、in-fuzzy。l“8‘8ri“g【J】.I响“8ti”Sci8nc。8,2008'178(4):
d。1for1205—1218.
S…ets…an…d
Sys。tems,2010,161…(23…):…3014一警j‘,
for砌mati。n
algorithm【J】.皿EE№ti。ns仰Panem
Intelligenc—e,1982,4(4).357-363.
FUKUYAMA
tlle蛔c.㈣s
。
clusteringMachine
AnaIysis锄d
[181Y,S’UGE—NO
M.Anewmethodof
tlIenum.ch∞sing。
be。of。lu8te8for‘he
[31ZALIKKR.Clustervalidityindexof缸Ⅻclusters0f
‘he
2010,43
250.
fm呵c。“。“8me山0d【c】∥P”8edi“伊of
di雎mmsjzes肋d
(10):3374—3390.
den舒ties[J】.Patt唧Rec嚼1硒0nj
5山Fuz碍sy咖m8symposium・K。be:【8・n・1,1989:247一
fuzzyISODATAalgorithms
[41
KIMAD
W.LEEKH.LEED.Onclustervalidityindexforesti-
clusters【J】.PattemRecogni.
[191
GUNDERs0NR・
Application8。f
t。
mationoftheoptimalnumberoffuzzy
st盯‘h舶ke。printing8y8‘em8【C】//ProceedingsoftIle7‘h7IHenni—
al
WorldIFAc
ti011.2004.37(10):2009—2025.
c。咿ss・Helsinki:【s.n.],1978:1319—1323-
LIU
J,MARTINEZL,CALZADAA。eta1.Anovelbeliefrule
pean
JournalofOperationalResearch,2001,131(1):31—61.Y-W,YANGJ-B,XUD—L,eta1.Ontheinferenceand
baserepresentation,generationand
itsinfeIence
methodology【J】.
【15】
CHEN
Knowledge—BasedSystems,2013,53:129—141.
approximation
properties
of
belief
rulebased
systems【J】.Informa—
[12】HUY.Theapplicationofthe80.20ruleintlIeevaluationofkey
tionSciences.2013.234:121—135.
performance
indicators
fJ】.ConstructionMachineryandMainte.
nance,2009(5):116—117.(胡玉美.二八法则在关键绩效指标考评中的应用【J】.工程机械与维修,2009(5):116一117.)
【13]
CHEN
【16】
LIU
J,MARTINEZL,RUAND,eta1.Optimizationalgorithmfor
learningconsistentbeliefrule-basefromGlobal
examples【J】.Journal
of
Y—W,YANGJ-B,XUD—L,eta1.Inferenceanalysisand
beliefrulebasedsystems【J】.ExpertSystems
Optimization,2011,51(2):255—270.
adaptivetrainingfor
【17】JINY,yonSEELENW,SENDHOFFB.OngeneratingFC3fuzzy
rulesystemsfromdata
usingevolutionactions
on
withApplications,2011,38(10):12845—12860.strategies【J】.IEEE
Trans—
【14】
YANG
J-B.Ruleandutilitybasede“dentialreasoningapproach
under
System,ManandCybemetics,PartB:Cybernetics.
formultiattributedecision
analysis
uncertainties【J】.Euro-1999,29f6):829—845.
新的模糊聚类有效性指标
作者:作者单位:刊名:英文刊名:年,卷(期):
郑宏亮, 徐本强, 赵晓慧, 邹丽, ZHENG Hongliang, XU Benqiang, ZHAO Xiaohui, ZOU Li辽宁师范大学计算机与信息技术学院,辽宁大连,116081计算机应用
Journal of Computer Applications2014,34(8)
引用本文格式:郑宏亮. 徐本强. 赵晓慧. 邹丽. ZHENG Hongliang. XU Benqiang. ZHAO Xiaohui. ZOU Li 新的模糊聚类有效性指标[期刊论文]-计算机应用 2014(8)