新的模糊聚类有效性指标

12-24

ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ

ＩＳＳＮ１００１．９０８１ＣＯＤＥＮＪＹＩＩＤＵ

２０１４．０８．１０

计算机应用，２０１４，３４（８）：２１６６—２１６９文章编号：１００１—９０８１（２０１４）０８．２１６６．０４

ｈｔｔｐ：／／ｗｗｗ．ｊｏｃａ．ｃｎ

ｄｏｉ：１０．１１７７２／ｊ．ｉｓｓｎ．１００１・９０８１．２０１４．０８．２１６６

新的模糊聚类有效性指标

郑宏亮，徐本强，赵晓慧，邹

（｝通信作者电子邮箱ｚｈｅｎｇ－ｈｉ＠２６３．ｎｅｔ）

丽

（辽宁师范大学计算机与信息技术学院，辽宁大连１１６０８１）

摘要：在经典的模糊ｃ均值（ＦＣＭ）算法中，聚类数需要预先给出，否则算法无法工作，这在一定程度上限制了ＦＣＭ算法的应用范围。针对ＦＣＭ算法中聚类数需要预先设定问题，提出了一种新的模糊聚类有效性指标。首先，通

过运行ＦＣＭ算法得到隶属度矩阵；然后，通过隶属度矩阵计算类内紧密性和类间重叠性；最后，利用类内的紧密性和类问的重叠性定义了一个新的聚类有效性指标。该指标克服了ＦＣＭ算法中类数需要预先设定的缺点．利用该指标可

以发现最符合数据自然分布的类的数目。通过对人工数据集和实际数据集的测试表明，对于模糊因子取１．８，２．０和

２．２三个不同的常用值，均能发现最优聚类数。

关键词：模糊聚类；模糊Ｃ均值算法；有效性指标；模糊因子；最佳聚类数中图分类号：ＴＰｌ８；ＴＰ３９１

文献标志码：Ａ

Ｎｏｖｅｌｖａｌｉｄｉｔｙｉｎｄｅｘｆｏｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ

ＺＨＥＮＧＨｏｎｇｌｉａｎｇ’，ＸＵＢｅｎｑｉａｎｇ，ＺＨＡＯＸｉａｏｈｕｉ，ＺＯＵＬｉ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ

ａｎｄ

Ｉｎｆｏｒｍａｔｉｏｎ

ａ

Ｔｅｃｈｎｏｌｏｇｙ，ＬｉａｏｎｉｎｇＮｏｒｍａｌＵｎｉｖｅｒｓ饥ＤａｌｉａｎＬｉａｏｎｉｎｇ１１６０８１，Ｃｈｉｎａ）

Ｃ－ｍｅａｎｓ（ＦＣＭ）ａｌｇｏｒｉｔｈｍ．Ｏｔｈｅｒｗｉｓｅ，ＦＣＭ

Ａｂｓｔｒａｃｔ：Ｉｔｉｓｎｅｃｅｓｓａｒｙｔｏｐｒｅ－ｄｅｆｉｎｅａｌｇｏｒｉｔｈｍ

ｃａｎ

ｃｌｕｓｔｅｒｎｕｍｂｅｒｉｎｃｌａｓｓｉｃａｌＦｕｚｚｙ

ｎｏｔ

ｗｏｒｋｎｏｒｍａｌｌｙ，ｗｈｉｃｈｌｉｍｉｔｓｔｈｅａｐｐｌｉｃａｔｉｏｎｓｏｆｔｈｉｓａｌｇｏｒｉｔｈｍ．Ａｉｍｉｎｇａｔｔｈｅｐｒｏｂｌｅｍｏｆｐｒｅ－ａｓｓｉｇｎｉｎｇｃｌｕｓｔｅｒ

ｎｕｍｂｅｒｆｏｒＦＣＭａｌｇｏｒｉｔｈｍ，ａｎｅｗｆｕｚｚｙｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｉｎｄｅｘＷａｓｐｒｅｓｅｎｔｅｄ．Ｆｉｒｓｔｌｙ，ｔｈｅｍｅｍｂｅｒｓｈｉｐｍａｔｒｉｘｗａｓｇｏｔｂｙ

ｒｕｎｎｉｎｇ

ｔｈｅ

ＦＣＭａｌｇｏｒｉｔｈｍ．Ｓｅｃｏｎｄｌｙ，ｔｈｅ

ｉｎｔｒａ

ｃｌａｓｓｃｏｍｐａｃｔｎｅｓｓａｎｄｔｈｅ

ｉｎｔｅｒ

ｃｌａｓｓｏｖｅｒｌａｐ

ｗｅｒｅ

ｃｏｍｐｕｔｅｄ

ｂｙｔｈｅ

ｍｅｍｂｅｒｓｈｉｐｍａｔｒｉｘ．Ｆｉｎａｌｌｙ，ａｎｅｗｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｉｎｄｅｘｗａｓｄｅｆｉｎｅｄｂｙｕｓｉｎｇｔｈｅｉｎｔｒａｃｌａｓｓｃｏｍｐａｃｔｎｅｓｓａｎｄｔｈｅｉｎｔｅｒｃｌａｓｓｏｖｅｒｌａｐ．Ｔｈｅｎｕｍｂｅｒ

ｐｒｏｐｏｓａｌ

ｏｖｅｒｃｏｍｅｓｔｈｅｓｈｏｒｔｃｏｍｉｎｇｓｏｆＦＣＭｔｈａｔｔｈｅｃｌｕｓｔｅｒｎｕｍｂｅｒｍｕｓｔｂｅｐｒｅ—ａｓｓｉｇｎｅｄ．Ｔｈｅｏｐｔｉｍａｌｃｌｕｓｔｅｒ

Ｃａｎ

ｂｅｅｆｆｅｃｔｉｖｅｌｙｆｏｕｎｄｂｙｔｈｅｐｒｏｐｏｓｅｄ

ｃａｎ

ｉｎｄｅｘ．Ｔｈｅ

ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ

ｏｎａｒｅ

ａｒｔｉｆｉｃｉａｌ

ａｎｄ

ｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈｅ

ｖａｌｉｄｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄｉｎｄｅｘ．Ｉｔａｌｓｏ

ｂｅ

ｓｅｅｎ

ｔｈａｔｔｈｅｏｐｔｉｍａｌｃｌｕｓｔｅｒ

ｎｕｍｂｅｒ

ｏｂｔａｉｎｅｄｆｏｒｔｈｒｅｅｄｉｆｆｅｒｅｎｔｆｕｚｚｙｆａｃｔｏｒ

ｖａｌｕｅｓｏｆ１．８，２．０ａｎｄ２．２ｗｈｉｃｈａｒｅｇｅｎｅｒａｌｕｓｅｄｉｎＦＣＭａｌｇｏｒｉｔｈｍ．

Ｋｅｙｗｏｒｄｓ：ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ；Ｆｕｚｚｙ

Ｃ・Ｍｅａｎｓ（ＦＣＭ）ａｌｇｏｒｉｔｈｍ；ｖａｌｉｄｉｔｙｉｎｄｅｘ；ｆｕｚｚｙｆａｃｔｏｒ；ｏｐｔｉｍａｌｃｌｕｓｔｅｒｎｕｍｂｅｒ

０１９

０

引言

聚类分析是数据挖掘领域中用于数据处理的重要方法之

Ｆｕｋｕｙａｍａ等¨刮提出的‰有效性指标，Ｇｕｎｄｅｒｓｏｎ

Ｊ的分离

系数指标等。１９７９年，Ｄａｖｉｅｓ等Ⅲｏ利用类间的Ｆｉｓｈｅｒ距离定义了分离性测度ＤＢ指标。Ｇａｔｈ等Ｂｕ对于非欧氏距离的情况，基于模糊ｃ均值引入了模糊超体积和模糊密度的概念，提出了（ＦｕｚｚｙＨｙｐｅｒｖｏｌｕｍｅ，ＦＨＶ）指标。１９９１年，Ｘｉｅ等““利用ＦＣＭ的优化目标函数和类间距离，定义了Ｘｉｅ—Ｂｅｎｉ聚类有效性指标。

对于具有良好分离性的数据集，已提出的各类有效性指标均能发现优化的聚类数目，这是因为这些指标充分考虑了类内的紧致性和类间的分离性。但是，对于多数情形下，数据的分布是非均匀的或类间有重叠的情况，已提出的各种有效性指标不能有效地发现理想的聚类数，因为这些指标没有考虑类间重叠的情况。而类间的数据重叠正是引起误分的原因之一，且在已存在的各类有效性指标公式中，均没有涉及到类

一。作为一种无监督的分类过程，没有类的先验知识可用。因此，如何发现最符合数据自然分布的类数，是研究聚类问题的一个最基本的问题。一般来说，聚类结果往往依赖于算法

中的参数¨。Ｊ。如何定义一个指标来发现最优的聚类数目，

揭示数据集的内在结构，在过去的几十年里，许多学者借助于模糊ｃ均值（ＦｕｚｚｙＣ．Ｍｅａｎｓ，ＦＣＭ）算法，对该问题进行了许多的研究工作一““。

１９７４年，Ｂｅｚｄｅｋ利用ＦＣＭ算法的隶属度矩阵，借助Ｄｕｎｎ【１２１的分离性指标第一次提出了有效性指标的划分系数（ＰａｒｔｉｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ，ＰＣ）¨”“。和划分熵（Ｐａｒｔｉｔｉｏｎ

Ｅｎｔｒｏｐｙ，

ＰＥ）¨５１的概念；Ｄａｖｅ【１刮为了减弱ＰＣ与ＰＥ指标随聚类个数的单调变化趋势，对其公式作了修改；ＷｉｎｄｈａｍⅢ１利用隶属度最大值提出了比例指数（ＷｉｎｄｈａｍＰｒｏｐｏｒｔｉｏｎＥｘｐｏｎｅｎｔ，ｗＰＥ）的有效性定义。另外，利用数据集类内紧密性和类间分离性的不同计算方法，产生了不同的有效性函数，如

收稿日期：２０１４．０４—２０；修回日期：２０１４．０５．２０。

间重叠的计算问题。针对这一问题，本文提出了一个新的有

效性指标，充分考虑了类内的紧致性和类间的重叠度。在类间有重叠的情形下，利用所提出的指标，可以发现最优的聚类数目。部分克服了在类间有重叠的情形下，难以得到优化聚

基金项目：国家自然科学基金资助项目（６１１０５０５９）。

作者简介：郑宏亮（１９７０一），男，辽宁铁岭人，讲师，硕士，主要研究方向：人工智能、数据挖掘；徐本强（１９７８一），男，黑龙江双城人，讲师，硕士，主要研究方向：人工智能；赵晓慧（１９８７一），女，辽宁大连人，硕士研究生，主要研究方向：数据挖掘；邹丽（１９７１一），女，辽宁大连人，副教授，博士，ＣＣＦ会员，主要研究方向：智能信息处理。

第８期

郑宏亮等：新的模糊聚类有效性指标

２１６７

类数的弱点。实验结果表明，利用该指标可以有效地发现数据的最优聚类数。１

新的模糊聚类有效性指标

本文提出的模糊聚类有效性指标，同时考虑了类内紧密

性和类问重叠性的特点。聚类结果的类内紧密性越好，紧密性函数值越大；类间重叠性越低，重叠性函数值越小。显然，可以构造一个指标，，对于理想的聚类结果使其达到最大值。

１．１

ＦＣＭ算法

聚类算法大体可以分成两类：硬聚类和软聚类。硬聚类

是将数据集中的每个数据对象严格地划分到某一类中，划分界限十分鲜明；软聚类也被称作模糊聚类，每个数据对象以不同的隶属度被指派到每个类中。其中，应用范围最广、效果最为突出的是模糊Ｃ均值算法。

其算法描述如下。

给定数据集合ｘ＝｛工。，工２，…，工。｝ｃＲ５，其中：工ｉ＝［石¨，

茗：∥一，茹；ｉ］Ｔ∈斟，／７，为数据对象个数。则公式为：

ｍｉｎ

Ｌ（￡，，Ｖ，ｘ）＝∑∑ｕ；ｏ一一ｙ；｜｜．２；ｌ＜ｒｒｔ＜ｏｏ，

∑ｕｇ＝ｌ，１≤ｊ≤ｎ，１≤ｉ≤Ｃ，Ｈ＃Ｅ

Ｅｏ，１１

（１）

其中：Ｕ＝［“４］。。。，是数据对象工，属于第ｉ类的隶属度矩阵；ｃ为聚类个数（１＜ｃ＜ｎ）；Ｖ＝［ｖＩ，ｌ，２，…，ｐｃ］州是类中心矩

阵；ｍ是模糊因子，控制隶属度的模糊性，通常取ｍ＝２；矩阵范数Ａ定义为数据对象薯与第ｉ类类中心的相似性度量规则，一般使用欧氏距离。ｐｉ和ｖｉ的计算公式分别如下：

铲・／荟（鲁等）一１；ｌ≤ｉ≤Ｃ，１≤Ｊ≤ｎ

（２）

ｐｉ＝（∑ｕ；ｔ）／（∑Ｍ；）；１≤ｉ≤Ｃ

（３）

则ＦＣＭ算法的计算步骤如下：

步骤１给定模糊因子ｍ，初始化类中心集合ｙ及隶属度矩阵Ｕ＝［ｕｉ］‰。步骤２

根据式（３）更新类中心矩阵Ｖ＝［ｙ。，ｐ：，…，

Ｖｃ］僦。

步骤３根据式（２）更新隶属度矩阵Ｕ＝［ｕ。］。。。。

步骤４

计算Ｌ，占为终止阈值。若１．，。一露ｉ”ｌ≤占，则

停止；否则转到步骤２。１．２紧密性

类内数据的紧密程度是衡量模糊聚类结果有效性的重要标准和基本条件之一。基于ＦＣＭ算法，本文提出了模糊聚类有效性指标中的紧密性定义，其公式如下：

Ｃｏｍｐ（ｋ，￡，）＝专×篇萎８（、‰ｍａ；ｘ。Ｉｘｉｃ）；

熙“ｎ≥ａ艿（熙ｕ＊）２｛熙‰１３≤熙Ⅱｉ＜ａ

、ｆ１，

（４）

【ｏ，。臻ｕ。＜１３

其中：Ｓ为最大隶属度．ｍａｘ，Ⅱｉ≥１３的数据对象个数；ｎ为数据集中所有数据对象的个数；Ｕ为隶属度矩阵；七为聚类个数，其

最大值一般取五；ａ和口是两个参数。当数据对象的最大隶属

度大于阈值ａ时，令占（．ｍａ蔓ｕｉ）的值为１，表明该数据对象属

于对应的类；当最大隶属度介于ａ和１３之间时，令６（．ｍａｘ、ｌ≤…ｕ。）

的值等于最大隶属度，记录了该数据对象最有可能属于某个

类的程度；当最大隶属度小于口时，表明该数据对象隶属于某

个类的程度较低，可能处于类间重叠区域。通过对６（．ｍａｘ．ｕｉ）

、Ｉ《ｃ《ｋ

’

值的计算可以获得类内紧密程度。Ｃｏｍｐ（ｋ，Ｕ）值越大，表明模糊聚类的类内紧密程度越高。１．３重叠性

对于６（。墨笔ｕｉ）２

ｏ，即墨笔ｕ。＜卢的数据对象工ｉ，其最

大隶属度没有达到阈值１３，所以它可能处于多个类边界的重叠区域。为了找到这样的数据点，设阈值ｙ，对于Ｖ１≤Ｐ≤ｋ，１≤ｑ≤｜｜｝，若存在ＩＭ，一ｎ自Ｉ≤’，，则认为数据对象ｘ．处于类Ｐ

和类ｑ的重叠区域。重叠性定义为式（５）：

Ｏｖｅｒｌａｐ（ｋ，ｕ）。ｉ１×丽南×善，。磊；，（ｈ一Ⅱ目Ｉ）

（５）

苴由．，ｎ㈨．

舯妒（１圹ｕ挑”矿ｉｉ巍”～～～；

，．Ｉ、

一ｆ１，熙％＜１３且ｈ—Ｉｘ／ｑ

Ｉ≤ｙ．

Ｒ为满足。戮Ｕｉｅ＜１３且Ｉ

ｔｒｉｐ—ｔｔｉｑ

Ｉ≤ｙ条件的矩阵元素的个

数；ｎ为数据集中全部数据对象的个数；Ｕ为隶属度矩阵；七为

聚类个数，其最大值一般取石。设定阈值ｙ，当最大隶属度小

于１３时，即该数据对象处于多个类边界的重叠区域，若同时满

足１

ｕｉ—ｕｉ

Ｉ≤７，表明该数据对象隶属于这两个类的程度相

等，令此时的妒（Ｉ

Ｍｐ一Ⅱｉ

ｌ）。乱删值等于１，将所有符合以上

条件的妒（ＩⅡ自一ｕ目Ｉ）－《ｐ＇。；ｔ＝１相加求平均，则获得重叠性

定义Ｏｖｅｒｌａｐ（ｋ，Ｕ）。Ｏｖｅｒｌａｐ（ｋ，Ｕ）值越小，聚类重叠性程度越低。

１．４提出的有效性指标

基于紧密性和重叠性定义，本文提出了一种新的模糊聚类有效性指标。对于紧密性和重叠性的计算，取Ｃ＝２，３，…，ｅ。。，得到式（６）～（７）：

Ｃｏｍｐ（ｋ，Ｕ）＝｛Ｃｏｍｐ（２，ｕ），Ｃｏｍｐ（３，Ｕ），…，

Ｃｏｍｐ（ｃ。。，Ｕ）｝

（６）Ｏｖｅｒｌａｐ（ｋ，Ｕ）＝｛Ｏｖｅｒｌａｐ（２，Ｕ），Ｏｖｅｒｌａｐ（３，Ｕ），…，

Ｏｖｅｒｌａｐ（ｅ。。，Ｕ）｝

（７）分别得到最大值如下：

Ｃｏｍｐ。。＝ｍａｘ

Ｙ

Ｃｏｍｐ（ｋ，Ｕ）（８）Ｏｖｅｒｌａｐ。。＝ｍａｘ

丫

Ｏｖｅｒｌａｐ（ｋ，Ｕ）

（９）

利用最大值，对两者进行归一化处理，得到式（１０）一（１１）：

Ｃｏｍｐ‘（ｋ，Ｕ）＝Ｃｏｍｐ（ｋ，Ｕ）／Ｃｏｍｐ。。（１０）Ｏｖｅｒｌａｐ。（ｋ，Ｕ）＝Ｏｖｅｒｌａｐ（ｋ，Ｕ）／Ｏｖｅｒｌａｐ。。

（１１）

其中：Ｃｏｍｐ’（七，Ｕ）∈［０，１］，Ｏｖｅｒｌａｐ’（ｋ，Ｕ）∈［０，１］。结合

式（１０）和式（１１），得到模糊聚类有效性指标，如式（１２）所

示：

Ｆ＝Ｃｏｍｐ＋（ｋ，Ｕ）一Ｏｖｅｒｌａｐ＋（ｋ，Ｕ）

（１２）

该指标表明，模糊聚类的类内紧密程度越大，Ｃｏｍｐ＋（ｋ，Ｕ）值越大；类问重叠程度越小，Ｏｖｅｒｌａｐ＋（ｋ，Ｕ）值越小。由上

述特点可得，聚类结果越好，Ｆ值越大。因此，可以通过得到的最大Ｆ值，发现理想的聚类结果。本文的参数取值分别为：

２１６８

计算机应用

第３４卷

下面对６个实际的数据集进行了测试。测试数据集为

Ｏｔ＝０．７，卢＝０．６，７＝０．１１。２

实验结果与分析

为了证明该指标的可行性和有效性，本文进行了仿真数

ＵＣＩ中的Ｉｒｉｓ数据集、Ｗｉｎｅ数据集、ＷＢＣＤ数据集和ＷＤＢＣ数据集以及ＥａｍｏｎｎＫｅｏｇｈ提供的ＳｏｎｙＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅ和ＣＢＦ。Ｉｒｉｓ数据集中的每个数据对象均为四维，数据集共分３类，每一类含有５０个样本，第一类与后两类线性分离，后两类之间存在重叠；ＷＤＢＣ数据集有５６９个数据对象，分两类，每个数据对象有３０个特征；Ｗｉｎｅ数据集有１７８个数据对象，分３类，每个数据对象有１３个特征；ＳｏｎｙＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅ分成两类，每条时间序列长度为７０，共有２０条时间序列；ＣＢＦ分为３类，数据长度为１２８，共有３０个序列。对６个数据集进行模糊聚类，结果如表３—５所示，并将其与７个常用的模糊聚类的有效性指标：ＦＳ（Ｆｕｋｕｙａｍａ

ａｎｄＳｕｇｅｎｏ）。１“、ｘＢ（Ｘｉｅａｎｄ

Ｈｙｐｅｒ

据和真实数据的测试，实验平台为主频２．２ＧＨｚ，内存

１．００ＧＢ，Ｗｉｎｄｏｗｓ

ＸＰ操作系统的电脑，测试软件使用Ｍａｔｌａｂ

２００７。通过ＦＣＭ算法对数据集进行聚类，模糊因子取ｍ＝１．８，２．０，２．２。由于篇幅有限，这里仅列出了部分结果。

仿真数据是聚类个数分别为４类与５类的高斯分布数据集，每类均含１００个数据点，如图１～２所示。

５Ｏ４Ｓ４０３５ｋ３０

２５２

０

Ｂｅｎｉ）’２２１、ＳＣ（ＳｅｐａｒａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）‘２“、ＦＨＶ（Ｆｕｚｚｙ

Ｖｏｌｕｍｅ）川、ＰＣＡＥＳ（ＰａｒｔｉｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔａｎｄＥｘｐｏｎｅｎｔｉａｌＳｅｐａｒａｔｉｏｎ）㈦、ＰＢＭＦ（ＰａｋｈｉｒａＢａｎｄｙｏｐａｄｈｙａｙＭａｕｌｉｋ

Ｆｕｚｚｙ）‘２６１和ＣＷＢ（ＣｏｍｐｏｓｅＷｉｔｈｉｎａｎｄＢｅｔｗｅｅｎｓｃａｔｔｅｒｉｎｇ）…进行比较，结果如表６所示（ｃ＋为原始的类数）。

Ｘ

ｌ５ｌ０

表３

ｍ

２

１．８２．０

３

４

５

Ｉｒｉｓ数据集的Ｆ值

Ｃ

６

７

８

９

１０

１ｌ

１２

雪１分４类的高斯分布数据集

６０Ｓ５５０４Ｓ４０

ｋ

０．９０８０．９０６０．９０４０．７９３０．７氆０．６５４０．５町０．２４３Ｏ．２６２０．０４０一０．０８３

０．９３５０．９鼯Ｏ．８０ｌ０．７８７０．６２１Ｏ．４７２Ｏ．２５８０．３７３Ｏ．１１６—０．０５７—０．１１４

０．１２３

０．１１５

３５３

０

２．２０．９４００．９７００．７８４０．７１５０．，９２Ｏ．５１１０．３５９Ｏ．１３６Ｏ．００Ｂ

２５２０ｌ５１０

．｜

吲２分５类的尚斯分ｎ・数抛ｑ二

使用本文提出的模糊聚类有效性指标式（１２），对这两个数据集进行聚类分析，得到的结果如表ｌ一２所示。

表１

４类的高斯分布数据集的Ｆ值

Ｃ

…—ｒ—了—了—１—■■—Ｆ—ｉ—百—１Ｆ百

１．８２．Ｏ

１．０００１．０００

Ｏ．９９５０．９９６Ｏ．９８６０．９９４０．９４９０．９９０

Ｏ．９５５Ｏ．８８７０．９２ｌ０．８５３０．９１７０．７９９

Ｏ．７９００．６４１０．６４８０．５１５０．７３３０．６６ｌＯ．５７５０．４３２０．７７６０．４８８０．４３９０．３０６

０．５１３Ｏ．３９５０．３２５

２．２１．０００

１．８１．００００．９９２Ｏ．９３ｌ０．８１６０．７７ｌ０．６，７００．６６８Ｏ．６２５０．５７８０．４５８０．４２４

２．０１．０００

０．９７９０．９３００．８６ｌ０．７５５０．６９１０．６２６０．５９４０．５６９０．４４１０．３９８

０．７２７Ｏ．６５５Ｏ．６９５０．６４４０．６１５０．６２７

２．２Ｏ．９８３０．９２９０．８９４０．８２９Ｏ．８２ｌ

表６聚类个数结果对比

表２

ｍ

２

３

４

５

６

７

８

９

１０

１ｌ

１２

５类的高斯分布数据集的，值

Ｃ

数据集

Ｉｒｉｓ

Ｃ’ＦＳＸＢ３３２２３２

５１３１２１２３２

２３２２３２

ＳＣ３２２２３２

Ｆ｝ⅣＰＥＡＫＳＰＢＭＦＣＷＢ

３３２２２３２

２２３２３２

３３２２３２

２２５２３２

Ｆ值

３３２２３２

１．８０．７１９０．９６５

０．缁Ｏ．９９５

ＷｉｎｅＷＤＢＣＷＢＣＤ

ＣＢＦ

ＳｏｎｖＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅ

０．９１００．８４００．８００Ｏ．７２７０．５３ｌ０．４４３０．３３２０．９０４

２．ＯＯ．８３８０．９１７０．８３６０．９８５２．２

Ｏ．８４２０．９２００．８８４０．９６８

０．勉Ｏ．刀８

０．７０１０．６５６

Ｏ．说０．３６３

Ｏ．８６６０．８０４０．６７７０．６４７０．４６３０．３７４０．２６２

由表１可知，当聚类个数为两类时，Ｆ值最大，其次是聚类个数为４类的Ｆ值，说明最佳聚类个数为两类，其次数据集分布也可能具有４类的特点。结合图ｌ，数据分布最佳情况为左右两类，也可以分成４类，与实际情况吻合。当Ｃ＝２时，Ｆ值为其取值范围内的最大值１．０００，聚类个数为两类的情况最为理想。取ＦＣＭ算法的不同模糊因子ｍ值，对此模糊聚类有效性的计算并不产生影响，说明此指标具有较好的稳定性。

在表２中可以看到，当聚类个数为５类时，对应的Ｆ值最大，说明此时的聚类效果最好，Ｃ＝５为最佳聚类数，该结果与图２数据的实际分布吻合，并且模糊聚类有效性指标的计算不依赖于ｍ值的变化。

本文所提出的聚类有效性指标是基于ＦＣＭ算法得到的隶属度计算出来的，但由于ＦＣＭ算法不能有效地聚类高维数据’２…，所以本文并没有对于高维数据集进行测试。实验结果表明，对于实际的数据集，可以根据所提出的指标发现最佳的聚类数目，且与实际结果相吻合。对于３个常用的模糊因子ｍ，都可以发现正确的聚类数，表明本文提出的有效性指标对模糊因子ｍ具有良好的稳定性。３

结语

借助于ＦＣＭ算法，本文提出了一个聚类的有效性指标。

第８期

郑宏亮等：新的模糊聚类有效性指标

２１６９

况下，由于数据分布的不均匀性导致计算模糊程度不准确的

【１４］

ＢＥＺＤＥＫ

Ｊｃ－Ｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｗｉｔｈｆｕｚｚｙｓｅ‘ｓ【Ｊ】・Ｊｏｕ“ａｌｏｆｃＹ’

缺点。实验结果表明了所提出指标的有效性，且所提出的指ｂｅｍｅ‘ｉｃｓ，１９７４，３（３）：５８—７３＿

［１５１ＢＥＺＤＥＫＪｃ・Ｎ“”ｄ。ａｌ‘ａｘｏｎ。“Ｙ”ｉｔｈ

标对模糊子具有较好的鲁棒性。由于数据分布特征的多样

Ｍａｔｈ。“８‘ｉ。ａｌ

ｆｕｚｚｙ

８８２８［Ｊ】．Ｊ。““ａｌｏｆ

性，如何定义一个更好的有效性指标，快速地发现最符合数据参考文献：

【ｌ１

Ｂ‘０１０９ｙ，１９７４，１（１）：５７—７１‘

尝竺分！的聚类结果，仍是一个值得深入研究的问题。

ＲＥｚＡＥＥＢ・Ａｃｌｕ８‘ｅｒ

¨６１。Ｄ。Ａ。或Ｖ。Ｅ打。Ｒ。Ｎ【Ｊ】．＿：：１９Ｒ兰二＝‘ｋｉｏｎ饥ｓ。。ｏｂ，ｔａ。ｉｎ。ｅ％ｄ，‘譬篙：ｃ老：

６２３．

Ｖ蛐ｉｎｄｅｘ

ｆ０‘如ｚｚｙ

ｃｌｕｓｔｅｒｉ删・呦

【１７１

ＷＩＮＤＨＡＭＭＰ．ｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｆｏｒ

…

【２１：Ｈ磐¨，Ｗ．ＡＮＧ…ＷＮ．，攀№℃，ｎ烹７ａｌ…ｉｄｉｔｙ．、ｉｎ－ｆｕｚｚｙ。ｌ“８‘８ｒｉ“ｇ【Ｊ】．Ｉ响“８ｔｉ”Ｓｃｉ８ｎｃ。８，２００８＇１７８（４）：

ｄ。１ｆｏｒ１２０５—１２１８．

Ｓ…ｅｔｓ…ａｎ…ｄ

Ｓｙｓ。ｔｅｍｓ，２０１０，１６１…（２３…）：…３０１４一警ｊ‘，

ｆｏｒ砌ｍａｔｉ。ｎ

ａｌｇｏｒｉｔｈｍ【Ｊ】．皿ＥＥ№ｔｉ。ｎｓ仰Ｐａｎｅｍ

Ｉｎｔｅｌｌｉｇｅｎｃ—ｅ，１９８２，４（４）．３５７－３６３．

ＦＵＫＵＹＡＭＡ

ｔｌｌｅ蛔ｃ．㈣ｓ

。

ｃｌｕｓｔｅｒｉｎｇＭａｃｈｉｎｅ

ＡｎａＩｙｓｉｓ锄ｄ

［１８１Ｙ，Ｓ’ＵＧＥ—ＮＯ

Ｍ．Ａｎｅｗｍｅｔｈｏｄｏｆ

ｔｌＩｅｎｕｍ．ｃｈ∞ｓｉｎｇ。

ｂｅ。ｏｆ。ｌｕ８ｔｅ８ｆｏｒ‘ｈｅ

［３１ＺＡＬＩＫＫＲ．Ｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｉｎｄｅｘｏｆ缸Ⅻｃｌｕｓｔｅｒｓ０ｆ

‘ｈｅ

２０１０，４３

２５０．

ｆｍ呵ｃ。“。“８ｍｅ山０ｄ【ｃ】∥Ｐ”８ｅｄｉ“伊ｏｆ

ｄｉ雎ｍｍｓｊｚｅｓ肋ｄ

（１０）：３３７４—３３９０．

ｄｅｎ舒ｔｉｅｓ［Ｊ】．Ｐａｔｔ唧Ｒｅｃ嚼１硒０ｎｊ

５山Ｆｕｚ碍ｓｙ咖ｍ８ｓｙｍｐｏｓｉｕｍ・Ｋ。ｂｅ：【８・ｎ・１，１９８９：２４７一

ｆｕｚｚｙＩＳＯＤＡＴＡａｌｇｏｒｉｔｈｍｓ

［４１

ＫＩＭＡＤ

Ｗ．ＬＥＥＫＨ．ＬＥＥＤ．Ｏｎｃｌｕｓｔｅｒｖａｌｉｄｉｔｙｉｎｄｅｘｆｏｒｅｓｔｉ－

ｃｌｕｓｔｅｒｓ【Ｊ】．ＰａｔｔｅｍＲｅｃｏｇｎｉ．

［１９１

ＧＵＮＤＥＲｓ０ＮＲ・

Ａｐｐｌｉｃａｔｉｏｎ８。ｆ

ｔ。

ｍａｔｉｏｎｏｆｔｈｅｏｐｔｉｍａｌｎｕｍｂｅｒｏｆｆｕｚｚｙ

ｓｔ盯‘ｈ舶ｋｅ。ｐｒｉｎｔｉｎｇ８ｙ８‘ｅｍ８【Ｃ】／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔＩｌｅ７‘ｈ７ＩＨｅｎｎｉ—

ａｌ

ＷｏｒｌｄＩＦＡｃ

ｔｉ０１１．２００４．３７（１０）：２００９—２０２５．

ｃ。咿ｓｓ・Ｈｅｌｓｉｎｋｉ：【ｓ．ｎ．］，１９７８：１３１９—１３２３－

ＬＩＵ

Ｊ，ＭＡＲＴＩＮＥＺＬ，ＣＡＬＺＡＤＡＡ。ｅｔａ１．Ａｎｏｖｅｌｂｅｌｉｅｆｒｕｌｅ

ｐｅａｎ

ＪｏｕｒｎａｌｏｆＯｐｅｒａｔｉｏｎａｌＲｅｓｅａｒｃｈ，２００１，１３１（１）：３１—６１．Ｙ－Ｗ，ＹＡＮＧＪ－Ｂ，ＸＵＤ—Ｌ，ｅｔａ１．Ｏｎｔｈｅｉｎｆｅｒｅｎｃｅａｎｄ

ｂａｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ｇｅｎｅｒａｔｉｏｎａｎｄ

ｉｔｓｉｎｆｅＩｅｎｃｅ

ｍｅｔｈｏｄｏｌｏｇｙ【Ｊ】．

【１５】

ＣＨＥＮ

Ｋｎｏｗｌｅｄｇｅ—ＢａｓｅｄＳｙｓｔｅｍｓ，２０１３，５３：１２９—１４１．

ａｐｐｒｏｘｉｍａｔｉｏｎ

ｐｒｏｐｅｒｔｉｅｓ

ｏｆ

ｂｅｌｉｅｆ

ｒｕｌｅｂａｓｅｄ

ｓｙｓｔｅｍｓ【Ｊ】．Ｉｎｆｏｒｍａ—

［１２】ＨＵＹ．Ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｔｈｅ８０．２０ｒｕｌｅｉｎｔｌＩｅｅｖａｌｕａｔｉｏｎｏｆｋｅｙ

ｔｉｏｎＳｃｉｅｎｃｅｓ．２０１３．２３４：１２１—１３５．

ｐｅｒｆｏｒｍａｎｃｅ

ｉｎｄｉｃａｔｏｒｓ

ｆＪ】．ＣｏｎｓｔｒｕｃｔｉｏｎＭａｃｈｉｎｅｒｙａｎｄＭａｉｎｔｅ．

ｎａｎｃｅ，２００９（５）：１１６—１１７．（胡玉美．二八法则在关键绩效指标考评中的应用【Ｊ】．工程机械与维修，２００９（５）：１１６一１１７．）

【１３］

ＣＨＥＮ

【１６】

ＬＩＵ

Ｊ，ＭＡＲＴＩＮＥＺＬ，ＲＵＡＮＤ，ｅｔａ１．Ｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒ

ｌｅａｒｎｉｎｇｃｏｎｓｉｓｔｅｎｔｂｅｌｉｅｆｒｕｌｅ－ｂａｓｅｆｒｏｍＧｌｏｂａｌ

ｅｘａｍｐｌｅｓ【Ｊ】．Ｊｏｕｒｎａｌ

ｏｆ

Ｙ—Ｗ，ＹＡＮＧＪ－Ｂ，ＸＵＤ—Ｌ，ｅｔａ１．Ｉｎｆｅｒｅｎｃｅａｎａｌｙｓｉｓａｎｄ

ｂｅｌｉｅｆｒｕｌｅｂａｓｅｄｓｙｓｔｅｍｓ【Ｊ】．ＥｘｐｅｒｔＳｙｓｔｅｍｓ

Ｏｐｔｉｍｉｚａｔｉｏｎ，２０１１，５１（２）：２５５—２７０．

ａｄａｐｔｉｖｅｔｒａｉｎｉｎｇｆｏｒ

【１７】ＪＩＮＹ，ｙｏｎＳＥＥＬＥＮＷ，ＳＥＮＤＨＯＦＦＢ．ＯｎｇｅｎｅｒａｔｉｎｇＦＣ３ｆｕｚｚｙ

ｒｕｌｅｓｙｓｔｅｍｓｆｒｏｍｄａｔａ

ｕｓｉｎｇｅｖｏｌｕｔｉｏｎａｃｔｉｏｎｓ

ｏｎ

ｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２０１１，３８（１０）：１２８４５—１２８６０．ｓｔｒａｔｅｇｉｅｓ【Ｊ】．ＩＥＥＥ

Ｔｒａｎｓ—

【１４】

ＹＡＮＧ

Ｊ－Ｂ．Ｒｕｌｅａｎｄｕｔｉｌｉｔｙｂａｓｅｄｅ“ｄｅｎｔｉａｌｒｅａｓｏｎｉｎｇａｐｐｒｏａｃｈ

ｕｎｄｅｒ

Ｓｙｓｔｅｍ，ＭａｎａｎｄＣｙｂｅｍｅｔｉｃｓ，ＰａｒｔＢ：Ｃｙｂｅｒｎｅｔｉｃｓ．

ｆｏｒｍｕｌｔｉａｔｔｒｉｂｕｔｅｄｅｃｉｓｉｏｎ

ａｎａｌｙｓｉｓ

ｕｎｃｅｒｔａｉｎｔｉｅｓ【Ｊ】．Ｅｕｒｏ－１９９９，２９ｆ６）：８２９—８４５．

新的模糊聚类有效性指标

作者：作者单位：刊名：英文刊名：年，卷(期)：

郑宏亮，徐本强，赵晓慧，邹丽， ZHENG Hongliang， XU Benqiang， ZHAO Xiaohui， ZOU Li辽宁师范大学计算机与信息技术学院,辽宁大连,116081计算机应用

Journal of Computer Applications2014,34(8)

引用本文格式：郑宏亮. 徐本强. 赵晓慧. 邹丽. ZHENG Hongliang. XU Benqiang. ZHAO Xiaohui. ZOU Li 新的模糊聚类有效性指标[期刊论文]-计算机应用 2014(8)

与《新的模糊聚类有效性指标》相关的范文

07-22 煤矿创新发展经验交流材料

立足企业创新发展　推进职工思想解放,观念转变　　××年对于我们××矿来说，既是改革之年，也是创新之年，我们突破了一系列机制性、体制性障碍，全年原煤产量、掘进进尺、商品煤量等六项指标创出历史最好水平，一举摘掉了连续六年亏损的老帽子，矿井实现了较大幅度盈利。回顾成绩的取得，我们感到，观念是制约发展的关键环节，只有率先解放思想、转变观念，才能将企业改革、发展推向快车道。因此，我们把宣传思想工作的着力点 ...

03-27 城市居住区绿化景观设计空间模式之构建

　　　　居住区环境模糊性空间设计　　一、对我国目前居住区模式的思考　　随着生活水平的提高，人们对居住的需求从基本生理需求的满足逐步向心理与文化领域的更高层次推进，住区不单是居住的功能，同时也是人们思想与情感交流的地方。人们不但关注内部的居住空间，对居住的外部空间环境也越来越重视。纵观我国目前的居住区模式，可以看出我国的居住区规划大多是按照一种典型的理性思维的模式建立起来的。这也是现代主义创作 ...

03-24 农居点用地整理计划

一、概述农村居民点用地是指各乡镇管辖范围内的所有村庄用地，包括农村居民居住的主房占地、附房占地以及晒场、庭院、宅旁绿化、围墙等用地，也包括村内基础设施和公共设施用地。除建制镇政府驻地的城镇建成区以外，一般集镇、中心村均在此范围之内。农居点整理，是指通过对已有农居点用地的深入加工、改造、调整及整治，消除原有农居点土地利用中对社会经济发展起制约或限制作用的因素，促进土地利用的有序化、集约化、合理化和 ...

01-31 现代科技文阅读三

·现代科技文阅读三　　公文，以其规范的体式、法定的效力，以其体现意志的团体性和所产生作用的强制性，对写作语言的使用提出了很高的要求。在公文写作的过程中，人们往往从公文语言的逻辑性、严密性、准确性上考虑，一般注意区分其与口头语言和书面文学语言的区别。但常常却容易疏忽模糊语言的运用，或者即便使用了，也是在一种潜意识中使用，而没有真正理解什么是模糊语言。让我们试从语言概念内涵和外延的模糊性与所反映客观 ...

03-20 班主任工作经验之总结

过去的一学期里,我班在学校领导的统一组织下,在任课教师的大力支持和配合下,各项工作顺利开展,学习、生活等方面都取得较突出的成绩。现将本学期的工作总结如下: 一、加强对学生的思想政治工作,培养学生良好的道德品质,净化学生的心灵,努力培养又红又专的合格人才。为了配合学校团委和政教处的工作,我们班积极开展了许多有益于学生身心健康发展的活动。例如,"跨步进入新世纪系列活动"、"寻找我身边的活雷锋"、"青 ...

05-06 高中班主任工作总结

　　过去的一学期里，我班在学校领导的统一组织下，在任课教师的大力支持和配合下，各项工作顺利开展，学习、生活等方面都取得较突出的成绩。现将本学期的工作总结如下：　　一、加强对学生的思想政治工作，培养学生良好的道德品质，净化学生的心灵，努力培养又红又专的合格人才。　　为了配合学校团委和政教处的工作，我们班积极开展了许多有益于学生身心健康发展的活动。例如，“跨步进入新世纪系列活动”、“寻找我身边的活 ...

06-29 选煤厂党总支发挥党组织堡垒和党员先锋模范作用汇报

围绕中心　发挥作用　务求实效全面构建“实效型”政治工作新格局为完成各项指标提供坚强有力的政治保证　　XX现有基层党支部8个，党员85人，积极分子23人。20XX年，选煤厂党总支在矿党委的正确领导下，认真践行“三个代表”重要思想，围绕煤质销售，安全管理这一工作中心，发挥党组织堡垒和党员先锋模范作用，把“求真务实”，贯穿于党建、思想政治工作和精神文明建设的各个环节，全面构建“实效型”政治工作新格 ...

08-01 班主任工作经验总结 1

班主任工作经验总结过去的一学期里,我班在学校领导的统一组织下,在任课教师的大力支持和配合下,各项工作顺利开展,学习、生活等方面都取得较突出的成绩。现将本学期的工作总结如下: 一、加强对学生的思想政治工作,培养学生良好的道德品质,净化学生的心灵,努力培养又红又专的合格人才。为了配合学校团委和政教处的工作,我们班积极开展了许多有益于学生身心健康发展的活动。例如,"跨步进入新世纪系列活动"、"寻找我 ...

07-30 强化资源管理,坚持依法兴林

　　-湖北省罗田县林业局陆懿同志先进事迹　　　　湖北省罗田县位于大别山主峰天堂寨南麓，犹如一颗绿色的明珠，点缀着鄂东北的三省边陲。改革开放以来，罗田在历届县委、县政府和上级林业主管部门的正确领导下，不断加大对森林资源的保护管理力度，精心组织，科学规划，因地制宜，合理利用森林资源，使林业绿化成果得到了进一步巩固，森林资源实现了持续增长，生态环境得到了明显改善。境内森林茂密，资源丰富，分布着400多 ...

02-11 教导处英语期中考试质量检测分析

教导处英语期中考试质量检测分析一、试卷分析本次期中检测试卷分听力、笔试两个部分，各占30%和70%。试卷在所考查的知识范围、题型设计、各类题型所占比例、能力要求等方面，基本符合小学英语教学的大纲要求，学生均能在规定的时间内完成答卷。试题既考查了学生的英语基础知识，又考查了学生在本阶段所应具备的英语综合运用能力，基本能对学生的读、写水平做出比较客观的评价。二、成绩情况：见教务处成绩统计表三、 ...

随机推荐

猜你喜欢

新的模糊聚类有效性指标

·县长计划生育工作会议讲话

·"爱心中转,伞送心晴"爱心雨伞活动策划书

·幼儿毕业典礼

·劳务外包实施方案

·从[苍原]相关研究看歌剧艺术学术发展

·学生会各部门简介

·国外已婚女性劳动供给影响因素分析

·中国航空发动机行业发展现状分析

·以组织结构变革窥企业管理

·背影课后巩固练习(2)

·多媒体研修学习心得

·银行党员领导干部个人工作总结

·帮扶学生心得体会

·出国培训委托协议书

·股份合作合同范本

·田横五百士

·三年级演讲稿

·货物所有权与风险的转移案例

·后勤保障科

·中华人民共和国土地管理法释义:第十二条