优化子空间的高维聚类算法

03-23

摘要：针对当前大多数典型软子空间聚类算法未能考虑簇类投影子空间的优化问题，提出一种新的软子空间聚类算法。该算法将最大化权重之间的差异性作为子空间优化的目标，并提出了一个量化公式。以此为基础设计了一个新的优化目标函数，在最小化簇内紧凑度的同时，优化每个簇所在的软子空间。通过数学推导得到了新的特征权重计算方法，并基于kmeans 算法框架定义了新聚类算法。实验结果表明，所提算法对子空间的优化降低了算法过早陷入局部最优的可能性，提高了算法的稳定性，并且具有良好的性能和聚类效果，适合用于高维数据聚类分析。

关键词：高维数据；聚类；子空间优化；特征权重；差异

中图分类号： tp181

文献标志码：a

0引言

聚类作为数据挖掘研究的一种重要手段，目的是将给定的一个数据集划分成多个簇，使得同一簇内的样本尽量相似，而与其他簇中的样本相异较大[1-2]。目前，聚类分析已经在许多领域获得广泛应用，如模式识别、文本挖掘、机器学习、网络搜索、基因表达、顾客区分和图像处理等。

随着大数据时代的来临，人们在实际应用过程中经常处理的数据不再是几维或几十维的低维数据，而是几百、几千甚至上万维的高维数据。例如，文本挖掘中由向量空间模型（vector space model ， vsm）[3]表示的文档向量可能具有几百甚至上千个特征。对于高维数据而言，其数据表现具有以下两方面现象：随着维数的增加，数据索引的维护效率急剧下降[4]；在高维空间中数据点之间近似等间距[5]。以上两方面现象泛指高维数据的“维度效应（curse of dimensionality ）”。由于传统聚类方法一般使用欧氏距离等函数度量数据之间的相似性，受“维度效应”的影响，传统聚类方法在高维数据中的聚类性能往往大为降低或聚类精度大幅度下降[6]。在2005年10月的ieee 数据挖掘国际会议上，高维数据的处理被认为是当前数据挖掘研究领域中十大挑战性课题之一[7]。

表2和表3列出了5种算法在真实数据集上获得的聚类结果，即各表所列为在相同的初始簇中心及其他环境相同的情况下，各算法在对应数据集上独立运行100次的平均聚类结果，以“均值±1个方差”形式提供。表2和表3所报告的聚类精度均值反映了各个聚类算法的总体性能，而判断各个算法聚类性能的稳定性可以依据所报告的方差。聚类精度方差越小，说明算法聚类性能的稳定性越好。针对表2中所列的每行聚类结果，将最大的指标值加黑显示。

从表2和表3可以看出，与其他4种对比算法相比，soc 算法在大部分真实数据集上均获得较高的聚类结果，尤其在样本数较多的classic4和相对高维的cacmcisi 数据集上，说明新算法对数值型数据集具有良好的适应性。从表2～3中还可以看出，asc 和soc 这两种算法采用不同方式优化子空间，与未考虑子空间优化的软子空间算法相比，它们在大部分数据集上均获得较好的聚类效果，这表明对子空间的优化有助于提升算法的聚类质量。以实验数据集中最高维数据cacmcisi 为例，由于类kmeans 算法容易陷入局部最优[1]，使得该类算法的聚类结果容易受初始簇中心的影响，导致聚类结果反差很大。目前，还没有一种有效的机制解决高维数据初始中心点的选择问题。图3给出了cacmcisi 数据集上各算法从100组随机的不同初始状态出发，独立运行后获得的聚类精度分布，横坐标序号代表各算法第几次运行，纵坐标是以fscore 指标衡量各次聚类获得的聚类结果。为了能公平、合理地比较各算法在cacmcisi 数据集上的聚类性能，实验测试中各算法每次执行均选择相同的初始中心。以上实验结果表明，soc 算法在大部分真实数据集上的聚类结果具有较高的准确性及良好的适应性，这主要来源于算法对子空间的优化。根据soc 算法的执行过程来看，每一次迭

代划分数据集后，soc 算法依据权重计算公式更准确地估计出各簇类所在的子空间，在一定程度上避免了算法过早地陷入局部最优，从而提高了算法的聚类性能。

4结语

针对现有软子空间聚类算法对高维数据聚类效果不佳的现状，本文提出一种新的高维数据软子空间聚类算法（soc ）。与目前主要通过模糊加权或熵加权的软子空间聚类算法相比，本文从另一个角度出发，通过分析投影子空间的优化目标并提出一个量化公式，结合子空间中簇内紧凑度的度量，定义了一个新算法。该算法在聚类过程中最小化簇内紧凑度的同时，优化各簇类所在的子空间。经过多个真实数据集的实验验证，与现有其他软子空间聚类算法相比，soc 算法在实验数据上的聚类质量获得较为明显的改善。下一步的主要研究方向是寻找一种能够根据数据集本身离散程度自动确定平衡参数h 的方法及解决高维数据聚类初始簇中心点的选择问题，以进一步提高算法的聚类质量。

与《优化子空间的高维聚类算法》相关的范文

08-16 第八册数学教学计划-

一、教学内容乘法，升和毫升，三角形，混合运算，平行四边形和梯形，找规律，运算律，对称、平移和旋转，倍数和因数，用计算器探索规律，解决问题的策略，统计，用字母表示数，整理与复习。二、教学目标 1、知识与技能方面（1）使学生联系已有的知识和经验，经历从具体问题中抽象数量关系并探索算法和运算律的过程，掌握有关的计算方法和运算顺序，发现并初步理解一些简单的运算规律；初步认识自然数的一些特征；初步理解 ...

02-11 第八册数学教学计划

07-03 二年级数学下册教学计划

一、教学内容这册教材包括下面一些内容：解决问题、表内除法（一）、图形与变化、表内除（二）、万以内数的认识、克和千克的认识、万以内的加法和减法（一）、统计、找规律、总复习等。这册教材的计算教学内容是万以内的加、减法笔算和表内除法。这两部分内容都是进一步学习计算的重要基础。因此，表内除法同20以内的加、减法一样，是小学数学的重要基础知识，是小学生需要掌握的除法是人们在日常生活中解决问题时经常用到的数 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

08-17 三年级数学教学总结

三年级数学教学总结一、基本情况分析：三年级二班有学生60名，经过训练，大部分学生的学习习惯和行为习惯有了较大的进步，上课能懂得怎样听讲，知道按老师的要求完成作业，能上课积极举手回答问题，同学之间能互相帮助,互相学习,互相团结。个别学生知识的掌握较差，有些学生现在还是不会阅读课本，注意力不集中，理解能力较差，因此，在今后的教学中，要注意学生学习习惯的培养等。二、取得的成绩和经验： 1．学生经历 ...

04-28 小学数学下册教学计划

小学数学下册教学计划一、学生情况分析：一年级现34名学生，班额较大，学生存在着很多问题。主要原因学生自主探究问题的能力弱，缺乏分析问题、解决问题及灵活运用知识的能力。有的学生缺乏良好的学习习惯、审题能力及认真听题的习惯。二、教学内容：本册教材包括下面一些内容：位置，20以内的退位减法，图形的拼组，100以内数的认识，认识人民币，100以内的加法和减法（一），认识时间，找规律，统计，数学实践 ...

09-27 高三数学复习计划

一、目的：在学校高三毕业班教学备考的指导下，根据学科的特点与历年的高考说明及高考中数学的地位，使数学复习有一个依据顺序，协调班级之间的教学复习工作,使与教师充分发挥各自特长、特点、优点，出色完成高三数学复习的教学任务，让学生得到应有的数学知识，在知识的海洋中遨游，达到理想的彼岸。二、指导思想：针对高三学生现有的真实水平及实际情况，以课本内容为基础，新课程标准及高考说明为依据，选择适合的复习资料， ...

07-14 新课程理念下课堂教学的几点思考

　　随着新一轮国家课程教材改革实验的逐步实施，基础教育的课程环境得到了极大的改善。数学成为开发儿童潜能的重要工具，动手实践、自主探索、合作交流成为数学主要的学习方式，情感、态度、价值观已成为数学教学的重要目标，这一切使数学课堂教学发生了深刻的变化。有些教师意识到新课改的重要性，并尝试将这些理论应用于自己的课堂教学中，可是由于种种原因却遭到了失败，于是这些教师宁可对这种教学采取敬而远之的态度。我们 ...

10-07 六年级下册数学复习整理和复习建议

六年级下册数学复习整理和复习建议　　一、整理和复习内容　　系统的、全面的回顾与整理小学数学的全部内容。　　二、整理和复习目标　　 1．比较系统地掌握有关整数、小数、分数和百分数、负数、比和比例、方程的基础知识；能比较熟练地进行整数、小数、分数的四则运算，能进行整数、小数加、减、乘、除的估算，会使用学过的简便算法，合理、灵活地进行计算；会解学过的方程；养成检查和验算的习惯。　　 2．巩固常用计 ...

随机推荐

猜你喜欢

优化子空间的高维聚类算法

·企业精英培训班开班仪式讲话稿

·写给父母的感谢信范文

·教师节庆祝大会教师代表发言

·学习周恩来精神活动策划书

·每周工作总结 (800字)

·高中怎么学数学?

·刍议公民环境权利与环境保护的关系

·糖尿病肥胖症治疗

·10道美味清蒸鱼的做法

·订单管理制度

·关于师德师风建设的调查报告

·环保公益活动个人活动总结

·校务公开会上的讲话

·清明节扫墓献词

·关于2月2日龙抬头

·多烯磷脂酰胆碱胶囊说明书

·音乐学曲式分析期末复习提纲

·企业应该配多少安全管理人员

·竞品市场调研报告(改)

·汽车发动机前置前驱和前置后驱的优缺点