聚类算法的应用_模板
数学软件实习报告
(2014-2015学年 2学期)
题目:聚类算法
姓名: 学号:
院系: 数学与信息科学 专业: 数学与应用数学
报告提交时间:2015 年 5 月28日
综合评定:
(优、良、中、及格、不及格)
年 月 日
指导教师签字:
聚类算法的应用
1 实习内容及问题分析
利用spss数学软件中聚类分析的知识,对某城市土壤中各重金浓度含量及重金属污染程度进行分析并聚类。.
将所有样本采集点的数据进行统计并聚类,重金属在各个区域中的污染严重程度为:工业区>交通区>生活区>公园绿地区>山区。
2 核心理论
K 均值聚类算法是一种基于划分方法的经典聚类算法之一,该算法
的核心思想如下:首先从所给n 个数据对象中随机选取k 个对象作为初始聚类中心点,然后对于所剩下的其它对象,则根据它们与所选k 个中心点的相似度(距离)分别分配给与其最相似的聚类,然后在重新计算所获聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止,其基本算法流程如下: 1) 从n个数据对象中任意选择k个对象作为初始聚类中心。 2) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距 离并根据最小距离对相应对象进行划分。
3) 重新计算每个(有变化)聚类的均值(中心对象)。 循环上述流程2 到3,直到每个聚类不再发生变化或者标准测度函数开始收敛为止。
3 软件操作步骤
系统聚类分析:
(1)打开数据文件。
(2)工具栏中,找到分析-->分类-->系统聚类分析。
在
(3)分别设置好统计量,绘制,方法及保存。点击确认
(4)结果如下图。完成系统聚类分析。
(3
)
K均值聚类分析:
(1)在工具栏中,找到分析-->分类-->k
均值聚类分析
。
(2)设置聚类数为5,并设置好迭代次数,保存及选项。
(3)点击确定,得出结果。K均值聚类分析完成。
4 心得体会
通过本次教学实习,我深刻体会到spss软件在经济,管理,医学,环境保护等方面的广泛应用。初始的聚类中心不同,对聚类的结果没有很大的影响,而对迭代的次数有显著的影响。数据的输入顺序不同,同样影响迭代次数,而对聚类结果没有太大的影响。
5参考文献(仿此文献形式列出所涉及到的参考文献)
无