数据挖掘和知识工程

08-15

1、给出KDD 的定义和处理过程。

答：KDD 的定义是：从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。因此，KDD 是一个高级的处理过程，它从数据集中识别出以模式形式表示的知识。这里的“模式”可以看成知识的雏形，经过验证、完善后形成知识：“高级的处理过程”是指一个多步骤的处理过程，多步骤之间相互影响反复调整，形成一种螺旋式上升的过程。

KDD 的全过程有五个步骤：1、数据选择：确定发现任务的操作对象，即目标数据，它是根据用户的需要从原始数据库中抽取的一组数据；2、数据预处理：一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等；3、数据转换：其主要目的是消减数据维数或降维，即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数；4、数据挖掘：这一阶段包括确定挖掘任务/目的、选择挖掘方法、实施数据挖掘；5、模式解释/评价：数据挖掘阶段发现出来的模式，经过用户或机器的评价，可能存在冗余或无关的模式，需要剔除；也有可能模式不满足用户的要求，需要退回到整个发现阶段之前，重新进行KDD 过程。

2、阐述数据挖掘产生的背景和意义。

答：数据挖掘产生的背景：随着信息科技的进步以及电子化时代的到来，人们以更快捷、更容易、更廉价的方式获取和存储数据，使得数据及信息量以指数方式增长。据粗略估计，一个中等规模企业每天要产生100MB 以上的商业数据。而电信、银行、大型零售业每天产生的数据量以TB 来计算。人们搜集的数据越来越多，剧增的数据背后隐藏着许多重要的信息，人们希望对其进行更高层次的分析，以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系与规则，无法根据现有的数据来预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”，并且开始考虑：如何才能不被信息淹没？如何从中及时发现有用的知识、提高信息利用率？如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息？这给我们带来了另一些头头疼的问题：第一是信息过量，难以消化；第二是信息真假难以辨别；第三是信息安全难以保证；第四是信息形式不一致，难以统一处理。面对这一挑战，面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源，随着计算机数据仓库技术的不断成熟，从数据中发现知识

（Knowledge Discovery in Database）及其核心技术——数据挖掘（Data Mining）便应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。

数据挖掘的意义：数据挖掘之所以被称为未来信息处理的骨干技术之一，主要在于它正以一种全新的概念改变着人类利用数据的方式。在20世纪，数据库技术取得了重大的成果并且得到了广泛的应用。但是，数据库技术作为一种基本的信息储存和管理方式，仍然是以联机事务处理为核心应用，缺少对决策、分析、预测等高级功能的支持机制。众所周知，随着硬盘存储容量及的激增以及磁盘阵列的普及，数据库容量增长迅速，数据仓库以及Web 等新型数据源出现，联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。面对这样的挑战，数据挖掘和知识发现技术应运而生，并显现出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。它不仅能对过去的数据进行查询，而且能够找出过去数据之间的潜在联系，进行更高层次的分析，以便更好地作出决策、预测未来的发展趋势等等。通过数据挖掘，有价值的知识、规则或更高层次的信息就能够从数据库的相关数据集合中抽取出来，从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务。

3、给出一种关联规则的算法描述，并举例说明。

答：Apriori 算法描述：Apriori 算法由Agrawal 等人于1993年提出，是最有影响的挖掘布尔关联规则频繁项集的算法，它通过使用递推的方法生成所有频繁项目集。基本思想是将关联规则挖掘算法的设计分解为两步：(1)找到所有频繁项集，含有 k 个项的频繁项集称为 k-项集。Apriori 使用一种称作逐层搜索的迭代方法，k-项集用于探索(k+1)-项集。首先，出频繁 1-项集的集合。该集合记作L1。L1用于找频繁 2-项集的集合L2，而L2用于找L3，如下去，直到不能找到频繁k-项集。找出每个Lk 都需要一次数据库扫描。为提高频繁项集层产生的效率，算法使用Apriori 性质用于压缩搜索空间。(2)使用第一步中找到的频繁项集产生关联规则。从算法的基本思想可知，Apriori 算法的核心和关键在第一步。而第一步的关键是如何将Apriori 性质用于算法，利用Lk - 1找Lk 。这也是一个由连接和剪枝组成的两步过程：（1）连接步：为找Lk ，通过Lk -1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck 。设l1和l2是Lk - 1中的项集。记号li[j]表示li 的第j 项（例如，l1[k-2]表示l1的倒数第3项）。为方便计，假定事务或项集中的项按字典次序排序。执行连接Lk - 1 Lk - 1；其中，Lk - 1的元素是可连接的，如果它们前(k-2)项相同；即Lk - 1的元素l1和l2是可连接的，如果(l1[1] = l2[1]) ∧ (l1[2] = l2[2]) ∧ ... ∧ (l1 [k-2] = l2 [k-2]) ∧ (l1 [k-1]

(l1[k-1]

Apriori 算法举例：如有如下数据

每一行表示一条交易，共有9行，既9笔交

易，左边表示交易ID ，右边表示商品名称。最小

支持度是22%，那么每件商品至少要出现9*22%=2次才算频繁。第一次扫描数据库，使得在每条交易中，按商品名称递增排序。

第二次扫描数据，找频繁项集为1

的元素有：

左边表示商品名称，右边表示出现的次数，都大于阈值2。

在此基础上找频繁项集是2的元素，方法是两两任意组合，第三次扫描数据得到它们出现的次数：

此时就有规律性了，在频繁项集为K 的元素上找频繁项集为K+1的元

素的方法是：在频繁项集为K 的项目（每行记录）中，假如共有N 行，两两组合，满足两两中前K-1个元素相同，只后一个元素要求前一条记录的商品名称小于后一条记录的商品名称，这样是为了避免重复组合，求它们的并集得到长度为K+1的准频繁项集，那么最多共有Apriori 算法种可能的组合，有：

想想如果N 很大的话，Apriori 算法是一个多么庞大的数字，这时就要用到Apriori 的核心了：如果K+1个元素构成频繁项集，那么它的任意K 个元素的子集也是频

繁项集。然后将每组K+1个元素的所有长度为K 的子集，有Apriori

算法中组合，在频繁项集为K 的项集中匹配，没有找到则删除，用第一条记录{I1,I2,I3}它的长度为2的频繁项集有：Apriori 算法分别是：{I1,I2},{I1,I3},{I2,I3}种情况, 幸好这三种情况在频繁项集为2的项集中都找到了。通过这步过滤，得到的依旧是准频繁项集，它们是：

此时第四次扫描数据库，得到真正长度为3的频繁项集是：

因为{I1,I2,I4}只出现了1次，小于最小支持度2，删除。就这个例子而言，它的最大频繁项集只有3，就是{I1,I2,I3}和{I1,I2,I5}。

4、给出一种聚类算法描述，并举例说明。

答：k-means 算法是一种属于划分方法的聚类算法，通常采用欧氏距离作为 2 个样本相似程度的评价指标，其基本思想是：随机选取数据集中的 k 个点作为初始聚类中心，根据数据集中的各个样本到k 个中心的距离将其归到距离最小的类中，然后计算所有归到各个类中的样本的平均值，更新每个类中心，直到平方误差准则函数稳定在最小值。

算法步骤：1. 为每个聚类确定一个初始聚类中心，这样就有K 个初始聚类中心。 2.将样本集中的样本按照最小距离原则分配到最邻近聚类 3.使用每个聚类中的样本均值作为新的聚类中心。 4.重复步骤2.3步直到聚类中心不再变化。

k-means 算法举例：数据对象集合S 见下表，作为一个聚类分析的二维样本，要求的簇的数量k=2。

O 2(0,0)O 1(0,2M 1=O 1，=((1)选择，为初始的簇中心，即 0,2)) O 3 对： d (M 1, O 3)

M 2=

O 2=(0,0)

(2)对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。

=2.5

O 3 显然，故将分配给d (M 2, O 3)≤d (M 1, O 3)

对于 O 4： d (M 1, O 4)

d (M 2, O 3)

==1.5

C 2

=(M 2, O 4)

==5

O 4 d (M 2, O 4)≤d (M 1, O 因为，所以将分配给4)

d M , O ==()25O ：对于 5 d (M 1, O 5)==5

d (M 1, O 5)≤d (M 2, O O 5

C 1因为，所以将分配给5)

更新，得到新簇和 C 1={O 1, O 5}计算平方误差准则，单个方差为

C 2={O 2, O 3, O 4}

222

⎤=25E 1=⎡(0-0)+(2-2)⎤+⎡0-5+2-2)()(⎣⎦⎣⎦

E 2=27.25

总体平均方差是：

E =E 1+E 2=25+27.25=52.25

M 1=((0+52, (2+22)=(2. 5, 2)

（3）计算新的簇的中心。

M 2=((0+1.5+5)3, (0+0+0))=(2.17,0)

重复（2）和（3），得到O 1分配给C 1；O 2分配给C 2，O 3分配给C 2，O 4分配给C 2，O 5分配

C 给C 1。更新，得到新簇和 C 1={O 1, O 5}。2={O 2, O 3, O 4}

) M 1=(2. 5, 2M 2=(2.17,0中心为，。 )

单个方差分别为

222

⎤=12.5E 1=⎡(0-2.5)+(2-2)⎤+⎡2.5-5+2-2)()(⎣⎦⎣⎦

E 2=13.15

总体平均误差是：

E =E 1+E 2=12.5+13.15=25.65

由上可以看出，第一次迭代后，总体平均误差值52.25~25.65，显著减小。由于在两次迭代中，簇中心不变，所以停止迭代过程，算法停止。

与《数据挖掘和知识工程》相关的范文

03-04 大学生暑期工程施工现场实践报告

大学生暑期工程施工现场实践报告 7月6号，天气炎热，在空气中隐隐约约可以看到从水泥路上散发的那一缕缕条纹形的热气。这次我选择实践的地点是位于我家乡的一处区段，xx县的新城区。这次的时间是从今天开始直到19号结束，一共为期14天。而期间我要做的就是跟随着施工员了解这一工地的想关状况，并记录这学期暑假所要布置的问题的相关材料，在之后还要凭借以上的材料完成一份实践报告。我不知道如何把这一份实践的过程在纸 ...

07-14 网络工程师职业规划

网络工程师职业规划　　a.路由器、交换机方向网络工程师　　第一阶段第二阶段第三阶段第四阶段　　万丈高楼平地起，基础知识还是蛮重要的本基的路由交换知识的了解以及配置方法　　时间久了，免不了出故障，排除故障也很重要发展到cTo级别就要考虑网络的整体部署了　　?TcP/IP协议专题　?子网掩码教程?路由协议专题　?路由器技术指南　?交换机典型配置　?访问控制列表介绍·路由故障处理手册·交换机故 ...

12-27 挖掘机专业学生赴工地实习计划

挖掘机专业学生赴工地实习计划 xx新坪村农家乐工程一一是我院校学生外出实习的"形象工程"、"创牌工程".全体带队老师一切听从赵董事长和肖校长的指令,做到忠于职守,令行禁止，勤奋工作.应明确重任在肩,既光荣又艰巨.为了给赵董事长和学校增光,为了向广大家长和学生负责,务必做到不怕苦，不怕累,不怕脏，勤劳务实而又创新型地开展工作.确保实现"九好"(即学习好、工作好、安全好、进度好、质量好、效益好、纪律好 ...

09-29 土木路桥方向实习报告

土木路桥方向实习报告 20XX年暑假，我同土木xx级路桥方向另5名同学获得了前往xx实习机会。自到达xx工地起实习40余日，所学所得颇多，应要求攒此实习报告。实习项目：xx市xx立交桥。一、实习工地概况及工程进度 1、工程设计资料 xx立交桥修建于xx市南环路（柳邕路：城市快速路）及G209国道（柳石路）交会处。采用完全苜蓿叶式立体交叉。立交桥主跨线桥为预应力混凝土连续箱梁桥，跨线桥全长180 ...

04-05 信息化建设实施方案

　　河东区信息化建设实施方案　　随着信息时代的到来，信息技术已成为当代最具潜力的生产力，信息资源已成为国民经济和社会发展的战略资源，信息化水平也已成为一个地区和城市现代化程度的重要标志。作为社会信息化的一个主要组成部分，政务信息化建设必须进一步加快工作步伐。为明确政务信息化建设任务，有计划、有步骤、有重点地开展政务信息化工作，根据我区实际，特制定本方案。　　一、信息化建设的总体目标　　政务信 ...

04-30 通信工程认识实习报告

　　前言内容　　作为学习通信工程专业的学生，作为以后即将成为一名通信人的学生来说，了解通信基础知识，掌握通信专业的学习方法，明白通信行业最前沿的科技知识，是关系到自己前途，关系到自己人生价值能否实现的人生大事。　　通过近一周的学习，我们从感性上学到了很多东西，也对我们将来的学习和研究方向的确定产生了深远的影响。通过这次参观实习丰富了本人的理论知识，增强了本人观察能力，开阔了视野，并使我对以后的 ...

02-11 公司岗位能手事迹材料

现年34岁的xxx，是*县网通分公司宽带维护员。作为一名普通的网络维护人员，他热爱本职工作，坚守信念，兢兢业业，在平凡的工作岗位上实现自己不平凡的人生信念。几年来，他维护岗位上潜心钻研网络业务技术、计算机终端及宽带维护等专业知识，不断进取，孜孜以求，勤于动手，用青春和智慧攻克了工作中许多技术难题。特别是在公司网络维护及优化工作中，他善于思考，勤勉刻苦，能够理论联系实际提出了许多合理化科学的建议，用 ...

09-25 工程施工单位各部门岗位职责

工程施工单位各部门岗位职责一、造价员岗位职责 1、贯彻执行国家、地方及行业有关工程建设和造价管理的法律法规，及时掌握工程计价政策和价格信息。 2、根据规划建设部门提供的初装工程量清单，实时进行现场勘踏，编制预算文件，报请部门经理和相关领导审查批复并移交市场部收费。 3、协助部门经理审查施工图纸，编制工程建设概预算。 4、参与图纸会审和工程竣工验收，审查与工程结算有关的设计变更、签证等资料，审核竣 ...

10-17 浙江传媒学院文史.理工类招生计划

二、文史、理工类专业录取办法我校文史类、理工类专业录取按国家有关文史类、理工类专业录取的规定办理。具体细则： 1、学校调档比例一般按1：1.1。进档考生以高考总分为主要依据，综合考查德智体状况和相关单科成绩进行录取。 2、按照考生报考学校志愿先后录取。即先录取院校第一志愿的考生，若第一志愿不满时，再录取院校第二志愿考生；实行平行志愿投档的省份按各省考试院的相关规定执行。 3、学校录取专业时设一定 ...

03-01 网通公司岗位能手先进事迹

　　青　　春　　在　　岗　　位　　上　　闪　　光　　现年34岁的余孝逵，是新县网通分公司宽带维护员。作为一名普通的网络维护人员，他热爱本职工作，坚守信念，兢兢业业，在平凡的工作岗位上实现自己不平凡的人生信念。几年来，他维护岗位上潜心钻研网络业务技术、计算机终端及宽带维护等专业知识，不断进取，孜孜以求，勤于动手，用青春和智慧攻克了工作中许多技术难题。特别是在公司网络维护及优化工作中， ...

随机推荐

猜你喜欢

数据挖掘和知识工程

·党总支创先争优活动实施方案

·英语系学生寒假无偿社会实践报告

·演讲稿:拼搏,成功的前奏

·演讲艺术:如何合理分配时间

·家庭教育经验交流

·计算机科学与技术毕业论文格式规范

·管子名言大全

·中国法律体系

·口语交际:节约从身边做起.doc

·如何判断股票处在上升周期还是下跌周期

·精华毕业感言

·述职报告怎么写,格式是什么?

·工伤保险培训讲义

·史上最全[中药配方大全]

·主要贸易术语

·北京到周庄旅游攻略

·由"公地悲剧"看政府对公共资源的管理

·幼儿园大班音乐优秀教案:小鼓手

·彩釉砖和地板砖的区别

·弘扬中华传统文化