数据挖掘技术的方法和最新进展

10-24

数据挖掘技术的方法和最新进展

李敬社1, 2, 张小木2, 黄泽贵3

(11西安电子科技大学智能信号处理研究所　陕西西安　710071; 21空军工程大学文理学院　陕西西安　710068

31空军工程大学导弹学院　陕西三原　713800)

摘　要:随着大型数据库的不断涌现, 不缺数据缺知识的矛盾日益突出。如何从浩如烟海的数据中发现隐藏的知识, 创造更大的效益是一个迫切需要解决的课题。因此, 知识发现和数据挖掘应运而生, 成为一个新的研究领域。在此, 介绍了数据仓库、知识发现和数据挖掘的基本概念, 重点论述了数据挖掘技术的方法, 并指出了研究方向。

关键词:数据仓库; 知识发现; 数据挖掘; 方法; 现状和研究方向

中图分类号:T P 311　　　　　文献标识码:B 　　　　　文章编号:1004373X (2004) 2205403

Sta te of Arts Da ta M i 1, 223

L I J ingshe , ZHAN G , (11Intelligent Signal P , , i ′an , 710071, Ch ina ;

21T he L iterature and N atural Science , , i ′an , ina ; 31T he M issile Institute , A FEU , Sanyuan , 713800, Ch ina )

Abs tra c t :W ith the , there is a conflict that rich data but poo r know ledge 1How to discover the

h idden know ledgs from data , to get mo re benefit had becom e an i m po rtant p roblem to reso lve 1So know ledge discovery and data m ining are p ropo sed and developed a new study field 1T he basic concep ts of data w arehouse , know ledge discovery and data m ining are exp ressed 1F inally , the m ethods of data m ining and the advances are p ropo sed 1

Ke yw o rds :data w arehouse ; know ledge discovery ; data m ining ; m ethod ; state of arts

　　随着Internet 的迅猛发展, 我们面临着数据库爆炸的

挑战, 也常会感到被数据淹没却仍觉得知识饥饿的困惑。而网络在快捷、方便地带来大量信息的同时, 也带来了一大堆的问题:诸如信息过量、难以消化; 信息增加难以辨识; 信息安全难以保证; 信息形式不一致, 难以统一处理等。如何快速、准确地获得有价值的网络信息, 如何理解已有的历史数据并用以预测未来的行为, 如何从浩如烟海的数据库中发现隐藏的有用知识, 变被动为主动信息, 为决策者提供重要的、未知的信息或知识, 指导政府、企业决策, 创造更大的效益, 导致了知识发现和数据挖掘领域的出现。他们的目标就是从大型数据集中发现先前未知的

[1]

潜在有用的信息模式或知识, 所发现的知识可以是描述数据特性的规则、频繁出现的模式、数据集中目标的聚类等。知识发现(Know ledge D iscovery in D atabase , KDD ) 和数据挖掘(D ata M ining , DM ) 是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。1　数据挖掘111　数据仓库的涵义

W 1H 1Inmon 在其所著的“Building the D ata W are 2

收稿日期:20040613

house ”一书中对数据仓库(D ata W arehouse , DW ) 做了

这样的描述:“数据仓库是90年代信息技术构架的新焦点, 他提供集成化的和历史的数据; 他集成种类不同的应用系统; 数据仓库从事物发展和历史的角度来组织和存储数据, 以提供信息化和分析处理之用。”从Inmon 的定义, 理解数据仓库具有如下特征:主题明确、数据稳定、容量巨大、时变收集。数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成。

数据仓库支持联机分析处理(O n

line A nalytical

P rocessing , OLA P ) 、决策分析及数据挖掘。联机分析处

理、决策分析和数据挖掘给出数据仓库中数据的多维逻辑视图, 包含交互式查询和对数据的分析, 提供分析的建模功能, 生成概括数据、聚集、层次, 支持功能模型进行预测、趋势分析、统计分析操作。而数据挖掘和联机分析处理都是基于数据仓库的工具, 其最本质的区别在于:数据挖掘是一种挖掘性的工具, 他主要利用各种分析方法主动地去挖掘大量数据中蕴含的规律, 而联机分析处理则是一种求证性的分析工具, 采用的多是基于数据立方体的方法, 二者相铺相成。112　KDD 和DM

KDD 的目标是从大型数据库集中智能地、自动地获

取有用的、可信的、有效的和可以理解的模式的过程。他是一个由多学科特别是机器学习、统计学和数据库相互渗透而形成的一门新兴学科。而数据挖掘的定义是

W 1J 1F raw ley , G , P iatetsky

shap ire 等人提出的:从大

引擎是最为关键的, 而决定数据挖掘引擎的算法主要有以下几类:

211　数据挖掘的信息论方法

数据库中信息量从大到小的该类方法是利用信息论原理, 计算数据库中各字段的信息量, 建立决策树或者决策规则树。比较重要的有I D 3方法和I BL E 方法。

(1) I D 3方法　是利用信息论中互信息量寻找数据库中具有最大信息量的字段, 建立决策树的一个结点, 再根据字段的不同取值建立树的分枝, 在每个分枝子集中重复建树的下层结点和分枝, 叶结点为正例或反例。

(2) I BL E 方法　是利用信息论中信道容量寻找多个

型数据库中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用的信息, 提取的知识表现为概念

(Concep ts ) 、规则(R ules ) 、规律(R egularities ) 、模式(Patterns ) 等形式。这种定义把数据挖掘的对象定义为数

据库, 而更广义的说法是不仅是数据库, 也可以是文件系统, 或其他任何组织在一起的数据集合, 最新的挖掘对象则是数据仓库。数据挖掘是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。数据挖掘是KDD 的一个处理过程, 也是KDD 的最重要环节。基于上述的定义, 现在人们往往不加区分地将KDD 和DM 这两个概念使用在一些工程实际中。数

据挖掘的过程如图1所示。

字段的取值, 建立决策规则树的一个结点, 字段的取值是, 结点中包含2个阈值

(W n , W p 。、权值、正例标准值、阈

() 粗集方法　在数据库中将元素看成行对象, 列元

素看成属性(分为条件属性和结论属性) 。等价关系定义为

图1不同对象在某个属性上相同, 这些等价关系的对象组成的集合称为该等价关系的等价类。条件属性上的等价类E 与结论属性上的等价类有Y 之间有三种关系:下近似, Y 包含E ; 上近似, Y 和E 的交非空; 无关, Y 和E 的交为空。对下近似建立确定性规则, 对上近似建立不确定性规则

(含可信度) , 对无关情况不存在规则。

(2) 概念树方法　数据库中记录的属性字段按归类

113数据挖掘系统中主要的输入是源于数据仓库的数据、分析指导员的指导, 以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识里发现引擎处理, 引擎中提供了大量的抽取算法, 以便生成辅助的模式

和关系。有些发现还要加入知识库中以便后续发现的抽取和进行评价。数据挖掘系统的功能模块如图2所示。

方式进行抽象, 建立起来的层次结构称为概念树。例:“球类体育运动”的下层是“篮球、排球、网球”等具体的球类运动, 其上层是“体育运动”。利用概念树对多个属性字段分层, 将得到高度概括的知识基表, 再将其转换成规则。

(3) 覆盖正例、排斥反例　利用覆盖所有正例、排斥

所有反例的思想来寻找规则。

图2　数据挖掘系统

213　数据挖掘的仿生物方法

(1) 神经网络方法　神经网络通过学习待分析数据

114　数据挖掘技术的分类

数据挖掘技术可根据发现知识的种类、数据库的种类和采用技术进行分类。根据发现知识的种类分类有:总结

(Summ arizati on ) 规则挖掘、特征(Characterizati on ) 规则

中的模式来构造模型, 一般可对隐含类型进行分类, 用于非线性的、复杂的数据。神经网络由“神经元”的互连或按层组织的结点构成(如图3所示) 。通常, 神经模型由3个层次组成:输入、中间层和输出。每一神经元求得输入值, 再计算总输入值, 由过滤机制比较总输入, 然后确定其自己的输出值。目前, 神经网络以M P 和H ebb 学习规则为基础, 建立了3大类多种神经网络模型:

前馈式网络　他含感知机、反向传播模型、函数型网络、模糊神经网络等, 可用于预测、模式识别等方面。

反馈式网络　他以Hopfield 的离散模型和连续模型为代表, 分别用于联想记忆和优化计算。

自组织网络　他以A R T 模型、Koho len 模型为代表, 用于聚类。

挖掘、关联(A ssociati on ) 规则挖掘、分类

(C lassificati on ) 规则挖掘、聚类(C lustering ) 规则挖掘、趋势(T rend ) 分析、偏差(D eviati on ) 分析、模式

(Pattern ) 分析等。

根据挖掘基于的数据库分类有, 关系型、事务型、面向对象型、主动型、空间型、时间型、文本型、多媒体、异质数据库和遗留系统等。2　数据挖掘技术的方法

根据采用技术, 在数据挖掘的处理过程中, 数据挖掘

数据库需要SQL 语言相似, KDD 也需要高级的DM 查询语言, 以便用户能够指定数据挖掘任务和待发现的模式, 以及灵活有效地执行交互式发现。

(3) 可视化DM 　数据库内容和数据挖掘结果的可视化

(2) 遗传算法　是模拟生物进化过程的算法, 由3个

基本算子组成:繁殖、交叉、变异。这种算法能够产生一群优良后代, 这些后代力求满足适应值, 经过若干代的遗传求得满足要求的后代(问题的解)

。

可以帮助用户理解或鉴赏, 从而有利于重新引导KDD 系统处理有希望的模式, 也将大大有助于交互式数据挖掘。

(4) 处理更复杂的数据　目前, 数据挖掘的对象主要

集中在关系型或事务数据库上。从半结构的和无结构的数据中, 从超文本、文档中, 从时间-空间和多媒体数据中,

图3　神经网络结构图

214　统计分析方法

利用统计学原理对数据仓库中的数据进行分析。

(1) 相关分析和回归分析　相关分析是用相关系数

以及从主动数据库和Internet 中发现知识都具有广阔的研究应用前景。

(5) 高性能数据挖掘　高效可扩放的知识发现算法

已经成为主要的研究热点之一这一趋势还将随着并行、。

6、

来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系, 方法有线性回归和非线性回归。

(2) , 在海量的图形、图像数, 把多分辨技术(子波、多子波) 、粗集、支撑矢量机、神经网络等数据库技术集成, 研究新型数据库中数据挖掘是未来的研究方向。

(7) 数据挖掘应用　也许我们会提出如下问题, 怎样

定总体参数之间是否存在差异(假设检验) 差分析, 变异的贡献的大小, 验结果有重要影响。

(3) 因子分析　他是用较少的综合变量来表达多个

将KDD 技术应用到商业管理、决策和过程控制中, 怎样将所发现的知识吸收到知识库、专家系统和决策支持系统以及查询优化程序中?

(8) 基于机器学习技术的文本挖掘　目前的方法有2

观察变量。根据相关性大小把变量分组, 使得回组内的变量之间相关较高, 不同组变量间的相关较低。

(4) 聚类分析　直接比较样本中各事物之间的性质,

将性质相近的归为一类, 而将性质差别比较大的分在不同的类。对变量聚类计算变量间的相关系数。对样本聚类计算样本间的距离。

(5) 判别分析　建立一个或多个判别函数, 并确定一

种:基于内容的方法和协同的方法。基于内容的方法广泛地应用于W eb 文档或新闻图像的挖掘中。

(9) 移动计算　一个新的研究方向, 全球网络化和移

动通信的发展, 促进了三代通信模式的出现, 也带来了移动计算的问题。移动计算为IT 业带来了新的契机, 也为研发人员提出了新的挑战。如何在掌上电脑及移动通信中进行电子商务的交易及相应的数据挖掘, 已成为又一个新的研究热点。近来移动数据库的研究也在蓬勃发展, 如何在这些信的数据库中发现知识、挖掘信息, 显然也是新世纪的研究热点。4　结　语

海量数据与知识贫乏导致了知识发现和数据挖掘领域的出现。Internet W eb 的广泛使用, 第三代移动通信技术的出现促使其研究的发展。目前, DM 已成为计算机科

学研究中的一个十分活跃的前沿领域, 并在科学研究、市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和军事技术等许多领域获得了广泛的成功应用, 取得了十分可观的社会效益和经济效益。同时, 知识发现和数据挖掘的研究和应用给人工智能等前沿学科的发展注入了新的活力, 有力地促进了计算机科学朝着纵深方向顺利发展。

(下转第64页) 　

个判别标准, 然后对未知属性的对象, 根据测定的观察值, 将其划归己知类别中的一类。215　其他数据挖掘技术

(1) 模糊论方法　利用模糊集合理论对实际问题进

行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

(2) 分形分析法　利用混沌科学来指明模式, 将多维

数据库提供的分析信息存储于数据仓库。

(3) 地理信息法　根据地理环境信息来分析数据仓

库中数据的关系。3　数据挖掘的研究方向

数据挖掘与知识发现是目前国际上的一个研究热点, 这里列举几个与数据挖掘相关的研究方向。

(1) DW 与OLA P 的集成　两者集成将会提高KDD

系统与DM 系统的实用价值。由于集成了OLA P 工具,

KDD 系统可沿数据立方(D ata Cube ) 的任何维进行知识

发现, 在多重抽象级上发现令人感兴趣的模式。

(2) DM 查询语言和高效交互式即席DM 　与关系型

需要在V C 中激活其函数库。

#include 　m ain ()　{

　vg InitSys ();

) ; (31adf ”　vgD efineSys “

　vgConfigSys (); 　w h ile (1) 　　{

　　vgsyncF ram e (); 　　vgF ram e (); 　　}}

去了很多现场实验所引起的资源浪费, 且节约了时间。6　结　语

V ega 技术近来发展得很迅速, 现在很多方面都已用

到这项技术, 其发展前景是很广阔的。

参　考　文　献

[1]龚卓蓉1可选模块的使用与开发[M ]1北京:国防工业出版

社, 20021

[2]谢传节1虚拟现实的宽阔前景[J ]1地球信息科学, 1999,

(2) 1

[3]龚卓蓉1L ynx 图形界面[M ]1北京:国防工业出版社, 20021[4]龚卓蓉1V ega 程序设计[M ]1北京:国防工业出版社, 20021

经过前面的几个基本步骤, 一个具有人机交互的公路交通虚拟现实的系统就完成了, 他不仅形象直观, 而且省

作者简介　王　俊　男, 长安大学研究生。主要研究方向为计算机虚拟技术蔡占华　男, 长安大学研究生。揣锦华　女, 副教授, 长安大学计算机系老师。

(上接第56页)

　　然而, 、模式识别、机器学习、统计学等领域, , 利用各自不同的技术和方法也对数据挖掘进行了卓有成效的研究, 但是如何将不同领域的理论、技术等进行融合将是下一阶段的研究中心。随着信息量的增加及软硬件技术的发展, 数据仓库及数据挖掘技术将会有更广泛的应用前景, 更有效地发挥其潜在的价值。

参　考　文　献

[1]Chen M ingsyan , H an J iaw ei Ph ili p S Yu 1D ataM ininig :A n

R eview F rom a D atabase Perspective 1IEEE T ransacti ons on Know ledge and D ata Engineering [J ]11996, 8(6) :PP 866

8811

[2]Bharath K rishnan 1M ulti

reso luti on M ethods fo r D atam in 2

ing and V isualizati ons , 2003, 51

[3]A ndrew J N ovobilsk i 1M ining Bayesian N etw o rk s to Fo re 2

cast A dverse O utcom es R elated to A cute Co ronary syn 2drom e , 2004, 11

[4]陈莉, 焦李成1数据挖掘现状及最新进展(研究报告) 1[5]Baxt W G 1A N eural N etw o rk A id fo r the Early D iagno sis of

A cute Cardiac Ischem ia Inpatients P resenting to the Em er 2gency D epartm ent w ith Chest Pain 1A nn Em ergM ed , 2002, 40:595

5971

作者简介　李敬社　1965年出生, 博士生, 副教授, 空军工程大学电路教研室。主要研究方向为信号与信息技术。

张小木　1963年出生, 副教授。主要研究方向为电子技术与电子学。

(上接第58页)

Instrum ent 的Internet Too lk it fo r G , Java , A SP 等不断发一次重要革新, 也正是Internet 非凡影响力的表现。

参　考　文　献

展完善的软件技术, 可以在基于W eb 的V I 中得到应用。4　结　语

测控方式的网络化, 是未来测控技术发展的必然趋势, 他能够充分利用现有资源和网络带来的种种好处, 实现各种资源最有效合理的配置。同时还可以实现真正意义上的V I , 即用纯粹的软件仪器代替目前的传统仪器或

科研、训练等带V X I , PX I 等仪器形式, 为相关领域的教学、

来更大的方便。W eb 渗透到仪器领域, 将是仪器领域内的

[1]美国国家仪器公司虚拟仪器产品与技术[EB ]1陕西海泰电

子有限责任公司, 20001

[2]张录娥1W eb 数据库开发人员指南[M ]1北京:机械工业出

版社, 19971

[3]周世雄1A ctiveX 轻松入门[M ]1北京:机械工业出版社,

19971

作者简介　张欣豫　1974年出生, 陕西渭南人, 硕士研究生。主要研究方向为系统测试。

与《数据挖掘技术的方法和最新进展》相关的范文

04-18 计算机科学与技术专业(本科)毕业设计(论文)要求

（一）教学目标　　毕业设计是完成教学计划达到本科生培养目标的重要环节，是教学计划中综合性最强的实践教学环节，它对培养学生的思想、工作作风及实际能力、提高毕业生全面素质具有很重要的意义。　　毕业设计的教学目标应使学生在以下几方面的能力得到训练和提高：　　1．综合运用所学专业知识分析、解决实际问题的能力；　　2．掌握文献检索、资料查询的基本方法以及获取新知识的能力；　　3．计算机软件、硬件或 ...

08-07 最新数控实习报告范文

随着计算机技术的发展，数字控制技术已经广泛应用于工业控制的各个领域，尤其是机械制造业中，由于数控化加工可以让机械加工行业朝高质量，高精度，高成品率，高效率方向发展,最重要的一点是还可以利用现有的普通车床，对其进行数控化改造，这样可以降低成本，提高效益。我国世界制造业加工中心地位逐步形成，数控机床的使用、维修、维护人员在全国各工业城市都非常紧缺，再加上数控加工人员从业面非常广，我们机电一体化专业里 ...

01-25 课题研究进展情况汇报

课题研究进展情况汇报江泽民同志指出:“要迎接科学技术突飞猛进和知识经济迅速兴起的挑战,最重要的是坚持创新。创新是一个民族的灵魂,是一个国家兴旺发达的不竭动力。创新的关键在人才,人才的成长靠教育。”在知识经济条件下,经济和科技的竞争,不仅是人才数量和结构的竞争,更重要的是人才创造精神和创造能力的竞争。我国传统的教育事实上将人的大脑作为"知识仓库",采用"灌输式"、"填鸭式"教学法,向学生传授知识, ...

04-30 通信工程认识实习报告

　　前言内容　　作为学习通信工程专业的学生，作为以后即将成为一名通信人的学生来说，了解通信基础知识，掌握通信专业的学习方法，明白通信行业最前沿的科技知识，是关系到自己前途，关系到自己人生价值能否实现的人生大事。　　通过近一周的学习，我们从感性上学到了很多东西，也对我们将来的学习和研究方向的确定产生了深远的影响。通过这次参观实习丰富了本人的理论知识，增强了本人观察能力，开阔了视野，并使我对以后的 ...

01-21 艾滋病性病防治监测工作方案

为了及时掌握艾滋病性病在人群中的分布、流行趋势及其各种影响因素，根据《区预防与控制艾滋病实施方案年-年)》文件精神和国家区域监测要求，特制定本方案。一、监测目的 1.掌握区艾滋病性病流行状况和流行趋势。 2.根据艾滋病性病发病情况和危险因素分析，实施艾滋病性病的干预，并为政府部门决策提供依据。二、监测对象卖淫嫖娼者、静脉吸毒者、孕妇、人工流产者、同性恋者、公共娱乐场所从业人员、外来流动人口。 ...

07-14 网络工程师职业规划

网络工程师职业规划　　a.路由器、交换机方向网络工程师　　第一阶段第二阶段第三阶段第四阶段　　万丈高楼平地起，基础知识还是蛮重要的本基的路由交换知识的了解以及配置方法　　时间久了，免不了出故障，排除故障也很重要发展到cTo级别就要考虑网络的整体部署了　　?TcP/IP协议专题　?子网掩码教程?路由协议专题　?路由器技术指南　?交换机典型配置　?访问控制列表介绍·路由故障处理手册·交换机故 ...

04-05 计算机实习报告范文

[实习目的] 通过理论联系实际，巩固所学的知识，提高处理实际问题的能力，了解设计专题的主要内容，为毕业设计的顺利进行做好充分的准备，并为自己能顺利与社会环境接轨做准备。 [实习任务] 对计算机在人事管理方面的应用进行归纳总结,并查阅资料为毕业设计作准备. [实习内容] 计算机在人事管理中的应用随着社会的发展，科技的进步，作为信息载体的计算机日益显露出其举足轻重的地位。当今社会已步入了信息社会，知 ...

06-24 计算机人事管理工作实习报告

　　实习目的　　通过理论联系实际，巩固所学的知识，提高处理实际问题的能力，了解设计专题的主要内容，为毕业设计的顺利进行做好充分的准备，并为自己能顺利与社会环境接轨做准备。　　实习任务　　对计算机在人事管理方面的应用进行归纳总结，并查阅资料为毕业设计作准备。　　实习内容　　计算机在人事管理中的应用　　随着社会的发展，科技的进步，作为信息载体的计算机日益显露出其举足轻重的地位。当今社会已步 ...

11-26 最新计算机网络实习报告

毕业设计实践环节是完成教学计划达到本科生及专科生培养目标的重要环节,是教学计划中综合性最强的实践教学环节,它对培养学生的思想.工作作风及实际能力.提高毕业生全面素质具有很重要的意义. 为帮助广大计算机专业毕业生实现毕业设计目标,保证毕业设计实践环节工作的顺利进行,现将各环节做如下提示,以帮助广大首次从事毕业设计的毕业生对毕业设计的过程有一个大致的了解.一.计算机专业实践环节形式: 毕业设计二.毕

11-29 学校人才培养评估工作实施方案

学校人才培养评估工作实施方案根据xx省教育厅《关于做好高等职业院校人才培养评估工作的通知》（琼教高[20xx]130号）精神，以及《xx省高等职业院校人才培养评估总体规划》的统一安排，我院将于20XX年年底前接受教育部人才培养工作评估。为了切实做好迎评促建工作，推动学院又快又好发展，特制定本实施方案。一、指导思想以科学发展观为指导，全面总结办学经验，查找问题和薄弱环节，积极更新高等职业教育观 ...

随机推荐

猜你喜欢

数据挖掘技术的方法和最新进展

·计算机应届大学毕业生自我评价

·资格证挂靠协议

·中国水族行业发展现状分析及市场规模分析报告

·校本教研材料

·开学新气象

·太阳能光伏发电系统容量计算分析

·高二期末考试语文试题

·幼儿启蒙教育:让宝宝听音乐,学唱歌

·论管理的性质

·对小班幼儿实施有效教学的案例分析及对策

·初中班主任秋季期工作总结

·2013年-2014年学年教师培训和继续教育工作计划

·初三第二学期教学工作总结

·自然教学工作计划范文

·建筑安装工程设计合同

·西北师大附中高一物理奥赛教案第二节:振幅.周期和频率

·2013年江西教师资格证考试条件

·和珅同志在国家说谎工作者协会上的发言

·中国居民营养与健康状况调查的总体方案

·饲料安全与人类健康