数据挖掘技术的方法和最新进展
数据挖掘技术的方法和最新进展
李敬社1, 2, 张小木2, 黄泽贵3
(11西安电子科技大学智能信号处理研究所 陕西西安 710071; 21空军工程大学文理学院 陕西西安 710068
31空军工程大学导弹学院 陕西三原 713800)
摘 要:随着大型数据库的不断涌现, 不缺数据缺知识的矛盾日益突出。如何从浩如烟海的数据中发现隐藏的知识, 创造更大的效益是一个迫切需要解决的课题。因此, 知识发现和数据挖掘应运而生, 成为一个新的研究领域。在此, 介绍了数据仓库、知识发现和数据挖掘的基本概念, 重点论述了数据挖掘技术的方法, 并指出了研究方向。
关键词:数据仓库; 知识发现; 数据挖掘; 方法; 现状和研究方向
中图分类号:T P 311 文献标识码:B 文章编号:1004373X (2004) 2205403
Sta te of Arts Da ta M i 1, 223
L I J ingshe , ZHAN G , (11Intelligent Signal P , , i ′an , 710071, Ch ina ;
21T he L iterature and N atural Science , , i ′an , ina ; 31T he M issile Institute , A FEU , Sanyuan , 713800, Ch ina )
Abs tra c t :W ith the , there is a conflict that rich data but poo r know ledge 1How to discover the
h idden know ledgs from data , to get mo re benefit had becom e an i m po rtant p roblem to reso lve 1So know ledge discovery and data m ining are p ropo sed and developed a new study field 1T he basic concep ts of data w arehouse , know ledge discovery and data m ining are exp ressed 1F inally , the m ethods of data m ining and the advances are p ropo sed 1
Ke yw o rds :data w arehouse ; know ledge discovery ; data m ining ; m ethod ; state of arts
随着Internet 的迅猛发展, 我们面临着数据库爆炸的
挑战, 也常会感到被数据淹没却仍觉得知识饥饿的困惑。而网络在快捷、方便地带来大量信息的同时, 也带来了一大堆的问题:诸如信息过量、难以消化; 信息增加难以辨识; 信息安全难以保证; 信息形式不一致, 难以统一处理等。如何快速、准确地获得有价值的网络信息, 如何理解已有的历史数据并用以预测未来的行为, 如何从浩如烟海的数据库中发现隐藏的有用知识, 变被动为主动信息, 为决策者提供重要的、未知的信息或知识, 指导政府、企业决策, 创造更大的效益, 导致了知识发现和数据挖掘领域的出现。他们的目标就是从大型数据集中发现先前未知的
[1]
潜在有用的信息模式或知识, 所发现的知识可以是描述数据特性的规则、频繁出现的模式、数据集中目标的聚类等。知识发现(Know ledge D iscovery in D atabase , KDD ) 和数据挖掘(D ata M ining , DM ) 是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。1 数据挖掘111 数据仓库的涵义
W 1H 1Inmon 在其所著的“Building the D ata W are 2
收稿日期:20040613
house ”一书中对数据仓库(D ata W arehouse , DW ) 做了
这样的描述:“数据仓库是90年代信息技术构架的新焦点, 他提供集成化的和历史的数据; 他集成种类不同的应用系统; 数据仓库从事物发展和历史的角度来组织和存储数据, 以提供信息化和分析处理之用。”从Inmon 的定义, 理解数据仓库具有如下特征:主题明确、数据稳定、容量巨大、时变收集。数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成。
数据仓库支持联机分析处理(O n
line A nalytical
P rocessing , OLA P ) 、决策分析及数据挖掘。联机分析处
理、决策分析和数据挖掘给出数据仓库中数据的多维逻辑视图, 包含交互式查询和对数据的分析, 提供分析的建模功能, 生成概括数据、聚集、层次, 支持功能模型进行预测、趋势分析、统计分析操作。而数据挖掘和联机分析处理都是基于数据仓库的工具, 其最本质的区别在于:数据挖掘是一种挖掘性的工具, 他主要利用各种分析方法主动地去挖掘大量数据中蕴含的规律, 而联机分析处理则是一种求证性的分析工具, 采用的多是基于数据立方体的方法, 二者相铺相成。112 KDD 和DM
KDD 的目标是从大型数据库集中智能地、自动地获
取有用的、可信的、有效的和可以理解的模式的过程。他是一个由多学科特别是机器学习、统计学和数据库相互渗透而形成的一门新兴学科。而数据挖掘的定义是
W 1J 1F raw ley , G , P iatetsky
shap ire 等人提出的:从大
引擎是最为关键的, 而决定数据挖掘引擎的算法主要有以下几类:
211 数据挖掘的信息论方法
数据库中信息量从大到小的该类方法是利用信息论原理, 计算数据库中各字段的信息量, 建立决策树或者决策规则树。比较重要的有I D 3方法和I BL E 方法。
(1) I D 3方法 是利用信息论中互信息量寻找数据库中具有最大信息量的字段, 建立决策树的一个结点, 再根据字段的不同取值建立树的分枝, 在每个分枝子集中重复建树的下层结点和分枝, 叶结点为正例或反例。
(2) I BL E 方法 是利用信息论中信道容量寻找多个
型数据库中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用的信息, 提取的知识表现为概念
(Concep ts ) 、规则(R ules ) 、规律(R egularities ) 、模式(Patterns ) 等形式。这种定义把数据挖掘的对象定义为数
据库, 而更广义的说法是不仅是数据库, 也可以是文件系统, 或其他任何组织在一起的数据集合, 最新的挖掘对象则是数据仓库。数据挖掘是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。数据挖掘是KDD 的一个处理过程, 也是KDD 的最重要环节。基于上述的定义, 现在人们往往不加区分地将KDD 和DM 这两个概念使用在一些工程实际中。数
据挖掘的过程如图1所示。
字段的取值, 建立决策规则树的一个结点, 字段的取值是, 结点中包含2个阈值
(W n , W p 。、权值、正例标准值、阈
() 粗集方法 在数据库中将元素看成行对象, 列元
素看成属性(分为条件属性和结论属性) 。等价关系定义为
图1不同对象在某个属性上相同, 这些等价关系的对象组成的集合称为该等价关系的等价类。条件属性上的等价类E 与结论属性上的等价类有Y 之间有三种关系:下近似, Y 包含E ; 上近似, Y 和E 的交非空; 无关, Y 和E 的交为空。对下近似建立确定性规则, 对上近似建立不确定性规则
(含可信度) , 对无关情况不存在规则。
(2) 概念树方法 数据库中记录的属性字段按归类
113数据挖掘系统中主要的输入是源于数据仓库的数据、分析指导员的指导, 以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识里发现引擎处理, 引擎中提供了大量的抽取算法, 以便生成辅助的模式
和关系。有些发现还要加入知识库中以便后续发现的抽取和进行评价。数据挖掘系统的功能模块如图2所示。
方式进行抽象, 建立起来的层次结构称为概念树。例:“球类体育运动”的下层是“篮球、排球、网球”等具体的球类运动, 其上层是“体育运动”。利用概念树对多个属性字段分层, 将得到高度概括的知识基表, 再将其转换成规则。
(3) 覆盖正例、排斥反例 利用覆盖所有正例、排斥
所有反例的思想来寻找规则。
图2 数据挖掘系统
213 数据挖掘的仿生物方法
(1) 神经网络方法 神经网络通过学习待分析数据
114 数据挖掘技术的分类
数据挖掘技术可根据发现知识的种类、数据库的种类和采用技术进行分类。根据发现知识的种类分类有:总结
(Summ arizati on ) 规则挖掘、特征(Characterizati on ) 规则
中的模式来构造模型, 一般可对隐含类型进行分类, 用于非线性的、复杂的数据。神经网络由“神经元”的互连或按层组织的结点构成(如图3所示) 。通常, 神经模型由3个层次组成:输入、中间层和输出。每一神经元求得输入值, 再计算总输入值, 由过滤机制比较总输入, 然后确定其自己的输出值。目前, 神经网络以M P 和H ebb 学习规则为基础, 建立了3大类多种神经网络模型:
前馈式网络 他含感知机、反向传播模型、函数型网络、模糊神经网络等, 可用于预测、模式识别等方面。
反馈式网络 他以Hopfield 的离散模型和连续模型为代表, 分别用于联想记忆和优化计算。
自组织网络 他以A R T 模型、Koho len 模型为代表, 用于聚类。
挖掘、关联(A ssociati on ) 规则挖掘、分类
(C lassificati on ) 规则挖掘、聚类(C lustering ) 规则挖掘、趋势(T rend ) 分析、偏差(D eviati on ) 分析、模式
(Pattern ) 分析等。
根据挖掘基于的数据库分类有, 关系型、事务型、面向对象型、主动型、空间型、时间型、文本型、多媒体、异质数据库和遗留系统等。2 数据挖掘技术的方法
根据采用技术, 在数据挖掘的处理过程中, 数据挖掘
数据库需要SQL 语言相似, KDD 也需要高级的DM 查询语言, 以便用户能够指定数据挖掘任务和待发现的模式, 以及灵活有效地执行交互式发现。
(3) 可视化DM 数据库内容和数据挖掘结果的可视化
(2) 遗传算法 是模拟生物进化过程的算法, 由3个
基本算子组成:繁殖、交叉、变异。这种算法能够产生一群优良后代, 这些后代力求满足适应值, 经过若干代的遗传求得满足要求的后代(问题的解)
。
可以帮助用户理解或鉴赏, 从而有利于重新引导KDD 系统处理有希望的模式, 也将大大有助于交互式数据挖掘。
(4) 处理更复杂的数据 目前, 数据挖掘的对象主要
集中在关系型或事务数据库上。从半结构的和无结构的数据中, 从超文本、文档中, 从时间-空间和多媒体数据中,
图3 神经网络结构图
214 统计分析方法
利用统计学原理对数据仓库中的数据进行分析。
(1) 相关分析和回归分析 相关分析是用相关系数
以及从主动数据库和Internet 中发现知识都具有广阔的研究应用前景。
(5) 高性能数据挖掘 高效可扩放的知识发现算法
已经成为主要的研究热点之一这一趋势还将随着并行、。
6、
来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系, 方法有线性回归和非线性回归。
(2) , 在海量的图形、图像数, 把多分辨技术(子波、多子波) 、粗集、支撑矢量机、神经网络等数据库技术集成, 研究新型数据库中数据挖掘是未来的研究方向。
(7) 数据挖掘应用 也许我们会提出如下问题, 怎样
定总体参数之间是否存在差异(假设检验) 差分析, 变异的贡献的大小, 验结果有重要影响。
(3) 因子分析 他是用较少的综合变量来表达多个
将KDD 技术应用到商业管理、决策和过程控制中, 怎样将所发现的知识吸收到知识库、专家系统和决策支持系统以及查询优化程序中?
(8) 基于机器学习技术的文本挖掘 目前的方法有2
观察变量。根据相关性大小把变量分组, 使得回组内的变量之间相关较高, 不同组变量间的相关较低。
(4) 聚类分析 直接比较样本中各事物之间的性质,
将性质相近的归为一类, 而将性质差别比较大的分在不同的类。对变量聚类计算变量间的相关系数。对样本聚类计算样本间的距离。
(5) 判别分析 建立一个或多个判别函数, 并确定一
种:基于内容的方法和协同的方法。基于内容的方法广泛地应用于W eb 文档或新闻图像的挖掘中。
(9) 移动计算 一个新的研究方向, 全球网络化和移
动通信的发展, 促进了三代通信模式的出现, 也带来了移动计算的问题。移动计算为IT 业带来了新的契机, 也为研发人员提出了新的挑战。如何在掌上电脑及移动通信中进行电子商务的交易及相应的数据挖掘, 已成为又一个新的研究热点。近来移动数据库的研究也在蓬勃发展, 如何在这些信的数据库中发现知识、挖掘信息, 显然也是新世纪的研究热点。4 结 语
海量数据与知识贫乏导致了知识发现和数据挖掘领域的出现。Internet W eb 的广泛使用, 第三代移动通信技术的出现促使其研究的发展。目前, DM 已成为计算机科
学研究中的一个十分活跃的前沿领域, 并在科学研究、市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和军事技术等许多领域获得了广泛的成功应用, 取得了十分可观的社会效益和经济效益。同时, 知识发现和数据挖掘的研究和应用给人工智能等前沿学科的发展注入了新的活力, 有力地促进了计算机科学朝着纵深方向顺利发展。
(下转第64页)
个判别标准, 然后对未知属性的对象, 根据测定的观察值, 将其划归己知类别中的一类。215 其他数据挖掘技术
(1) 模糊论方法 利用模糊集合理论对实际问题进
行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。
(2) 分形分析法 利用混沌科学来指明模式, 将多维
数据库提供的分析信息存储于数据仓库。
(3) 地理信息法 根据地理环境信息来分析数据仓
库中数据的关系。3 数据挖掘的研究方向
数据挖掘与知识发现是目前国际上的一个研究热点, 这里列举几个与数据挖掘相关的研究方向。
(1) DW 与OLA P 的集成 两者集成将会提高KDD
系统与DM 系统的实用价值。由于集成了OLA P 工具,
KDD 系统可沿数据立方(D ata Cube ) 的任何维进行知识
发现, 在多重抽象级上发现令人感兴趣的模式。
(2) DM 查询语言和高效交互式即席DM 与关系型
需要在V C 中激活其函数库。
#include m ain () {
vg InitSys ();
) ; (31adf ” vgD efineSys “
vgConfigSys (); w h ile (1) {
vgsyncF ram e (); vgF ram e (); }}
去了很多现场实验所引起的资源浪费, 且节约了时间。6 结 语
V ega 技术近来发展得很迅速, 现在很多方面都已用
到这项技术, 其发展前景是很广阔的。
参 考 文 献
[1]龚卓蓉1可选模块的使用与开发[M ]1北京:国防工业出版
社, 20021
[2]谢传节1虚拟现实的宽阔前景[J ]1地球信息科学, 1999,
(2) 1
[3]龚卓蓉1L ynx 图形界面[M ]1北京:国防工业出版社, 20021[4]龚卓蓉1V ega 程序设计[M ]1北京:国防工业出版社, 20021
经过前面的几个基本步骤, 一个具有人机交互的公路交通虚拟现实的系统就完成了, 他不仅形象直观, 而且省
作者简介 王 俊 男, 长安大学研究生。主要研究方向为计算机虚拟技术蔡占华 男, 长安大学研究生。揣锦华 女, 副教授, 长安大学计算机系老师。
(上接第56页)
然而, 、模式识别、机器学习、统计学等领域, , 利用各自不同的技术和方法也对数据挖掘进行了卓有成效的研究, 但是如何将不同领域的理论、技术等进行融合将是下一阶段的研究中心。随着信息量的增加及软硬件技术的发展, 数据仓库及数据挖掘技术将会有更广泛的应用前景, 更有效地发挥其潜在的价值。
参 考 文 献
[1]Chen M ingsyan , H an J iaw ei Ph ili p S Yu 1D ataM ininig :A n
R eview F rom a D atabase Perspective 1IEEE T ransacti ons on Know ledge and D ata Engineering [J ]11996, 8(6) :PP 866
8811
[2]Bharath K rishnan 1M ulti
reso luti on M ethods fo r D atam in 2
ing and V isualizati ons , 2003, 51
[3]A ndrew J N ovobilsk i 1M ining Bayesian N etw o rk s to Fo re 2
cast A dverse O utcom es R elated to A cute Co ronary syn 2drom e , 2004, 11
[4]陈莉, 焦李成1数据挖掘现状及最新进展(研究报告) 1[5]Baxt W G 1A N eural N etw o rk A id fo r the Early D iagno sis of
A cute Cardiac Ischem ia Inpatients P resenting to the Em er 2gency D epartm ent w ith Chest Pain 1A nn Em ergM ed , 2002, 40:595
5971
作者简介 李敬社 1965年出生, 博士生, 副教授, 空军工程大学电路教研室。主要研究方向为信号与信息技术。
张小木 1963年出生, 副教授。主要研究方向为电子技术与电子学。
(上接第58页)
Instrum ent 的Internet Too lk it fo r G , Java , A SP 等不断发一次重要革新, 也正是Internet 非凡影响力的表现。
参 考 文 献
展完善的软件技术, 可以在基于W eb 的V I 中得到应用。4 结 语
测控方式的网络化, 是未来测控技术发展的必然趋势, 他能够充分利用现有资源和网络带来的种种好处, 实现各种资源最有效合理的配置。同时还可以实现真正意义上的V I , 即用纯粹的软件仪器代替目前的传统仪器或
科研、训练等带V X I , PX I 等仪器形式, 为相关领域的教学、
来更大的方便。W eb 渗透到仪器领域, 将是仪器领域内的
[1]美国国家仪器公司虚拟仪器产品与技术[EB ]1陕西海泰电
子有限责任公司, 20001
[2]张录娥1W eb 数据库开发人员指南[M ]1北京:机械工业出
版社, 19971
[3]周世雄1A ctiveX 轻松入门[M ]1北京:机械工业出版社,
19971
作者简介 张欣豫 1974年出生, 陕西渭南人, 硕士研究生。主要研究方向为系统测试。