粗糙集理论及其应用研究
粗糙集理论及其应用研究
一、粗糙集理论概述
粗糙集是一种用于解决不确定性问题的数学工具。粗糙集理论中知识被理解为对事物进行区分的能力,在形式上表现为对论域的划分,因而通过论域上的等价关系表示。粗糙集通过一对上、下近似算子来刻画事物,它不需要数据以外的任何先验知识,因此具有很高的客观性。目前,粗糙集被广泛用于决策分析、机器学习、数据挖掘等领域[1~6]。
二、粗糙集中的基本概念[7]
定义1 论域、概念。设U 是所需研究的对象组成的非空有限集合,称为一个论域,即论域U 。论域U 的任意一个子集XU ,称为论域U 的一个概念。论域U 中任意一个子集簇称为关于U 的知识。
定义2 知识库。给定一个论域U 和U 上的一簇等价关系S ,称二元组K=(U,S) 是关于论域U 的知识库或近似空间。
定义3 不可分辨关系。给定一个论域U 和U 上的一簇等价关系S ,若PS ,且P≠?,则∩P 仍然是论域U 上的一个等价关系,称为P 上的不可分辨关系,记做IND(P)。
称划分U/IND(P)为知识库K=(U,S) 中关于论域U 的P-基本知识。 定义4 上近似、下近似。设有知识库K=(U,S) 。其中U 为论域,S 为U 上的一簇等价关系。对于X ∈U 和论域U 上的一个等价关系R ∈IND(K),则X 关于R 的下近似和上近似分别为:
下近似 R(X)=∪{Y∈U/R|YX}
上近似 R(X)=∪{Y∈U/R|Y∩X=?}
集合的上近似和下近似是粗糙集中最核心的概念,粗糙集的数字特征以及拓扑特征都是由它们来描述和刻画的。当R=(X)时,称X 是R-精确集; 当R(X)≠(X)时,称X 是R-粗糙集,即X 是粗糙集。
三、粗糙集理论的优势
随着人们对粗糙集理论的不断研究,它的应用领域在不断扩大,粗糙集理论的优势在于:
1) 他不需要专家的经验知识,而仅利用现实实例数据本身提供的信息;
2) 能搜索数据的最小集合,能从实例数据中获取易于证实的规则知识,最后,它同时允许使用定
性和定量的数据。近年来,粗糙集理论应用到了许多领域。为了适应不同领域的特点,与其他理论相结
合,产生了大量的可以扬长避短的科学方法。比如,粗糙集理论和模糊数学的结合,形成了模糊化粗糙
集,广泛应用与处理实际问题。粗糙集理论与数据挖掘技术的交叉应用也取得了令人瞩目的成绩。
四、粗糙集理论研究中存在的问题
粗糙集理论是一种有效分析和处理不精确、不一致、不完整等各种不完备信息的工具。虽然目前在有关粗糙集理论及其相关的研究中取得了一些令人瞩目的成果,但是仍然存在一些至今还没有很好解决的问题。
(1)在粗糙集理论中,对错误判断的决定性机制非常简单。因此,由粗糙集产生的决策规则很不稳定而且有较差的分类精确性[8]。因此为得到精确的决策规则,必须把粗糙集理论和其他数据挖掘方法结合起来。常用的方法是把粗糙集和
神经网络及模糊集等软计算方法结合应用。
(2)约简的有效计算问题,如何处理数据中的噪音和丢失值问题,连续属性离散化等。虽然目前在这些方面已经有了一些初步的研究,但是到目前为止还没有找到真正令人满意的方法[9]。
(3)粗糙集理论所处理的分类必须是完全正确或肯定的,因而它的分类是精确的,亦即只考虑完全/包含0与/不包含0,而没有某种程度上的/包含0与/属于0; 另一个方面它所处理的对象是已知的,且从模型中得到的结论仅适用于这些对象。但在实际应用中,往往需要把从小规模对象集中得到的结论应用于大规模对象集上去。因此,这些局限性限制了粗糙集在实际中的应用[10]。
五、粗糙集理论的最新应用
粗糙集理论具有较强的实用性,从诞生到现在虽然只有十几年的时间,但已经在许多领域取得了较好的成果。目前有关粗糙集理论的最新应用主要包括以下几个方面:
2。1在数据挖掘与规则生成中的应用
数据挖掘与规则生成是粗糙集理论在实际中最主要的应用。由于粗糙集理论能够搜索数据的最小集合,可以使用定性与定量的数据,并从数据中产生决策规则集合等优点而在这方面得到了广泛的应用。最新文献中介绍这方面应用的文章很多,主要包括网络应用方面,管理科学领域的应用方面、医疗诊断等等。
2。2在决策评价中应用
利用粗糙集理论还可以进行决策评价,以给决策者提供正确的决策意见。其中有文章[12~13]介绍了有关绿色评价的理论。也有文章[11]应用粗糙集原理,提出了粗糙集综合绿色度评价法,以提高零件制造工艺绿色度评价的客观性,并阐述
了该方法的原理及运用该方法进行综合评价的步骤。
2。3在故障诊断中的应用
故障诊断是一个涉及到有效决策制定的复杂而困难的问题。根据随时监测到的故障症状进行及时的系统诊断可以帮助降低系统停机时间并提高总的生产力。由于错误诊断知识和经验的本性,诊断结果大部分取决于决策者在可能错误及现有症状之间潜在关系的偏好。目前最新的文献介绍了对故障诊断可能错误进行排序的基于粗糙集理论的原型系统[15]。
2。4在模式识别中的应用
粗糙集理论的另一个主要应用就是模式识别功能,它介绍了粗糙集理论在该方面的最新应用情况[14~15]。应用RS 方法研究了手写字符识别问题,提取出了特征属性[11]。介绍了一种粗糙集混合变量的特征选择技术——模糊粗糙集,从而可以避免信息丢失并解决数据集的维度问题[15]。该方法可以保持数据集的语义,建立清晰、易读的模糊模型。
2。5在神经网络中的应用
粗糙集和神经网络是数据挖掘问题中最常用的两种技术。因为粗糙集理论对错误判断的决定
性机制比较简单,由此产生的决策规则不太稳定而且分类精确性不高; 而神经网络有较低的分类错误判断出错率且稳健性比较好,两者的结合可以很好地弥补各自的缺点,因此目前有众多学者在该方面提出了各自不同的见解。如Renpu Li 等[16]利用粗糙集和神经网络设计的分类挖掘系统,该系统利用粗糙集作为神经网络的预处理工具,通过过滤数据库中的冗余数据,粗糙集方法可以极大地缩短网络训练时间并提高它的预测精确性,然后在保持分类精确性的情况下利用神
经网络删除数据表中的噪声属性。因此,在该系统中神经网络是主要的知识提取工具,而粗糙集则是作为加速或简化从数据库中挖掘知识过程的一个工具。该方法的优点是可以避免利用训练的神经网络得出规则的困难,又可以得到粗糙集方法所没有的稳健性。另外还有学者提出粗糙集和JK 神经网络的结合应用[17]、粗糙集和神经网络结合的三维应用框架[18]等,其核心内容都是结合粗糙集理论强大的数据约简功能以及神经网络对噪声数据的敏感性进行数据挖掘,以提高数据挖掘的效率。
2。6在机器学习中的应用
不确定性知识的获取是人工智能知识获取研究中的一个关键问题,在传统的机器学习研究中,人们都是借助于先验知识,而不是完全根据原始数据来处理不确定性,这样在很多问题上受到限制。粗糙集理论可以摆脱这一局限。
2。7在数据挖掘中的应用
数据发掘是当前人工智能和数据库技术交叉学科的研究热点之一。在数据挖掘过程中,对于大型的数据集,在应用数据挖掘技术之前,利用粗糙集理论先进行数据约简,这样导出的数据
集精练且更便于存储,其最大优点是从数据本身获取信息而不需要外部信息,得出的属性子集能够较好地代表原属性集。
2。8在智能控制中的应用
在目前关于人工智能、智能系统或智能信息系统研究中,专家系统,基于知识的决策支持系统,智能主体等一类知识系统的核心就是知识,知识的数量和质量是决定一个系统的性能优劣的主要因素。
在实际的系统中知识往往是不精确、不确定、不完整的,这使系统的许多问
题变得非常复杂,软计算作为解决这些问题的重要手段,显示出了巨大的优势。软计算[19]方法是指利用所允许的不精确性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,它区别于用精确、固定和不变的算法表达和解决问题的硬计算。粗糙集理论与模糊逻辑、神经网络、进化算法等同为软计算方法,但是它们又有各自的特点。研究表明这些软计算方法之间不是竞争而是互补的关系[20]。粗糙集理论与其他软计算方法的融合,可以形成一系列新的、有效的应用于智能系统特定领域的理论和方法。
参考文献
[1]ALVATORE G,BENTTOM,ROMAN S.Rough set theory for multi criteria decisionanalysis[J].EuropeanJournalofOperationalResearch,2001,129(1):1-47.[2]安利平, 陈增强, 袁著祉. 基于粗集理论的多属性决策分析[J].控制与决策,2005,20(3):294-298.
[3]李永敏, 朱善君, 陈湘晖, 等. 基于粗糙集理论的数据挖掘模型[J].清华大学学报:自然科学版,1999(1):111-114.
[4]刘清, 黄兆华, 刘少辉, 等. 带Rough 算子的决策规则及数据挖掘中的软计算[J].计算机研究与发展,1999,36(7):33-37.
[5]张文宇, 薛惠锋, 张洪才, 等. 粗糙集在数据挖掘分类规则中的应用研究[J].西北工业大学学报, 2002,20(3):430-434.
[6]陶多秀, 吕跃进, 邓春燕. 基于粗糙集的多维关联规则挖掘方法[J].计算机应用,2009,29(5):1405-1408.
[7] 苗夺谦, 李道国. 粗糙集理论、算法与应用[M].北京:清华大学出版社,2008.
[8] Supriya KD,Krishna P R.Clustering Web Transactions UsingRough Approximation [J]. Fuzzy Sets and Systems, 2004(148):131-138.
[9]胡可云, 陆玉昌, 石纯一. 粗糙集理论及其应用进展[J].清华大学学报:自然科学版,2001,41(1):64-68.
[10]蒋良孝, 蔡之华, 刘 钊. 一种基于粗糙集的决策规则挖掘算法[J].微型机与应用,2004(3):7-8
[11]刘嘉, 梁勇勇. 基于粗糙集理论的客户分类规则挖掘模型[J].甘肃科技,2004,20(10).
[12]孙国梓, 吴志军, 郁鼎文, 刘嘉. 基于粗糙集的供应商绿色评价体系研究[J].计算机工程与应用,2004,32.
[13]殷勇. 烟草成分对其品质影响程度的粗糙集判别力法[J].农业机械学报,2004,35(4).
[14] Qiang Shen, Richard Jensen. Selecting informativefeaturers with fuzzy-rough sets and its application for complexsystems monitoring[J].pattern recognition,2004,37:1351-1363.
[15]Divyendu Sinha,Phillip Laplante.A rough set-basedapproach to handling spatial uncertainty in binary images[J].Engineering Applications of Artificial Intelligence,2004,17:97-110.
[16]RenPul,iZhengOuwang.MiningClassificationRulesUsingRoughSetsandNeuralNetworks[J].EuropeanJournal ofOperationalResearch, 2004 (157) : 439-448.
[17] 徐泽柱. 王 林. 基于粗糙集理论和BP 神经网络的数据挖掘算法[ J].计算机工
程与应用, 2004(31): 169-175.
[18] 谢振华, 商 琳, 李 宁. 粗糙集在神经网络中应用技术的研究[J].计算机应用研究, 2004(9): 71-74.
[19]MITRA S, SANKAR K P, MITRA P. Data mining insoft computing framework: a survey[J]. IEEE Trans-actions on Neural Networks, 2002, 13(1): 3-14.
[20] BANERJEE M, MITRA S, SANKAR K P. Roughfuzzy MLP: knowledge encoding and classification[J].IEEE Transactions on Neural Networks, 1998, 9(6):1203-1216.