4-基于量子粒子群和随机森林的特征选择方法

08-01

94福建电脑2010年第5期

基于量子粒子群和随机森林的特征选择方法

杨明旭1，洪文财1，米

（1、厦门大学自动化系福建厦门361005

红2

2、浙江大学非传统安全与和平发展研究中心浙江杭州310028）

【摘要】：提出一种基于量子粒子群和随机森林封装的特征选择方法。将量子粒子群算法用于特征选择，优化特征子集，采用随机森林分类器评价特征子集的性能，指导特征子集更新，以寻求最优的特征子集。

【关键词】：量子粒子群；特征选择；随机森林

0、引言

基因表达数据分析的主要任务就是对样本进行分类，希望用较少的基因数目获得较好的分类效果，而基因表达谱数据集的一个显著特点是样本少、维数高，大量的样本属性中仅有少量基因包含了样本的分类信息。因此如何找出影响样本信息的特征基因，就成为基因表达谱分析的关键。

目前常用的特征选择方法可分为过滤法（Filter ）、封装法（Wrapper ）[1]。过滤法计算简便、速度快；封装法较复杂但分类效果优于过滤方法。在基因表达谱的特征选取中，结合Filter 、Wrapper 的优点，采用启发式搜索算法和分类器进行封装逐渐成为当前的热点。

本文结合了Filter 、Wrapper 的优点，提出一种基于量子粒子群和随机森林封装的特征选择方法。将量子粒子群算法用于特征选择，优化特征子集，采用随机森林分类器评价特征子集的性能，指导特征子集更新，以寻求一组最优的特征子集。实验结果表明，基于量子粒子群和随机森林的特征选择方法能够找到最少的特征子集达到比较高的分类效果，同随机森林自身的重要性排序具有可比性。

1、量子粒子群和特征选择1.1量子粒子群简介

粒子群优化算法(ParticleSwarm Optimization ，PSO) [2]，是由J. Kennedy 和R. C. Eberhart 等于1995年开发的一种演化计算技术，来源于对鸟类和鱼群捕食等行为的模拟。在鸟类捕食的群体行为中，每只鸟被看作一个粒子，而每个粒子代表一个被优化问题的解。在D 维搜索空间中，设微粒x i 本身所找到的最佳位置为p i =

(pi1,p i2,...,p iD ) ，称为粒子个体最优点。整个粒子群迄今为止搜索到

的最佳位置为p g =(pg1,p g2,...,p gD ) ，称为粒子群全局最优点。粒子当前速度为v i =(vi1,v i2,...,v iD ) ，每个粒子将根据一定的公式来调整自己下一步位置。

基本的PSO 粒子群系统，粒子的收敛索空间是一个有限的区域，不能保证以概率1搜索到全局最优解。Sun 等人从量子力学的角度出发提出了一种改进的PSO 算法———具有量子行为的粒子群算法(Quantum-behavedParticle Swarm Optimization) 。其粒子的速度和位置信息都将归结为一个参数β，如下所示：

（1）

从1.0线性减小到0.5时，算法可以达到比较好的效果。在迭代过程中，式（3）中±是由随机数u 决定的，当u 大于0.5时取+，否则取-。

1.2用于特征选择的量子粒子群

量子粒子群工作在连续空间，对其进行离散二进制处理，使其可应用于特征选择。

将各特征作为位置点，若有D 个特征，则粒子为D 维向量。产生初始粒子群，随机产生n 个粒子，每个粒子x(t)为D 维二进制向量，值为（0，1）之间的随机数。对x(t)取整，x_B(t)=round(x(t))，每个粒子表示为由0、1构成的二进制向量，将值为0的特征选出，值为1的特征不选择，由此得到每个粒子的初始特征子集。

每个初始特征子集，用随机森林分类器评价其性能，适应度函数定义如下：

（5）

式中，Accuaray 是每个粒子分类的错误率，ones 是每个粒子选取的特征数，All 是全体特征数，k 是准确率和特征数的平衡系数，k 值越大，表示特征数量越受重视。计算所有粒子适应度的大小，每个粒子的初始位置作为个体极值pBest ，全局极值gBest ，为适应度值最大的粒子。

根据式（1）-（4），更新每一个粒子x(t+1)，限制更新后的粒子x(t+1)的每一维是在［0，1］之间的数，将大于1的设为1，小于0的设为0。对x(t+1)取整，x_B(t+1)=round(x(t+1))。每个粒子又表示为由0、1构成的二进制向量，将值为0的特征选出，值为1的特征不选择，由此得到每个粒子的初始特征子集。如此反复，得到一组组新的特征子集。

2、量子粒子群和随机森林的特征选择

基于量子粒子群和随机森林的特征选择结合了Filter 、Wrapper 的优点，利用信噪比[4]方法去除掉了多数不相关的特征，减少算法计算复杂度后，将量子粒子群算法用于特征选择，采用随机森林分类器评价特征子集的性能，指导特征子集的计算和更新，使搜索快速收敛。具体过程如下：2.1信噪比过滤不相关的基因

以信噪比方法衡量基因的重要性

（6）

sn(i)是第i 个特征的表达差异值，u +(i)是第i 个特征类标识为

正类的样本的平均值。σ+(i)是其标准差。u －(i)是第i 个特征类标识为负类的样本的平均值，σ－(i)是其标准差。选取前300个sn(i)值较大的基因，滤去了多数不相关特征，大大减少了特征选择的计算复杂度。

2.2分类器的选择

随机森林是Leo Breiman 于2001年提出的一个组合分类器算法，是由许多单棵分类回归树（CART ）组合而成的，最后由投票法决定分类结果。整体的泛化误差取决于森林中单棵树的分类效能和各分类树之间的相关程度。Breiman 采用Bagging 和Ran -domization 相结合的方法，在保证单棵分类树效能的同时，减少

（2）（3）（4）

式中，pBest 为个体极值，gBest 为全局极值，mBest 为中值最优位置，M 为群体中所含粒子数，r 1，r 2，u 是（0，1）之间的随机数，β为系数创造力，调节它的值控制算法的收敛速度。通常情况下，β

2010年第5期福建电脑

各分类树之间的相关度，提高了组合分类器的性能。能较好地解决小样本、高维数数据的分类问题，且分类速度快，因此随机森林作为搜索过程的分类器。

随机森林同时是一种重要的特征选择方法，可与提出的方法进行比较。

2.3量子粒子群和随机森林的特征选择

信噪比得到的300个基因，用量子粒子群算法进行特征选择，用随机森林分类器评价特征子集的性能，其适应度函数如式（5）所示，k 取值为0.02。具体算法实现如下：

（1）产生初始粒子群

按上文提到的方法产生初始粒子群，转换成二进制向量，得到初始特征子集；

（2）根据式（5）计算所有粒子的适应值，每个粒子的初始位置作为个体极值pBest ，全局极值gBest 为适应度值最小的粒子；

（3）更新粒子的速度和位置

根据式（1）-（4），更新每一个粒子。由更新后的二进制粒子向量x_B(t+1)，将值为0的特征选出，值为1的特征不选择，得到新的特征子集，根据式（5）计算所有粒子的适应值。更新个体极值和全局极值。若更新后的二进制粒子向量x_B(t+1)全为1，无特征可选。则x_B(t+1)更新为一组随机产生的二进制向量；

（4）判断循环是否终止，产生全局最优解和最优特征子集。否则，返回至（3）。3、实验及分析

为了验证量子粒子群特征选择的性能，采用4个基因数据集进行实验，数据集如表1所示：

量子粒子群特征选择，利用信噪比获得的300个特征基因进行迭代，粒子群大小设定是30，迭代次数为100，对每一个特征子集，样本按类别分为5份，每次随机取1份做为测试集，剩余4份为训练集。做20次得其平均值及标准差。实验结果如表2所示：

表2实验结果

基因表达数据具有维数高、样本少等特点，采用一定的特征基因选择方法以减少特征数是非常必要的。本文结合Filter 、Wrapper 的优点，提出了基于量子粒子群算法和随机森林分类器相结合的特征基因选择方法，从实验结果可以看出，特征选择算法去掉大部分不相关基因，减少特征数，提高分类准确率，具有较高的有效性和可行性。

提出的方法能取得较好结果主要原因：

（1）使用信噪比挑选出300个基因，滤去多数不相关特征，大大减少了特征选择的计算复杂度；

（2）量子粒子群不断更新粒子，使得粒子具有多样性，避免局部最优；

（3）采用特征组合的方式，避免随机森林等方法每次对单个特征计算忽略特征之间的相关性；

（4）量子粒子群算法在搜索过程中只有一个参数，当从1减少到0.5时，粒子收敛，避免陷入局部最优，提高了算法的性能。

参考文献:

[1]段艳华. 基于基因表达谱的肿瘤分类特征基因选择研究[D].北京：北京工业大学，2008

[2]KENNEDY J, EBERHART RC. Particle swarm optimization. In:Proc IEEE Conference on Neural Networks. Piscataway, NJ, 1995, (4):1942-1948

[3]SUN J, FENG B. Particle swarm optimization with particles having quantum behavior[C].China:Congress on Evolution Computation, 2004[4]GOLUB R R,SLONIM D K, TAMAYO P, et al. Molecular classifi -cation of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,289(5439):531-537.

[5]BREIMAN L. Random forests. Machine Learning,2004,45:5-32

表1基因数据集

用信噪比得到的300个特征利用随机森林分类器对所有样本进行分类。树大小ntree=500，其余参数为默认，得到300个特征的重要性排序。根据特征重要性排序，取出最重要的特征做为初始特征子集，样本按类别分为5份，每次取1份做为测试集，剩余4份为训练集。5份测试集的准确率平均得到该特征的适应度值，做20次得其平均值及标准差。再取出剩余特征中最重要的特征，与初始特征组成新的特征子集。重复，直到特征数达到50个。记录下最少特征子集达到最比较好的分类效果。

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

（上接第82页）

2. 攻击阻止NIDS 不能去阻止攻击，而采用报警方式。

现在一些产品扩展了IDS 的功能，提供具有中断入侵会话

的过程和非法修改访问控制列表来对抗攻击。4. 结束语

HIDS 和NIDS 都有各自的优点，两者相互补充。两种方式都能发现对方无法检测到的一些入侵行为。例如，如果本地服务器发起的攻击可能不通过网络，无法通过NIDS 发现，只能使用HIDS 来判断。NIDS 通过检查所有的数据包头的标志位来进行发现，而HIDS 并不查看包头的首部。NIDS 可以研究负载的内容，查找特定攻击中使用的命令或语法，而HIDS 无法看到负载，也无法识别嵌入式的攻击。例如，网络型的入侵检测检查所有的数据包头的标志位，而主机型的入侵检测并不查看包头的首部；如本地服务器发起的攻击可能不通过网络，无法通过网络

型的入侵检测来发现，只能使用主机型的入侵检测来判断：网络型的入侵检测可以研究负载的内容，查找特定攻击中使用的命令或语法，而主机型的无法看到负载，也无法识别嵌入式的攻击。因此，网络型和主机型的入侵检测各有优势，两者相互补充才能使网络系统预警通报的实现更加可靠、准确。

参考文献：

[1]张仕斌. 网络安全技术. 北京:清华大学出版社,2008[2]王达. 网络管理员必读. 北京:电子工业出版社,2007

[3]程柏良. 基于异常与误用的入侵检测系统. 《计算机工程与设计》,2007年14期

[4]王高平. 网络与应用教程. 北京:清华大学出版社,2007[5]黄淑华. 计算机网络技术教程. 北京:机械工业出版社,2004

与《4-基于量子粒子群和随机森林的特征选择方法》相关的范文

12-29 登山行动重大项目申报材料

　　为了进一步加强本市的基础研究工作，提升*科技持续创新能力和国际学术地位，围绕国家和*市中长期科技发展规划和“登山行动计划”的要求和重点任务，针对生命科学、信息科学、材料科学等领域的前沿科学问题。开展以应用为导向的创新研究，特发布本指南。　　一、研究专题和期限　　专题一、成形制造中材料微观结构与应力场控制的研究　　研究目标、内容　　成形制造过程中的材料微观结构与应力场的控制是高精度、高性 ...

02-28 行政职业能力测验试题(A)类1

这项测验共有五个部分，130道题，总时限为120分钟。各部分不分别计时，但都给出了参考时限，供你参考以分配时间。请在答题卡上严格按照要求填写自己的姓名、报考部门，涂写准考证号。请仔细阅读下面的注意事项，这对你获得成功非常重要： 1．题目应在答题卡上作答，不要在这份题本上做任何记号。 2．监考老师宣布考试开始时，你才可以开始答题。 3．监考老师宣布考试结束时，你应立即放下铅笔，将试题本、答题卡和草 ...

04-13 现代科技文阅读四

·现代科技文阅读四　　前苏联科学院海洋地质研究所的研究人员，发现地球上大洋底部裂陷扩展从来没有停止过，而且是沿着北极纵绕地壳的山脊状裂陷经常进行的。这种裂陷扩展，在太平洋底部最为迅速，在北冰洋和南极的海底扩展就稍慢一些，地球南北断面是椭圆形也与此有关。这个发现也解答了另一个曾引起人们关注的问题。众所周知，地球围绕太阳公转的速度是基本不变的。同时科学家又发现，地球每天的时间都比前一天延长1/700 ...

02-23 高二物理学科知识竞赛试卷分析报告

高二物理学科知识竞赛试卷分析报告缪阿调陈维龙一、命题思路本试卷是20XX年高二物理学科知识竞赛试卷，考试内容为物理考试大纲规定的高考内容（选修3-1、3-2和3-4）。试题设计指导思想：参照浙江省物理学科教学指导意见及物理考试大纲，本试卷覆盖了主干知识和基本模型，其中力学、电学主干知识约占理综（物理）卷分值的82.5%。注重新教材内容和思想的考查，没有出现偏题、怪题、特难题现象，许多题目的 ...

08-15 2014年高考物理试卷分析(海南卷)

20XX年高考物理试卷分析(海南卷)海南省教育研究培训院总体评价 20XX年普通高等学校招生全国统一考试新课程标准试卷（海南卷）依据《20XX年普通高等学校招生全国统一考试大纲（理科•课程标准实验版）》和海南省的《20XX年普通高等学校招生全国统一考试大纲的说明（理科•课程标准实验版）》（以下简称《说明》）进行命题，试卷为单科独立试卷。试卷在保持平稳的基础上，结合海南实际，针对性地对部分试题的难 ...

08-16 自然地理野外实习报告

自然地理野外实习报告姓名：陈邦杰班级：09级一班学号：09009110110 专业：地理科学导师：李瑞辛晓十边柳齐曙光王书转学校：南阳师范学院学院：环境科学与旅游学院日期：20XX年5月10日目录一．序言自然地理学及其相关学科是实践性很强的课程，野外教学实习对本专业本科学生来说是一次启蒙教育，是以认识为重点的自然地理基本概念、基本知识和基本技能（三基）训练的实践过程。其目的旨在 ...

11-25 九年级化学试卷分析

九年级化学试卷分析一、试题（卷）概况：根据县局制定的初中化学教学计划，本次考试命题范围是九年级上册1~4单元。试题在考查基础知识时，着重考查学生对基本概念的理解和应用；在考查基本实验技能时，着重考查知识的迁移能力。试题新颖，图文并茂，试题难度中等偏上。本次考试为闭卷试题，满分为100分。试题类型有选择题，共20个小题，40分，占40℅；填空题，共6个小题，32分，占32℅；实验探究题，1个小 ...

12-22 初中地理课程标准

第一部分　前言(7-9'GEo'1) 一、背景(7-9'GEo'1.1) 　　当今世界，人口、资源、环境问题日益突出，南北发展差距不断扩大，在世界多极化和经济全球化的曲折发展中，和平与发展仍是时代的主题。在我国，要坚持实施可持续发展战略，促进人与自然的协调与和谐，改善生态环境，增强区域经济发展活力，加速现代化进程。这些都给地理课程改革提出了挑战和有待探索的新课题。关注全球性问题和我国新世纪所面临的 ...

11-21 森林经营方案编制与实施纲要

（试行）一、总则 1、为贯彻落实《中共中央国务院关于加快林业发展的决定》的有关精神，全面推进我国的森林可持续经营工作，规范和引导森林经营主体科学编制和实施森林经营方案，根据《森林法》和《森林法实施条例》的有关规定，制定本纲要。 2、森林经营方案是森林经营主体为了科学、合理、有序地经营森林，充分发挥森林的生态、经济和社会效益，根据森林资源状况和社会、经济、自然条件，编制的森林培育、保护和利用的中长 ...

03-20 公务员专业考试大纲

根据《上海市国家公务员考试录用实施意见》和《20XX年上海市国家公务员（机关工作者）考试录用工作实施方案》，为了便于考生参加公务员录用专业考试的复习，我们组织有关专家编写了《20XX年上海市国家公务员（机关工作者）录用考试专业专业科目考试大纲》，经上海市人事局公务员管理处审定通过。　　本大纲依据行业特点和职位专业要求确定的专业考试科目、内容和重点，主要测试拟进入相关职位的报考人员应具备的基本专业 ...

随机推荐

猜你喜欢

4-基于量子粒子群和随机森林的特征选择方法

·常规工作自评报告

·自学考试自我鉴定范文

·2008年财务个人总结

·教育督导评估的汇报材料分析

·忙而不乱忙而有序

·新课程理念的高中英语词汇教学之小结

·法制课教案(增强自我保护意识)

·不同煤种配煤直接液化试验研究

·VIP管理制度细则

·浠水县学校隐患排查清单

·餐饮业例会流程

·2010-2011年度第二学期班级工作总结

·庆祝五四青年节教师演讲稿

·观察绿豆的生长过程

·落实会议讲话精神的汇报Doc1

·介绍几种消费者购买行为的理论

·XX局三严三实专题教育党课讲稿

·浅谈小学阅读情境式教学

·儿童预防接种常见知识讲座

·三年级科学教学计划2

4-基于量子粒子群和随机森林的特征选择方法

与《4-基于量子粒子群和随机森林的特征选择方法》相关的范文

·常规工作自评报告

·自学考试自我鉴定范文

·2008年财务个人总结

·教育督导评估的汇报材料分析

·忙而不乱 忙而有序

·新课程理念的高中英语词汇教学之小结

·法制课教案(增强自我保护意识)

·不同煤种配煤直接液化试验研究

·VIP管理制度细则

·浠水县学校隐患排查清单

·餐饮业例会流程

·2010-2011年度第二学期班级工作总结

·庆祝五四青年节教师演讲稿

·观察绿豆的生长过程

·落实会议讲话精神的汇报Doc1

·介绍几种消费者购买行为的理论

·XX局三严三实专题教育党课讲稿

·浅谈小学阅读情境式教学

·儿童预防接种常见知识讲座

·三年级科学教学计划2

·忙而不乱忙而有序