基于PCA的特征选择算法_于成龙
计算机技术与发展第21卷 第4期 l 21 N o . 4 V o.
2011年4月Apr . 2011CO M P UTER TECHNOLOGY AND DEVELOP M ENT
基于PCA 的特征选择算法
于成龙
(南京邮电大学计算机学院, 江苏南京210003)
摘 要:在人脸识别的某些应用中, 最好能够找到原始特征的关键子集, 减少不必要的特征计算和资源耗费, 而不是得到所有原始特征的映射。主成分分析法(Pr i nc i pa lCo mponentsA na l ysi s , PCA ) 是目前比较常用的人脸识别算法, PCA 将人脸图像映射到能很好地表征训练图像集的特征脸空间中, 但是基于PC A 的人脸识别的缺陷在于原始空间所有的特征都映射到了低维特征空间中, 是基于最佳描述性特征子集。提出了一种新的基于PC A 的特征选择方法, 将特征选择与特征抽取相结合, 对特征脸空间再进行特征选择, 选择人脸原始特征集中最关键的特征, 并将其应用在基于PC A 的人脸识别中。关键词:人脸识别; PC A ; 特征脸; 特征选择
中图分类号:TP301. 6 文献标识码:A 文章编号:1673-629X (2011) 04-0123-03
Features Selection A lgorith m Based on PCA
YU C heng -long
(Co llege o f Com puter , N an ji ng U niversity of Po sts and T e l ecomm un i ca tions , N anji ng 210003, Ch i na)
Abstract :I n s om e applicati ons o f face recogn ition, itm igh t be m ore desirab l e t o p ick a s ubset of t h e original feat ures t han t o fi nd a m ap p i ng t hat u s es a ll of t he original feat u res . Th e benefits of find i n g t h is s ubset of features lie i n cost redu ced com pu t ation s and t hu s l ow er cost of sen s ors . Pri nci pa l com pon en ts analysis (P CA ) i s w i d el y used i n face feat u re extracti on and recogn iti on . Th e faci a l i m ages are p ro j ected on to ei gen faces thatb est defi ne t he variati on of t h e know n test i m ages . How ever , t h e PCA -based face recogn ition has t h e d is advan t age t ha, t on t he basis of an opti m al des cri p ti ve feat ure s ub s e, t m eas u re m en ts from all t he origi na l features are u s ed i n t he pro j ecti on to t h e low er di m en si onal space . Propose a ne w m ethod for di m en si onality reducti on of a feat u re set by choo si ng a sub s et o f o ri g i nal fea tures that contai n s m ost of t he ess en tial i n for m ati on . Th ism ethod , bas ed on PCA, co m bi n es t ogether feat u re sel ecti on and feat u re ex t rac tion. The propo s ed m et h od has been s uccessfu ll y app li ed i n choo si ng pri ncipal feat u res i n PCA -bas ed face d et ecti on and recogn iti on . K ey words :face recogn ition; PCA; ei genface ; feat ure sel ecti on
0 引 言
特征提取和特征选择是人脸识别中数据预处理阶段的关键技术。特征提取是将原始特征进行某种形式的变换以得到新的特征。特征选择依据某种评估准则, 从原始特征集中选择最优的特征子集。
在人脸识别的研究中, 尽管通过PCA 算法可获得特征脸空间, 但特征脸是原始人脸中所有原始特征的映射, 相对于某些应用要求, 并非符合最优标准下保持原始数据中大部分的相关信息的要求。文中用一种基于PCA 的特征选择方法
[1, 2]
到用特征选择和特征抽取相结合的方法来进行人脸识别的目的。
1 PCA 算法
假设一个给定的训练数据集含有N 个样本X R , 每个样本由n 维特征向量描述为:
X l =[x l 1, x l 2, . . . , x ln ] R , 均值为m 。
T
n
n
训练集的协方差矩阵定义为: =
, 试图先得到特征脸空间,
[3, 4]
n
(X l -m ) (X l -m )
T
(1)
l=1
然后使用KNN 聚类的方法对特征脸保留的原始
的特征值表示样本在特征矢量上的分布方差。
1
=
.
选择 的d 个特征矢量根据特征值进行排序, 降维后的特征子空间表示为Y R , d
Y l =Q X
T
d
特征再进行特征选择, 得到进一步约减的特征脸, 以达
收稿日期:2010-07-31; 修回日期:2010-11-04
基金项目:江苏省自然科学基金(08K J B520008); 南京邮电大学人才引进启动基金(NY207137, NY207148)
作者简介:于成龙(1984-), 男, 硕士研究生, 研究方向为模式识别与图像处理。
0.
, 1 2 . . . n
(2)
其中Y l ={y 1l , y 2l , . . . , y d l }。
PCA 最重要的特性是使得样本在低维空间中尽量分散、保留样本在原始空间中的差异性和在低维空间中的投影数据与原始数据之间的均方差最小
[3, 5]
T
(主成分) 上的投影权重
[3]
, 原始特征与行成分是一一
对应的。如果原始特征关联性很强, 其在子空间上的投影权重也会非常相近, 即具有类似的行成分。在极端情况下, 对于两个相互独立的特征, 它们的投影权重有极大的不同; 而两个完全关联的特征, 它们有着相同的投影权重(不考虑符号因素)
[10]
。
2 E igenface 算法
特征脸方法将包含人脸的图像区域看作是一个随机向量, 经过PCA 变换, 对应其中较大特征值的基底具有与人脸相似的形状, 因此又称特征脸
[6]
。基于以上的观
察, 可以通过选择行成分, 而与所选择的行成分对应的原始特征就是最终所选择的最优特征子集。
为了寻找特征子集, 特征选择方法是利用行成分的结构特性, 通过聚类使得子集中的行成分高度关联
[2, 11]
。利用特
征脸的线性组合可以描述、表达和逼近原始人脸图像, 从而进行人脸识别与合成。识别过程就是将待识别的人脸图像映射到由特征脸构成的子空间上, 比较其与已知人脸在此特征子空间中的位置, 具体步骤如下:
(1) 初始化获得人脸图像集, 进行PCA 变换, 选择保留的特征向量个数:
, 然后从每一个子集中选出一个代表性的行成
分。所选出的行成分能很好地代表其所在子集中的所有行成分。而与代表性行成分对应的原始特征就是选择出来的特征, 所选出的特征数量与聚类(子集) 的数目一致, 从而实现对特征脸进行特征选择, 得到新的特征脸空间。特征选择算法的简单流程如下:
a) 利用PCA 获得变换矩阵Q , 生成特征脸空间, 保留的特征向量数目为:
R etained =
d
i i
i=1
n 100%(3)
i=1
保留的一个特征向量, 就是一个特征脸, 保留的所有特征向量, 构成特征脸空间;
(2) 输入训练人脸, 将其映射到特征脸空间中, 得到一组关于训练集的特征数据;
(3) 输入测试人脸, 将其映射到特征脸空间中, 得到关于该测试人脸的特征数据;
(4) 计算测试人脸与训练人脸之间的距离或相似性, 进行识别。
d
R eta ined =
d
i i
i=1n 100%(6)
i=1
b ) 提取Q 矩阵行成分|V 1|,|V 2|, , |V n | R 两两比较, 构建相似性矩阵, 距离度量为欧式距离;
c) 使用KNN 聚类方法将行成分|V 1|,|V 2|, , |V n | R 聚成p 个类
d
[3]
;
d ) 从每个聚类中找到与类中心最近的行成分V i , 相应的原始特征就是关键特征, 最终将选出p 个关键特征, 生成约减后的特征脸空间
[4, 12]
3 基于PCA 的特征选择
假设人脸X l 在第j 个主成分的投影为:Y l =Q X 即y jl =q x l =
T j T
。
(4)
4 行成分相似性度量
如何计算行成分之间的相似性, 也是文中考虑的一点。常用的计算变量之间相似性的方法有关联系数、欧式距离以及最大信息压缩(M I CI) 分析和实验已表明M I C I 优于其它方法绍如下:
对于行成分|V 1|,|V 2|, , |V n | R 其两两相似性度量如下:
M I CI :2 (q i , q t ) =D (q i ) +D (q t ) -(D(q i ) +D (q t ) ) -4D (qi )D (q t ) (1- q q ) (7)
i t
n
q ij x li (5)
i=1
如公式(5) , 人脸图片在特征脸空间上的投影是所有原始特征的线性组合。但有些特征可能是冗余的或没有意义的。通过特征选择可以找到那些在应用中起重要作用的关键特征, 摒弃冗余的特征
[7, 8]
[8][7]
等。M itra 的。现简单介
d
。
特征x li 的意义可以通过变换矩阵中与其相应的参数q ij 来评价, 即根据变换矩阵中的元素来确定与特征脸关系密切的关键原始特征阵可以表示为:
Q ={V 1, V 2, , V d },V i ={q i 1, q i 2, , q id }i =1, 2, , n
向量|V 1|,|V 2|, , |V n | R 被称为行成分, 表示第i 个原始特征在低维特征脸空间上的投影, 即行成分中的d 个观察值是特征脸子空间中的各个坐标
d
[9]
。另一方面, 变换矩
欧式距离:D (q i , q t ) =(q i -q t )
(8)
其中D 表示变量的方差, 表示关联系数。
5 实验结果
在缺少先验知识的情况下, 无法预先知道数据集中各个特征的重要性, 为了验证算法的性能, 文中通过
与传统PCA 方法在分类性能以及原始人脸重建效果上进行对比实验。
整个实验包括两个部分:首先, 选择基准ORL 人脸库, 输出PCA 特征脸以及特征选择后的特征脸, 然后分别用于原始人脸重建; 另外在人脸识别方面比较基于PCA 的特征选择算法(以下简称为PFA ) PCA 的性能。
实验一如图1所示, PCA 特征脸感官上和整体上近似于原始人脸, 重建的原始人脸具有最佳描述性的特点; 而PFA 特征脸, 摒弃了原始人脸的冗余特征, 再次降维后将特征更集中于眼睛、鼻子、嘴巴以及人脸的主要轮廓, 其重建后的人脸灰度值比较集中, 集中重建了原始人脸的轮廓和五官
[5]
[5]
约减的特征脸, 有降低时间和运算开销, 避免维数灾难等意义。由实验得知, 特征选择后的特征脸, 更集中突出了人脸的眼睛、鼻子、嘴巴等五官特征以及人脸整体轮廓等主要特征
[12]
, 从而实现了将PCA 特征脸与特征
选择相结合来进行人脸识别的预处理的目的。
和
。
图2 人脸识别率函数图
参考文献:
[1] Jo lliffe I T . P ri nci pal Co mponent Analysis[M].N e wY ork :
Spr i nger-Verlag , 1996.
[2] 陈 彬, 洪家荣, 王亚东. 最优特征子集选择问题[J].计算
机学报, 1997, 20(2):17-22.
[3] M c Cabe G P. Pr i nc i pa l Var i abl es[J].Technometr i cs , 2004,
26:134-137.
[4] 张 莉, 孙 钢, 郭 军. 基于K -均值聚类的无监督的特
征选择方法[J].计算机应用研究, 2005(3):23-24. [5] 张 洁, 高新波, 焦李成. 基于特征加权的模糊聚类新算法
[J].电子学报, 2006, 34(1):412-420.
[6] T urk M A, P entland A P . Face recogniti on usi ng ei genf aces
[C] Proc . C VPR. [s . . l ]:I EEE , 2001:586-591.
[7] 李 云, 叶春晓. 基于特征关联性的特征选择算法研究
[J].微型机与应用, 2004(6):58-60.
[8] 王嘉驹. 复杂数据的特征选择与关联分[D ].上海:上海交
通大学, 2005.
[9] 范劲松, 方廷建. 特征选择和提取要素的分析及其评价
[J].计算机工程与应用, 2001, 37(13):95-99.
图1 PCA 特征脸与PFA 特征脸实验比较实验二是在ORL 标准数据库上, 使用KNN 聚类对特征脸进行特征选择, 并比较PCA 、PFA +欧式距离和PFA +M I CI 的识别率。结果如图2所示。
[10]Cao L , M iao Y M. Excti on i nteracti ons i n CdS nanocrystal ag
gregates i n reversem i celle[J].J . Chen . Phys . , 2005, 123:24-30.
[11]M o li na L C , Belanche L , N ebot A. Feat ure selection a l go
r i th m :a survey and exper m i ental eval uati on[C] In :Proc . 2002I EEE Internationa l Conf erence on D ataM i ni ng . [s . . l ]:[s . n . ],2002:306-313.
[12]DashM, L i uH. Feature selection f or c l uster i ng[C] Proc . o f
Fourt h Pacifi c A si a Con. f on Kno w ledge D iscovery and D ata M i n i ng . [s . . l ]:[s . n . ],2000:110-121.
6 结束语
基于PCA 的特征选择算法是一种有效的、具有实际意义的人脸图像处理和人脸识别方法。文中在基于PCA 的基础上, 再对PCA 特征脸进行特征选择, 摒弃特征脸中冗余的特征, 选择更有效的特征, 得到进一步