多元数据的正态性检验
多元数据的正态性检验
摘 要:本文对多元正态性检验的两种主要方法——2统计量的Q-Q图检验法和主成分检验法进行了讨论,介绍其基本原理、具体实施步骤,通过实例分析进行应用研究,并比较它们的优劣,发现主成分检验法的实用性和应用价值更强. 关键词:多元正态性 2统计量 Q-Q图检验法 主成分检验法
The Normality Test for Multivariate Data
Abstract: In this paper, we discuss two main methods of multiple normal tests, Q-Q chart test and principal component test, introduce the basic principle and the specific implementation steps, research through studying the case, and compare their advantages and disadvantages. We found that the principal component test is better than Q-Q chart test in practicality and applied value. Key words: Multivariate normality; Chi-square statistic; Q-Q char test; Principal component test
引言
正态分布在学习中是一种很重要的分布,在自然界中占据着很重要的位置,它能描述许多随机现象,从而充当一个真实的总体模型.尽管在学习中我们总是碰到很多问题的总体服从正态分布,然而,在一个实际问题中,总体一定是正态分布吗?一般的讲,所作统计推断的结论是否正确,取决于实际总体与正态总体接近的程度如何.因此,建立一些方法来检验多元观测数据与多元正态数据的差异是否显著是十分必要的.如今,一元数据的正态检验的理论已相当成熟,但对于多元数据的正态性检验问题还处在摸索前进的阶段,没有形成行之有效、有足够说服力的检验方法.本文将在第一节中介绍文中用到的一元正态性检验的两种
2基本方法:图方法和矩法;第二节中介绍统计量的Q-Q图检验法基本原理和
检验步骤;第三节中介绍主成分正态检验法的基本原理和检验步骤;第四节中通
过两个实例做应用分析;第五节中对这两种方法在应用中的优劣做比较分析.
1 一元正态性检验的方法
鉴于一元数据正态性检验的多样性,本文不一一介绍,只介绍本文中用到的
2检验法和偏峰检验法.
1.1 图方法
设x1,x2,...,xn是来自总体的X随机样本,检验H0:X~N(,2).如果没有关于样本的附加信息可以利用,首选推荐的是利用正态概率纸画图.它让人们立即看到观测的分布是否接近正态分布.
对于一张正态概率纸,它的横轴的刻度是均匀的,纵轴按标准正态分布的P分位数均匀刻度,标上相应的P值.正态概率纸上的坐标轴系统使正态分布的分布函数呈一条直线.
利用正态概率纸检验一组观测值是否服从正态分布,可以按如下步骤进行: 把n个观测值按非降次序排列成x1x2xn.
然后把数对(xk,
k3/8
)(k1,2,,n)点在正态概率纸上.如果所画的n个点n1/4
明显地不成一条直线,则拒绝原假设.如果这些点散布在一条直线附近,则可以粗略地说,样本来自正态分布.这时,可以凭直觉配一条直线,使它离各点的偏差尽可能地小,其中在纵轴刻度为50%附近各点离直线的偏差要优先照顾,使其尽可能地小,并且使直线两边的点数大致相等.如果发现得到的点系统地偏离一条直线,在拒绝原假设后,可以考虑备择假设的类型.特别,如果几个较大的值明显地倾向于由其它值确定的直线的下方,作y
logx或y等变换可能使图形更符合一条直线.
这种方法也就是人们常说的P-P图法或Q-Q图法. 1.2 矩法
矩法,也称动差法、偏峰检验法,它是利用中心距的概念引入的两个量,正态分布的这两个量有着很好的特征,因此,常用这两个量进行正态性检验.
总体X的偏度是刻画X分布的对称程度的量,记为
G1
E(XEX)3[E(XEX2)]
32
, (1.2.1)
G10,X的分布对称;G10,称为正偏;G10,称为负偏.
总体X的峰度是衡量X的概率分布密度陡峭程度的量,记为
E(XEX)4
G2 , (1.2.2)
[E(XEX2)]2
正态分布的偏度为0,峰度为3.一个分布如果G1远离0或G2远离3,则可认为它与正态分布相差很大,为了检验样本x1,x2,...,xn是否来自正态总体,先计算偏度
和峰度的估计量g1
(x
i1ni1
n
i
x)
3
((xix))
332
,g2
(x
i1ni1
n
i
x)4
.
32
((xix))
当总体服从正态分布且样本容量n很大时,统计量g1和g2近似正态分布,且有E(g1)0,Var(g2)
24
g23,
如果以下不等式g1
n
只要有一个不成立,就认为总体不服从正态分布[4].
2
2 统计量的Q-Q图检验法
2
2.1 统计量的Q-Q图检验法的原理
为了充分解释统计量的Q-Q图检验法的基本原理,先引入分位数和经验分布函数的概念以及一个重要结论.
定义2.1 对0p1,称满足不等式P(Xx)p,P(Xx)1p的x值为随机变量X的P阶分位数.
如果X是连续型的,那么P阶分位数就是满足方程F(x)p的x的值.如果那么,P阶分位数存在唯一性的问题.因此采用以下定义更准确:X是离散型的,
设X的分布函数为F(x),对0p1,定义x的P阶分位数为
2
x
p
infx:F(x)p.
所以xpF1(p)就是分布函数的反函数,且只存在唯一的P阶分位数,即
Fx的左侧分位数.分位数是随机变量的重要数字特征,在描述数据的分布时非
常有用.
定义2.2 设x1,x2,xn是总体X的一组样本观察值,将它们按大小顺序排列为x(1)x(2)x(n),x为任意实数,称函数
0,
F(n)(x)k,
1,
xx(1)
x(k)xx(k1), xx(n)
为经验分布函数.
经验分布函数的图像是一条阶梯曲线,若观察值不重复则阶梯的每一个跃度都是,若重复,则按的倍数跳跃上升.对任意的实数x,Fn(x)的值等于样本的观察值x1,x2,,xn中不超过x的频率,由频率与概率的关系,Fn(x)可以作为总体X的分布函数F(x)的一个近似值,随n的增大,近似程度越好.
12
结论2.1 设X~Np(,),0,则XX~(p,),其中'1.
1n1n
证明:因为0,由正定矩阵的分解可得CC'(C为非退化方阵),令YC1X,即XCY,则
Y~NP(C1,Ip),
因CC',所以YNpC1,Ip,且有
X1XYC1CYYY~2(p,),
其中C1'C1'1.
)n下面介绍统计量的Q-Q图检验法的原理,设X(X...,X)(1,pa,)(1;
2
为
来自p元总体X的随机样本,检验H0:X~NP(,),H1:X不服从Np(,). 由上面的结论1可知在H0成立时,所以将X到(X)1(X)~2(p),总体中心的马氏距离D2(X,)=(X)1(X)记为D2,则有D
2
~2(p).
以下构造的检验方法是检验量D2是否有D2~2(P)成立.先由样品X(a)计
22
算Da2(a1,,n),并对Da2排序:D(1)D(2)...D(2n);取统计量D2的经验分布函数为
Fn(D(2t))
t0.5
pt,记H(D(2t)|p)表示2(p)的分布函数在D(2t)的值,则在H0下有n
由经验分布得到样本的pt分位数D(2t)Fn1(pt),同时设2分布的ptptH(D(2t)|p);
分位数为t2,若假设H0成立,应有:D(2t)t2.
然后绘制点(D(2t),t2)的散点图,这些点应散布在一条过原点且斜率为1的直线上,如果存在明显的偏离,则可以拒绝原假设.这种检验法其实就是2分布的Q-Q图检验法.如果不利用分位数,直接用概率散点(pt,H(D(2t)|p))绘图,就是2分布的P-P图检验法.
2.2 统计量的Q-Q图检验法一般步骤
为了方便应用,将上述思路的具体实施步骤归纳如下:
(1)由n个p维样品Xaa1,,n计算样本均值X和样本协方差阵S:
1n
SXX
n1a1a
2
XX'; (2.2.1)
a
(2)计算样品点Xt(t1,2,,n)到X的马氏距离:
Dt2XtX'S1XtX t1,,n;
(3)对马氏距离Dt2按从小到大的次序排序:
D2D22D2n; 1
(4)计算pt
t0.5
t1,2,,n以及t2,其中t2满足: n
Ht2ppt(或计算HD2tp的值);
(5)以马氏距离为横坐标,2分位数为纵坐标作平面坐标系,用n个点D2t,t2绘制散布图,即得到2分布的Q-Q图;或者用另n个点pt,HD2tp绘制散布图,即得2分布的P-P图;
(6)考察这n个点是否散布在一条通过原点,斜率为1的直线上,若是,接受数据来自p元正态总体的假设;否则拒绝正态性假设.
3 主成分检验法
3.1 主成分检验法的基本原理
目前,关于主成分的研究很多,但大多数集中在进行综合评价及回归分析,用来做检验的则几乎没有.主成分检验法是建立在主成分变量基础上的统计方法,基本思想是降维:将多元数据集转化为多个一元互相独立的数据集,通过检验一元数据集的正态性来判断原多元数据集的正态性.为充分解释这一思想,先引入主成分的定义.
定义3.1.1设X=(X1,X2,,Xp)'是p维随机向量,均值E(X),协方差阵
D(X),称ZiaiX为X的第i主成分(i1,2..p),如果:
(1)aiai1(i1,2.,p);
(2)当i1时,aiaj0(j1,2.,i1);
Var(X). (3)Var(Zi)1,aamax
0(j1,2.,i1)
i
j
若已知的特征值为 12p0,a1,a2,,ap为相应的单位正交特征向量,则X的第i主成分ZiaiX(i1,2..p)具体的证明过程参见文献[1].
如果可以证明:Z1,…,Zp是相互独立的,这时p元数据的正态性检验可化为P个相互独立的主成分的一元数据的正态性检验,这种检验方法称为主成分检验法.
下面说明主成分的不相关性.设D(X),如果是对角矩阵,即p维向量的分量互不相关,这时可以直接把p元正态性检验问题转化为p个一元正态性检验问题.但一般不是对角矩阵,即分量间是相关的,利用主成分分析法,求得X的p个主成分Z1,…,Zp.下证Z1,…,Zp是不相关的.
令Z(Z1,Z2,,Zp),由于Z1,…,Zp依次为X的第i主成分的充要条件是
D(Z)diag(1,2,,p).即有
0
Cov(zi,zj)
i
ijij
,又1≥2≥……≥p>0 ,
即说明任意两个不相同的主成分之间是不相关的,故Z1,Z2,,Zp 不相关.
文献[2]中给出了主成分数据处理的基本方法,并分析了方法的不足,提出
T
了改进的方法.直接将标准化的数据代入ZApnX*pn,则得到主成分得分.其中,
T系数矩阵Apn为对应特征向量组成的矩阵,X*pn为标准化的数据集.从中我们看
到,计算主成分得分实际上是将标准化后的原始数据投影到旋转后的坐标中. 结论3.1.1 若X~N(,),则Z~N(A,AA);反之,若Z服从多元正态分布,则X也服从多元正态分布.
,其中,A(a1,a2,,ap)且为正交矩阵.由证明:由主成分的定义知,ZAX
于X~N(,),则
E(Z)E(AX)AE(X)A, D(Z)D(AX)AD(X)AAA,
从而,由多元正态分布的线性性质,
Z~N(A,AA),
反过来,由Z服从正态分布,同理可知X服从正态分布.
结论3.1.2 若Z1,Z2,,Zp独立同正态分布,则Z服从多元正态分布. 证明:此命题的结论可以直接从多元正态分布的定义得出.
由主成分的理论特征知,主成分变量是新的互不相关的变量,因此,只要说明主成分变量Z1,Z2,,Zp分别服从一元正态分布,就可以说明Z服从多元正态分布,从而由结论3.1.1知X也服从多元正态分布. 3.2 主成分正态检验的一般步骤
具体检验步骤如下:
(1)由n个p维样品Xaa1,,n计算样本均值X和样本协方差阵S,计算公式同(2.2.1)式;
(2)利用坐标变换计算每个样本点的主成分得分,得到新的主成分得分集Z1,Z2,,Zp;
(3)对每个Zi(i1,2,,p),求出其对应的偏度和峰度值;
(4)考察偏度是否趋近0,峰度是否趋近3.若是,则接受X来自于正态总体;若两个条件有一个不满足,则拒绝正态性假设.
4 应用研究
为了说明这两种方法具有很好的实用价值,并进行比较,本文给出两个实例研究.
4.1 实例1
对20 名健康成年女性的出汗(X1 ) ,钠的含量(X2) 和钾的含量(X3) 的数据
进行正态性检验.本例数据与文献[4]中第45页例1的数据一样,文献[4]中是对样本数据进行均值向量的假设检验,检验方法是基于样本数据来自于3元正态分布的假设,但文献[4]并没有对样本数据进行正态性检验,现本文分别用统计量的Q-Q图检验法和主成分检验法进行多元正态性检验.
2(1) 统计量的Q-Q图检验法
2
根据2.2节给出的一般步骤,结合数据集,首先利用SAS中主成分程序(程序同见附录3)计算出协方差阵S:
然后利用Matlab编程计算马氏距离(程序见附录1),并按升序排列;同时利用SAS软件计算出对应的2分位数(程序见附录2),结果见下表:
表4-2 马氏距离和p分位数
最后以马氏距离为横坐标,以卡方分位数为纵坐标作散点图,见图4-1:
图4-1 统计量的Q-Q图
2
从图中可以看出,这些点基本在一条直线的上下波动,偏离不是很大.因此,从直观上判断可以接受原多元数据集来自于多元正态分布的假设. (2) 主成分检验法
然后对主成分得分集进行分析,用SAS中的UNIVARIATE命令和SAS中的分析家中的Q-Q图分别对Z1、Z2、Z3做正态性检验.我们先看偏峰检验的结果表4-4:
从表4-4中可以看出偏度是在0附近波动,但是峰度的波动很大,绝对值在0.7附近,结合2.2节中的结论可知,可以拒绝原数据集是来自3元正态分布的假设.
我们再看图方法检验的结果,见图4-2:
图4-2 QQ图(依次为Z1、Z2、Z3)
从图中左上角给出的拟合方差以及均值可以看出,直线的拟合度非常好,由此可以判断Z1、Z2、Z3都服从一元正态分布,从而可以接受原数据集来自于3元正态分布的假设.
从上面的分析我们看到一元正态检验的2检验法和Q-Q检验法得到了两种截然相反的结果,那哪个结果更可信呢?出现这样的情况也是正常的,最重要的原因是中心矩的结果很容易受到频数分布的影响.不同的分布可能计算出同样的中心矩,这样就造成检验误差增大.
4.2 实例2
本例选取我国2006年各地区城市设施水平数据作正态性检验,包含6个指
标,X1:城市用水普及率;X2:城市燃气普及率;X3:每万人拥有公共交通车辆;X4:人均城市道路面积;X5:人均公园绿地面积;X6:每万人拥有公共厕所.用1~31依次表示北京、天津、河北、山西、内蒙古、辽宁、吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆全国31个省、直辖市、自治区的名称.
(1) 统计量的Q-Q图检验法
2
表4-6 马氏距离和分位数
最终得到2统计量的Q-Q图如下:
图4-3
2
统计量的Q-Q图
从图4-3中可以看出,大部分数据呈抛物线分布,因此,拒绝原数据集来自
于6元正态分布的假设. (2) 主成分检验法
从表4-7中可以看出,Z1比较符合正态分布的特征,但从后面的方差以及标准差(根据Q-Q图拟合直线与点之间的关系得到的,方差和标准差越小说明Q-Q图越接近于一条直线,也就说明该变量越服从正态分布)来看X3X6拟合度比较好.无论怎样,从偏峰度和Q-Q图都可得出,原多元数据集不服从正态性检验.这个结果说明我国各省、直辖市、自治区在上面描述的六个指标中不存在都强或都弱的情况,都是此强彼弱,这很好的映证了目前我国各省、直辖市、自治区实际情况.
5 两种方法的比较
2从上面的原理介绍和应用分析可以看出,多元数据正态性检验的统计量
的Q-Q图检验法和主成分检验法存在各自的优缺点.
相对来说,主成分正态性检验法涉及到主成分的计算,较为麻烦,但容易在软件上实现,具有较强的实用性和应用价值.这也可以从主成分也能对一元变量进行检验可以看出来,但是需要注意的是一元检验的是新的主成分变量,并不是
2原始数据集的某一指标的一元检验.统计量的Q-Q图检验法具有结论简单明了
的直观效果,但是它没有现成的命令可以套用,对于专业知识不够的人是难以得出结果的.
2从理论上讲,主成分检验法是优于统计量的Q-Q图检验法,这是因为相
对来说一元数据的正态性检验理论已经相当成熟,在得出主成分变量后,就可以直接用相应的软件命令来实现,简单,但分析起来就相对麻烦些.
结束语
本文只是比较了多元数据正态性检验的两种常用方法的异同,对于其他分布的检验问题,由主成分的较好的特征,是否可以将主成分检验法推广到其他类型分布的检验上呢?本文受能力和时间限制没有研究.另外,主成分提出至今,通过大量的实践验证,发展形成了比较系统的体系.目前比较常见的有核主成分见文献[5]、灰(也称模糊)主成分见文献[6]、伪主成分见文献[7]、非线性主成分见文献[8]等分析方法,这些方法的提出弥补了主成分一般方法的不足.对于这些改进方法见文献[9],是否也可将之应用到本文中的主成分检验法中,使主成分检验法的结论更为准确,也没有研究.
本文的创新之处在于通过了两个实例来衡量两种检验方法的优劣,这样做的好处是避免了以偏概全,而且很好的利用软件将 2统计量的Q-Q图检验法的结果得出来了,并总结了两种检验方法的长处和短处.美中不足的是对于2统计量的Q-Q图检验法没有编写出一个完整的程序直接得出Q-Q图.限于作者的学术水
平,文中难免有错误和不足,欢迎批评指正.
致谢
本论文选题及写作都是在徐伟老师的亲切关怀和细心指导下完成的.他的严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我,使我不仅接受了全新的思想观念,树立了宏伟的学术目标,领会了基本的思考方式,掌握了通用的研究方法,而且还明白了许多为人处事的道理,在此,我对徐老师表示深深的感谢.与此同时,我还要感谢教过我的所有的老师,没有他们谆谆的教导就不会有我今天论文的完成,谢谢了老师,您们辛苦了.
参考文献
[1]高惠璇. 应用多元统计分析[M].北京:北京大学出版社,2005
[2]A.H.Al-Ibrahim, Noriah M.Al-Kandari. Stability of principal components[J],Computational Statistics 23(8),2008.9
[3]贾明辉,华志强.主成分分析数据处理方法探讨[J].内蒙古民族大学学报自然科学版, 23(4),2008.7
[4]Fabian Sinz, Sebastian Gerwinn, Matthias Bethge. Characterization of the p-generalized normal distribution。Journal of Multivariate Analysis 100 (2009)
[5]王学民. 偏度和峰度概念的认识误区[J]. 统计与决策2008(12)
[6]吴今培.基于核函数的主成分分析及应用[J].系统工程, 2005.2,23(2)
[7]姜春燕等.主成分分析研究及其应用[J].吉林大学学报(信息科学版),2007.9,25(5)
[8]林和平,杨晨.模糊主成分分析方法的研究与分析[J].航空计算技术,2006.11,36(6)
[9]夏茂森.时序全局主成分分析与经典主成分分析:区别与联系[J].财经界,2007.7
[10]江政红,周清志.两种多元正态性检验方法的应用和比较[J].中南民族大学学报,2009.9,28(3)
附录
附录1 马氏距离Matlab程序
A=[
-0.9 3.1 -0.7 ;
1.1 19.7 -2.0 ;
-0.8 1.8 0.9 ;
-1.4 7.8 2.0 ;
-1.5 10.1 -0.3 ;
0.0 -9.3 -2.1 ;
-2.2 -20.6 4.0 ;
2.6 -12.3 -2.4 ;
2.1 2.0 -1.5 ;
0.8 8.7 1.3 ;
-0.7 -8.5 2.7 ;
-0.1 13.4 2.3 ;
-1.1 -17.6 -0.2 ;
-0.1 -5.2 -1.6 ;
-3.1 -31.9 0.1 ;
3.9 11.0 -2.9 ;
-0.1 26.2 -1.8 ;
1.9 7.4 0.9 ;
-0.5 -1.3 1.2 ;
0.9 -4.5 -0.6
];
s=[
1 0.4173 -0.5597 ;
0.4173 1 -0.2095 ;
-0.5597 -0.2095 1
];
d=A*inv(s)*A'
附录2 2分位数计算SAS程序 data;
q=cinv(p,df,nc);
put q=;
run;
说明:这是一个一般程序,其中0p1,df0为自由度,nc0为非中心参数.
附录3 例1中主成分程序
data eg;
input no $ X1 X2 X3;
cards;
1 3.7 48.5 9.3
2 5.7 65.1 8.0
3 3.8 47.2 10.9
4 3.2 53.2 12.0
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14.0
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
run;
proc print data=eg;
proc princomp data=eg prefix=Z out=oeg; var x1-x3;
proc sort data=oeg;
by Z1;
proc print data=oeg;
var Z1 Z2 Z3;
proc sort data=oeg;
by Z2;
proc print data=oeg;
var Z1 Z2 Z3;
run;