多元回归分析方法应用实证分析与比较
第28卷第9期2010年9月
文章编号:1004-3918(2010)09-1083-06
河南科学
HENANSCIENCE
Vol.28No.9Sep.2010
多元回归分析方法应用实证分析与比较
白秀琴1,李瑞阁2
(1.平顶山工业职业技术学院,河南平顶山467001;2.南阳理工学院应用数学系,河南南阳473006)摘
要:利用多元统计分析的线性回归分析理论,首先对糖尿病临床采集数据进行相关分析,了解因素之间的相关
后退法、逐步回归分析方法,探讨糖尿病病人胰岛素每日注射初始剂量与其关系,其次分别采用线性回归的前进法、影响因素之间的线性关系.根据回归方程调整相关系数、AIC准则等,对比选择最优应用回归模型,确定胰岛素用量及其主要影响因素血糖、尿蛋白的回归模型,对医生临床治疗提供参考.
关键词:多元回归分析;正态性检验;相关分析;前进法回归;后退法回归;逐步回归中图分类号:O241
文献标识码:A
1数据来源及定性变量的量化
本文利用来源于河南省南阳医学高等专科学校第一附属医院住院糖尿病病人的临床数据资料,进行多
元回归分析,研究胰岛素(RI)初始用量与其影响因素之间关系的数学模型.诸影响因素中,年龄(y)、身高(cm)、体重(kg)、饮食量(g/d)、血糖(mmol/L)、血清肌酐(μmol/L)、RI用量(U/d)为数值变量,而涉及到的定性变量可量化为:性别,男1、女0;运动量,无0、小量1、中小量1.5、中量2、大量3;尿糖及尿蛋白,(-)0、(±)0.5、(+)1、(++)2、(+++)3、(++++)4;感染,合并感染1、无感染0.上述所选资料,病人来自河南省南阳地区,总共搜集到356组数据,男144组,女212组,平均年龄为62.77±13.19岁,平均病程为7.3±5.64年.
2正态性检验及异常值诊断
2.1
正态性检验
1)对因变量RI数据进行正态分布假设检验.利用Matlab命令[h,p,j]=jbtest(RI)对RI数据进行正态分布的Jarque-Bera假设检验,结果显示h=0;p=0.5353;j=1.2500,接受正态分布的假设.
2)P-P概率图.根据RI用量的累积概率对应于正态分布累积概率绘制的散点图,从图形上看,代表样本数据的点成对角线分布(图1),另外仔细观察趋势概率图(图2),即按正态分布计算的理论值和实际值之
图1RI数据P-P图
Fig.1RIP-Pplot
图2RI数据残差图
Fig.2RIP-Presidualplot
收稿日期:2010-08-18
基金项目:河南省教育厅自然科学研究计划项目(2008C110006)
(1965-),女,河南淇县人,副教授,主要从事数理统计方向研究.作者简介:白秀琴
-1084-
河南科学
第28卷第9期
差的分布情况的分布残差图,数据点除几个异常值外,在Y=0直线上下分布较均匀,故RI用量服从正态分布.
3)Q-Q概率图.RI用量数据分布的分位数与指定正态分布的分位数之间的散点图(图3),同样可直观看出RI用量服从正态分布.2.2
异常值诊断
RI数据盒形图.盒子的上下四分位数值为盒子的上下两条线,“盒子”上下底之间的距离为四分位间
距;“盒子”中间线为样本的中值,中值不在中央,表示样本有一小偏度;“盒子”的须线位于盒子的上方和下方,显示其它样本的范围,但4个野值在须线外,用加号表示.下图4中可见,RI用量数据有4个异常值.后续研究应加以考虑.
图3RI数据Q-Q图
RIQ-Qplot
图4RI数据盒形图
RIboxplot
Fig.3Fig.4
3
3.1
相关性分析
简单相关分析
以0.01为特别显著性水平**;0.05为显著性水平*.RI用量与血糖、年龄、饮食量、尿糖有特别显著的相
-0.151,0.144,0.148;RI用量与体重、肌酐有显著的相关关系,相关系数分别关关系,相关系数分别为0.665,为-0.104,0.134.3.2偏相关分析
同上显著性水平,当其它变量受控制不变时,观察RI用量分别与这些变量的关系,发现RI用量仅与血糖有显著的相关关系,相关系数为0.623,其次与年龄、身高、尿蛋白、性别、感染、尿糖有一定的相关关系,相关系数分别为-0.077,0.072,-0.065,-0.063,0.053,0.046;RI用量与体重、肌酐、运动量、饮食量的相关关系较弱,相关系数分别为-0.032,0.024,-0.020,0.008.
由相关性分析知,RI用量与诸自变量之间存在线性关系,但其中有些结果不太符合实际,如尿蛋白、尿糖、体重对RI影响偏弱.
通过上述分析本研究符合线性回归的条件,考虑到自变量间的多重共线性,以下分别采取不同的方法对比选取自变量进行线性回归,确定回归模型.
4前进法回归分析的应用
利用前进法,按照F检验值最大优先进入的原则,让自变量逐个进入回归模型,并接受检验.考虑到强影响点,第55号及237号观测,并且检查数据,记录和录入没有出现错误.为此下面在删除这两个强影响又做了一次回归,3次结果如表1所示.点后继续用前进法做回归分析,同样,在删除第2号及223号观测后,得到修正的回归模型.
2010年9月白秀琴等:多元回归分析方法应用实证分析与比较
表1
Tab.1
-1085-
前进法回归分析表
标准回归系数0.6650.710-0.0890.719
Forwardregressionanalysistable
F值280.877170.518
回归系数20.3411.46517.8511.742-0.91815.6401.849
t值16.31316.75913.53018.459-2.30111.98419.332
p值0.0010.0010.0010.0010.0220.0010.001
分类123
R0.6650.702
R20.4420.493
R2adj0.4410.490
0.7190.5160.515373.719
4.1回归方程
RI用量与血糖及尿蛋白的回归方程为
y=15.640+1.849x,
y=0.719x,
标准化回归方程为
其中x为血糖值.4.2
回归方程及系数的检验1)回归模型的假设检验:从表1可以看出,F=373.719对应P值为P
2)偏回归系数的假设检验:表1中血糖系数t检验的结果,t值等于19.332,P值为P
3)衡量线性回归模型优劣的标准:表1中复相关系数R=0.719,决定系数为R2=0.516,调整的决定系数为R2在用样本量和模型中自变量的个数进行调整后,在RI用量的变差中,模型中自变量有adj=0.515.表明:51.5%的解释力,比前两次回归关系显著.但从医学上解释方程的意义为,血糖每增大一个标准差6.14mmol/L,可使RI用量增加0.719个标准差13.51U/d.
从残差图和Q-Q图(略)看,误差项近似正态分布且同方差,符合线性回归的条件.
5后退法回归分析的应用
利用后退法,首先由全部自变量建立一个全回归方程,然后按照F检验值最小优先被剔除的原则,将对
RI用量影响不重要的自变量逐个剔除回归模型,并接受检验.考虑到强影响点,第55、237及238号观测,并且检查数据,记录和录入没有出现错误,但检查这两条记录数据不合常规.为此下面在删除这3个强影响点后继续用后退法做回归分析,同样,在删除第2号观测后,又做了一次回归,3次结果如下表2.得到修正的回归模型.
表2
Tab.2
分类12
R0.6500.698
R20.4230.488
后退法回归分析表
标准回归系数0.6500.706-0.090-0.0850.110-0.0990.7200.087
Backwardregressionanalysistable
F值259.574166.730
回归系数20.7691.43617.9971.729-0.929-15.554-0.0870.253-0.1201.8542.764
t值16.38216.11113.62118.256-2.333-0.886-2.2362.182-2.00119.2412.175
p值0.0010.0010.0010.0010.0200.3760.0260.0300.0460.0000.030
R2adj0.4210.485
30.7290.5310.52478.326
5.1
回归方程
RI用量与血糖及尿蛋白的回归方程为
y=-15.554-0.087x1+0.253x2-0.120x3+1.854x4+2.764x5,
-1086-标准化回归方程为
河南科学
第28卷第9期
y=-0.085x1+0.110x2-0.099x3+0.720x4+0.087x5,
其中:x1为年龄值;x2为身高值;x3为体重值;x4为血糖值;x5为感染值.5.2回归方程及系数的检验
1)回归模型的假设检验:从表2可以看出,F=78.326,对应P值为P
2)偏回归系数的假设检验:表2中,年龄、身高、体重、血糖及感染系数t检验的结果,t值分别等于-0.886,-2.236,2.182,-2.001,19.241,2.175,各自P值除常数项外,其余0.026,0.030,0.046,0.000,0.030均小于0.05,在0.05显著水平下,拒绝原假设,该各偏回归系数均不为0,且血糖对RI的用量有特别显著影响.3)衡量线性回归模型优劣的标准:复相关系数R=0.729,决定系数为R2=0.531,调整的决定系数为R2adj=0.524,表明:在用样本量和模型中自变量的个数进行调整后,在RI用量的变差中,模型中自变量有52.4%的解释力.
5.3多重共线性的诊断
虽然就方差扩大因子来说,某自变量x(2,3,4,5),对其余自变量的容忍度Tolj=1-R2各jj=1,j不小于0.1,自变量的方差扩大因子都不超过10,看不出多重共线的特征,但由特征根判别法,第4,5,6个特征根均趋近于0,且对应的条件指数均大于10,尤其第6个条件指数125.954很大,结合回归模型中各项的变异被各主身高、体重之间存在严重的的复共线性.为此以下采用逐步回归法筛选存成分所能解释的比例,知常数项、
在多重共线性的自变量之中对反映变量解释较大的的变量,而解释较小的变量被排除在模型外.
6逐步回归分析法的应用
利用逐步回归分析法,将变量一个一个地引入,每引入一个自变量,对已选入的变量进行逐个检验,当
原引入变量由于后面变量引入而变得不再显著时,要将其删除.引入(剔除)变量应按照偏F检验值最大(最小)优先被引入(剔除)的原则,直到既无显著变量被引入,又无不显著的变量被剔除为止.在逐步回归的过程中,发现有强影响点,第55和237号观测,并且检查数据,记录和录入没有出现错误,但检查这两条记录数据不合常规.为此下面在删除这3个强影响点后继续用此法做回归分析,同样,在删除第2和223号观测后,又做了一次回归,3次结果如下表3.得到修正的回归模型.
表3
Tab.3
分类12
R0.6650.702
R20.4420.493
R2adj0.4410.490
逐步回归法回归分析表
Stepwiseregressionanalysistable
F值280.877170.518
回归系数20.341
1.46517.8511.742-0.91817.3611.779-0.832
标准回归系数0.6650.710-0.0890.717-0.08
t值16.31316.75913.53018.459-2.30113.19818.784-2.105
p值0.0000.0000.0000.0000.0220.0000.0000.036
30.7090.5030.50176.681
6.1回归方程
RI用量与血糖及尿蛋白的回归方程为y=17.361+1.779x1-0.832x2,标准化回归方程为y=0.717x1-0.08x2,其中:x1为血糖值;x2为尿蛋白值.6.2回归方程及系数的检验
1)回归模型的假设检验:从表3可以看出,F=176.681,对应P值为P
2)偏回归系数的假设检验:表3中,血糖及尿蛋白系数t检验的结果,t值分别等于18.784,-2.105,各自P值分别为P
2010年9月白秀琴等:多元回归分析方法应用实证分析与比较
-1087-
尿蛋白对RI的用量有显著影响.
3)衡量线性回归模型优劣的标准:复相关系数为R=0.709,决定系数为R2=0.503,调整的决定系数为R2adj=0.50,表明在用样本量和模型中自变量的个数进行调整后,在RI用量的变差中,模型中自变量有50%的解
血糖每增大一个标准差6.14mmol/L,可使RI用量增加0.717个标准释力.但从医学上解释方程的意义为,
尿蛋白每增大一个标准差1.28mmol/L,可使RI用量减少0.08个标准差13.51U/d.差13.51U/d,
6.3多重共线性的诊断及异方差性判断
某自变量x(2)对另一自变量的容忍度Tolj=1-R2不小于0.1,各自变量的方差扩大因子都不超jj=1,j,过10,且由特征根判别法知,血糖与尿蛋白之间不存在较强的多重共线性.从残差图和Q-Q图看(略),误差项近似正态分布且同方差,符合线性回归的条件.
7变量的选择
临床上认为RI用量影响因素分析问题,是一个多因素分析问题,然而全部因素参与,计算较麻烦,不适合紧急状态下用药剂量的确定.由于自变量之间存在多重共线性,根据AIC准则计算公式
AIC=nln
SSE
+2p,n
即两个自变量参与回归时,尤其在血糖及尿蛋白参与回归时,AIC最小,最小值为1562.9.结可得出p=3,
合临床,我们选择RI用量与血糖及尿蛋白之间的线性回归.
8比较研究结果
对比上述3种回归法研究结果,前进法、后退法、逐步回归法确定的模型调整相关系数分别为R2adj=0.515,0.524,0.50,在用样本量和模型中自变量的个数进行调整后,在RI用量的变差中,可由模型中自变量解释的比例依次增加;从5.1节模型2看结果和6.1节模型一致,但回归系数不同,相关系数较低;根据AIC准则选择变量结果与6.1节模型保持一致.因此逐步回归法综合了前进法和后退法的特点,更好地突出了对因变量RI用量的重要影响因素.为此选取6.1节模型为研究结果,RI用量与血糖的回归方程及标准化回归方程分别为
y=17.361+1.779x1-0.832x2,y=0.717x1-0.08x2,
其中:x1为血糖值;x2为尿蛋白值.
具体可按尿蛋白分类,讨论RI用量与血糖的回归模型.
①尿蛋白为0模型:RI用量与血糖回归方程及标准化回归方程分别为
y=17.361+1.779x,y=0.717x;②尿蛋白为0.5模型:RI用量与血糖回归方程及标准化回归方程分别为
y=16.945+1.779x,y=-0.04+0.717x;
③尿蛋白为1模型:RI用量与血糖回归方程及标准化回归方程分别为y=16.529+1.779x,y=-0.08+0.717x;
④尿蛋白为2模型:RI用量与血糖回归方程及标准化回归方程分别为y=15.697+1.779x,y=-0.16+0.717x;
⑤尿蛋白为3模型:RI用量与血糖回归方程及标准化回归方程分别为
y=14.865+1.779x,y=-0.24+0.717x;
⑥尿蛋白为4模型:RI用量与血糖回归方程及标准化回归方程分别为y=14.033+1.779x,y=-0.332+0.717x.
上述结果表明,在血糖量相同的条件下,RI用量会随着尿蛋白的加号个数的增多而减少,每增加一个加
号,RI用量减少0.717个RI用量单位.该结论在临床上也有比较好的解释,因为血糖是影响胰岛素用量的最重要参考因素,其次尿蛋白呈阳性是糖尿病并发肾病的最早标志,发生糖尿病并发肾病后,病人的肾功能变化致体内胰岛素代谢减慢,故胰岛素用量相应减少.
-1088-参考文献:
河南科学
第28卷第9期
[1]廖利珍,廖二元,武汉文.糖尿病病人胰岛素用量的影响因素[J].湖南医学杂志,1995,12(2):89-90.[2]刘新民.实用内分泌学[M].北京:人民军医出版社,1986:173.
[3]吴国富,安万福,刘景海.实用数据分析方法[M].北京:中国统计出版社,1992:7-9.[4]张文彤.Spss统计分析高级教程[M].北京:高等教育出版社,2004:91-116,213-289.
[5]陈桂明,戚红雨,潘伟.Matlab数理统计[M].北京:科学出版社,2002:119-122,125-130,189-208.[6]王学仁,王松桂.实用多元统计分析[M].上海:上海科学技术出版社,1984:6-9,270-416.
[7]HoaglinCD,MostellerF,TukeyWJohn.UnderstandingRobustAndExploratoryDataAnalysis[M].陈忠琏,郭德媛,译.北京:
中国统计出版社,1998:1-133,221-294.
[8]何晓群.实用回归分析[M].北京:高等教育出版社,2008:65-233.
[9]贾俊平,何晓群,金勇进.统计学[M].北京:中国人民民大学出版社,2007:352-377.[10]梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2008:38-113.
AppliedComparisonofMultipleRegressionAnalysisinthePractical
BaiXiuqin1,LiRuige2
(1.PingdingshanIndustrialCollegeofTechnology,Pingdingshan467001,HenanChina;
2.DepartmentofAppliedMathematics,NanyangInstituteofTechnology,Nanyang473006,HenanChina)
Abstract:UsingMultiplelinearregressionanalysistheoryinthemultivariatestatisticalanalysis.Firstly,toproceedcorrelationanalysisbythedataintheclinicalworkandconcludethecorrelationrelationsbetweenthefactors,secondly,adobtforward,backwardandstepwiseregressionanalysistoexplorethelinearrelationshipsbetweenpreliminaryinsulindosageaboutdiabetesmellituspatientsanditseffectfactors.Accordingtotheadjustedcorrelationcoefficients,AICcriterionetc.Theoptimalappliedregressionmodelsbetweentheinsulindosageanditsmajorinfluencefactors,bloodsugarandurinaryproteinwereobtained.Thestudygivesmathematicalmodelandsomeguidetoclinictreatment.
Keywords:multipleregressionanalysis;testofnormality;correlationanalysis;forwardregression;backwardregression;stepwiseregression