线性回归分析和方差分析报告
线性回归分析和方差分析报告
信计12 徐文豪 2110902039
本报告以教材第二章课后习题2.4和第三章课后习题3.6为主体,给出对应的解答、sas代码和结果分析。
2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数X1(单位:前人)以及他们人均月收入X2(单位:元)之间的关系,在某个月中对15个城市做了调查,得上述各量的观测值如下表所示:
162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605
假设Y与X1,X2之间满足线性回归关系
yi=β0+β1xi1+β2xi2+εi,i=1,2,,15 其中εi(i=1,2,15)独立通分布于N(0,σ2)。
(1)求回归系数β0,β1,β2的最小二乘估计和误差方差σ2的估计,写出回归方程并对回归系数作解释。
解:首先将数据导入sas,sas语句如下:
data sale;
input y x1 x2; cards;
162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; run;
然后调用reg过程,sas语句如下:
proc reg data=sale; model y=x1 x2; run;
运行结果如下:
由此得到β0,β1,β2的最小二乘估计分别为3.45261,0.496,0.0092,σ2=4.7403,回归方程为
y=3.45261+0.496x1+0.0092x2
β1显示当人均月收入固定时,使用化妆品的人数上升一人,月销售量增加0.496个单位;β2显示当使用化妆品的人数固定时,人均月收入增加一元,月销售量增加0.0092个单位。
(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方R2的值并解释其意义。
解:由(1)的结果,方差分析表如下:
由结果可知,线性回归关系显著性检验的p值小于0.001,则有线性回归关系显著。
该sas语句同时也得到了复相关系数R2的值为0.9989,由于R2越大,线性函数值占Y的比率越大,即Y与X1,X2,,Xp-1的线性关系越显著,因而结果显示月销售量与使用化妆品的人数及人均月收入有明显的线性关系。
(3)分别求出β1和β2置信度为95%的置信区间。 解:由公式βk±t
^
1-
α2
(n-p)s(βk),n=15,p=3,要求出β1和β2的置信区间,首先
^
应该求出t0.975(12),使用tinv函数,sas语句如下:
data get_p; y=tinv(0.975,12); run;
proc print data
=get_p;
run;
得到t0.975(12)=2.179。
又由(1)的结果得到参数估计表如下:
综合得到:
对β1:0.496±2.179⨯0.00605,即置信区间为(0.4796,0.5124)。
对β2:0.0092±2.719⨯0.000968,即置信区间为(0.006568,0.01183)。
(4)对α=0.05,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设检验方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著。 解:由(3)得到的参数估计表得到假设β1=0和β2=0检验的p值均小于0.0001,因而X1和X2对Y的影响显著。
为检验X1和X2的交叉项对Y的影响,先构造全模型:
Y=β0+β1X1+β2X2+β3X1X2 利用观测数据拟合该模型得到
SSE(F)=56.72083,fF=11
又由(2)得到的方差分析表得到
SSE(R)=56.88357,fR=12
由此得到检验统计量的观测值为
(56.88357-56.72083)/(12-11)F0==0.0344
56.72083/12
检验p值为
p0=PH0(F≥F0)=P(F(1,12)≥0.0344)=0.85596
p0远大于一般显著性水平,因此认为X1,X2的交叉项对Y的影响是不显著的,即模型中没有必要引入交叉项。
(5)该公司欲在一个适宜使用该化妆品的人数x01=220,人均月收入x02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间。 解:点估计可直接根据回归方程y=3.45261+0.496x1+0.0092x2给出,得到估计值y0=135.5726。
而置信度为0.95的置信区间为
y0±t0.975 ^
^
其中y0=135.2726,t0.975(12)=2.719=2.17722,X为设计矩阵,解得
置信区间为(128.7703,141.7749)。
(6)求Y的拟合值,残差及学生化残差。根据学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?做出各种残差图,分析模型有关假定的合理性。
解:根据回归方程,可直接得到Y的拟合值,结果如下:
在reg
过程中由sas语句model y=x1 x2/r得到残差和学生化残差,结果如下:
10
=0.667(≈0.68)在区间(-1,1)内,有15
1315
=0.867(≈0.87)在区间(-1.5,1.5)内,有=1(≈0.95)在区间(-2,2)内,由1515
此可见学生化残差落在上述各区间的频率与N(0,1)分布的相应概率相差均不大,因此对所给数据没有理由拒绝模型误差服从正态分布的假定。
做频率检验得到,学生化残差中有
(i)(i)系数为0.99363,非常接近1,由此我们认为模型中误差项正态分布的假定是非
常合理的。
以因变量Y为横坐标的残差图如下图所示:
以自变量x1为横坐标的残差图如下图所示:
以自变量x2为横坐标的残差图如下图所示:
时序残差图如下图所示:
以上四个残差图,绘点均在大致在一带状区域内且不呈现任何明显的趋势,再一次说明了模型中误差项正态分布的假定是非常合理的。
3.6 为研究两种形式的铁离子(Fe3+和Fe2+)在不同剂量下在动物体内的存留量是否有显著不同,进行了如下试验:将108只小白鼠随机地分为6组,每组均为18只,其中3组分别给以三种不同剂量(高剂量,中剂量和低剂量)的三价铁Fe3+;另3组给以相应剂量的二价铁Fe2+。经过一段时间后,测量各小白鼠体内两种铁离子的残留量关于最初服用剂量的百分比,其数据如下所示:
0.7100 2.2000 2.2500 2.2000 4.0400 2.7100 1.6600 2.9300 3.9300 2.6900 4.1600 5.4300 2.0100 3.0800 5.0800 3.5400 4.4200 6.3800 2.1600 3.4900 5.8200 3.7500 4.9300 6.3800 2.4200 4.1100 5.8400 3.8300 5.4900 8.3200 2.4200 4.9500 6.8900 4.0800 5.7700 9.0400 2.5600 5.1600 8.5000 4.2700 5.8600 9.5600 2.6000 5.5400 8.5600 4.5300 6.2800 10.0100 3.3100 5.6800 9.4400 5.3200 6.9700 10.0800 3.6400 6.2500 10.5200 6.1800 7.0600 10.6200 3.7400 7.2500 13.4600 6.2200 7.7800 13.8000 3.7400 7.9000 13.5700 6.3300 9.2300 15.9900 4.3900 8.8500 14.7600 6.9700 9.3400 17.9000 4.5000 11.9600 16.4100 6.9700 9.9100 18.2500 5.0700 15.5400 16.9600 7.5200 13.4600 19.3200 5.2600 15.8900 17.5600 8.3600 18.4000 19.8700 8.1500 18.3000 22.8200 11.6500 23.8900 21.6000 8.2400 18.5900 29.1300 12.4500 26.3900 22.2500
(1)由SAS系统proc anova过程的“means”语句(或其他方法)求出各组合水平上的观测值的样本均值和标准差。各水平组合的标准差(从而样本方差)差异是否明显?你认为假定误差的等方差性是否合理。
解:将离子因素令为变量element,将剂量因素令为变量dose,将残留量令为变量rest,存入数据集后调用anova过程,SAS语句如下:
proc anova data=origin; class element dose;
model rest=element dose element*dose; means element dose;
run;
运行结果如下:
从图中可以看出各水平组合的标准差差异明显,因而假定误差的等方差性不合理。
(2)对观测数据作自然对数变换,再进行(1)中的分析。此时,各组合水平上的标准差是否一致。
解:用log函数对rest作对数变换,sas语句如下;
data origin_log; set origin;
rest_log=log(rest); drop rest; run;
对变换后的数据,调用anova过程,同(1)可得:
此时,各组合水平的标准差已经趋于抑制了。 (3)对变换后的数据进行方差分析,建立方差分析表。在显著性水平α=0.05下,因素的交互效应是否显著?各因素的影响是否显著? 解:调用anova过程,得到方差解析表如下:
从结果知道,交互效应的检验p值为0.3143,对显著性水平α=0.05,交互效应不显著,此时可直接利用各因素的检验p值分析其对因变量的影响。又element和dose的p值均小于0.05,因而这两因素的影响显著。
(4)根据(3)中的分析,分别求各因素在不同水平上的均值的置信度为95%置信区间以及两两均值之差的置信度不小于95%的Bonferroni同时置信区间,并解释其结果。
解:调用anova过程,且在
means
中选择
/t clm,得到各因素在不同水平上的置
信度为95%置信区间,结果如下:
调用anova过程,且在means中选择/bon cldiff,得到各因素两两均值之差的置信度不小于95%的Bonferroni同时置信区间,结果如下:
由此结果知,在至少95%的置信度下可断言在剂量一定的情况下,Fe3+在人体内的存留量高于Fe2+;而在元素相同的情况下,高剂量的存留量高于中剂量,中剂量的存留量高于低剂量。