高中数学 统计案例
二、重难点知识归纳
1.回归分析的基本思想及其初步应用
(1)回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)线性回归模型与一次函数的区别
线性回归模型方程为y=bx+a +e ,e 称为随机误差(或为残差变量),在实际问题中,线性回归模型适用的范围要比一次函数大得多.当残差变量恒等于0时,线性回归模型就变为一次函数模型.因此一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
(3)总偏差平方和、残差平方和、回归平方和
偏差平方和分解公式:.
其中称为总偏差平方和,称为回归平方和,称为残差平方和. 偏差平方和分解公式也可以表示为:
总的偏差平方和=回归平方和+残差平方和.
相关指数公式:,又可表示为.
(4)残差分析
利用残差图进行残差分析的具体步骤如下:
①计算每组观测数据的残差,即残差等于观测值减预测值.
②画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量x 、或因变量的预测值等,残差图是一种散点图.
③分析残差图.
④找异常值.根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离横坐标轴的点,如果存在远离坐标轴的点,就要研究它出现的原因,如是否在数据收集和录入中发生了错误,如果有错误,改正后重新建立回归模型.
2.独立性检验的基本思想及其初步应用
(1)分类变量与定量变量
分类变量:也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别.
定量变量:定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义.
(2)列联表
列联表一般为两个以上分类变量的汇总统计表,书中仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2的列联表.
(3)应用假设检验方法解决实际问题
把假设检验的基本思想具体化到独立性检验中,就可以通过随机变量把两个分类变量独立性检验的基本思想表述为:当
否则,就认为没有充分的证据显示这两个变量有关系.
三、典型例题剖析 很大时,就认为所涉及的两个分类变量有关系;
例1.一位母亲记录了儿子3~9
岁的身高,数据如下表.由此建立的身高与年龄的回归模型为
.用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )
A .身高一定是B .身高在145.83 cm以上
C .身高在145.83 cm左右
D .身高在145.83 cm以下
例2.若有一组数据的总偏差平方和为120,相关指数为0.6,则回归平方和为( )
A .60 B .72
C .48 D .120
例3.若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bxi +a+ei (i=1,2,…,n),若e i 恒为0,则R 2为__________. 例4.某厂为了研究生产率与废品率之间的关系,记录了7天的数据,试根据以下数据建立废品率与生产
例543人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表;
(2)判断性别与休闲方式是否有关系.
答案1. 解析:回归方程得出的并不是其精确身高,而只是其预报身高.一般身高
还要受到随机误差的影响.故并不能确定身高的具体数据或范围,只能根据回归模型得
到其大约数值.
故选C.
2. 解析:根据公式有,则可得残差平方和=48,
又总的偏差平方和=回归平方和+残差平方和,
故可得回归平方和=120-48=72.
故选B.
3. 解析:e i 恒为0,则说明残差变量为0,
那么有残差平方和为0,
则有=1.
解析:用y 表示废品率,用x 表示生产率
那么废品率和生产率的关系可以用以下的线性回归模型来表示:
y=bx+a +e
利用最小二乘法公式: 那么可算得
则线性回归方程为
解析:(1)2×2的列联表为
. ,,
(2)假设“休闲方式与性别无关”,计算
因为. ,所以有理由认为假设“休闲方式与性别无关是”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”.