数据处理.描述性统计.多元回归分析.回归诊断
一、数据描述及数据处理 因变量:年度票房
因电影票房收入差距过大,为尽量消除异方差的影响,对因变量y 做取10为底的对数处理
自变量:
1、档期:0,1变量,分类:贺岁档,暑期档,黄金周档,平日档。设定虚拟变量,将对应类型赋值为1,不是则为0。设定贺岁档,暑期档,黄金周档这3个虚拟变量
2、技术效果:0,1变量,分类:3D ,IMAX ,2D 。设定虚拟变量,将对应类型赋值为1,不是则为0。设定3D ,IMAX 这2个虚拟变量
3、电影类型:0,1变量,分类:动作片、爱情片、喜剧片、科幻片、惊悚片、动画片,其他片。设定虚拟变量,将对应类型赋值为1,不是则为0。设定动作片、爱情片、喜剧片、科幻片、惊悚片、动画片这6个虚拟变量
4、电影评分:0-10分
5、CPI :2011年~2016年各年的城镇居民人均可支配收入
6、CPI 增幅
7、电影产地:0,1变量,国内(包括港澳台地区)取1,其他取0
二、描述性统计
使用条形图、直方图、箱线图等对数据进行表示
二、多元线性回归分析
1、最小二乘估计(OLS ) 并求出R 方,复相关系数R ,得出回归方程对原有数据的拟合程度
并进行回归方程显著性检验 F 检验
并进行回归系数显著性检验 T 检验
2、多重共线性检验
画出相关系数矩阵并对其进行显著性检验
3、逐步回归(挑选出对因变量有显著影响的自变量)变量选择,避免多重共线性,
注意引入自变量的显著性水平小于剔除自变量的显著性水平
进行F 检验和T 检验,看逐步回归后的模型是否整体通过F 检验,每个被选入的自变量通过T 检验
计算出选出的模型的R 方,看拟合程度是否足够高
4、主成分分析和因子分析 解决多重共线性
(1)主成分分析
计算各主成分的方差贡献率和累计方差贡献率,特征根和特征向量
画出主成分分析的载荷矩阵和碎石图
获取主成分得分
选择标准:主成分累计方差贡献率达到80%以上的前几个主成分
特征根小于1,不再选作主成分
(2)因子分析
画出协方差阵和相关系数矩阵
画出因子分析的载荷矩阵和碎石图
采用斜交旋转提取因子
绘制正交、斜交图形
得到因子得分
三、回归诊断
1、异方差检验(在逐步回归的过程中画残差图,观察是否存在异方差,如果存在,消除异方差)
因数据为截面数据,很容易出现异方差性
采用方法为残差图分析法
当回归模型满足所有假定,残差图上的点为随机的
修正方法:加权最小二乘法 权重的取值(残差绝对值的倒数)
2、自相关性检验(随机扰动项存在序列相关检验)
自相关指随机误差项之间存在自相关现象,指一个变量前后期数值之间的相关关系
采用方法为DW 检验法:检验随机扰动项具有一阶自回归的序列,若DW 值在2左右时,不存在自相关
修正方法:box-cox 变换或迭代法
3、异常值的诊断分析
(1)因变量异常
计算删除学生化残差,若绝对值大于3,则判定为异常值
(2)自变量异常
计算库克距离和中心化杠杆值
库克距离1,认为是异常点
若中心化杠杆值大于二倍的中心化杠杆值平均值,则认为异常点
4、残差正态性检验
绘制加权后的P-P 图和Q-Q 图
绘制加权后的残差直方图