使用地理加权回归模型探索空间异质性的R包
使用地理用加权模型探索空间异质性的R 包
地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics), 地理加权主成分分析(GW principal comp- onents analysis,即GW PCA), 地理加权回归(GW regression), 地理加权判别分析(GW discriminant analysis), 其中一些功能有基本和稳健形式之分。
The GWmodelpackage comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP.
运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。
六个核函数的介绍:
Global Model(均值核函数): wij=1
Gaussian(高斯核函数) :wij=exp (−() 2)
Exponential:wij=exp (− dij b1dij2b
1 if dij
0 otℎerwise
0 otℎerwise
一、GW 汇总统计(DubVoter)
GW 汇总统计(GW summary statistics)包括基本的 GW 汇总统 dij 323(() ) if dij bdij22(() if dij b
计和稳健的 GW 汇总统计.
基本的 GW 汇总统计包括GW 均值,GW 标准差, GW measure of skew和GW 皮尔逊相关系数.
稳健的 GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW 不平衡分位数)
GW 标准差反映一个数据的离散程度。
GW 四分位数间距可反映变异程度的大小。
由这两幅图可以看出在中部和西部四分位数间距和标准差值比较大,第一幅图比第二幅图更显著一些。
这两幅图是用不同的核函数说明自变量LARent 和因变量
GenEl2004之间的相关关系,两幅图都表明出现最高的相关性的地方是中部和西南部,且都表明LARen 越高,投票人数越少。
这两幅图表明了LARent 和Unempl 之间的相关关系,由稳健的GW 汇总统计模型得出的第一幅图可知两者相关性最强的是在西南区域。而且可以看出第一幅图的效果比第二幅图好。
二、GW 主成分分析
主成分分析是多元数据分析的一个主要方法。
GW 主成分分析包括GW PCA和稳健的GW PCA.这两者之间最大的区别就是稳健的GW PCA可以降低异常值对输出结果的影响,使用最小的方差行列式估计量(MCD 估计量)去估计每一个当地的协方差矩阵。
这两幅图表明前三个主成分总体方差的百分比的变化(即前3个主成分的贡献率的变化),由两幅图图可看出更高的比例出现在南部,低的比例出现在北部。
这两幅图对主成分一中各变量对主成分的影响,第一幅图各变量对主成分一的影响表现的不是很明显,第二幅图表明Age45-64(黄色) 对主成分一的影响最大。
3.GW 回归
GW 回归是探索因变量和自变量之间的空间变化关系,其也分为基本的GW 回归和稳健的GW 回归。
基本的GW 回归是将通常的回归方法用于空间当中,最重要的是所有回归系数的估计都要加权,加权用到文章第三节提到的核函数。
这幅图是采用逐步回归,因变量处于图的中间位置,自变量用不同的颜色和形状表示,由这幅图可看出Unempl 这个变量被一直选入,第2个进入的变量是Age25-44, 经过36步回归,最后一个进入的变量是LowEdu.
此图说明随着AICc 值的降低,模型中进入的变量越来越多,直到最后成为全模型。
此图要解释的是基本的GW 回归和稳健的GW 回归对LowEdu 的回归系数的估计,解释有待加强。
4.GW 回归和解决共线性
当自变量存在多重共线性时,用普通回归得到的回归参数估计值很不稳定,回归系数的方差会随着多重共线性强度的增加而加速增长,导致回归方程过度显著或回归系数得不到合理的解释。
多重共线性的诊断方法:
(1)通过相关系数直观简单判断(预测变量对的相关系数大于0.8,认为其存在多重共线性);
(2)方差扩大因子法(VIFs )(当VIFs>10,就说明某一自变量与其余自变量之间有严重的多重共线性);
(3)方差分解比例(VDPs)(VDPs 大于0.5就认为存在多重共线性);
(4)条件数法(此值大于30就存在较强的多重共线性)(当矩阵XX ’有一个特征根近似为0时,设计矩阵X 的列向量间必存在多重共线性,并且XX ’有多少个特征根近似为0,X 就有多少个多重共线性关系)。
解决多重共线性一般用岭回归,岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
当地补偿的GW 回归就是基于岭回归的原理。
判断多重共线性是否存在的条件数和岭回归中各地的岭参数。
5. 空间预测GW 回归
在位置s 处空间回归预测的可以用下面公示表示:
(s) y GWR s =x s Tβ
(s) 分别是自变量向量的值和参数估计量。 其中x s 和β
两个变量之间的相关系数图和房价的预测。