逻辑回归模型分析见解

12-27

1.逻辑回归模型 1.1逻辑回归模型

考虑具有p个独立变量的向量

,设条件概率

为根据观测

量相对于某事件发生的概率。逻辑回归模型可表示为

（1.1）

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

其中

。如果含有名义变量，则将其变为dummy变量。

一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有

（1.2）

定义不发生事件的条件概率为

（1.3）

那么，事件发生与事件不发生的概率之比为

（1.4）

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0

0。对odds取对数，即得到线性函数，

（1.5）

1.2极大似然函数

假设有n个观测样本，观测值分别为

设

为给定条件下

得到的概率。在同样条件下得到的条件概率为。于是，

得到一个观测值的概率为

（1.6）

因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。

（1.7）

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数对上述函数求对数

（1.8）

上式称为对数似然函数。为了估计能使对此函数求导，得到p+1个似然方程。

（1.9）

，j=1,2,..,p.

上式称为似然方程。为了解上述非线性方程，应用牛顿－拉斐森(Newton-Raphson)方法进行迭代求解。

1.3 牛顿－拉斐森迭代法对

求二阶偏导数，即Hessian矩阵为

取得最大的参数

的值。

，使上式取得最大值。

（1.10）

如果写成矩阵形式，以Ｈ表示Hessian矩阵，Ｘ表示

（1.11）

令

（1.12）

则。再令然方程的矩阵形式。得牛顿迭代法的形式为

（1.13）

注意到上式中矩阵Ｈ为对称正定的，求解对Ｈ进行cholesky分解。

(注：前一个矩阵需转置)，即似

即为求解线性方程ＨＸ＝Ｕ中的矩阵Ｘ。

最大似然估计的渐近方差（asymptotic variance）和协方差(covariance)可以由信息矩阵（information matrix）的逆矩阵估计出来。而信息矩阵实际上是

二阶导数的负值，

表示为。估计值的方差和协方差表示为

和

，也就是说，估计值的

方差为矩阵Ｉ的逆矩阵的对角线上的值，而估计值

值。然而在多数情况，我们将使用估计值

的协方差为除了对角线以外的

的标准方差，表示为

，for j=0,1,2,…,p （1.14）

２.显著性检验

下面讨论在逻辑回归模型中自变量＝0（表示自变量可能性依赖于2.1 Wald test

对回归系数进行显著性检验时，通常使用Wald检验，其公式为

（2.1）

是否与反应变量显著相关的显著性检验。零假设

：

对事件发生可能性无影响作用）。如果零假设被拒绝，说明事件发生

的变化。

其中

, 为的标准误差。这个单变量Wald统计量服从自由度等于１的

：

＝0,计算统计量

分布。

如果需要检验假设

（2.2）

其中，

为去掉

所在的行和列的估计值，相应地，

为去掉

所在的行和列的标

准误差。这里，Wald统计量服从自由度等于p的

（2.3）

分布。如果将上式写成矩阵形式，有

矩阵Ｑ是第一列为零的一常数矩阵。例如，如果检验，则。

然而当回归系数的绝对值很大时，这一系数的估计标准误就会膨胀，于是会导致Wald统计值变得很小，以致第二类错误的概率增加。也就是说，在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时，就不再用Wald统计值来检验零假设，而应该使用似然比检验来代替。

2.2 似然比（Likelihood ratio test）检验在一个模型里面，含有变量

与不含变量

的对数似然值乘以-2的结果之差，服从

分布。这一检验统计量称为似然比(likelihood ratio)，用式子表示为

（2.4）

计算似然值采用公式（1.8）。倘若需要检验假设

：

＝0,计算统计量

（2.5）

上式中，

表示

＝0的观测值的个数，而

表示

＝１的观测值的个数，那么n就表示

表示

所有观测值的个数了。实际上，上式的右端的右半部分只含有

的似然值。统计量G服从自由度为p的

分布

2.3 Score检验在零假设计量的公式为

：

＝0下，设参数的估计值为

，即对应的

＝0。计算Score统

（2.6）

上式中，在

表示在

＝0下的对数似然函数（1.9）的一价偏导数值，而

表示

＝0下的对数似然函数（1.9）的二价偏导数值。Score统计量服从自由度等于１的

分布。

2.4 模型拟合信息

模型建立后，考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。

(1)-2LogLikelihood

(2.7)

(2) Akaike信息准则（Akaike Information Criterion,简写为AIC）

(2.8)

其中Ｋ为模型中自变量的数目，Ｓ为反应变量类别总数减１，对于逻辑回归有S=2-1=1。-2LogL的值域为0至，其值越小说明拟合越好。当模型中的参数数量越大时，似然值也就越大，-2LogL就变小。因此，将２(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下，较小的AIC值表示拟合模型较好。 (3)Schwarz准则

这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为

(2.9)

其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时，一个模型的AIC或SC值越小说明模型拟合越好。 3.回归系数解释 3.1发生比 odds=[p/(1-p)]

，即事件发生的概率与不发生的概率之比。而发生

比率(odds ration),即(1)连续自变量。对于自变量

，每增加一个单位，odds ration为

(3.1)

(2)二分类自变量的发生比率。变量的取值只能为0或1，称为dummy variable。当值为1，对于取值为0的发生比率为

取

(3.2)

亦即对应系数的幂。 (3)分类自变量的发生比率。

如果一个分类变量包括m个类别，需要建立的dummy variable的个数为m-1,所省略的那个类别称作参照类(reference category)。设dummy variable为对于参照类，其发生比率为3.2 逻辑回归系数的置信区间对于置信度１-，参数

的100%（１-）的置信区间为

。

，其系数为

，

（3.3）

上式中，为与正态曲线下的临界Ｚ值（critical value）

, 为系数估计的标

准误差，较大时，

和

＝0.05水平的系数

（3.4）

两值便分别是置信区间的下限和上限。当样本

的95%置信区间为

4.变量选择

4.1前向选择（forward selection）：在截距模型的基础上，将符合所定显著水平的自变量一次一个地加入模型。具体选择程序如下

（1）常数（即截距）进入模型。

（2）根据公式（2.6）计算待进入模型变量的Score检验值，并得到相应的P值。（3）找出最小的p值，如果此p值小于显著性水平

,则此变量进入模型。如果此变量

是某个名义变量的单面化(dummy)变量，则此名义变量的其它单面化变理同时也进入模型。不然，表明没有变量可被选入模型。选择过程终止。（4）回到(2)继续下一次选择。

4.2 后向选择（backward selection）：在模型包括所有候选变量的基础上，将不符合保留要求显著水平的自变量一次一个地删除。具体选择程序如下 (1) 所有变量进入模型。

(2) 根据公式（2.1）计算所有变量的Wald检验值，并得到相应的p值。 (3) 找出其中最大的p值，如果此P值大于显著性水平名义变量的单面化变量，其最小p值大于显著性水平

，则此变量被剔除。对于某个，则此名义变量的其它单面化变

量也被删除。不然，表明没有变量可被剔除，选择过程终止。 (4) 回到(2)进行下一轮剔除。 4.3逐步回归(stepwise selection)

(1)基本思想：逐个引入自变量。每次引入对Ｙ影响最显著的自变量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从方程中剔除掉，最终得到的方程中既不漏掉对Ｙ影响显著的变量，又不包含对Ｙ影响不显著的变量。 (2)

筛选的步骤：首先给出引入变量的显著性水平按下图筛选变量。

和剔除变量的显著性水平

，然后

(3)逐步筛选法的基本步骤

逐步筛选变量的过程主要包括两个基本步骤：一是从不在方程中的变量考虑引入新变量的步骤；二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引入回归方程的自变量. ① 设仅有截距项的最大似然估计值为设有最小p值的变量为若

，且有

。对p个自变量每个分别计算Score检验值，

，对于单面化(dummy)变量，也如此。

，则此变量进入模型，不然停止。如果此变量是名义变量单面化(dummy)的变

量，则此名义变量的其它单面化变量也进入模型。其中② 为了确定当变量别与

为引入变量的显著性水平。

分

。设有最小p值

在模型中时其它p-1个变量也是否重要，将

进行拟合。对p-1个变量分别计算Score检验值，其p值设为

，且有

.若

的变量为，则进入下一步，不然停止。对于单面化

变量，其方式如同上步。 ③ 此步开始于模型中已含有变量

与

。注意到有可能在变量

与),

被引入后，变量

不

再重要。本步包括向后删除。根据(2.1)计算变量设

为具有最大p值的变量，即

=max(

的Wald检验值，和相应的p值。

.如果此p值大于

，则此

，

变量从模型中被删除，不然停止。对于名义变量，如果某个单面化变量的最小p值大于则此名义变量从模型中被删除。

④ 如此进行下去，每当向前选择一个变量进入后，都进行向后删除的检查。循环终止的条件是：所有的p个变量都进入模型中或者模型中的变量的p值小于的变量的p值大于

，不包含在模型中

。或者某个变量进入模型后，在下一步又被删除，形成循环。

与《逻辑回归模型分析见解》相关的范文

08-25 孝感市2014年中考调研考试数学质量分析报告

孝感市20XX年中考调研考试数学质量分析报告一、考查目的和命题的指导思想为了加强对教学质量的了解和质量跟踪，根据孝感市教研室的统一部署在全市九年级做调研质量检测，本次调研考试从为了准确地评价学生在新的数学课程方面的发展情况，促进我市课程改革工作继续深入地开展，注重学以致用，联系实际，培养学数学、做数学、用数学的意识，重视对学生学习数学知识与技能的评价和学生在数学思考能力和解决问题能力等方面发展 ...

07-23 武汉市2014初中数学考试试卷分析

武汉市20xx初中数学考试试卷分析本次考试是初中毕业学生的一次测试，又是对初中三年数学教学的一次终结性评价. 今年的试卷，试题既有亲和力，又新颖脱俗；既似曾相识，又改革创新；既注重基础，又突出能力；既背景新颖，又根植于课本；重视数学应用的考查，稳中求变，变中求新，导向明确。充分体现了义务教育的普及性、基础性和发展性，贯彻了《数学课程标准》提出“人人学有价值的数学，人人能获得必要的数学，不同的学生 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

10-05 2014年级应城市第二次联考数学质量分析报告

20xx届九年级应城市第二次联考数学质量分析报告应城市实验初级中学九年级数学组一、考查目的为了全面了解我市20xx届九年级教学情况，监控教学质量，强化复习备考工作，掌握第一手材料，便于各初中学校分析对比，总结成绩，寻找差距与不足，利于教研室做针对性的研究与指导，从而促进教学质量的提高。二、试题特点分析 20xx届九年级应城市第二次联考数学试卷具有以下特征： (1)切合学生实际，突出对数学 ...

04-10 高二数学下学期备课组教学计划

教学目标、教材的重点通过推理与证明的教学，进一步体会合情推理、演绎推理以及二者之间的联系与差异；体会数学证明的特点，了解数学证明的基本方法，包括直接证明的方法和间接证明的方法；感受逻辑证明在数学以及日常生活中的作用，养成言之有理、论证有据的习惯。通过计数原理的教学，使学生掌握两个基本计数原理、排列、组合、二项式定理及应用，会解决简单的计数问题；体验计数与现实生活的联系，充分体会两个基本计数原理 ...

02-10 电子商务毕业论文实施计划

电子商务毕业论文实施计划一、毕业论文的目的毕业论文是培养学生综合运用本专业基础理论，基本知识和基本技能分析解决实际问题能力的一个重要环节。它是本专业各个先修教学环节的继续深化和检验。通过毕业论文使学生在实际的电子商务系统管理与工程实际中，充分利用所学的专业知识，理论联系实际，独立开展工作，从而使学生具备从事电子商务工作的实际能力。毕业论文的目的具体有：培养学生综合运用所学知识和技能，解决电子 ...

05-08 四年级语文期末考试试卷分析

四年级语文期末考试试卷分析一、学生考试情况分析本次素质检测全乡四年级共有人参加考试，总分分，平均分分，及格率为 %，优秀率为 %。四年级语文试卷，无论是学生，还是教师都会感到试题变得更灵活了，更务实了，一切都更贴近学生的生活实际了。二、试题结构特点试卷共分三大部分：基础知识阅读习作。试卷难易程度基本适中，本张试卷突出显示了以人为本，回归本色语文，绿色语文的特点。以课本为载体，辐射相应 ...

12-16 教育管理理论学习体会

教育管理理论学习体会这几天外国教授一阵狂灌-传统的管理理论、人际关系的管理理论、系统的管理理论。大量的关于学习、教学、技术的思想需要自学和交流。特别是要用它分析案例、写出感想。不得已去思考它的本源，以便能把各种理论加以同化。人为什么要提出理论？理论是如何提出的？如何发展的？为什么会形成不同的流派？为什么我们感觉很有理的理论在现实中感觉很没用？很多有用的又感觉很不想理论？等等。一个人他发现事物A ...

09-09 毕业论文写作的基本要求

　　毕业论文无论在内容或形式上都有一定的要求，这也是考核论文成绩的基本依据之一。关于毕业论文写作的具体要求，在以后的有关章节中将作详细论述，这里先说说毕业论文写作的一些原则要求。　　一、坚持理论联系实际的原则　　撰写毕业论文必须坚持理论联系实际的原则。理论研究，特别是社会科学的研究必须为现实服务，为社会主义现代化建设服务，为两个文明建设服务。理论来源于实践，又反作用于实践。科学的理论对实践有指 ...

随机推荐

猜你喜欢

逻辑回归模型分析见解

·2013年-2014年第一学期期末总结会上的发言

·环氧树脂混凝土配比

·[经][孟子] 离娄章句下·第十节

·产品无失效数据的可靠性分析

·发生在自己身边的真人真事

·前途无量-读转动时光的伞有感雷承俊

·家乡的吉鸿昌纪念馆

·小学二年级数学特色寒假作业

·医学论文撰写的方法和步骤指导---医学论文写作

·二极管的作用

·园林局人才队伍建设经验交流材料

·驾校创新发展经验材料

·公路收费站收费班长述职报告

·无故旷课检讨书

·大学毕业典礼策划书

·冲动的表现

·杀气腾腾,豪言壮语-藏头诗

·导游英语论文

·[法律法规]国家税务总局关于税收缴款书加设机构标记的通知

·名律精解3---对方下落不明,我想离婚,该怎么办?