5-最大似然估计
5.最大似然估计
5.1 ML估计
5.1.1 定义
已知随机样本
妨记
的联合密度
决定于有限维参数
,不
为给
表示给定样本下参数的函数,则称
定样本下参数的似然函数。
最大化似然函数的过程则称为参数
的ML估计。 假定似然函数
可分解如下:
其中,定于参数
。
;条件密度
决定于参数
,边缘密度
(5-1) 决
式(5-1)的设定隐含了两个最常用的假定:1. 各期的样本之间相互独立;2. 参数
和
是可分的。
当收集到的样本为截面数据时,样本独立的假定基本是合适的,但在时序分析中则可能不一定成立,此时式(5-1)中的第一个等号可转化为下式:
其中,
。
为了简化分析,在以下分析中,如无特别说明,假定式(5-1)的分解成立。 由式(5-1)可知,当我们关注的参数为
时,最大化似然函数
与
最大化函数
的结果是等价的。因此,在估计过程中通常只关注条件似
表示
然函数。在不引起误解的情况下,我们仍然使用符号
的似然函数。
参数
的ML估计
其中,参数空间
为参数
的定义域。
定义如下:
(5-2)
由于上式中存在连乘的形式,不方便于求解估计量,因此,大多数情况下,都先对上式进行对数变换再进行最优化。
(5-3)
与非线性回归的情况一样,在ML估计中也需要假定参数的可识别性与渐近可识别性,具体如下:
假定5-1(可识别假定):对参数空间
的任意
其中, 为参数
的真值。
这里需要说明一下,与LS估计不同,在ML估计的框架中,用于保证估计量性质的约束条件无法很清晰的划分为几类简单的假定。因此,更常用的做法是直接给出这些约束条件(正则条件),而不是作为假定提出。我们之所以单独列出可识别假定,是因为它是整个极值估计(非线性估计,ML估计,GMM估计)的核心假定,且在性质证明中能直接看出。
,有
5.1.2 性质
1.正则条件
在相当弱的正则条件(Regularity Conditions)下,ML估计量是一致的,在
稍强一些的假设下是渐近正态的。因此,如果一个ML估计量满足已知的正则条件,则不必要证明其一致性(直接证明某个ML估计量的一致性通常比较困难),也不必要推导其渐近分布。
假定如下的正则条件成立:
R1. 对几乎所有的
和任意的
,R2
.
的1至3阶导数存在且连续。
的1阶与2阶导数的期望存在。
小于某个具有有限期望的函数。
R3. 对于任意的
, 记
D1
. D2
.
,,其中
,则由以上正则条件有:
表示基于真实分布的期望。 。
证明: 由定义有,
,则有
证明完毕。
上述定义的向量
也称为梯度向量(Gradient Vector),
在
的基础上可定义如下得分向量(Score Vector):
同样的,在
则由上述的性质D1和D2有
(5-4)
的基础上也可定义如下Hessian矩阵:
式(5-5)也称为信息矩阵等价方程式。
(5-5)
2.一致性
ML估计
是真实参数
的一致估计量:
(5-6)
一个简单但不严格的证明(严格的证明还需要讨论积分的某些设定条件,但忽略这种讨论对于我们理解估计量一致性并无伤害)如下。
证明: 假定
存在,其中
为与n无关的常数向量。
因为对数函数为严格凸函数,根据Gensen不等式与可识别的假定,对任意的
有,又因为 所以有
。
, 。
由大数定律有,
注意到上式中极限的不等式不一定是严格的。 又由ML估计的定义有,
。
所以有,
由渐近可识别的假定可知,证明完毕。
。
,即式(5-6)成立。
3.渐近正态性
ML估计 其中,
渐近服从正态分布:
称为信息矩阵。
(5-7)
证明:
对数似然函数的一阶条件为:
则由中值定理,有
其中,所以有,
。
其中,由一致性可知
又
极限定理有,
可知有,
则由信息矩阵等价方程式有,证明完毕。
,则有
。
,且由Lindberg-Levy中心
。
。
。
4.渐近有效性
为了理解ML估计的渐近有效性,我们有必要先介绍一个重要的概念——Cramer-Rao下界(CRLB)。
CRLB是指任意无偏估计量的方差所能达到的最低水平,计算如下:
以下简单的证明CRLB的性质。
证明: 已知密度函数 估计量
,满足
,其得分函数为
,则有
。记
的
(5-8)
其中,
注意到,对任意矩阵
,满秩矩阵
,
有
所以有
当估计量为无偏估计时,即
,则有
。
,上式可化简为:
。
其中,CRLB为
证明完毕。
。
称为
的估计量的CRLB。当
时,
ML估计的渐近协方差阵达到
Cramer-Rao下界(CRLB),因此它是渐近有效的。这里需要说明一点,通常,水平参数的ML
估计是无偏估计,但方差参数的ML估计不是无偏估计,只是渐近无偏。
实际计算ML估计的渐近协方差时,可以有如下三种算法: 方法1:计算对数似然函数在
处的2阶导的期望,再以 代入。
(5-9)
方法2:直接计算对数似然函数在 处的2阶导。
方法3:(BHHH)
(5-11)
(5-10)
5.不变性
假定函数 定义可知有,
为 参数 的一一对应关系,由ML估计的目标函数的
,即该函数的ML估计等于参数ML估计的函数。这
一性质称为ML估计的不变性。当函数
不是一一对应的关系时,可通过人
为设定将其限定为一一对应的关系,因此,也可利用ML估计的不变性。
ML估计的不变性是一个有限样本性质,在实际应用中非常有用。一个常用的例子是,在估计正态分布的方差时,我们直接估计
而不是
。
5.1.3 例子
1.指数分布的ML估计
已知
密度函数为:
对应的对数似然函数为:
一阶条件为:
可解得参数
的ML估计为:
由样本的独立性,可知有
即ML估计
是参数
的一致估计。
(5-13)
(5-12)
为指数分布
,
,
。
生成的随机样本,
2.均匀分布的ML估计
已知
对应的对数似然函数为:
其中,
,
。
为均匀分布
生成的随机样本,。
(5-14)
易知此时目标函数的一阶导不可能等于0。由ML估计的定义可知,要最大化式(5-14)的对数似然函数
与
其中, 的累计分布函数为:
的最大值。所以, 和
,等价于在给定的数据下同时取
的ML估计可计算如下:
(5-15)
的最小值
即
收敛于某个取
。
的概率为1的分布。
所以有,
同样的, 的累计分布函数为:
其中,
则由上式可知有
或者,也可由
直接得到一致的结论。
。
为有限分布,所以有
。
3.Weibull分布的ML估计
已知
为Weibull分布生成的随机样本,其密度函数为:
,
对应的对数似然函数为:
一阶条件可计算如下:
,
,。
(5-16)
显然,由上述的一阶条件无法解出参数的解析解。因此,我们必须使用迭代的方法来获得参数的数值解。
记
,则Newton-Raphson迭代的迭代公式为:
(5-17)
其中,下标“(j)”表示迭代的步数;迭代公式的协方差阵也可使用其它两种计算方法。
对于这种似然函数的一阶条件没有解析解的情形,有时候也可以使用EM算法来计算参数的数值解。
4.非线性回归的ML估计
设定如下广义模型:
通过最小化目标函数
(5-18)
可获得参数的NLS估
计。但是,由于此时因变量中含有待估参数,NLS估计忽略了Jacoby行列式,它不再是一致估计。
由式(5-18)的设定有,
则样本观测值
对应的概率为:
其中,
对应的对数似然函数为:
为Jacoby行列式。
(5-19)
(5-20)
同样的,即使上式的一阶条件通常也无法获得参数的解析解,因此,我们需要使用Newton-Raphson或Gauss-Newton迭代来获得参数的数值解。
另外,注意到
不含参数
,这意味着参数
和
的信息矩
阵是块对角的,因此,我们可以使用中心化对数似然函数来分开迭代求解。
由式(5-20)的一阶条件可解得:
将
其中,
。
的最优解,代入式(5-21)
的解代入式(5-20),可以得到如下的中心化对数似然函数:
(5-22)
(5-21)
利用迭代方法可计算得到式(5-22)中参数
又可得到参数
的最优解。
此处,有必要介绍一下中心化的概念。 假定待估参数可划分为
估计可表示为
,将
,其中,给定参数
代入原来的对数似然函数
为对参数
,参数
的ML
可以得到
,则称
称中心化对数似然函数。
中心化的对数似然函数,简
5.2 三大检验
5.2.1 定义与性质
在ML估计框架下存在3类渐近等价检验:Wald检验、LR检验和LM检验;几乎所有的参数检验都可归并为其中的一种。
给定检验假说
Wald检验统计量:
LR检验统计量:
LM检验统计量:
其中,
和
分别表示无约束和有约束下的ML
估计,
和
(5-25)
分别
(5-24)
(5-23)
,对应的检验统计量计算如下:
表示对应的似然函数的估计。
在零假设下,上述的Wald检验、LR检验和LM检验都收敛于
为约束的个数。
证明: (1)Wald检验 由中值定理,有
,其中J
其中,则有
所以有
,
,
。
(2)LR检验
不妨假定约束条件可表示为:约束为真,则必有
令
和
,其中
为
。
维的参数。如果
分别为
和
处进行Taylor一阶展开,可得
其中,
,
。
由ML估计的渐近正态性,可有
其中,
由定义可知有,
所以有
,
。
,
。
其中,矩阵
阵,且有
;
为对称幂等矩。
(3)LM检验 定义
,则由Lagrange中值定理有,
其中,
。
,
,所以
又因为
所以有
。
由ML估计的一致性可知有
证明完毕。
记 其中,
为有约束对数似然函数的梯度向量,则有
。
,则LM检验统
。
使用BHHH方法估计Hessian矩阵,计量又可计算如下:
此处的R2表示
对
回归的非中心化R2。
(5-26)
5.2.2 例子
考虑简单的线性回归模型:
数似然函数可计算如下:
一阶导为:
可解得:
给定
,将
考虑线性约束
,Wald检验统计量可计算如下:
的解代入对数似然函数,可得中心化对数似然函数:
,
。对应的对
其中,
下的回归残差。
又,有约束的对数似然函数可计算如下:
一阶导为:
,
(5-27)
; 和e分别对应有约束和无约束
则参数
的中心化对数似然函数可表示为:
LR检验统计量可计算如下:
其中, 和
为有约束下的ML
估计,
。
(5-28)
LM检验统计量可计算如下:
其中,此处的R2为
又,量可转换为:
对X回归到非中心化R2。
(5-29)
,所以式(5-29)的LM检验统计
(5-30)
虽然,上述介绍的Wald统计量、LR统计量和LM统计量在大样本下是渐近等价的,但是,它们在有限样本下却存在确定的大小排序:
(5-31)
证明:
所以,
。
所以,证明完毕。
。
5.3 EM算法
5.3.1
定义与性质
实际应用中,ML估计通常没有解析解,而需要借鉴数值方法来获得参数的数值解;
其中,最常用的数值方法如Newton-Raphson迭代和Gauss-Newton迭代。此处介绍一种新的迭代方法——期望最大化算法(Expectation-Maximization
),简称EM
算法。EM算法的基本思路是将一个复杂的似然函数的最大化问题转化为某些简单的似然函数的条件期望的最大化问题,它主要用于数据缺失或混合模
型估计等领域。
记 数据,
表示不完整的数据,
表示完整的数据,
和
为扩充
分别对应Y和Z的密
度函数,则有如下关系成立:
当直接最大化似然函数 通过最大化 初始值。
容易证明,给定初始值 对应的一阶条件等价。
证明:
(5-32)
比较困难时,EM算法建议
来获得参数的迭代方程,其中
为参数的
,最优化 和
证明完毕。
具体的,给定参数的某个初始值 E-步:计算条件期望
M-步:最大化
得到参数的解
,代入E-步迭代至收敛。 ,EM算法可分解为如下两步:
EM算法具有一个很重要的性质:似然函数会随着迭代不断增大;普通的Newton-Raphson迭代并不能保证这一点。当然,似然函数递增并不代表一定收敛或者收敛于最优解。实际计算时,仍然需要多尝试使用不同的初始点。另外,EM算法也存在一些不足,它的收敛速度可能会因为缺失数据的增加而变慢,而且它不能直接求出估计的标准差。
5.3.2 例子
1.截断分布
假定
为正态分布
生成的随机样本,但是由于
存在数据截断问题,我们只能观察到小于a的样本
为完整数据,Y为不完整数据。
,可知Z
为了简化分析,不妨假定有
如果把被截断的那部分数据记为X,则有
。
其中,
,
。
样本Z对应的对数似然函数如下:
对上式计算条件期望,可得
根据截断分布的定义,容易计算有
其中,
则有
其中,所以有
。
,
,。
对上式求一阶导,可解得
(5-33)
(5-34)
(5-35)
式(5-34)和(5-35)迭代至收敛即为EM算法的解。
此处仍然存在的一个问题是n可能是未知,对于截断数据而言,很多时候我们可能只能观察到m的个数,此时需要对式(5-34)和(5-35)中的n进行变换。
注意到,
,所以必有
。
则式(5-34)和(5-35)可转化如下:
(5-36)
(5-37)
2.MS模型
考虑如下两状态的Markov机制转换模型:
其中,
(5-38)
; 为第t期的状态变量,其对应的状态取1或2
;
。
为
对应状态下的均值;
假定状态变量
为一个Markov过程,对应的转移概率为:
其中,
。
(5-39)
则第t期状态的无条件概率为:
其中,
。
(5-40)
由于式(5-38)中设定了参数与前期状态无关,在估计中实际上发生作用的是状态变量的无条件概率,而不是条件概率。
易知,变量
对应的对数似然函数可计算如下:
(5-41)
注意到上式中对数内部含有求和符号,直接的最大化很难收敛。
记
,则我们可以把Y看作不完整数据,Z看作完整数据,从而
使用EM算法来求解ML估计。
则
对应的对数似然函数可计算如下:
取参数
的初始值
,计算条件概率:
对应的,E-步的条件期望可计算如下:
构造Langrange函数如下:
对上式求一阶导,可解得:
(5-42)
(5-43)
(5-44)
(5-45)
(5-46)
(5-47)
其中,
由式(5-47)的第一个等号求和可得。
(5-48)
将式(5-45)的解代入式(5-46),可得
(5-49)
至此,式(5-43)和(5-45)、(5-47)、(5-48)、(5-49)迭代至收敛即为EM算法的解。
5.4 随机前沿分析
随机前沿分析(SFA)关注是给定X的条件下Y的取值存在某个潜在的上限或下限的这样一类问题,常用于技术分析或效率分析。例如,在给定的技术水平下,投入一定的要素,产出总是存在一个上限。
假定投入X与产出Y之间的生产函数为
限制,对任意给定的X,观察到的Y必定要小于或等于
归方程可表示为:
(5-50)
。由于存在技术水平的
,这意味着经验回
此时,误差项u的任意非0取值都被解释为低效率的结果。 不妨取Cobb-Douglas生产函数,则有
(5-51)
式(5-50)和式(5-51)对应了前沿分析中的确定性前沿。但是,确定性前沿的估计结果对样本取值非常敏感。
对此,Aignor、Lovell和Schmidt提出如下的随机前沿模型:
(5-52)
其中,
,,且u和v相互独立。
此时,误差有两个来源:生产的无效性u与个体特有效应v。某个特定企业的生产前沿为
,因此也称为随机前沿。
对于无效率项u常用的有两种设定:半正态分布和指数分布。
CASE-1:半正态分布
容易证明,此时的对数似然函数为:
其中,
,
。
(5-53)
证明: 已知
,
,则有
则对应的联合密度函数为:
令
,则有
对u积分,可得到 的边际分布(详细证明见本章附录):
证明完毕。
简单的计算可知,有
(5-54)
这意味着直接对原始模型使用LS估计将是有偏的。
需要强调的是,根据上述的随机前沿分析,我们并不能准确估计出无效率程度u,通常使用下式来计算无效率的程度(详细证明见本章附录):
其中,
CASE-2:指数分布
容易证明,此时的对数似然函数为:
其中,
。
(5-56)
,实际计算时以估计值代入。
(5-55)
证明: 已知
,
则对应的联合密度函数为:
令
,则有
对u积分,可得到 的边际分布(详细证明见本章附录):
证明完毕。
,则有
(5-57)
同样的,
因此,LS估计也是有偏的。
对应的,此时无效率程度的估计为(详细证明见本章附录):
其中,
。
(5-58)
5.5 QML估计
5.5.1 定义与性质
ML
估计需要知道随机变量分布的完整设定。如果设定的分布与真实的分布不同,似然函数存在误设,ML估计的良好性质可能不再成立。在分布存在误设下的ML估计也称为准最大似然估计,简称QML
估计。
假定
为变量Y基于X的真实条件分布,
和
为实际计算时
人为设定的分布,则密度分布 (KLIC)可计算如下:
KLIC度量了密度分布 由Gensen不等式,可知有
当且仅当
之间的Kullback-Lerbler信息标准
(5-59)
和
之间的距离。
时上式取等号。
QML估计最大化如下准对数似然函数:
由大数定律有,
(5-60)
不妨定义如下伪真实参数(Pseudo-true Parameter):
所以有,
(5-61)
。这意味着,QML估计是在给定的分布族中寻找与
真实分布的KLIC距离最小的分布。
QML估计本质上仍然是一个最大对数似然函数的过程,而当我们作为参照的不再是真实分布
,而是最优分布
时,QML估计事实上与普通
的ML估计并无差别。因此,关于ML估计量性质的证明基本全部可以套用到对QML估计量性质的证明。
具体的,QML估计具有如下两点性质:
(1). (2).
。
。
在分布存在误设下,信息矩阵等价方程式不再成立,因此上述QML估计的渐近协方差矩阵不可约简。
另外,QML估计不再具有渐近有效性。
由于真实分布是不可知的,几乎所有的模型都可以认为存在分布误设的情况,因此,一般所使用的ML估计其实是QML估计。当分布不存在误设时,QML仍然是稳健的,并且等价于ML估计。
5.5.2 例子
1.指数分布 v.s. 正态分布
假定
密度函数为:
则有
,
。
为指数分布
生成的随机样本,
实际计算时,将Y的分布误设为正态分布:
则QML估计量计算如下:
所以有,
可见,QML估计是一致估计。
。
2.均匀分布 v.s. 正态分布
假定
则有
的分布误设为正态分布
此时有
可见,QML估计是一致估计。此处的一致性是指对参数
参数
为均匀分布
,
。
生成的随机样本,。
。实际计算时,将Y
和
,而不是
和
。
附录
附1:式(5-54)与式(5-55)的证明。
其中,
,
,
,
,。
附2:式(5-57)与式(5-58)的证明
其中,
,。