数理统计复习总结-西北工业大学
1统计量与抽样分布
1.1基本概念:统计量、样本矩、经验分布函数
总体X 的样本X 1,X 2,…,X n ,则T(X1,X 2,…,X n ) 即为统计量 样本均值μ=X
1n 2
样本方差S n =∑(X i -X )
n i =1
修正样本方差S
*2n
2
1n =(X i -X ) ∑n -1i =1
2
1n k
样本k 阶原点矩A k =∑X i , (k =1, 2,...)
n i =1
1n k
样本k 阶中心矩B k =∑(X i -X ) , (k =1, 2,...)
n i =1
经验分布函数F n (x ) =
v n (x )
, (-∞
1
显然V n (x ) ~B (n , F (x )) , 则有E [F n (x )]=F (x ) D [F n (x )]=F (x )[1-F (x )]
n
2ES n =
补充: ⏹
n -1*2
=DX EX 2=DX +(EX ) 2 DX ES n
n
⏹
1n 2
S =∑X i -2
n i =1
2n
k k
● 二项分布B(n,p): P {X =k }=C n p (1-p ) n -k , (k =0, 1,..., n )
EX=np DX=np(1-p) ● 泊松分布P (λ) :
P {X =k }=
λk
k !
e -λ, (k =0, 1,...)
EX =λ DX =λ
● 均匀分布U(a,b):
f (x ) =
1
, (a
EX =
a +b 1
(b -a ) 2 DX =
212
● 指数分布:
f (x ) =λe -λx ,(x >0) F (x ) =1-e -λx ,(x >0)
1
EX =
1
λ
DX =
λ2
● 正态分布N (μ, σ) :
2nS n
2
1(x -μ) 2
f (x ) =exp{- EX =μ DX =σ2 2
2σ2πσ
2
n
2nS n n -122(n -1) 4
E (2) =n -1⇒ES =σ D (2) =2(n -1) ⇒DS n 2=σ 2
σn σn
2244
当μ=0时,EX =0 EX =σ EX =3σ E X =
D X =(1-) σ2
ππ
22
1.2统计量:充分统计量、因子分解定理、完备统计量、指数型分布族 T 是θ的充分统计量⇔f (x 1, x 2,..., x n T =t ) 与θ无关 T 是θ的完备统计量⇔要使E[g(T)]=0,必有g(T)=0
L (θ) =∏f (x i ; θ) =h (x 1, x 2,..., x n ) g (T (x 1, x 2,..., x n ); θ) 且h 非负⇔T 是θ的充分统计量
i =1
n
∏f (x ; θ) =C (θ) exp{b (θ) T (x , x ,..., x )}h (x , x ,..., x ) ⇔T 是θ的充分完备统计量
i
1
2
n
1
2
n
i =1n
n
∏f (x ; θ) =C (θ) exp{b (θ) T (x , x ,..., x ) +b (θ) T (x , x ,..., x )}h (x , x ,..., x )
i
1
1
1
2
n
2
2
1
2
n
1
2
n
i =1
⇔(T 1, T 2) 是θ=(θ1, θ2) 的充分完备统计量
1.3抽样分布:χ分布,t 分布,F 分布,分位数,正态总体样本均值和方差的分布,非正态总体样本均值的分布
2
χ分布:χ=X +X +... +X ~χ(n ) f (x ) =
22
2
1222n
2
1n 2Γ()
2
n 2
e x
-
x 2n -12
(x >0)
E χ2=n D χ2=2n
T 分布:T =
n X
~t (n ) 当n>2时,ET=0 DT =
n -2/n
X
F 分布:F =
12
~F (n 1, n 2)
1
=F (n 2, n 1) F
补充:
⏹ Z=X+Y的概率密度f z (z ) =
合概率密度
⎰
+∞
-∞
f (x , z -x ) dx =⎰f (z -y , y ) dy f(x,y)是X 和Y 的联
-∞
+∞
⏹ ⏹ ●
+∞Y
Z =的概率密度f z (z ) =⎰f (x , xz ) x
-∞X
y =g (x ) 的概率密度f y (y ) =f x (g -1(y )) g -1(y )]'
Γ函数:Γ(α) =⎰x α-1e -x dx Γ(α+1) =αΓ(α) Γ(n ) =(n -1)! , Γ(1) =1
+∞
● B 函数:B (α, β) =
⎰
1
x α-1(1-x ) β-1dx B (α, β) =
Γ(α) Γ(β)
Γ(α+β)
X 、样本极差R 1.4次序统计量及其分布:次序统计量、样本中位数
X (k)的分布密度:f x (k ) (x ) =
n !
[F (x )]k -1[1-F (x )]n -k f (x ), (k =1, 2,..., n )
(k -1)! (n -k )!
X (1)的分布密度:f x (x ) =nf (x )[1-F (x )]n -1
(1) X (n)的分布密度:f x (n ) (x ) =nf (x )[F (x )]n -1
2参数估计
2.1点估计与优良性:概念、无偏估计、均方误差准则、相合估计(一致估计) 、渐近正态估计
的均方误差:MSE (θ , θ) =E (θ -θ) 2=D θ +(E θ -θ) 2 θ
是无偏估计,则MSE (θ , θ) =D θ 若θ
, 是θ的最小方差无偏估计, ≤D θ ,对于θ的任意一个无偏估计量θ有D θ则θ记MVUE
n =0 相合估计(一致估计):lim E θn =θ lim D θ
n →∞
**
n →∞
2.2点估计量的求法:矩估计法、最大似然估计法 矩估计法:
① 求出总体的k 阶原点矩:a k =EX =
k
⎰
+∞
-∞
x k dF (x ; θ1, θ2,..., θm )
1n k
k =θ k (X , X ,..., X ) 即为所求 ② 解方程组a k =∑X i (k=1,2,...,m),得θ12n
n i =1
最大似然估计法:
① 写出似然函数L (θ) =
∏f (x i ; θ) ,求出lnL 及似然方程
i =1
n
∂ln L
=0 i=1,2,...,m
∂θi θ=θ
i (x , x ,..., x ) ,即最大似然估计θ i (X , X ,..., X ) i=1,2,...,m ② 解似然方程得到θ12n 12n
补充:
似然方程无解时,求出θ的定义域中使得似然函数最大的值,即为最大似然估计 2.3MVUE 和有效估计:最小方差无偏估计、有效估计
=E (θ |T ) 为θ的惟一的MVUE 是θ的一个无偏估计⇔θT 是θ的充分完备统计量,θ
最小方差无偏估计的求解步骤:
① 求出参数θ的充分完备统计量T
*
=g -1(T ) 是θ的一个无偏估计 ② 求出ET =g (θ) ,则θ
或求出一个无偏估计,然后改写成用T 表示的函数
-1-1
③ 综合,E [g (T ) T ]=g (T ) 是θ的MVUE
或者:求出θ的矩估计或ML 估计,再求效率,为1则必为MVUE
[g ' (θ)]2
T 是g (θ) 的一个无偏估计,则满足信息不等式D [T (X )]≥,其中
nI (θ)
⎡∂2ln f (X ; θ) ⎤⎡∂ln f (X ; θ) ⎤
或I (θ) =-E ⎢ I (θ) =E ⎢>0,f (X ; θ) 为样本的联合分布。⎥2⎥∂θ∂θ⎣⎦⎣⎦
最小方差无偏估计⇐达到罗-克拉姆下界⇔有效估计量⇔效率为1
2
) = 的效率:e (θ无偏估计θ
1 D θnI (θ)
是θ的最大似然估计,且θ 是θ的充分统计量⇔θ 是θ的有效估计 θ
2.4区间估计:概念、正态总体区间估计(期望、方差、均值差、方差比) 及单侧估计、非正态总体参数和区间估计 一个总体的情况:X ~N (μ, σ)
2
σ2已知,求μ
~N (0,1)⇒X -μ0
*α
2
σ未知,求μ
2
i
n
~t (n -1) ⇒X -μ0
2
i
α(n -1)
22
μ已知,求σ2的置信区间:μ未知,求σ2的置信区间:
∑(X
i =1
σ
2
~χ2(n ) ⇒
∑(X
i =1
22
n
-μ)
χα(n )
∑(X
i =1
n
i
-μ) 2(n )
χ
2
1-
α
2
∑(X
i =1
n
i
-X )
2
2
σ
~χ2(n -1) ⇒
∑(X
i =1
22
n
i
-X )
2
χα(n -1)
∑(X
i =1
n
i
-X ) 2
χ
2
1-
α
2
(n -1)
2
两个总体的情况:X ~N (μ1, σ12) ,Y ~N (μ2, σ2) 2σ12, σ2
均已知时,求
μ1-μ2
的区间估计
:
~N (0,1)⇒X -Y -(μ1-μ2)
α
2
2
σ12=σ2=σ2未知时,求μ1-μ2的区间估计:
~t (n 1+n 2-2)
σ12
μ1, μ2未知时,求2:
σ2
*2S 2σn 212S 1*n 1σ2
22
~F (n 2-1, n 1-1) ⇒
S 1*n 1
*S 2n 2
2
2
F ∂(n 2-1, n 1-1)
1-2
σ
22
2122
S 1*n 1
2
非正态总体的区间估计:
L
当n →∞
N (0,1)⇒X -μ
2
X -
m
⎛⎫S n lim =1 n →∞⎪,故用S n 代替S n-1
S n -1⎝⎭
⎛m ~N (0,1)⇒ ± ⎝n 3统计决策与贝叶斯估计
3.1统计决策的基本概念:三要素、统计决策函数及风险函数
三要素:样本空间和分布族、行动空间(判决空间)、损失函数L (θ, d ) 统计决策函数d(X):本质上是一个统计量,可用来估计未知参数 风险函数:R (θ, d ) =E θ[L (θ, d (X ))]是关于θ的函数
3.2贝叶斯估计:先验分布与后验分布、贝叶斯风险、贝叶斯估计
① 求样本X=(X1,X 2,...,X n ) 的分布:q (x |θ) =
∏f (x |θ)
i
i =1
n
② 样本X 与θ的联合概率分布:f (x , θ) =h (θ|x ) m (x ) =q (x |θ) π(θ)
③ 求f (x , θ) 关于x 的边缘密度m (x ) =
Θ
⎰f (x , θ) d θ
④ θ的后验密度为:h (θ|x ) =
f (x , θ)
m (x )
取L (θ, d ) =(θ-d ) 2时
=E (θ|x ) =θh (θ|x ) d θ θ的贝叶斯估计为:θ⎰
Θ
⎧R (θ, d ) =E θ(θ-d ) 2⎪
贝叶斯风险为:⎨
R B (d ) =E [R (θ, d )]=⎰E θ(θ-d ) 2h (θ|x ) d θ⎪Θ⎩
=取L (θ, d ) =λ(θ)(θ-d ) 2时,贝叶斯估计为:θ
补充: ⏹
E [λ(θ) θ|x ]
E [λ(θ) |x ]
C (θ) 的贝叶斯估计:取损失函数L (θ, d ) =(C (θ) -d ) 2,则贝叶斯估计为
(θ) =E [C (θ) |x ]=C (θ) h (θ|x ) d θ C ⎰
Θ
⏹
=E (θ|x ) =h (θ|x ) d θ=θ⎰⎰
Θ
θf (x , θ)
m (x )
d θ=
Θ
⎰θf (x , θ) d θ
Θ
Θ
⎰f (x , θ) d θ
3.3minimax 估计
对决策空间中的决策函数d 1(X),d2(X),...,分别求出在Θ上的最大风险值max R (θ, d )
θ∈Θ
在所有的最大风险值中选取相对最小值,此值对应的决策函数就是最小最大决策函数。
4假设检验
4.1基本概念:零假设(H0) 与备选假设(H1) 、检验规则、两类错误、势函数 零假设通常受到保护,而备选假设是当零假设被拒绝后才能被接受。
检验规则:构造一个统计量T(X1,X 2,...,X 3) ,当H 0服从某一分布,当H 0不成立时,T 的偏大偏小特征。据此,构造拒绝域W 第一类错误(弃真错误):P {T ∈W |H 0为真} 第二类错误(存伪错误):P {T ∉W |H 0为假}
⎧1, X ∈W . 势函数:β(θ) =E θ(δ(X )) =P θ{X ∈W }δ(X ) =⎨
X ∉W . 0, ⎩
当θ∈Θ0时,β(θ) 为犯第一类错误的概率
当θ∈Θ1时,1-β(θ) 为犯第二类错误的概率
4.2正态总体均值与方差的假设检验:t 检验、X 2检验、F 检验、单边检验 一个总体的情况:X ~N (μ, σ2)
σ2已知,检验H 0:μ=μ0H 1:μ≠
μ0:U =σ2未知,检验H 0:μ=μ0H 1:μ≠
μ0:T =
~N (0,1)
~t (n -1) 222
:χ=H 1:σ2≠σ0μ已知,检验H 0:σ2=σ0
∑(X
i =1
n
i
-μ) 2
2
σ
~χ2(n )
222
:χ=H 1:σ2≠σ0μ未知,检验H 0:σ2=σ0
∑(X
i =1
n
2
-) i
σ2
~χ2(n -1)
2
两个总体的情况:X ~N (μ1, σ12) ,Y ~N (μ2, σ2) 2σ12=σ2=σ2未知时,检验H 0:μ1=μ2H 1:μ1≠μ2:
T =
~t (n 1+n 2-2)
S 1*n 1S
*22n 2
2
22
:F =μ1, μ2未知时,检验H 0:σ12=σ2H 1:σ12≠σ2~F (n 1-1, n 2-1)
单边检验:举例说明,σ已知,检验H 0:μ≤μ0H 1:μ>μ0:
构造U 1=
2
~N (0,1),给定显著性水平α,有P {U 1>u α}=α。当H 0成
def 立时U 1=≥U ,因此P {U >u α}≤P {U 1>u α}=α。故拒绝域
为W ={U >u α}
4.3非参数假设检验方法:χ拟合优度检验、科尔莫戈罗夫检验、斯米尔诺夫检验
2
(Ni -np i 0) 22
χ拟合优度检验:H 0:p i =p i 0H 1:p i ≠p i 0 W ={∑>χα(m -r -1)}
np i 0i =1
2
m
其中N i 表示样本中取值为i 的个数,r 表示分布中未知参数的个数
科尔莫戈罗夫检验:H 0:F (x ) =F 0(x ) H 1:F (x ) ≠F 0(x ) 实际检验的是F n (x ) =F 0(x )
W ={limsup F n (x ) -F 0(x ) >D n , α}
n →∞-∞
斯米尔诺夫检验:H 0:F (x ) =G (x ) H 1:F (x ) ≠G (x ) 实际检验的是F n (x ) =G n (x )
W ={limsup F n 1(x ) -G n 2(x ) >D n 1, n 2, α}
n →∞-∞
4.4似然比检验
明确零假设和备选假设:H 0:θ∈Θ0H 1:θ∈Θ1
sup L (x 1,..., x n ; θ)
L 1(x 1,..., x n ) θ∈Θ
=构造似然比:λ=
L 0(x 1,..., x n ) sup L (x 1,..., x n ; θ)
θ∈Θ0
拒绝域:W ={λ(x 1,..., x n ) >λα}
5方差分析
5.1单因素方差分析:数学模型、离差平方和分解、显著性检验、参数估计
⎧X ij =μ+αi +εij ⎪
数学模型⎨εij ~N (0,σ2) ,(i=1,2,...,m;j=1,2,...,ni ) H 0:α1=α2=... =αn
⎪
⎩各εij 相互独立
总离差平方和Q T =
∑∑(X
i =1j =1
m
n i
m n i
ij
-) 2
Q T =Q E +Q A
Q E
) =σ2 n -r
组内离差平方和Q E =
∑∑(X ij -X i ) 2 E (
i =1j =1m
组间离差平方和Q A =
∑n i (X i -X ) 2
i =1
当H 0成立时,E (
Q A
) =σ2 r -1
Q A
构造统计量F =
r -1) n -r )
E
=
Q A
~F (r -1, n -r ) ,当H 0不成立时,有偏大特征 Q E
X i -X k ~N (μi -μk ,(
Q 1122
~χ(n -r )
+) σ) 且E 2σn i n k
⇒T =
~t (n -r )
应用:
'
⏹ 若原始数据比较大而且集中,可减去同一数值X ij =X ij -k 再解题 m m n i
1m n i 1n i 22
⏹ 辅助量:P =(∑∑X ij ) , Q =∑(∑X ij ) , R =∑∑X ij 2
n i =1j =1i =1n i j =1i =1j =1
Q A =Q -P , Q E =R -Q , Q T =R -P
5.2两因素方差分析:数学模型、离差平方和分解、显著性检验
⎧X ij =μ+αi +βi +εij
⎪⎧H 01:α1=α2=... =αn
数学模型⎨εij ~N (0,σ2) ,(i=1,2,...,r;j=1,2,...,s) ⎨
⎩H 02:β1=β2=... =βn ⎪
⎩各εij 相互独立
总离差平方和Q T =
∑∑(X
i =1j =1
r s
ij
-) 2
Q T =Q E +Q B +Q A
Q E
) =σ2
(r -1)(s -1)
Q B
) =σ2 s -1
组内离差平方和Q E =
∑∑(X ij -X i ∙-X ∙j +X i ) 2 E (
i =1j =1
s j =1r
m n i
因素B 引起的离差平方和Q B =
∑r (X ∙j -X ) 2 当H 0成立时,E (
∑s (X i ∙-X ) 2 当H 0成立时,E (
i =1
2
因素A 引起的离差平方和Q A =
2
Q A
) =σ2 r -1
2
r s r s ⎫⎫1⎛r s 1⎛s 1⎛r ⎫2
辅助量:P = ∑∑X ij ⎪, Q I =∑ ∑X ij ⎪, Q II =∑ ∑X ij ⎪, R =∑∑X ij
n ⎝i =1j =1i =1s ⎝j =1j =1r ⎝i =1i =1j =1⎭⎭⎭
Q A =Q I -P , Q B =Q II -P , Q E =R -Q I -Q II -P
⎧Q A (r -1) Q A F ==~F (r -1,(r -1)(s -1)) ⎪A
Q (r -1)(s -1) Q ⎪E E
构造统计量:⎨
⎪F =Q B s -1) =Q A ~F (s -1,(r -1)(s -1)) ⎪B Q (r -1)(s -1) Q
E ⎩E
6回归分析
6.1一元线性回归:回归模型、未知参数的估计(β、α、σ2) 、参数估计量的分布(βαY0
σ2σ*2)
⎧Y i =α+βx i +εi ⎪2
回归模型:⎨εi ~N (0,σ) i=1,2,...,n.
⎪各ε相互独立
i ⎩
⎧⎪ ⎪⎪β
的估计:⎨(α, β)
⎪⎪ ⎪⎩α
2
⎧ σ2
) ⎪β~N (β, n
(x -x )(Y -Y ) ∑i i 2
⎪(x -x ) ∑i
=i =1n ⎪i =1
分布:⎨ (α, β)(x i -x ) 22∑(x ) 2⎪α ~N (α,[1+i =1]σ) n ⎪n x (x i -x ) 2=Y -β⎪∑i =1⎩
n
221n 1n 22 2S 2 σ的估计:σ=∑(Y i -Y ) -β(∑(x i -x ) 2) =S nY -βnx
n i =1n i =1
=E σ
2
n -22
*2=σ2 σ E σ
n
6.2多元线性回归:回归模型、参数估计、分布
⎧Y i =X i β+εi ⎪2
回归模型:⎨εi ~N (0,σI n ) i=1,2,...,n.
⎪各ε相互独立⎩i
⇒β =(X T X ) -1X T Y 参数估计:X T Y =(X T X ) β
7多元分析初步
7.1定义及性质:定义、性质
X ~N p (μ, ∑) 其中μ为X 的均值向量,∑为X 的协方差矩阵
Y=CX+b,则Y ~N p (C μ+b , C ∑C T )
若∑≠0,刚η⇒(X -μ) ∑(X -μ) ~χ(p )
7.2参数的估计与假设检验:μ、Σ的估计、正态总体均值向量的假设检验
n
1n T
样本均值向量X =∑X i 样本离差阵S =∑(X k -X )(X k -X )
n i =1k =1
def
-1
2
=S =X ∑最大似然估计μ
n
= =X ∑最小方差无偏估计μ
S
(n -1)
n -1
1T
X ~N (μ, ∑) S =∑YY i i
n i =1
η=n (X -μ0) T ∑-1(X -μ0) ~χ2(p )
F =
n -p
[n (n -1)(X -μ0) TS -1(X -μ0)]2~F (p , n -p ) (n -1)
2χmn =mn (X -Y ) T ∑-1(X -Y ) ~χ2(p ) m +n
F =mn (m +n -p -1) (X -Y ) T S -1(X -Y ) p (m +n )(m +n -2)