3.1统计决策
第三章 统计决策与贝叶斯估计
§3.1 统计决策的基本概念
一、统计判决问题的三个要素
为了估计一个未知参数,需要给出一个合适的估计量,该估计量也称为该统计问题的解。一般地说,一个统计问题的解就是所谓的统计决策函数。为了明确统计决策函数这一重要概念,需对构成一个统计决策问题的基本要素作一介绍。这些要素是:
1).样本空间和分布族;
2).行动空间(决策空间);
3).损失函数.
以下逐个介绍。
1.样本空间和分布族
设总体X 的分布函数为F (x ; θ),θ是未知参数θ∈Θ, Θ称为参数空间。
则样本空间: 若(X 1, X 2, " , X n )T 为取自总体X 的一个样本,
样本所有可能值组成的集合称为样本空间,记为χ.
分布族:由于X i 的分布函数为F (x i ; θ), i =1, 2, " n , 则
(X 1, X 2, " , X n )T 的联合分布函数为
1
F (x 1, x 2, " , x n ; θ)=∏F (x i ; θ), θ∈Θ.
i =1n
若记F ={∏F (x i ; θ):θ∈Θ},则称F ∗为样本(X 1, X 2, " , X n )T 的概*
i =1n
率分布族,简称分布族。
注:若总体X 为离散型变量,则F ∗中的联合分布函数应换成联合分布律。
例3.1设总体X 服从两点分布B (1, p ), p 为未知参数,0≤p ≤1, (X 1, X 2, " , X n )T 是取自总体X 的样本,则样本空间是集合
χ={(x 1, x 2, " , x n ):x i =0,1, i =1, 2, " n }.
它含有2n 个元素,样本(X 1, X 2, " , X n )T 的分布族为
n ⎧∑x i n −x i ⎪F ∗=⎨p i =1(1−p )∑, x i =0,1, i =1
⎪⎩n ⎫⎪i =1, 2, " , n ,0≤p ≤1⎬. ⎪⎭
2.决策空间(或称判决空间)
对于一个统计问题,如参数θ的点估计,区间估计及其他统计问题,我们常常要给予适当的回答。对参数θ的点估计,一个具体的估计值就是一个回答。在统计决策中,每一个具体的回答称为一个决策,一个统计问题中可能选取的全部决策组成的集合称为决策空间,记为A .
一个决策空间A 至少应含有两个决策,假如A 中只含有 2
一个决策,那人们就无需选择,从而也形成不了一个统计决策问题。
例如,要估计正态分布N (µ, σ2)中的参数µ,µ∈Θ=(−∞, +∞). 因为µ在(−∞, +∞)中取值,所以每一个实数都可以用来估计µ,故每一个实数都代表一个决策,决策空间为A =(−∞, +∞).
值得注意的是,在A 中具体选取那个决策与抽取的样本和所采用的统计方法有关。
例3.2 某厂打算根据各年度市场的销售量来决定下年度应该扩大生产还是缩减生产,或者维持原状,这样决策空间A 为
A ={扩大生产,缩减生产,维持原状}
3.损失函数
统计决策的一个基本观点和假定是,每采取一个决策,必然有一定的后果(经济的或其他的),决策不同,后果各异。
对于每个具体的统计决策问题,一般有多种优劣不同的决策可以采用。例如,要估计正态分布N (µ,0.22)中的参数µ,假设µ的真值为3,那么采用3.5这个决策显然比10这个决策好的多。如果要作µ的区间估计,则显然[2,4]这个决策比[-5,10]好。统计决策理论的一个基本思想是把上面所谈的优劣性, 3
以数量的形式表现出来,其方法是引入一个依赖于参数值θ∈Θ和决策d ∈A .的二元实值非负函数L (θ, d )≥0,称之为损失函数,它表示当参数真值为θ而采取决策d 时所造成的损失,决策越正确,损失就越小。由于在统计问题中人们总是利用样本对总体进行推断,所以误差是不可避免的,因而总会带来损失,这就是损失函数定义为非负函数的原因。
例3.3设总体X 服从正态分布N (θ,1),θ为未知参数,参数空间Θ=(−∞, +∞),决策空间自然地取为A =(−∞, +∞),一个可供考虑的损失函数是L (θ, d )=(θ−d ),
当d =θ,即估计正确时损失为0,估计d 与实际值θ的距离d −θ愈大,损失也愈大。 2
如果要求未知参数θ的区间估计,损失函数可取为
L (θ, d ) =(d 2−d 1),θ∈Θ,d =[d 1, d 2]∈A ,
其中A ={⎡⎣d 1, d 2⎤⎦:−∞
也以区间估计的长度来度量采用决策d =⎡⎣d 1, d 2⎤⎦所带来的损失,
可以取损失函数为
L (θ, d ) =1-I ⎡d 1, d 2⎤(θ), θ∈Θ,d =⎡⎣d 1, d 2⎤⎦∈A , ⎣⎦
其中I ⎣⎡d , d ⎦⎤(θ)是集合的示性函数,即 12
4
⎧⎪0,θ∉⎡⎣d 1, d 2⎤⎦, I ⎡θ=()⎨⎣d 1, d 2⎤⎦⎪1, θ∈⎡⎣d 1, d 2⎤⎦. ⎩
这个损失函数表示当决策d 正确(即区间⎡⎣d 1, d 2⎤⎦覆盖未知参数的实际值)时损失为0,反之损失为1.
对于不同的统计问题,可以选取不同的损失函数,常见的损失函数有以下几种。
(1)线性损失函数
⎧k (θ−d ), d ≤θ⎪L (θ, d ) =⎨0 (3.1) ⎪⎩k 1(d −θ), d >θ
其中k 0和k 1是两个非负常数,它们的选择常反映行动d 低于参
数θ和高于参数θ的相对重要性,当k 0=k 1时就得到
绝对值损失函数
L (θ, d )=λ(θ)θ−d (3.2)
(2)平方损失函数
L (θ, d )=(θ−d ) (3.3)
(3)凸损失函数
L (θ, d ) =λ(θ)W (θ-d ) , (3.4) 2
其中λ(θ)>0是θ的已知函数且有限,W (t )是t >0上的单调非降函数且W (0)=0。
(4)多元二次损失函数,当θ和d 均为多维向量时,可取如下二 5
次型作为损失函数。
L (θ, d ) =(d −θ)A (d −θ) (3.5) 其中θ=(θ1, " θp ),d =(d 1, " , d p ), A 为p ×p 阶正定矩阵,p 为T T T
大于1的某个自然数。当A 为对角阵即A =diag (ω1, ω2, " , ωp )时,则p 元损失函数为
L (θ, d )=∑ωi (d i −θi ), (3.6)
i =1p
其中诸ωi (i =1, 2, " , p )可看作各参数重要性的加权。
将统计决策方法用于实际问题时,如何选择损失函数是一个关键问题,也是一个难点。一般来说,选取的损失函数应与实际问题相符合,同时也要在数学上便于处理。上面提到的二次损失(又称平方损失)函数是参数点估计中常用的一种损失函数。
二.统计决策函数及其风险函数
1.统计决策函数
给定了样本空间χ和概率分布族F ∗,决策空间A .及损失函数L (θ, d )这三个要素后,统计决策问题就确定了。此后,我们的任务就是在A 中选取一个好的决策d ,所谓好的决策是指有较小的损失。对样本空间χ中每一点x =(x 1, x 2, " , x n ),可在 6T
决策空间中寻找一点与此对应,这样一个对应关系可看作定义在样本空间χ上而取值于决策空间A 内的函数d (x ) .
取值于决策空间A 内的定义3.1 定义在样本空间χ上,
函数d (x ) ,称为统计决策函数,简称为决策函数。
。当有了形象地说,决策函数d (x ) 就是一个“行动方案”
样本X 后,按既定的方案采取行动(决策)d (x ) 。在不致误解的情况下,也称d (X )=d (X 1, X 2, " , X n )为决策函数,此时表示
当样本值为x =(x 1, x 2, " , x n )时采取决策d (x )=d (x 1, x 2, " , x n ),T 因此,决策函数d (X ) 本质上是一个统计量。
例如,设总体X 服从正态分布N (µ, σ2),σ2已知,(X 1, X 2, " , X n )为取自X 的样本,求参数µ的点估计。此时可用1n =∑x i 来估计µ, d (x ) =x 就是一个决策函数。 n i =1
如果要求µ的区间估计,那么
d (x ) =[
-u α,
x +u α]
就是一个决策函数。
2.风险函数
给定一个决策函数d (X ) 之后,所采取的决策完全取决于样本X ,从而损失必然与X 有关,也就是说决策函数与损失函数 7
L (θ, d ) 都是样本X 的函数,因此都是随机变量。当样本X 取不同的值x 时,对应的决策d (x ) 可能不同,由此带来的损失L (θ, d (x )) 也不相同,这样就不能运用基于样本x 所采取的决策而带来的损失L (θ, d (x )) 来衡量决策的好坏,而应该从整体上来评价。为了比较决策函数的优劣,一个常用的数量指标是平均损失,即所谓的风险。
定义3.2 设样本空间和分布族分别为X 和F ∗,决策空间为A ,损失函数为L (θ, d ) ,d (X ) 为决策函数,则由下式确定的θ的函数R (θ, d ) 称为决策函数d (X ) 的风险函数.
⎡⎤⎤R (θ, d )=E θ⎡⎣L (θ, d (X ))⎦=E θ⎣L (θ, d (X 1, X 2, " , X n ))⎦ (3.7)
R (θ, d ) 表示当真参数为θ时,采用决策(行动)d 所蒙受的平均损失,其中E θ表示当参数为θ时,对样本的函数L (θ, d (X )) 求数学期望。显然风险越小,即损失越小决策函数就越好。但是,对于给定的风险函数d (X ) ,风险函数仍是θ的函数,所以,两个决策函数风险大小的比较涉及两个函数的比较,情况比较复杂,因此就产生了种种优良性准则,下面仅介绍两种。
定义3.3 设d 1(X )和d 2(X )是统计决策问题中的两个决策
问题,若其风险函数满足不等式
R (θ, d 1)≤R (θ, d 2), ∀θ∈Θ
8
且存在一些θ使上述严格不等式R (θ, d 1)
决策函数d 1(X )一致优于d 2(X )。假如下列关系式成立 R (θ, d 1)=R (θ, d 2), ∀θ∈Θ
则称决策函数d 1(X )与d 2(X )等价。
定义3.4 设D ={d (X ) }是一切定义在样本空间上取值于决策空间A 上的决策函数的全体,若存在一个决策函数d *(X )(d *(X ) ∈D ) ,使对任一个d (X ) ∈D ,都有
R (θ, d *)≤R (θ, d ), ∀θ∈Θ
则称d *(X ) 为(该决策函数类D 的)一致最小风险决策函数,或称为一致最优决策函数。
上述两个定义都是对某个给定的损失函数而言的,当损失函数改变了,相应的结论也可能随之而变。定义3.4的结论还是对某个决策函数类而言的。当决策函数类改变了,一致最优性可能就不具备了。
例3.4 设总体X 服从正态分布N (µ, 1), µ∈(−∞, +∞) ,X =(X 1, X 2, " , X n )为取自X 的样本,欲估计未知参数µ,选取损失函数为 L (µ, d )=(d −µ),
则对µ的任一估计d (X ) ,风险函数为
R (µ, d )=E µ⎡⎣L (µ, d )⎤⎦=E µ(d −µ).
922
若进一步要求d (X ) 是无偏估计,即E µ⎡⎣d (X )⎤⎦=µ. 则风险函数是 R (µ, d )=E µ(d −Ed )=D µ(d (X )), 2即风险函数为估计量d (X )的方差。
若取d (X ) =X ,则R (µ, d ) =D X =1. n 若取d (X ) =X 1,则R (µ, d ) =DX 1=1.
显然,当n>1时,后者的风险比前者大,即优于X 1。 例3.5 设x 1和x 2是从下列分布获得的两个观察值
P (X =θ−1) =P (X =θ+1) =0.5, θ∈Θ=R 现研究θ的估计问题。为此取决策空间A =R ,取损失函数为 L (θ, d ) =1−I (d ),
其中I (d ) 为示性函数,当d =θ时它为1,否则为0。我们知道,
现从样本空间X ={(x 1, x 2)}到决策空间A 上的决策函数有许多,
考察其中三个。
(1)d 1(x 1, x 2)=(x 1+x 2)/2,其风险函数为
R (θ, d 1) =1−P (d 1=θ) =1−P (x 1≠x 2) =0.5, ∀θ∈Θ;
(2)d 2(x 1, x 2)=x 1−1,其风险函数为
R (θ, d 2) =1−P (d 2=θ) =1−P (x 1=θ+1) =0.5, ∀θ∈Θ;
⎧⎪(x +x )/2, x 1≠x 2, (3)d 3(x 1, x 2)=⎨12
x 1=x 2, ⎪⎩x 1−1,
10
其风险函数为
R (θ, d 3) =1−P (d 3=θ) =1−P (x 1≠x 2或x 1=θ+1) =0.25, ∀θ∈Θ;
假如只限于考察这三个决策函数组成的类D ={d 1, d 2, d 3},那么d 3是决策函数类中一致最优决策函数,当决策函数类扩大
或损失函数改变时,d 3的最优性可能会消失。
11