第七章 参数估计
实际中遇到的随机变量(总体)大都是根据历史经验大致知道其分布类型,但总体的参数未知,诸如总体的分布函数或概率密度函数中的参数未知,需要通过样本来估计总体的参数,这类问题被称为参数估计,通常有两种估计方法:一是点估计法,即估计未知参数的大概值,并选取样本的一个函数值作为总体中未知参数的估计值;二是区间估计法,即估计未知参数的大概所在的范围区间,并选取样本的两个函数值作为总体中未知参数的估计区间限. §7.1 点估计
点估计问题的一般提法如下:设总体 X 的分布函数 ( , ) F x 的形式为已知,1 2( , , , )k 为待估参数,1 2( , , , )nX X X 是来自总体 X
的一个样本,1 2( , , , )nx x x 是相应的一个样本值,点估计问题就是要构造一个适当的统计量1 2ˆ (, , , )nX X X 来估计未知参数 .称1 2ˆ (, , , )nX X X 为 的估计量,其观察
值 ) , , , (ˆ2 1 nx x x 称为 的估计值,不至于混乱,均简记为 ˆ .由于估计值) , , , (ˆ2 1 nx x x 表示为数轴上的一个点,故称之为点估计. 7.1.1 矩法
矩法是求估计量的最古老的方法之一,它由 K. Pearson 在 20 世纪初提出,其基本思想是以样本矩来估计相应的总体矩,以样本矩的函数来估计相应的总体矩的同样函数.一般来说,如果总体 X 的 l 阶原点矩 ( )llm E X 存在的话,便依赖于参数1 2, , ,k ,即有 1 2( , , , )l l km m , 1,2, , l k .
由格利文科定理,样本分布函数以概率 1 收敛于总体分布函数,很自然地会问,样本矩与相应的总体矩有什么关系?可以证明,只要总体的 l 阶矩存在,则样本的 l 阶矩依概率收敛于总体的 l 阶矩.所以,我们用样本原点矩lA 来估计总体分布相应的矩lm ,即令 1 1 2 12 1 2 21 2( , , , )( , , , )( , , , )kkk k km Am Am A
(7.1) 这是一个包含 k 个参数1 2, , ,k 的联立方程组,一般来说,可以从中解出
1 2, , ,k ,此时,我们就用方程组(7.1)的解1 2ˆ ˆ ˆ, , ,k 分别作为1 2, , ,k 的估计量,称为矩估计量.矩估计量的观察值称为矩估计值.显然,样本均值niixnx11是总体均值 的矩估计. 例 1
设总体 X 的均值 和方差2 都存在,1 2, , ,nX X X 是来自 X 的样本.试求 和2 的矩估计量,并依据样本观察值 -1.20
0.82
0.12
0.45
-0.85
-0.30 计算 和2 的矩估计值. 解
由于 12 2 2 22( )( ) ( ) [ ( )]m E Xm E X D X E X 令 112 2 22111niiniiA X XnA Xn 从中解出 和2 作为其估计量,得到
ˆ X ,
(7.2) 2 2 2 221 11 1ˆ ( )n ni ii iX X X X Bn n .
(7.3) 即样本均值 X 是总体均值 的矩估计,样本的二阶中心矩221 nB Sn 是总体方差2 的矩估计.但更多的是以2S 估计2 ,其原因将在估计量的评选标准中解释.
代入样本值(-1.20
0.82
0.12
0.45
-0.85
-0.30),得到其矩估计值 ˆ 0.16 ,2ˆ 0.50 . 例 2
设总体 X 服从 [ θ 1 , θ 2 ]上的均匀分布,密度函数为
1 21 22 11 21, [ , ]( ; , ) -0, [ , ]xf xx 其中 θ 2 > θ 1 ,试求 θ 1 , θ 2 的矩估计量. 解
由第四章 4.2.3 节的讨论,知 21 2 2 11 1( ) ( ), ( ) ( - )2 12E X D X
由(7.2)、(7.3)式,令
1 222 1 21( ) ( )21( ) ( )12E X XD X B 解之即得 θ 1 , θ 2 的矩估计量为:
21 2 2ˆ ˆ3 , 3 X B X B .
例 3
设总体 X 服从泊松分布,即 1( ; ) { } e!xp x P X xx , 0 , 0,1,2, x
试求 θ 的矩估计量. 解
由于 ( ) E X ,得 的矩估计量ˆX ;又由于 ( ) D X ,故得 θ 的另一个矩估计量2ˆB .由此可见一个参数的矩估计量是不唯一的. 7.1.2 极大似然估计法 极大似然估计是要选取这样的统计量 ˆ ,当它作为 的估计值时,使观察结果(即样本1 2, , ,nX X X )出现的可能性最大.可以这样打个比方:袋中混
合装有一大批同种型号的黄纽扣和红纽扣,不慎撒落到地上 2000 个,其中有500 个是黄色的,若由此来推算袋中黄纽扣所占的比例的话, 50025%2000 这个比例应当是最能被接受的,其主要原因在于:
设黄纽扣所占的比例为 p , A =“任意抽取 2000 个纽扣,其中有 500 个黄纽扣”,则 500 500 15002000( ) (1 ) P A C p p . 由于纽扣的撒落,致使事件 A 已经发生.今要由此来推算 p ,有理由认为如果再从袋中随机抽取 2000 个纽扣的话,尽管 A 不一定发生,但是 A 发生的概率应当是最大的.因此,我们选择使 ( ) P A 达到最大的 p 作为估计值ˆ p.令 500 500 15002000d(1 ) 0dC p pp , 解得 500ˆ 25%2000p .
设 X 为离散型随机变量,概率函数 ( ) ( ; ) P X x p x , 为待估参数, 为 的取值范围( ), x 为 X 的可能值.对于来自总体 X
的样本1 2( , , , )nX X X 及其观察值1 2( , , , )nx x x ,显然有
( ) ( ; )i iP X x p x , 1,2, , i n
由于1 2, , ,nX X X 相互独立且与总体 X 同分布,故观察到1 2( , , , )nx x x 的概率,即 1 1 2 2, , ,n nX x X x X x 发生的概率为 1 21( ) ( , , , ; ) ( ; )nn iiL L x x x p x .
(7.4) 这个概率 ( ) L 是 的函数,称为样本1 2( , , , )nx x x 的似然函数. R. A. Fisher 引进的极大似然估计法,就是固定样本观察值1 2, , ,nx x x ,在 取值的可能范围内,挑选使 ( ) L 达到最大的ˆ ,作为 的估计值,即取ˆ 使 1 2 1 2ˆ( , , , ; ) max ( , , , ; )n nL x x x L x x x . 如此得到的ˆ 显然与样本1 2( , , , )nx x x 有关,记为1 2ˆ ( ,, , )nx x x ,并称之为参数 的极大似然估计值,相应的统计量1 2ˆ (, , , )nX X X 称为参数 的极大似然估计量. 若 X 为连续型随机变量,密度函数为 ) ; ( x f , 为待估参数,由于样本与总体同分布且不同样本间相互独立,故样本 nX X , ,1 的联合概率密度是 11( ) ( , , ; ) ( ; )nn iiL L x x f x .
(7.5)
取定样本值1 2( , , , )nx x x , ( ) L 是参数 的函数,称之为样本1 2( , , , )nx x x 的似然函数.如果 ( ) L 在 ˆ 处达到极大值,则称 ˆ 是 的极大似然估计. 若 X 为 连 续 型 随 机 变 量 , 则 对 任 意 观 测 值1 2( , , , )nx x x , 都 有 1 1 2 2, , , 0n nP X x X x X x ,故考虑这一概率便失去意义.但可将连续性问题离散化,即取 d 0( 1,2, , )ix i n ,并考虑概率 1 1 1 1 1 2 2 2 2 21d d , d d , , d d( d ; ) ( d ; )n n n n nni i i iiP x x X x x x x X x x x x X x xF x x F x x 1 1 12d ( ; ) 2 d ( ; ),n n nni i i ii i ix f x x f x 在 取值的可能范围内,挑选使上述概率达到最大的ˆ 作为 的极大似然估计.由于这一概率中的因子12 dnniix与 无关,去掉它并不影响对 求极值,因此将(7.5)定义为连续型随机变量的似然函数.
由于 ln ( ) L 与 ( ) L 在相同的位置达到极大值,为计算方便,常常只需求ln ( ) L 的极大值点即可.我们称 1ln ( )0ln ( )0kLL
(7.6)
为似然方程组.显然,1 2( , , , )k 的极大似然估计1 2ˆ ˆ ˆ ˆ( , , , )k 是似然方程组的解. 例 4 设连续型随机变量1~ X E ,即 X 的密度函数为 1e , 0( ; )0, 0xxf xx 其中 0 为参数.1 2( , , , )nx x x 为 X 的一组样本观察值,求 的极大似然估计.
解 由(7.5)似然函数为 11111 1( , , ; ) e eniiixn xnniL x x , 所以 niix n L11ln ln , 21dln 1dniiL nx , 令
0112 niixn ,
解得
11ˆniix xn , 即 x 为 的极大似然估计. 例 5
某电子管的使用寿命 X (单位:h)服从指数分布,概率密度见例 4,今抽取一组样本,其具体数据如下:
1067
919
1196
785
1126
936
918
1156
920
948 试估计估计其平均寿命.
解 根据例 4 的结果,平均寿命即参数 用样本均值来估计,于是 1 . 9971ˆ1 niixn (h)
为平均寿命 的极大似然估计值. 7.1.3
评价估计量的优劣标准 当用矩法估计与极大似然估计估计同一个参数时,得到的结果不尽相同,这就提出问题,哪个估计结果更好呢?自然希望估计量能代表真实参数根据不同的要求,评价估计量的标准也不同下面介绍三种最常用的标准. 1. 一致估计
一般情况 ˆ,但希望当 n 时, Pˆ这就是说,当样本容量 n 无限增大时,估计值 ˆ 非常接近参数真值的概率趋近于 1. 定义 1
如果当 n 时, ˆ 依概率收敛于 ,即对任意 0 ,有 ˆlim 1nP , 则称 ˆ 为参数 的一致估计. 一致性是对于极限性质而言的,它只在样本容量较大时才起作用. 2. 无偏估计 根据样本推得的估计值可能不同,然而,如果有一系列抽样构成各个估计,很合理地会要求这些估计的期望值与未知参数的真值相等.它的直观意义是样本估计量的数值在参数的真值周围摆动,而无系统误差. 定义 2
如果ˆ( ) E 成立,则称估计量 ˆ 为参数 的无偏估计. 例 6
设 ( ) E X 和2( ) D X 存在, 1 2, , ,nX X X 是来自总体 X 的样本,试证样本均值 X 及样本方差2S 分别是 及2 的无偏估计.
证
1 11 1 1( )n ni ii iE X E X E X nn n n ,即样本均值 X 是总体均值 的无偏估计. 221 11 1 1( )n ni ii iD X D X D Xn n n , 22 21 11 1( )1 1n ni ii iE S E X X E X Xn n
2 2111niiE X n Xn ( )
( )
2 2111 1niinE X E Xn n ()
( )
2221 11 n nnnn. 即样本方差2S 是总体方差2 的无偏估计.这就是我们将2 211( )1niiS X Xn 定义为样本方差的原因. 3. 有效估计
对总体的某一参数的无偏估计量往往不只一个,而且无偏性仅仅表明 ˆ 所有可能取的值按概率平均等于 ,有可能它取的值大部分与 相差很大.为保证 ˆ 的取值能集中于 附近,自然要求 ˆ 的方差越小越好. 定义 3
设 1 2, , ,nX X X 为样本,1ˆ 和2ˆ 是 的两个无偏估计量,如果)ˆ( )ˆ(2 1 D D ,则称1ˆ 是比2ˆ 有效的估计量.如果在 的一切无偏估计量中, ˆ的方差最小,则称 ˆ 为 的有效估计. 实际上,样本均值 X 是总体均值 的有效估计. 由定义可知,一个无偏有效估计量的取值是在可能范围内最密集于 附近的.也就是说,它以最大的概率保证该估计量的观察值在未知参数的真值 附近摆动. 例 7
比较总体期望 的两个无偏估计的有效性(设方差为2 ). (1) 11niiX Xn; (2) 1 1/n ni i ii iX k X k
10niik .
解
E X E X , 21D Xn , 22121niiniikD Xk . 利用初等不等式 niiniik n k1221, 得 22 21211niiniikD X D Xnn k , 故 X 比X有效. §7.2 区间估计 在点估计中,只给出了未知参数 的估计值,而未能给出这种估计的可靠程度以及这种估计可能产生的误差大小.除了求出参数 的点估计外,人们往往还希望给出一个估计区间,并希望知道这个区间包含 的可靠程度. 定义 4
设 1 2, , ,nX X X 为来自总体 X 的样本, 为未知参数,1 1 1 2ˆ ˆ (, , , )nX X X 及2 2 1 2ˆ ˆ( , , , )nX X X 是两个统计量,若对给定的(0,1) ,有 1 2 1 P .
(7.7)
则称区间 )ˆ,ˆ(2 1 为 的置信区间,1ˆ 和2ˆ 分别称为置信下限和置信上限, 1称为置信水平,也称置信概率或置信度.通常,将“ 的置信水平为 1 的置信区间”简称为“ 的 1 置信区间”. (7.7)式中 是一个未知的但不含任何随机性的常数,而区间 )ˆ,ˆ(2 1 与样本有关,是随机区间. (7.7)式表示的是随机区间 )ˆ,ˆ(2 1 包含常数 的概率为 1 因此, )ˆ,ˆ(2 1 的实际意义可理解为:独立抽取 100 个容量为 n 的样本,用同样方法做 100 个置信区间,平均有 (1 ) 100 个区间包含真参数 .
当 很小,例如 0.05 时,用同样方法做的 100 个置信区间中,平均至少有 95 个区间包含真参数 .因此,即使我们实际上只做了一次区间估计,也有理由认为它包含了真参数 .这种判断当然也可能犯错误,但犯错误的概率很小,仅仅为 .
置信区间的长度不仅与其构造方法有关,而且与样本容量 n 有关.人们总是希望
(1) 置信区间的平均长度 2 1ˆ ˆE 较小; (2) 置信概率 1 较大. 这就要求有较大的 n. 如果在实际问题中,由于客观条件的限制不可能使 n 很
大,也可以适当地降低可靠程度,即把 取得稍大一些,以提高区间估计的精度.至于如何选取 n 和 要视具体情况而定. 7.2.1 单个正态总体均值与方差的置信区间 设总体 X 服从正态分布 ) , (2 N , 1 2, , ,nX X X 是来自 X 的样本. 1. 2 已知,均值 的置信区间 由第六章(6.8)可知 ~ (0,1)/Xu Nn
(7.8) 对于给定的 ,查附表可确定/2u ,使/2( ) 1 P u u ,即 /2 /21 P X u X un n , 因此 的 1 置信区间是 /2 /2 /2/ , / / X u n X u n X u n
(7.9) 例 1
设随机抽测某品种玉米株高数据(单位:cm)如下:
170
180
270
280
250
270
290
270
230
170
由以往资料,该品种玉米株高服从正态分布,方差为 25,求该品种玉米株高总体期望 的 95%置信区间.
解 05 . 0 ,查表的 96 . 12 /u 而 10 n , 5 ,计算出 x =238.根据(7.9)式得到 的 95%置信区间 5 5238 1.96, ...