概率论与数理统计第七章,参数估计精品教案

时间：2022-07-14 19:15:02 浏览次数：

　第七章参数估计

　实际中遇到的随机变量（总体）大都是根据历史经验大致知道其分布类型，但总体的参数未知，诸如总体的分布函数或概率密度函数中的参数未知，需要通过样本来估计总体的参数，这类问题被称为参数估计，通常有两种估计方法：一是点估计法，即估计未知参数的大概值，并选取样本的一个函数值作为总体中未知参数的估计值；二是区间估计法，即估计未知参数的大概所在的范围区间，并选取样本的两个函数值作为总体中未知参数的估计区间限． §7.1 点估计

　点估计问题的一般提法如下：设总体 X 的分布函数 ( , ) F x  的形式为已知，1 2( , , , )k     为待估参数，1 2( , , , )nX X X 是来自总体 X

　的一个样本，1 2( , , , )nx x x 是相应的一个样本值，点估计问题就是要构造一个适当的统计量1 2ˆ (, , , )nX X X  来估计未知参数  ．称1 2ˆ (, , , )nX X X  为  的估计量，其观察

　值 ) , , , (ˆ2 1 nx x x   称为  的估计值，不至于混乱，均简记为  ˆ ．由于估计值) , , , (ˆ2 1 nx x x   表示为数轴上的一个点，故称之为点估计． 7.1.1 矩法

　矩法是求估计量的最古老的方法之一，它由 K. Pearson 在 20 世纪初提出，其基本思想是以样本矩来估计相应的总体矩，以样本矩的函数来估计相应的总体矩的同样函数．一般来说，如果总体 X 的 l 阶原点矩 ( )llm E X  存在的话，便依赖于参数1 2, , ,k   ，即有 1 2( , , , )l l km m     ， 1,2, , l k  .

　由格利文科定理，样本分布函数以概率 1 收敛于总体分布函数，很自然地会问，样本矩与相应的总体矩有什么关系？可以证明，只要总体的 l 阶矩存在，则样本的 l 阶矩依概率收敛于总体的 l 阶矩．所以，我们用样本原点矩lA 来估计总体分布相应的矩lm ，即令 1 1 2 12 1 2 21 2( , , , )( , , , )( , , , )kkk k km Am Am A       

　(7.1) 这是一个包含 k 个参数1 2, , ,k   的联立方程组，一般来说，可以从中解出

　1 2, , ,k   ，此时，我们就用方程组(7.1)的解1 2ˆ ˆ ˆ, , ,k   分别作为1 2, , ,k   的估计量，称为矩估计量．矩估计量的观察值称为矩估计值．显然，样本均值niixnx11是总体均值  的矩估计．例 1

　设总体 X 的均值  和方差2 都存在，1 2, , ,nX X X 是来自 X 的样本.试求  和2 的矩估计量，并依据样本观察值 -1.20

　0.82

　0.12

　0.45

　-0.85

　-0.30 计算  和2 的矩估计值．解

　由于 12 2 2 22( )( ) ( ) [ ( )]m E Xm E X D X E X        令 112 2 22111niiniiA X XnA Xn      从中解出  和2 作为其估计量，得到

　ˆ X   ，

　(7.2) 2 2 2 221 11 1ˆ ( )n ni ii iX X X X Bn n      .

　(7.3) 即样本均值 X 是总体均值  的矩估计，样本的二阶中心矩221 nB Sn 是总体方差2 的矩估计．但更多的是以2S 估计2 ，其原因将在估计量的评选标准中解释．

　代入样本值（-1.20

　0.82

　0.12

　0.45

　-0.85

　-0.30），得到其矩估计值 ˆ 0.16    ，2ˆ 0.50   ．例 2

　设总体 X 服从 [ θ 1 ， θ 2 ]上的均匀分布，密度函数为

　1 21 22 11 21, [ , ]( ; , ) -0, [ , ]xf xx       其中 θ 2 > θ 1 ，试求 θ 1 ， θ 2 的矩估计量．解

　由第四章 4.2.3 节的讨论，知 21 2 2 11 1( ) ( ), ( ) ( - )2 12E X D X       

　由(7.2)、(7.3)式，令

　1 222 1 21( ) ( )21( ) ( )12E X XD X B        解之即得 θ 1 ， θ 2 的矩估计量为：

　 21 2 2ˆ ˆ3 , 3 X B X B       ．

　例 3

　设总体 X 服从泊松分布，即 1( ; ) { } e!xp x P X xx    ， 0    ， 0,1,2, x 

　试求 θ 的矩估计量．解

　由于 ( ) E X   ，得  的矩估计量ˆX   ；又由于 ( ) D X   ，故得 θ 的另一个矩估计量2ˆB   ．由此可见一个参数的矩估计量是不唯一的． 7.1.2 极大似然估计法极大似然估计是要选取这样的统计量  ˆ ，当它作为  的估计值时，使观察结果（即样本1 2, , ,nX X X ）出现的可能性最大．可以这样打个比方：袋中混

　合装有一大批同种型号的黄纽扣和红纽扣，不慎撒落到地上 2000 个，其中有500 个是黄色的，若由此来推算袋中黄纽扣所占的比例的话， 50025%2000 这个比例应当是最能被接受的，其主要原因在于：

　设黄纽扣所占的比例为 p ， A =“任意抽取 2000 个纽扣，其中有 500 个黄纽扣”，则 500 500 15002000( ) (1 ) P A C p p   ．由于纽扣的撒落，致使事件 A 已经发生．今要由此来推算 p ，有理由认为如果再从袋中随机抽取 2000 个纽扣的话，尽管 A 不一定发生，但是 A 发生的概率应当是最大的．因此，我们选择使 ( ) P A 达到最大的 p 作为估计值ˆ p．令 500 500 15002000d(1 ) 0dC p pp  ，解得 500ˆ 25%2000p   .

　设 X 为离散型随机变量，概率函数 ( ) ( ; ) P X x p x    ，  为待估参数，  为 的取值范围（   ）， x 为 X 的可能值．对于来自总体 X

　的样本1 2( , , , )nX X X 及其观察值1 2( , , , )nx x x ，显然有

　( ) ( ; )i iP X x p x    ， 1,2, , i n 

　由于1 2, , ,nX X X 相互独立且与总体 X 同分布，故观察到1 2( , , , )nx x x 的概率，即  1 1 2 2, , ,n nX x X x X x    发生的概率为 1 21( ) ( , , , ; ) ( ; )nn iiL L x x x p x      .

　(7.4) 这个概率 ( ) L  是  的函数，称为样本1 2( , , , )nx x x 的似然函数． R. A. Fisher 引进的极大似然估计法，就是固定样本观察值1 2, , ,nx x x ，在 取值的可能范围内，挑选使 ( ) L  达到最大的ˆ ，作为  的估计值，即取ˆ 使 1 2 1 2ˆ( , , , ; ) max ( , , , ; )n nL x x x L x x x  . 如此得到的ˆ 显然与样本1 2( , , , )nx x x 有关，记为1 2ˆ ( ,, , )nx x x  ，并称之为参数  的极大似然估计值，相应的统计量1 2ˆ (, , , )nX X X  称为参数  的极大似然估计量．若 X 为连续型随机变量，密度函数为 ) ; (  x f ，  为待估参数，由于样本与总体同分布且不同样本间相互独立，故样本  nX X , ,1 的联合概率密度是 11( ) ( , , ; ) ( ; )nn iiL L x x f x      .

　 (7.5)

　取定样本值1 2( , , , )nx x x ， ( ) L  是参数  的函数，称之为样本1 2( , , , )nx x x 的似然函数．如果 ( ) L  在  ˆ 处达到极大值，则称  ˆ 是  的极大似然估计．若 X 为连续型随机变量，则对任意观测值1 2( , , , )nx x x ，都有 1 1 2 2, , , 0n nP X x X x X x    ，故考虑这一概率便失去意义．但可将连续性问题离散化，即取 d 0( 1,2, , )ix i n   ，并考虑概率   1 1 1 1 1 2 2 2 2 21d d , d d , , d d( d ; ) ( d ; )n n n n nni i i iiP x x X x x x x X x x x x X x xF x x F x x                 1 1 12d ( ; ) 2 d ( ; ),n n nni i i ii i ix f x x f x           在  取值的可能范围内，挑选使上述概率达到最大的ˆ 作为  的极大似然估计．由于这一概率中的因子12 dnniix与  无关，去掉它并不影响对  求极值，因此将(7.5)定义为连续型随机变量的似然函数．

　由于 ln ( ) L  与 ( ) L  在相同的位置达到极大值，为计算方便，常常只需求ln ( ) L  的极大值点即可．我们称 1ln ( )0ln ( )0kLL   

　(7.6)

　为似然方程组．显然，1 2( , , , )k     的极大似然估计1 2ˆ ˆ ˆ ˆ( , , , )k     是似然方程组的解．例 4 设连续型随机变量1~ X E   ，即 X 的密度函数为 1e , 0( ; )0, 0xxf xx    其中 0   为参数．1 2( , , , )nx x x 为 X 的一组样本观察值，求  的极大似然估计．

　解由(7.5)似然函数为 11111 1( , , ; ) e eniiixn xnniL x x  ，所以   niix n L11ln ln ， 21dln 1dniiL nx    ，令

　 0112  niixn ，

　解得

　 11ˆniix xn ，即 x 为  的极大似然估计．例 5

　某电子管的使用寿命 X （单位：h）服从指数分布，概率密度见例 4，今抽取一组样本，其具体数据如下：

　1067

　919

　1196

　785

　1126

　936

　918

　1156

　920

　948 试估计估计其平均寿命．

　解根据例 4 的结果，平均寿命即参数  用样本均值来估计，于是 1 . 9971ˆ1 niixn （h）

　为平均寿命  的极大似然估计值． 7.1.3

　评价估计量的优劣标准当用矩法估计与极大似然估计估计同一个参数时，得到的结果不尽相同，这就提出问题，哪个估计结果更好呢？自然希望估计量能代表真实参数根据不同的要求，评价估计量的标准也不同下面介绍三种最常用的标准． 1. 一致估计

　一般情况   ˆ，但希望当   n 时，     Pˆ这就是说，当样本容量 n 无限增大时，估计值  ˆ 非常接近参数真值的概率趋近于 1．定义 1

　如果当   n 时，  ˆ 依概率收敛于  ，即对任意 0   ，有  ˆlim 1nP      ，则称  ˆ 为参数  的一致估计．一致性是对于极限性质而言的，它只在样本容量较大时才起作用． 2. 无偏估计根据样本推得的估计值可能不同，然而，如果有一系列抽样构成各个估计，很合理地会要求这些估计的期望值与未知参数的真值相等．它的直观意义是样本估计量的数值在参数的真值周围摆动，而无系统误差．定义 2

　如果ˆ( ) E    成立，则称估计量  ˆ 为参数  的无偏估计．例 6

　设 ( ) E X   和2( ) D X   存在， 1 2, , ,nX X X 是来自总体 X 的样本，试证样本均值 X 及样本方差2S 分别是  及2 的无偏估计．

　证

　 1 11 1 1( )n ni ii iE X E X E X nn n n         ，即样本均值 X 是总体均值  的无偏估计．  221 11 1 1( )n ni ii iD X D X D Xn n n        ,    22 21 11 1( )1 1n ni ii iE S E X X E X Xn n                

　 2 2111niiE X n Xn       （）

　（）

　2 2111 1niinE X E Xn n      （）

　（）

　2221 11 n nnnn. 即样本方差2S 是总体方差2 的无偏估计．这就是我们将2 211( )1niiS X Xn 定义为样本方差的原因． 3. 有效估计

　对总体的某一参数的无偏估计量往往不只一个，而且无偏性仅仅表明  ˆ 所有可能取的值按概率平均等于  ，有可能它取的值大部分与  相差很大．为保证  ˆ 的取值能集中于  附近，自然要求  ˆ 的方差越小越好．定义 3

　设  1 2, , ,nX X X 为样本，1ˆ 和2ˆ 是  的两个无偏估计量，如果)ˆ( )ˆ(2 1  D D  ，则称1ˆ 是比2ˆ 有效的估计量．如果在  的一切无偏估计量中，  ˆ的方差最小，则称  ˆ 为  的有效估计．实际上，样本均值 X 是总体均值  的有效估计．由定义可知，一个无偏有效估计量的取值是在可能范围内最密集于  附近的．也就是说，它以最大的概率保证该估计量的观察值在未知参数的真值  附近摆动．例 7

　比较总体期望  的两个无偏估计的有效性(设方差为2 )． (1) 11niiX Xn; (2) 1 1/n ni i ii iX k X k   

　 10niik   .

　解

　    E X E X     ， 21D Xn  ，  22121niiniikD Xk    . 利用初等不等式   niiniik n k1221, 得    22 21211niiniikD X D Xnn k   ，故 X 比X有效． §7.2 区间估计在点估计中，只给出了未知参数  的估计值，而未能给出这种估计的可靠程度以及这种估计可能产生的误差大小．除了求出参数  的点估计外，人们往往还希望给出一个估计区间，并希望知道这个区间包含  的可靠程度．定义 4

　设  1 2, , ,nX X X 为来自总体 X 的样本，  为未知参数，1 1 1 2ˆ ˆ (, , , )nX X X    及2 2 1 2ˆ ˆ( , , , )nX X X    是两个统计量，若对给定的(0,1)   ，有  1 2 1 P         .

　 (7.7)

　则称区间 )ˆ,ˆ(2 1  为  的置信区间，1ˆ 和2ˆ 分别称为置信下限和置信上限，   1称为置信水平，也称置信概率或置信度．通常，将“  的置信水平为 1   的置信区间”简称为“  的 1   置信区间”． (7.7)式中  是一个未知的但不含任何随机性的常数，而区间 )ˆ,ˆ(2 1  与样本有关，是随机区间．（7.7）式表示的是随机区间 )ˆ,ˆ(2 1  包含常数  的概率为 1  因此， )ˆ,ˆ(2 1  的实际意义可理解为：独立抽取 100 个容量为 n 的样本，用同样方法做 100 个置信区间，平均有 (1 ) 100    个区间包含真参数  ．

　当  很小，例如 0.05   时，用同样方法做的 100 个置信区间中，平均至少有 95 个区间包含真参数  ．因此，即使我们实际上只做了一次区间估计，也有理由认为它包含了真参数  ．这种判断当然也可能犯错误，但犯错误的概率很小，仅仅为  ．

　置信区间的长度不仅与其构造方法有关，而且与样本容量 n 有关．人们总是希望

　 (1) 置信区间的平均长度 2 1ˆ ˆE    较小； (2) 置信概率   1 较大．这就要求有较大的 n．如果在实际问题中，由于客观条件的限制不可能使 n 很

　大，也可以适当地降低可靠程度，即把  取得稍大一些，以提高区间估计的精度．至于如何选取 n 和  要视具体情况而定． 7.2.1 单个正态总体均值与方差的置信区间设总体 X 服从正态分布 ) , (2  N ， 1 2, , ,nX X X 是来自 X 的样本． 1. 2 已知，均值  的置信区间由第六章(6.8)可知 ~ (0,1)/Xu Nn

　(7.8) 对于给定的  ，查附表可确定/2u  ，使/2( ) 1 P u u      ，即 /2 /21 P X u X un n           ，因此  的   1 置信区间是    /2 /2 /2/ , / / X u n X u n X u n       

　 (7.9) 例 1

　设随机抽测某品种玉米株高数据（单位：cm）如下：

　170

　180

　270

　280

　250

　270

　290

　270

　230

　170

　由以往资料，该品种玉米株高服从正态分布，方差为 25，求该品种玉米株高总体期望  的 95%置信区间．

　解 05 . 0   ，查表的 96 . 12 /u 而 10 n ， 5   ，计算出 x =238．根据(7.9)式得到  的 95%置信区间 5 5238 1.96, ...

推荐访问:概率论数理第七章