第 7 章 参数估计
核心知识
点估计
设总体 X 的分布函数为 F(x;θ),θ 是待估参数,X1,X2,…,Xn 是 X 的一个样本。点估计问题就是要构造一个适当的统计量 θ^(X1,X2,…,Xn),用来估计参数 θ。
- 此时称 θ^(X1,X2,…,Xn) 为 θ 的(点)估计量
- 若用样本值 x1,x2,…,xn 代替样本,称 θ^(x1,x2,…,xn) 为 θ 的估计值
- 估计量和估计值统称为估计,简记为 θ^
两种常用的点估计方法:矩法、极大似然法。
矩法
当样本容量 n→+∞ 时,样本矩依概率收敛于相应的总体矩,即:
Ak⟶Pμk,Bk⟶Pvk
其中 Ak,Bk 分别为样本的 k 阶原点矩和 k 阶中心矩,μk,vk 分别为总体的 k 阶原点矩和 k 阶中心矩。因此,矩法的统计思想是:用样本矩(的函数)作为相应总体矩(同一函数)的估计。
基本步骤如下:
设 θ1,θ2,…,θm 是总体 X 的待估参数,并假定 X 的前 m(m≥1) 阶矩存在。
-
求总体 X 的前 m 阶矩(不妨设为原点矩)μ1,μ2,…,μm,一般地,这些矩可以写成待估参数 θ1,θ2,…,θm 的函数形式,记为:
⎩⎨⎧μ1=E(X)=g1(θ1,θ2,…,θm),μ2=E(X2)=g2(θ1,θ2,…,θm),…μm=E(Xm)=gm(θ1,θ2,…,θm),
-
由上面的方程组,可求出各参数关于前 m 阶矩 μ1,μ2,…,μm 的函数表达式:
θk=hk(μ1,μ2,…,μm),k=1,2,…,m
-
根据矩法思想,以 Ai 代替 μi,i=1,2,…,m,即可得各参数的估计量为:
θk=hk(A1,A2,…,Am),k=1,2,…,m
称 θk 为参数 θk 的矩估计量(k=1,2,…,m)
注
- 就个人的做题经验而言,大多数情况下待估参数只有一个,因此只需根据一阶原点矩,即期望列方程即可
- 在上面的不等式组中,可以用部分总体中心矩 vi 代替原点矩 μi,此时在步骤 3 中以相应的样本矩 Bi 代替 vi 即可
- 矩估计没有涉及总体是正态分布的信息
- 当总体的分布未知,但知道待估参数关于总体各阶矩的函数形式时,便可求出该参数的矩估计
- 缺点:在总体分布已知时,没有充分利用总体分布所提供的信息,矩估计量不具有唯一性
极大似然法
基本思想:设某事件 A 发生的概率依赖于待估参数 θ,如果观察到 A 已发生,那么就使取得事件 A 发生的概率达到最大的 θ 值作为 θ 的估计。
设 X 为离散型总体,其概率分布律为 P(X=x)=p(x;θ),θ∈Θ 是未知的待估参数,Θ 为参数可取值的范围。X1,X2,…,Xn 是来自总体 X 的样本,并设 x1,x2,…,xn 是已经得到的样本值,则样本 X1,X2,…,Xn 取到样本值 x1,x2,…,xn 的概率为:
P(X1=x1,X2=x2,…,Xn=xn)=i=1∏nP(Xi=xi)=i=1∏np(xi;θ)
将其记为似然函数L(θ):
L(θ)=L(θ;x1,x2,…,xn)=i=1∏np(xi;θ)
形式上,L(θ) 与样本联合分布律 p(x1,x2,…,xn;θ) 相同,但,
- L(θ) 是样本值给定时关于 θ 的函数
- p(x1,x2,…,xn;θ) 是参数给定时关于样本值的函数
基于上述思想,应选取 θ 的估计值 θ^,使得 L(θ) 取到最大,于是 θ^ 满足:
L(θ^)=L(θ^;x1,x2,…,xn)=θ∈ΘmaxL(θ;x1,x2,…,xn)
由此获得的 θ^=θ^(x1,x2,…,xn) 称为参数 θ 的极大似然估计值,相应的统计量 θ^(X1,X2,…,Xn) 称为参数 θ 的极大似然估计量。
设 X 为连续型总体,其密度函数为 f(x;θ),θ∈Θ 是未知的待估参数。X1,X2,…,Xn 是来自总体 X 的样本,并设 x1,x2,…,xn 是已经得到的样本值,此时似然函数为:
L(θ)=L(θ;x1,x2,…,xn)=i=1∏nf(xi;θ)
形式上,L(θ) 与样本联合密度函数 f(x1,x2,…,xn;θ) 相同。
极大似然估计值和极大似然估计量的定义同离散型版本。寻求极大似然估计常用微分法,有:dθdL(θ)θ=θ^=0,称之为似然方程。
为了计算方便,往往对似然函数求对数,记 l(θ)=lnL(θ) 为对数似然函数,此时似然方程等价为:dθdl(θ)θ=θ^=0,称为对数似然方程。
注
- 若总体分布含有多个待估参数,可将上文的 θ 看成向量,此时需要对似然方程的每个参数求偏导数,建立含多个式子的似然方程
- 当似然方程的解不存在时,往往根据似然函数关于待估参数的单调性来求其极大似然估计,常用结论有:
- 当似然函数单调递减时,极大似然估计 θ^=max{X1,X2,…,Xn}
- 当似然函数单调递增时,极大似然估计 θ^=min{X1,X2,…,Xn}
极大似然估计的不变性:设参数 θ 的极大似然估计为 θ^,θ∗=g(θ) 是 θ 的连续函数,则参数 θ∗ 的极大似然估计为 θ∗=g(θ^)
估计量的评价准则
无偏性准则
设 θ∈Θ 是总体 X 的待估参数,X1,X2,…,Xn 是来自总体 X 的样本。若估计量 θ^=θ^(X1,X2,…,Xn) 的数学期望存在,且满足:E(θ^)=θ,θ∈Θ,称 θ^ 是 θ 的无偏估计量或无偏估计。
- 偏差:E(θ^)−θ(E(θ^)=θ)
- 渐近无偏估计:满足 n→+∞limE(θ^)=θ,但 E(θ^)=θ
有效性准则
设 θ1=θ1(x1,x2,…,xn),θ2=θ2(x1,x2,…,xn) 都是参数 θ 的无偏估计,若 ∀θ∈Θ,Varθ(θ1)≤Varθ(θ2),且至少有一个 θ∈Θ 使不等号成立,则称 θ1 比 θ2 有效。
均方误差准则
设 θ^=θ^(X1,X2,…,Xn) 是总体参数 θ 的估计量,称 E[(θ^−θ)2] 是估计量 θ^ 的均方误差,记为 Mse(θ^)。
- Mse(θ^)=E[(θ^−θ)2]=Var(θ^)+[E(θ^)−θ]2
- 设 θ1,θ2 都是 θ 的估计量,若 ∀θ∈Θ,Mse(θ1)≤Mse(θ2),则称在均方误差准则下,θ1 优于 θ2
- 均方误差准则常用于有偏估计之间,有偏估计与无偏估计之间的比较
- 若 θ^ 是参数 θ 的无偏估计量,则 Mse(θ^)=Var(θ^),即均方误差准则在无偏估计之间的比较等价于有效性准则
- 在实际情况下,均方误差准则比无偏性准则更重要,即如果一个估计量虽然有偏,但其均方误差较小,有时比方差较大的无偏估计更有用
相合性准则
设 θn=θ^(X1,X2,…,Xn) 是总体参数 θ 的估计量,若 ∀ ε>0,有:n→+∞limP(∣θn−θ∣<ε)=1,即 θn 依概率收敛于 θ,称 θn 是 θ 的相合估计量,并记 θn⟶Pθ,n→+∞。
- 一般地,由矩法求得的参数估计量都满足相合性
- 对于极大似然估计,在总体分布满足一定条件下,求得的估计量也是待估参数的相合估计量
注
考得最多的是估计量的无偏性和相合性。
区间估计
置信区间
设总体为 X,θ∈Θ 为待估参数,X1,X2,…,Xn 是来自总体 X 的样本,统计量 θL=θL(X1,X2,…,Xn) 和 θU=θU(X1,X2,…,Xn) 满足 θL<θU,且对给定 α∈(0,1) 和任意 θ∈Θ,有:P(θL<θ<θU)≥1−α,则
-
称随机区间 (θL,θU) 是参数 θ 的置信水平为 1−α 的置信区间
- 置信区间是一个随机区间,对某次具体样本观测来说,有时包含 θ,有时不包含 θ,且包含 θ 的可能性至少为 1−α
- 在实际应用中,通常取 α=0.1 或 0.05
-
θL,θU 分别称为 θ 的置信水平是 1−α 的双侧置信下限和双侧置信上限
- 精确度:区间的平均长度 E(θU−θL)
- 误差限:21E(θU−θL)
- 奈曼原则:当样本容量给定时,置信水平和精确度是相互制约的。因此在保证置信水平达到一定的前提下,尽可能提高精确度。
- 当总体 X 是连续型随机变量时,对于给定置信水平 1−α,应使上面的不等式取等号,即 P(θL<θ<θU)=1−α 的随机区间 (θL,θU) 作为置信区间
- 当总体 X 是离散型随机变量时,则应选择使 P(θL<θ<θU)=1−α 且尽可能接近 1−α 的随机区间 (θL,θU) 作为置信区间
对于给定的 α∈(0,1),如果统计量 θL,θU 满足:
P(θL<θ)≥1−α,P(θ<θU)≥1−α,θ∈Θ
那么分别称 θL 和 θU 是参数 θ 的置信水平为 1−α 的单侧置信下限和单侧置信上限。
- 当总体 X 是连续型随机变量时,应选择 θL,θU 使:P(θL<θ)=P(θ<θU)=1−α,θ∈Θ
- 设统计量 θL,θU 分别是参数 θ 的置信水平为 1−α1,1−α2 的单侧置信下限和单侧置信上限,且 θL<θU,那么 (θL,θU) 是 θ 置信水平为 1−α1−α2 的置信区间。
枢轴量法
设总体 X 的密度函数(或概率分布律)为 f(x;θ),其中 θ 为待估参数,并设 X1,X2,…,Xn 是来自总体 X 的样本,如果样本和参数 θ 的函数 G(X1,X2,…,Xn;θ) 的分布完全已知,且形式上不依赖于其他未知参数,那么称 G(X1,X2,…,Xn;θ) 为枢轴量。
寻找 θ 的置信区间的步骤:
- 构造一个分布已知的枢轴量 G(X1,X2,…,Xn;θ)
-
当总体 X 是
- 连续型随机变量时,对给定的置信水平 1−α,根据枢轴量 G(X1,X2,…,Xn;θ) 的分布,适当地选择两个常数 a,b,使:
Pθ(a<G(X1,X2,…,Xn;θ)<b)=1−α
- 离散型随机变量时,对给定的置信水平 1−α,选择常数 a,b 满足:
Pθ(a<G(X1,X2,…,Xn;θ)<b)≥1−α and be close to 1−α as much as possible
-
假如参数可以从 G(X1,X2,…,Xn;θ) 中分离出来,不等式 a<G(X1,X2,…,Xn;θ)<b 可以等价地转化为 θL<θ<θU
P(θL<θ<θU)=1−α
P(θL<θ<θU)≥1−α and be close to 1−α as much as possible
表明 (θL,θU) 是 θ 的置信水平为 1−α 的置信区间
注
对于步骤 2,满足式子的常数 a,b 的解是不唯一的。根据奈曼原则,应选择使置信区间 (θL,θU) 的平均长度达到最短的 a,b,习惯上取 a,b 满足:
==Pθ(G(X1,X2,…,Xn;θ)≤a)Pθ(G(X1,X2,…,Xn;θ)≥b)2α
关于枢轴量的结论
对于枢轴量 G(θ)
- 双侧置信区间:g1−2α(n)<G(θ)<g2α(n)
- 单侧置信下限:G(θ)>g1−α(n)
- 单侧置信上限:G(θ)<gα(n)
其中 gα(n) 代表分位数
正态总体参数的区间估计
打 LaTeX 公式太累了,所以下面就直接贴上课本给的表格,公式都是整理好的:
提示
记住不同情况下的枢轴量的分布,以及上面关于枢轴量的结论,我们就可以较为容易地推导出对应的置信区间,无需再额外记忆一堆置信区间的公式了,减轻记忆压力。
注意
表格中“两个正态总体方差不等且未知时,求均值差的区间估计”(即表格第 6 行(不包括表头行))这块内容不考!!!
非正态总体参数的区间估计
0-1 分布参数的区间估计
设总体 X 服从 0-1 分布分布 B(1,p),X1,X2,…,Xn 是来自总体 X 的样本,当 n 充分大时,由中心极限定理知:
np(1−p)i=1∑nXi−np=np(1−p)nX−np
近似服从标准正态分布 N(0,1),于是有:
P(−zα/2<np(1−p)nX−np<zα/2)≈1−α
等价于:
P((n+zα/22)p2−(2nX+zα/22)p+nX2<0)≈1−α
求一元二次方程,可得参数 p 的置信水平为 1−α 的近似置信区间为:
(2α1(−b−b2−4ac),2α1(−b+b2−4ac))=(pL,pU)
其中 a=n+zα/22,b=−(2nX+zα/22),c=nX2,取 p(1−p) 的估计量为 X(1−X),得参数 p 的置信水平为 1−α 的近似置信区间为:
(X−zα/2nX(1−X),X+zα/2nX(1−X))
在实际应用中,通常要满足 n>30 且 np>5,n(1−p)>5
其他均值分布 μ 的区间估计
设总体 X 的均值为 μ, 方差为 σ2,X1,X2,…,Xn 是来自总体 X 的样本,当 n 充分大时(n>50),由中心极限定理知:
nσi=1∑nXi−nμ∼approximatelyN(0,1)
故 μ 的置信水平为 1−α 的近似置信区间为:(X±nσzα/2)。如果方差未知,可用估计量 S2 代替 σ2。
注
当样本容量 n≤50 时,t 分布具有良好的统计稳健性,即当总体 X 不服从正态分布,但样本数据基本对称时,枢轴量 S/nX−μ 仍可以看成近似服从分布 t(n−1),从而均值 μ 的置信水平为 1−α 的近似置信区间为:(X±nStα/2(n−1))
评论区
如果大家有什么问题或想法,欢迎在下方留言~