您的当前位置:首页正文

统计学讲义稿

2021-06-28 来源:星星旅游
第五章 统计量及其分布

在概率论的学习中,我们已经知道,随机变量及其概率分布全面描述了随机现象的统计规律性,但在实际问题的研究中概率分布往往是未知的。我们要讨论统计量的分布,找到总体参数与统计量的分布之间的联系,进而通过样本去推断总体的数字特征。

第一节 总体与样本

1.总体

统计学把所要研究的事物或现象的全体称为总体,而把构成总体的每个元素(成员)称为个体。要研究10,000名在校大学生,10,000名大学生就构成总体,每位大学生就是个体。实际问题的研究中,我们关心的往往不是大学生(个体)的一切方面,而是它的某个数量标志,比如大学生的身高,这时所有的身高就构成总体,总体表现为一个数据集,其中有的数值大有的数值小,有的出现机会多,有的出现机会少,记身高为X,它是一个随机变量,记其分布函数为F(x) 。可以把X的所有可能取值看做总体,并称这一总体为具有分布函数F(x)的总体。

总体也可以是多维的,如研究大学生的身高对体重的影响,身高和体重这两个数量标志就构成二维随机向量(X1,X2),其取值的全体就构成总体,即二维总体,记二维随机向量(X1,X2)的联合分布函数为F(x1, x2),称这一总体为具有分布函数F(x1, x2)的总体。2.样本

1

统计学对总体的研究是以样本为工具的。为了掌握总体的分布规律,从总体中随机抽取n个个体,其标志值(比如身高数值)记为(x1,x2,…,xn),则(x1,x2,…,xn)称为总体的一个样本,样本包含的个体的数目n称为样本容量。

由于样本是从总体中随机抽取的,抽取前无法预知它的数值,每个Xi(1,2,…n)都是一个随机变量,样本(X1,X2,…,Xn)则是一个n维随机向量。样本在抽取后就有确定的观测值,表现为n个具体的数据(x1,x2,…,xn)。3. 简单随机样本

抽取样本是手段,推断总体才是目的。为使样本更好的反映总体的信息,对样本抽取有两个基本要求。一是样本具有随机性,总体中每个个体都有同等可能性进入样本,即每个Xi与总体X具有相同的分布F(x)。二是样本满足独立性,即X1,X2,…,Xn相互独立,每一Xi的取值不影响另一Xi的取值。

如果从总体X中抽取样本(X1,X2,,Xn),其每个分量Xi(i1,2,,n)都与总体X具有相同的概率分布,且相互独立,则这样的抽样方法称为简单随机抽样,而如此得到的样本,称为简单随机样本。如果总体X具有分布函数F(x)或概率密度f(x),显然来自总体X的简单随机样本(X1,X2,,Xn)具有联合概率分布

F(x)或联合概率密度f(x)。

i1i1nn4.总体分布函数与样本分布函数

2

样本是总体的代表,简单随机样本能较好的代表总体,其代表性到底如何呢?

设x1,x2,…,xn是取自分布函数为F(x)的总体的样本,将样本观测值按升序排列,记为x(1),x(2),…,x(n),定义如下函数

0,当xx(1)Fn(x)k/n,当x(k)xx(k1),k1,2,n11,当xx(n)则Fn(x)是一非减右连续函数,且满足 Fn(+)=1

由此可见,Fn(x)是一个分布函数,称为样本分布函数(经验分布函数)。

对于每一固定的x,Fn(x)是事件{X x}发生的频率,当n固定时,不同的样本观测值x1,x2,…,xn将有不同的Fn(x),Fn(x)是一随机变量。

格里纹科定理:设x1,x2,…,xn是取自总体分布函数(理论分布函数)为F(x)的样本,Fn(x)是样本分布函数,有

P(limsupFn(x)F(x)0)1nxFn(-)=0

定理表明,当n充分大时,样本分布函数是总体分布函数的一个良好的近似,这就是为什么我们用样本推断总体的理由。

第二节 统计量及其分布

1.统计量

设(X1,X2,,Xn)为来自总体X的一个样本,则称不包含任何

3

未知参数的实值函数(X1,X2,,Xn)为一个统计量。

例如,(X1,X2)是从正态总体XN(,2)中抽出的样本,其中,

2是未知参数,则(X1X2),X23,X2X2都是统计量,因为

1212它们不含有未知参数。而

必须注意,统计量中不能含有未知参数,但允许含有已知参

1X1(X1X2),则不是统计量。2

数。例如:设总体X ~ N(μ,σ2),从中抽取一个样本(X1,X2,…,Xn),那么,当 μ,σ2 已知时,中有一个未知时,X/nX/n是一个统计量,而当μ,σ2

就不是统计量了。虽然统计量的构造不依赖于未知参数,但统计量的分布一般是依赖未知参数的。统计量是一个随机变量,统计量的分布称为抽样分布。2.常用统计量

设(X1,X2,,Xn)是从总体X中抽取的样本,称统计量

1nXXini1为样本均值,称统计量

1nS(XiX)2n1i12为样本方差;而称

1nS(XiX)2n1i1为样本标准差;称统计量

4

1nkMkXi,k1,2,ni1为样本k阶原点矩;称统计量

1n(XiX)k,k1,2,Mkni1为样本k阶中心矩。显然

M1n12SnM1X3.样本均值X的数学期望与方差

设X是来自具有均值及方差2的总体X的简单随机样本(X1,X2,,Xn)的均值,则E(X),D(X)2证明

1n1n1E(X)E(Xi)E(Xi)nni1ni1n1n1n1D(X)D(Xi)2ni1nD(Xi)i1n1122nn2n由此可知,不论总体的分布如何,从中抽样,其样本均值X的数学期望与总体的期望相等,而方差则是总体方差的1n倍。当样本(X1,X2,,Xn)是由有限总体的无放回抽样所得的样本时,由于它的n个分量Xi(i1,2,,n)不能假定为相互独立,因此定理中的第2个公式不再成立,而需要乘上一个修正因子

(Nn)(N1),即有以下定理。

设(X1,X2,,Xn)是取自容量为N且有均值及方差2的有限总体的无放回样本,则

5

E(X),D(X)2NnnN1证明从略。

由于当Nn时,修正因子的数值接近1,故修正因子一般在总体有限而样本容量大于总体的5%的情况下使用。

第三节 抽样分布

1.三大抽样分布

(1)若随机变量XN(,2),则其密度函数为

f(x)21e(x)222。

在数理统计中,经常假定总体所服从的分布是正态分布,其主要的原因自然是这个正态分布的常见性。另一方面,正态总体的情形比较容易处理,而总体服从其它分布的统计量的精确分布往往是非常复杂的。

(2)若X1,X2,X,Xn是相互独立的随机变量,且均服从于标准正态分布N(0,1),则X12X22Xn2服从2分布。2分布的密度函数为

xn1122ex,当x0时;n2(x;n)22(n)2当x0时,0,其中n是它的参数,称为自由度。

随机变量X是服从自由度为n的2分布,以后简记为X2(n),下图是2分布的密度函数曲线。

6

(3)若XN(0,1),Y2(n),且X与Y相互独立,则随机变量

TXYn服从自由度为n的t分布,且记为Tt(n)。t分布的密度函

数为

1x2n2t(x;n)(1)(x)。

n(n2)n(n1)2下图是t分布的密度函数曲线。

(4)若X与Y是相互独立的随机变量,分别服从自由度为m和n的2分布。则随机变量FXmXn服从自由度为(m,n)的FYnYm分布,简记为FF(m,n),F分布的密度函数为

mnmn1(2)mmmm()(x)2(1x)2,x0;mf(x;m,n)()(n)nnn220,x0.下图是F分布的密度函数曲线。如果FXmF(m,n),由定义易知Yn1XnF(n,m)FYm对给定的a(0a1),应有 即 从而得 又因为

1PFa(n,m)aF1PFaFa(n,m)1PF1aF(n,m)aPFF1a(m,n)1a7

比较两式可得 如F0.95(15,10)110.39。

F0.05(10,15)2.55F1a(m,n)1Fa(n,m)2分布,t分布和F分布的密度函数中都出现了函数(a),它

是数学分析中的一种特殊函数,形式为(a)0xa1exdx。上式中的积分很难直接计算,同样这三种分布的分布函数也是很难直接求解,因为采用制表的方法给出它的数值,在实际应用中可查表求的随机变量落在各区间中的概率。这里特别提请注意的是t分布的对称性,它的密度函数曲线是关于直线x0对称的,因此一般只给出x0的数值,这一点与这个态分布的情形相似。

2.来自正态总体的统计量的分布

本节介绍取自正态总体的一些统计量的精确分布,这些分布在后面的统计推断中常常要用到。

定理1 设(X1,X2,,Xn)是来自正态总体N(,2)的一个样本,则

(1)样本均值 (2)统计量 证明 前已证得

UXN(,2n)XN(0,1)nE(X),D(X)2n又由概率论的知识知,服从正态分布的随机变量的线性函数仍服从正态分布,故

8

1n2XXiN(,)ni1n所以

UXN(0,1)n定理2 设(X1,X2,,Xn)是来自正态总体N(,2)的一个样本,则样本均值X与样本方差S2相互独立,并且有

(n1)S2212(Xi1niX)22(n1)证明从略。

定理3 设(X1,X2,,Xn)是来自正态总体N(,2)的一个样本,则统计量

TXt(n1)SnUXN(0,1)n2(n1)证明 由定理1 知 由定理2 知 且X与S2相互独立。

(n1)S22因为相互独立的随机变量的线性函数依然相互独立,故与

(n1)S2Xn2相互独立。

再由三大抽样分布知

XTn(n1)S2Xt(n1)2(n1)Sn定理4 设(X1,X2,,Xn)和(Y1,Y2,,Yn)分别是来自正态总体

9

N(1,2)和N(2,2)的两个样本,它们相互独立,则统计量

T(XY)(12)2(m1)S12(n1)S2mn(mn2)t(mn2)mn其中

1m1m2XXi,S1(XiX)2mi1m1i11nYYini11n,S(YiY)2n1i122证明 易知

E(XY)E(X)E(Y)12D(XY)D(X)D(Y)2m2n所以 从而得

(XY)N(12,2m2n)U(XY)(12)N(0,1)11mn由给定的条件及定理知

(n1)S122(m1),

2(n1)S2222(m1)并且他们相互独立,再由2分布的可加性知

V((m1)S1222(m1)S22)2(mn2)于是,由定义知

T(XY)(12)Umn(mn2)t(mm2)22mnVmn2(m1)S1(n1)S2显然,当12时应有

TXY2(m1)S12(n1)S2mn(mn2)t(mm2)mn10

定理5 设(X1,X2,,Xn)和(Y1,Y2,,Yn)分别是来自正态总体

N(1,2)和N(2,2)的两个样本,它们相互独立,则统计量

S1212F22F(m1,n1)S22证明 由定理知

(m1)S1212(m1),

22(n1)S2222(n1)2(n1)S2因两个样本相互独立,所以

(m1)S1221(m1)与

2222(n1)也

相互独立,从而由定义可知

(m1)S12F21(m1)(n1)2(n1)S222S121222F(m1,n1)S22S12显然,当时应有F2F(m1,n1)S221223.来自非正态总体的样本均值X的近似分布

当样本来自非正态总体时,其样本均值X的抽样分布又是怎样的呢?为了回答这一问题,先来回顾概率论中的独立同分布中心极限定理。

设随机变量X1,X2,,Xn相互独立,服从同一分布,且具有有限的期望E(Xi)和方差D(Xi)20,(i1,2,,n),则随机变量

UnXn的分布函数Fn(x)对任意x,满足

limFn(x)limPUnxnnx1t22edt211

当n很大时,近似地有

UnN(0,1)而由XnUn可知,当n很大时,近似地有

XN(,2n)这就是说,若容量为n的简单随机样本取自有限均值及方差

20的总体,无论这个总体服从何种分布,当n很大时,其样本

均值X均近似服从正态分布N(,2n),这一结论有广泛的适用性。因为就实际情况而论,一般变量的变化范围都是有限的,故其均值和方差必定是有限的。中心极限定理的条件,应用时容易被满足。一般情况下,当样本容量n30时,X的抽样分布均能很好地接近正态分布。

但总体方差2往往未知,这时如何求X的近似分布呢?考虑统计量

TXSn当n很大时(一般n30即可),X近似于正态分布,所以

TXSn近似于t(n1)分布,又当n很大时,t分布近似于N(0,1),

故当n很大时,近似地有

TXN(0,1)Sn从而近似地有

4.比率的抽样分布

12

XN(,S2n)如果一个随机变量试验只有两种结果A与A,则这样的试验称为贝努利试验,若记随机变量

1,事件A出现X0,事件A出现则X所服从的分布为贝努利分布或(01)分布,其分布律为

f(x)pxq1x,x0.1,q1p式中参数p为出现事件A(即状态1)的概率,q为出现事件A(即状态0)的概率。

当所考察的总体X只有两种状态时,则总体X服从贝努利分布。如产品检验时,任取1件产品,可以是合格品也可以是不合格品。若记

1,不合格品X0,合格品则X服从贝努利分布,而参数p便是这批产品的不合格品率。若从总体中抽取一个容量为n的样本(X1,X2,,Xn),则每个

Xi(i1,2,,n)也只能取

1或0两个值中的一个,从而X1,X2,,Xn的

Xi1niX1X2Xn1n实际表示状态1在样本中出现的次数,进而样本平均值XXini1则表示状态1在容量为n的样本中出现的比率;若状态1表示不合格品出现,则这样D的X便表示样本中的不合格品比率。这就是说,当总体X服从贝努利分布时,样本均值X实际表

13

示的是一种比率,那么它的抽样分布又是何种形式呢?

1n容易看出,和数Xi与比率XXi之间有一一对应关系,

ni1i1n即

X:0,1,2,,niX112X0,,,,1:innn所以欲求X的分布,只需求Xi的分布,因为两者是相同。而和数Xik就是n个样本值x1,x2,,xn中恰好有k个等于1,nk个等于0,它实际服从二项分布B(n,p),即

nPXikpkqnk,k0,1,2,,nk因而 于是比率Xknk12PXpkqnk,0,,,,1nknnn1Xi的概率分布为nnnxnnx12,X0,,,,1(X)pqnnnx由于 E(X)p,D(X)pqp(1p)E(X)E(X)p,D(X)D(X)np(1p)n于是当n很大时,亦应近似有

XpN(0,1)p(1p)n或

XN(p,p(1p)n)14

因篇幅问题不能全部显示,请点此查看更多更全内容