菜鸟学统计(二)

中心极限定理

中心极限定理指的是给定一个任意分布的总体.每次从这些总体中随机抽取n个抽样,一共抽m次.然后把这m组抽样分别求出平均值,这些平均值的分布接近正态分布.

中心极限定理需要注意几点:

  1. 总体本身的分布不要求正态分布
  2. 样本每组足够大,但也不需要太大(不少于30)

用实际数据展示中心极限定理

第一步:生成数据

1
2
3
4
import numpy as np
random_data=np.random.randint(1,7,10000)
print random_data.mean()
print random_data.std()

第二步:抽一组样

1
2
3
4
sample1=[]
for i in range(0,10):
sample1.append(random_data[int(np.random.random()*len(random_data))])
print sample1

第三步:抽取1000组,每组50个

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
sample=[]
sample_mean=[]
sample_std=[]
for i in range(0,1000):
sample=[]
for j in range(0,50):
sample.append(random_data[int(np.random.random()*len(random_data))])
sample_np=np.array(sample)
sample_mean.append(sample_np.mean())
samples_std.append(sample_np.std())
samples.append(sample_np)

sample_mean_np=np.array(sample_mean)
sample_std_np=np.array(sample_std)
print(sample_mean_np)

那么什么是中心极限定理?
我们经常会碰到需要抽样,抽样的目的,往往是希望根据抽样的结果来了解总体的情况.进行抽样之后,我们要进行点估计(point Estimation),以样本值来代表总体的结果.然而样本毕竟是样本并不是总体,样本值和总体值还是有差异的.所以我们往往还需要根据抽样的结果,了解点估计的结果的置信区间,看看其再一定概率水平下应该在什么范围内.另外,我们也常常进行假设检验,用假设值与样本值进行比较,以确定假设是否成立.

要获得样本值得置信区间或假设检验,都必须先要得到样本值得分布类型,是正态分布、泊松分布还是其他分布?试想,如果样本值的分布类型都不知道,我们连使用哪种统计量都不知道,置信区间的估计和假设检验根本无从下手.

幸运的是,中心极限定理救了我们一命.
中心极限定理定理告诉我们,任何独立、同分布、具有相同期望和方差的随机变量,随着试验次数或样本容量的增加,其总趋向于正态分布.

说白了,中心极限定理说的就是大量随机变量之和近似服从正态分布.正态分布的性质告诉我们,大量随机变量的均值当然也服从正态分布

这就好了,只要样本容量足够大,那么样本估计值就趋于正态分布,我们可以用正态分布的统计量来计算置信区间和进行假设检验.(这里对样本容量的要求也不过分只要不少于30就行了)

pic1


怎样理解区分大数定律和中心极限定理

  1. 投掷个奇形怪状的骰子,比如n=600次,大数定律说的是,这600次记录结果的平均值趋向于这个随机变量的期望值,并且随着n的增大,其平均值会更加逼近期望值,直至相等。注意的是,大数定律并无关正态分布,如果把600次结果作成分布图,也肯定不是正态分布。
  2. 而中心极限定理就不同了,继续投掷这个奇形怪状的骰子,但每次有6个骰子一起投,投掷n=100次,每次结果的平均值记为$\overline{x}$,$\overline{x}=(x_1+x_2+…+x_6)/6$ (每次有6个骰子),100次有100个平均值$\overline{x_1},\overline{x_2},…,\overline{x_{100}}$ ,这100个平均值呈正态分布!(n越大也越逼近),并且这个正态分布的均值等于该随机变量的期望值!! 即上述大数定律的期望值。

中心极限定理的重要性质如下:

  1. 在试验次数或样本容量n足够大时(一般n≥30),随机变量的综合的分布接近于正态分布
  2. 随机变量总和的均值,为$n\mu$,$\mu$为总体均值
  3. 随机变量总和的方差为,$n\sigma^2$,标准差为$\sqrt{n}\sigma$,其中$\sigma$为总体标准差

置信区间

中心极限定理是推断统计(包含参数估计和假设检验)的理论基础,从而也是参数估计(包括点估计和区间估计)的基础.

总的来说,中心极限定理能提供我们估计总体的支持.

点估计

用一个数据(data)的函数(通常称为估计统计量)来给出一个未知参数的估计.比如想知道全校学生每天平均学习时间(参数),就通过随机抽样100个学生作为样本,然后用这100个学生的平均学习时间来估计总体平均学习时间.而中心极限定理告诉我们了样本统计量的分布特征.这样就能帮助我们推得总体分布得参数.

置信区间

是指由样本统计量所构造的总体参数的估计区间,展现的是这个参数的真实值落在测量值(推测值)的周围的可信程度.我们可以使用[a,b]表示样本估计总体平均值的误差范围的区间,[a,b]就被称为是置信区间.

置信区间实际上表示的是在抽样调查中,样本能在多大程度上代表总体.

如何计算置信区间?

  1. 确定求解问题是什么?
  2. 求样本的平均值和标准误差
    当样本大于30时,抽取的样本符合中心极限定理.为了应用中心极限定理,我们所指的样本大小都是大于30.我们可以用样本平均值估计总体平均值,但要注意我们需要的是一个区间,而这里总体和样本之间的估计误差往往是由样本的标准差导致的.这里的估计误差SE等于样本标准差除以n的开方(即$\frac{S}{\sqrt{n}}$)
  3. 确定置信水平.
    由谁来决定置信水平?多大的置信水平才合适?答案完全取决于你的具体情况以及你需要对”区间中包含总体平均值”这一说法有多大信心.关键是记住,置信水平越高,区间越宽,置信区间包含总体平均值统计量的概率越大.
    常用置信水平是95%,这个数字并不是必然的,而是认为设定的.为什么设定95%呢?因为中心极限定理的样本平均值概率图(如下)可知,
    pic2
    根据中心极限定理,我们知道不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布.
    所以同种的中间位置红色线是总体平均值.而有95%的样本均值会落在两个标准误差范围内,这也是为什么选95%作为置信水平的原因.
  4. 求出置信区间上下限的值.
    pic3
    也就是概率$P(Z<z_a)=2.5%$,现在知道概率了,可以根据z表格来查询获取到对应的z值
    z表格也叫标准正态分布表,它是标准正态分布中,标准分与概率数值的对应关系表.
    知道2.5%,可以反查出标准分$z_a$.
    这里得到$z_a=1.96$,由此可以推出置信水平为95%的置信区间[a,b],a=总体平均值-$z_a$×标准误差,b=总体平均值+$z_a$×标准误差
    这样[a,b]就是我们要的置信区间了
    pic4

    总结

    pic5

    参考文献

  5. https://zhuanlan.zhihu.com/p/49315204
  6. https://www.zhihu.com/question/24801731/answer/251576717
-------------本文结束感谢您的阅读-------------