统计学基本知识

均值中位数众数

均值主要反映一系列数的平均程度,但及其容易受极端值的影响
中位数:将一系列数排序后,位于中间的数(如果是偶数个数则是中间的两个数,如果是奇数个数则是中间的那一个)
众数:一串数字序列中,出现次数最多的那个数。

nums=[1,2,3,4]
#均值
import numpy as np
np.mean(nums)
#中位数
np.median(nums)
#众数
counts=np.bincount(nums)
np.argmax(counts)
#求众数也可以利用scipy下stats模块

from scipy import stats
stats.mode(nums)[0][0]

极差和中程数

极差用最大的数减去最小的数.数字越小说明数字之间越紧密,
中程数是考虑集中趋势的又一种方式
中程数是最大值和最小值的平均值。

茎叶图

其的思路是将数组中的数按位数进行比较，将数的大小基本不变或变化不大的位作为一个主干（茎），将变化大的位的数作为分枝（叶），列在主干的后面，这样就可以清楚地看到每个主干后面的几个数，每个数具体是多少。

茎叶图是一个与直方图相类似的特殊工具，但又与直方图不同，茎叶图保留原始资料的资讯，直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度，实际上就是一个直方图，可以从中统计出次数，计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。

特征:

茎叶图表示数据有两个优点：一是从统计图上没有原始数据信息的损失，所有数据信息都可以从茎叶图中得到；二是茎叶图中的数据可以随时记录，随时添加，方便记录与表示。
茎叶图表示数据有两个优点：一是从统计图上没有原始数据信息的损失，所有数据信息都可以从茎叶图中得到；二是茎叶图中的数据可以随时记录，随时添加，方便记录与表示。

举例:
下面有一堆数据共30个

89 79 57 46 1 24 71 5 6 9 10 15 16 19 22 31 40 41 52 55 60 61 65 69 70 75 85 91 92 94

茎|叶

0 |1 5 6 9

1 |0 5 6 9

2 | 2 4

3 | 1

4 | 0 1 6

5 | 2 5 7

6 | 0 1 5 9

7 | 0159

8 | 5 9

9 | 1 2 4

比如第二行的数字如下：

1 | 0 5 6 9

则代表数据集中有10，15，16，19四个数字
可以这样理解茎+叶=实际的数值,如 1|0569 中茎值为1,页值为 0,5,6,9 共四个页值.
其真实数值计算方式:茎值连接叶值 .茎值:1叶值0连接起来就是10.
一个茎可以有很多叶也可以不出现叶.

python 茎叶图

import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0.1, 2*np.pi, 10)
markerline, stemlines, baseline = plt.stem(x, np.cos(x), '-.')
plt.setp(baseline, 'color', 'r', 'linewidth', 2)

plt.show()

箱线图

(1)计算上四分位数(Q3),中位数,下四分位数(Q1)
(2)计算上四分位数和下四分位数之间的差值,即 四分位数差
(3)绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数.在箱内部中位数的位置绘制横线
(4)大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值
(5)异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须.
(6)极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示
(7)为箱线图添加名称,数轴等

用python绘制箱线图

未标准化的箱线图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

if __name__ == "__main__":
    data = pd.read_csv("G:/dataset/abalone.csv")
    #需要绘制箱形图的列,不包括ID列和第一列
    box_data = np.array(data.ix[:,2:10])
    #绘制箱线图
    plt.boxplot(box_data)
    plt.xlabel("特征索引")
    plt.ylabel("四分位间距")
    plt.show()

标准化的箱线图
通过将数据进行标准化，可以解决箱线图被压缩的问题。

1
2
3

#对数据进行标准化
  box_data = (box_data - np.mean(box_data,axis=0)) / np.std(box_data,axis=0)
  plt.boxplot(box_data)

标准化后的数据均值为0，方差为1。标准化之后可以清楚的看到，每个特征的异常值分布情况。

统计量:

统计:集中趋势

统计学分为描述统计学和推论统计学.
描述统计学:用样本集来代表总体。
平均值反映了一组数据的集中趋势.

考虑一组数据:
3,3,3,3,3,100
如果只算算术平均数,它并不能反映一组数据的特点.因此往往会引入中位数、众数等其他一些统计量.

样本和总体

样本是总体里的一个子集,只有随机采样才能更能反映总体.
往往用$\mu$表示总体均值,$\overline{X}$表示样本均值

总体方差

总体均值是$\mu=\frac{1}{N}\sum_{i=1}^Nx_i$
引入一个评估远离集中趋势的标准：

$\sigma^2=\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}$

反映数组中的数据离平均值的距离。

样本方差

我们推论统计学关心的是通过对样本进行描述性统计,然后推断出总体的情况.
样本均值:

$\overline{X}=\frac{\sum_{i=1}^n}{n}$

样本方差:

$S_n^2=\frac{\sum_{i=1}^n(x_i-\overline{X})^2}{n}$

若是无偏样本方差可以写做

$S^2=\frac{\sum_{i=1}^n(x_i-\overline{X})^2}{n-1}$

证明:
什么是无偏?

$E(S^2)=\sigma^2$

若这里采用的是$S_n^2$,$E(S_n^2)≠\sigma^2$

看下面推导

$S_n^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2=\frac{1}{n}\sum_{i=1}^n((x_i-\mu)+(\mu-\overline{x}))^2≤\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2$

所以可以看到$S_n^2$并不是无偏的

为什么$E(S^2)=\sigma^2$

$E(S_n^2)=E(\frac{1}{n}\sum_i^n(x_i-\overline{x})^2)=E[\frac{1}{n}\sum_{i=1}^n(x_i)^2-2(\overline{x})^2+(\overline{x})^2]$

得到

$E(S_n^2)=E[\frac{1}{n}\sum_{i=1}^n(x_i)^2]-E[(\overline{x})^2]=D[(x_i)^2]+(E[x_i])^2-(D[(\overline{x})^2]+(E[\overline{x}])^2)$

因为$E[\overline{x}]=\overline{x},D[\overline{x}]=\frac{1}{n}D[x]$(i=1,2,…,n)
所以有$E(S_n^2)=D(x)-\frac{1}{n}D(x)$

所以修正后的是$E(S_n^2)$的$\frac{n}{n-1}$倍.

所以$S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$
是总体方差的无偏估计

标准差

总体标准差:

$\sigma=\sqrt{\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}}$

样本标准差:

$S=\sqrt{\frac{\sum_{i=1}^n(x_i-\overline{X})^2}{n}}$

诸方差公式

$Var(X)=E[X^2]-(E[X])^2$

随机变量介绍

随机变量实际是一个函数,输入是一个事件,输出会是这个事件所对应的概率.

二项分布

在概率论和统计学里面，带有参数n和p的二项分布表示的是n次独立试验的成功次数的概率分布。在每次独立试验中只有取两个值，表示成功的值的概率为p，那么表示试验不成功的概率为1-p。这样一种判断成功和失败的二值试验又叫做伯努利试验。特殊地，当n=1的时候，我们把二项分布称为伯努利分布。

其概率分布函数如下:

$Pr(k;n,p)=Pr(X=k)=C_n^kp^k(1-p)^{n-k}$

这里n和p为参数,k=0,1,2,…,n
其均值为E[X]=np,方差为Var(X)=np(1-p)

注意常常会提到二项分布与泊松分布的关系

泊松分布的概率分布函数:

$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$

参数$\lambda$是单位时间(或单位面积)内随机事件的平均发生率.
统计学上,满足三个条件,即可用泊松分布.

小概率事件,两次以上事件发生概率趋于0
事件发生的概率独立且概率互不影响
发生概率时稳定

二项分布和泊松分布的关系(泊松小数定律)
在二项分布的n次伯努利实验中,如果实验次数n很大,二项分布的概率p很小,且乘积$\lambda=np$比较适中(保持不变),则事件出现的次数的概率可以用泊松分布来逼近.事实上,二项分布可以看作泊松分布在离散时间上的对应物.

泊松分布与指数分布

泊松过程是一种重要的随机过程，适合于描述单位时间内随机事件发生的次数。泊松过程中，第k次随机事件与第k+1次随机事件出现的时间间隔服从指数分布。这是因为，第k次随机事件之后长度为t的时间段内，第k+1次随机事件出现的概率等于1减去这个时间段内没有随机事件出现的概率。而根据泊松过程的定义，长度为t的时间段内没有随机事件出现的概率等于

$\frac{e^{-\lambda t}(\lambda t)^0}{0!}=e^{-\lambda t}$

所以第k次随机事件之后长度为t的时间段内,第k+1次随机事件出现的概率等于$1-e^{-\lambda t}$,这是指数分布,这还表明了泊松过程的无记忆性.

泊松过程

一个简单的应用题
学生上学进校门,假设每分钟(单位时间)计数一次,我们通常会认为单位时间内到学校的人数的数学期望应该是一致的.
同时,对于某一分钟(单位时间),某一个学生在这一分钟到达学校的概率也是相同的,两个同学互不相关,在满足学校到校时间要求的前提下,它们到达学校的时间是自由的.并且假设每个学生在这一分钟内到达学校的概率为P
这时我们可以定义一个随机变量,假设有n个随机变量,它表示

$X_i(t) \begin{cases} 1 \ \ \ 第i个学生在t时刻之前已到校 0 \ \ \ 第i个学生在t时刻还没到校 \end{cases}$

这样我们可以很容易的得到对于一个确定的时刻t,所有变量的和——假设是X,它的概率模型就是比较常见的二项分布.

$P\{X=k\}=P\{\sum_{i=1}^nX_i=k\}=C_n^kp^k(1-p)^{n-k}$

同时我们前面也有提到在单位时间到达学校的人数的数学期望是相同的.我们假设是$\lambda$(人).那么从开始计数到时刻t,随机变量X的数学期望可以写成。

$E[X(t)]=np=\lambda t$

由此可以推出

$p=\frac{\lambda t}{n}$

我们可以将前面的二项分布改写为

$P\{X(t)=k\}=C_n^k(\frac{\lambda t}{n})^k(1-\frac{\lambda t}{n})^{n-k}$

其中n表示的是学校的总人数,这是一个很大的数字,可以考虑其趋近于无穷

$lim_{n\rightarrow ∞}P\{X(t)=k\}=\frac{(\lambda t)^k}{k!}e^{-\lambda t}$

没错,这就是泊松过程的表达形式.

有些地方会看到泊松过程的另一个形式:

$P\{N(t+s)-N(s)=n\}=\frac{(\lambda t)^n}{n!}e^{-\lambda t}$

同样的意思,就是t时间间隔内,到了n个人的概率

泊松过程的关键在于，它的到达间隔序列Tn，即每两次发生的时间是服从的独立同指数分布的。如果每次发生的间隔时间不服从指数分布，那么这个随机过程就会更一般化，我们成为是更新过程，这也是随机过程的推广。

泊松过程分为齐次泊松过程和非齐次泊松过程，齐次的意思很简单，就是说过程并不依赖于初始时刻，强度函数是一个常数，从上面的公式也看得出来。而非齐次则是变成了,这意味着什么呢？这以为着随着与时间的改变，强度是会改变的，改变服从强度函数，说了这么久，强度究竟是个什么概念？强度的意思就是泊松过程的该事件发生的频率，或者说快慢，泊松分布中我们知道期望就是,实际含义就是，在一段时间内，发生的次数平均水平是次。

大数定律与正态分布

大数定律

大数定律就以严格的数学形式表现了随机现象的一个性质：平稳结果的稳定性（或者说频率的稳定性）
大数定律从理论上解决：用频率近似代替概率的问题：P(A)≈$\frac{n_A}{n}$,用样本的均值近似代替理论均值$E(\xi)=\frac{1}{n}\sum_{i=1}^n\xi_i$

大数定律是说，n只要越来越大，我把这n个独立同分布的数加起来去除以n得到的这个样本均值（也是一个随机变量）会依概率收敛到真值u，但是样本均值的分布是怎样的我们不知道。

弱大数定律：

对于独立同分布的随机序列$\xi_i,\xi_2,…,\xi_n$只要总体均值$\mu$存在,那么样本均值$\overline{\xi_n}=\frac{1}{n}\sum_{i=1}^n\xi_i$会随着n增大而以概率收敛到总体均值

上图虚线部分表示一个任意小的实数，每条实线表示一个数列，可以看到当样本不断增加后，数列会逐渐收敛到虚线部分里面，偶然会有几条跑出来。这个就叫做弱大数定律的依概率收敛到$\mu$。

强大数定律

对于独立同分布的随机序列$\xi_i,\xi_2,…,\xi_n$,只要总体均值$\mu$存在,那么样本均值$\overline{\xi_n}=\frac{1}{n}\sum_{i=1}^n\xi_i$会随着n增大会处处收敛到$\mu$

相比较弱大数定律，强大数定律表征着当数列样本量增大后，它再也不会超出虚线所表示的边界，也就是超出这个边界的概率就是0了。这个就叫做强大数定律的处处收敛。

强弱大数定律的区别在于

强弱大数定律有相同的条件,区别在于结论.弱大数定律说的是依概率收敛,强大数定律说的是几乎处处收敛.

依概率收敛:
对于一个随机变量序列$\{\hat{\theta}_n(x)\}_n$.这个随机变量的值由随机变量x决定.对于任意正实数$\xi$,如果存在一个随机变量$\theta(x)$使下式成立:

$lim_{n\rightarrow∞}Pr(x,|\hat{\theta}_n(x)-\theta(x)|＜\xi)=1$

则称序列$\{\hat{\theta}_n(x)\}_n$依概率收敛到随机变量$\theta(x)$

几乎处处收敛：
若对于任意正实数$\xi$,如果存在一个随机变量$\theta(x)$使下式成立:

$Pr(x,lim_{n\rightarrow∞}|\hat{\theta}_n(x)-\theta(x)|＜\xi)=1$

则称序列$\{\hat{\theta}_n(x)\}_n$几乎处处收敛到随机变量$\theta(x)$

两者区别在于:前者不需要满足$|\hat{\theta}_n(x)-\theta(x)|＜\xi$在x所有的取值范围上成立,而后者

中心极限定理

当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。

中心极限定理是说，n只要越来越大，这n个数的样本均值会趋近于正态分布，并且这个正态分布以$\mu$为均值，$\sigma^2$为方差。

正态分布

一种常见的连续概率分布,$X～N(\mu,\sigma^2)$,其概率密度函数为

$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

菜鸟学统计（一）