菜鸟学统计(四)

线性回归

线性回归之前在初级算法梳理(一)中有介绍过,不过当时只是当机器学习方法来学习.看了可汗学院的视频,里面对待求系数就是采用直接求导为0的方式来求解m和b的。

另外可汗还讨论了下述问题:
y的波动程度有多少百分比能被x的波动程度所描述.

  1. y的方差实际上是y的总波动的平均值,即$SE_{\overline{Y}}$
  2. 直线的平方误差显示出总波动中没有被回归线描述,即$S_{Line}$

用$\frac{SE_{Line}}{SE_{\overline{Y}}}$来表示Y的总波动中有多少波动没有被回归线所描述,这个式子成为决定系数(是统计学术语).在机器学习中用的是R Squared,表示为1-决定系数.

卡方分布

如果说随机变量X是一个变量的话,那么对它进行变换后它的分布又会如何,在统计学中线性变换后的分布是比较容易得到的,但是非线性变换的分布则会比较复杂.

卡方分布的定义:卡方分布是与标准正态z分布$N(0,1^2)$相关的连续分布.如果相互独立的v个随机变量$X_1,X_2,…,X_v$分别服从标准正态$z_1,z_2,…,z_v$分布,则$X_1^2+X_2^2+…+X_v^2$服从自由度v的卡方分布.
大致的流程是:假设我们进行一次抽样,获得一组随机变量,这组随机变量得到一个平方和,然后再进行一次抽样,又有一个平方和,反复进行就会得到无数组样本,每个样本都有一个平方和,而这些平方和的分布就构成了卡方分布。

上面提到的自由度,自由度这个概念之前在学高等代数的时候有听到过.这里大致的意思就是,最少的变量数(比如有3个变量,其中两个变量能表示剩下的那一个变量就称为自由度为2).或者有些说法从向量空间的角度来解释.

卡方分布的性质:E=n,D=2n,其中n是卡方分布的自由度

卡方分布的作用

卡方分布作为一种常用的概率分布,其最常用就是在假设检验与置信区间的计算中.
卡方检验就是主要卡方分布为基础的一种假设检验方法.
其问题一般是考察观测值与理论值之间的偏差程度,会用卡方分布来表示.
也就是说在假设检验中用到的统计量会满足卡方分布,从而进行计算.

还有卡方分布做特征选择.
参考文献:卡方分布与卡方检验

方差分析

方差分析(ANOVA)是分析类别变量对数值因变量影响的一种统计方法,其中类别变量称为因子.
方差分析的原理:通过对数据误差的分析来判断类别自变量对数值因变量的影响效果是否显著.

误差分解:

上述的处理误差有称为处理间误差,随机误差也有称为偶然误差或处理内误差

由此会有下图:
pic1
方差分析的基本假定:

  1. 正态性:总体服从正态分布
  2. 独立性:个体相互独立
  3. 等方差性:组间方差相等

单因子方差分析

考虑一个线性模型:

其中$y_{ij}$表示第i个处理的第j个观察值;$\mu_i$表示第i个处理的平均值,$\varepsilon_{ij}$表示第i个处理的第j个观察值的随机误差
pic2
这里最后要求的是统计量F(组间方差/组内方差)该统计量服从F分布(F分布就是专门用来做方差分析的,是由前面的卡方分布变化而来的).
计算得到F统计量之后,也是类似假设检验的处理方式考虑,看我们得到的统计量F在不在我们的接收域内.

双因子方差分析

模型更为复杂:是否考虑交互效应
pic3
pic4

参考文献

  1. https://zhuanlan.zhihu.com/p/58745584
-------------本文结束感谢您的阅读-------------