逻辑回归
逻辑回归处理的是分类问题.
将逻辑回归公式进行整理,可以发现
如果把一个事件的几率(odds)定义为该事件发生的概率与该事件不发生的概率的比值$\frac{p}{1-p}$,那么逻辑回归可以看作是对于”y=1|x”这一事件的对数几率的线性回归,这就逻辑回归的称谓的原因.
逻辑回归是广义的线性模型在因变量y服从二元分布时的一个特殊情况;而最小二乘法求解线性回归时,认为因变量y服从正态分布.
逻辑回归的损失函数是极大似然函数,为什么要用对数损失?因为对数损失函数训练求解参数速度快,参数梯度更新的式子与sigmoid函数本身的梯度无关
逻辑回归中的伯努利分布
伯努利分布与高斯分布都属于指数分布,在给定a,b,t时,y的概率分布表示为:
其中v为分布的自然参数;T(y)是充分统计量,通常T(y)=y
将伯努利分布表示为下式
则b(y)=1,$v=log\frac{\phi}{1-\phi}$,T(y)=y,$-a(v)=log(1-\phi)$
$\rightarrow \phi=\frac{1}{1+e^{-v}}$, 并且$a(v)=log(1+e^v)$
假设:(1)$y|x;\theta 服从 expFamily(v)$
(2) 给定x,输出E[T(y)|x]
(3)$v=\theta^Tx$
对于伯努利分布,有:
Softmax回归中的多项式分布
当假定p(y|x)服从多项式分布,
这样
由此可以得到:
最小二乘法中的高斯分布
线性回归使用最小二乘法,是在因变量服从正态分布的假设下.
优缺点
+形式简单,可解释好,通过特征权重可以看到不同特征对最后结果的影响
+训练速度快
+资源占用小,只需要存储各个维度的特征值
+方便给各个结果调整,通过cutoff概率阈值来确定正负样本
- 准确率不高
- 很难处理不平衡问题
- 处理非线性数据较麻烦
决策树
决策树是一种自上而下,对样本数据进行树形分类,由结点和有向边组成.
将决策树应用集成学习的思想可以得到随机森林、梯度提升树等模型
从若干个不同的决策树中选取最优的决策树是一个NP完全问题,在实际中,我们通常会采用启发式学习的方法去构建一棵满足启发式条件的决策树.
1.决策树有哪些常用的启发函数?
ID3、C4.5、CART.
ID3利用最大信息增益:
其中$C_k$是样本D中属于第k类的样本子集。
然后计算某个特征A对于数据集D的经验条件熵H(D|A)其中$D_i$是D中特征A取第i个值得样本子集,$D_{ik}$表示$D_{i}$中属于第k类得样本子集
信息增益:$g(D,A)=H(D)-H(D|A)$C4.5最大信息增益比:
其中$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
即在前面信息增益的基础上除以数据D关于特征A的熵(与类别k没有关系)
注意与H(D|A)的区别- CART最大基尼指数(Gini)CART每一次迭代中选择基尼指数最小的特征及其对应的切分点进行分类.
与ID3、C4.5不同的是CART是一个二叉树,只采用二元分割法,每一步将数据按特征A的取值切分成两份,分别进入左右子树.特征A的Gini指数定义为:Gini值越小越好
另外与ID3和C4.5不同的是,CART还会用与回归问题,处理连续型变量.但仍是二值划分