LR推导

1. 简介

分类任务与回归任务的区别:

  • 输出变量为连续变量的预测问题——回归任务;
  • 输出变量为有限个离散变量的预测问题——分类任务;

逻辑回归的本质是通过回归的方法来解决分类任务,即通过回归预测概率,进而得到分类结果。

2. 相关概念

几率:指一件事发生与不发生概率的比值。

对数几率

逻辑斯谛分布:其分布函数为

概率密度函数为

其中 $\mu$ 为位置参数,$\gamma > 0 $ 为形状参数,其以 $(\mu, \frac{1}{2})$ 为中心对称

其概率密度函数和分布函数形状为

3. 数学推导

  1. 线性方程

  2. 多元线性方程

    写成矩阵形式为

  3. 判别函数sigmoid

  4. 多元线性方程经过判别函数后

  5. 依据$\sigma(z)$函数的特性,定义其预测为正例的概率,则

  6. 预测正确表示方式为

  7. 对于所有样本,假设每条样本生成过程独立,在整个样本空间(N个样本)的概率分布(即似然函数)为

  8. 通过对数变换,转换成加法形式,便于求解

    其中常见的参考资料中使用 $\theta$ 代替 $w$ , 即

  9. 使用随机梯度下降法更新参数

  10. 通过扫描样本,迭代求得参数

    式子中 $\alpha$ 表示学习率

4. 优缺点

优点:

  • 自变量为连续和离散均可
  • 易于解释

缺点:

  • 对自变量多重共线性敏感。例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
  • 预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

相关资料

https://www.jianshu.com/p/e8dca5613da6

https://zhuanlan.zhihu.com/p/102806312

https://blog.csdn.net/jk123vip/article/details/80591619

https://blog.csdn.net/ccblogger/article/details/81739200