LR推导
1. 简介
分类任务与回归任务的区别:
- 输出变量为连续变量的预测问题——回归任务;
- 输出变量为有限个离散变量的预测问题——分类任务;
逻辑回归的本质是通过回归的方法来解决分类任务,即通过回归预测概率,进而得到分类结果。
2. 相关概念
几率:指一件事发生与不发生概率的比值。
对数几率:
逻辑斯谛分布:其分布函数为
概率密度函数为
其中 $\mu$ 为位置参数,$\gamma > 0 $ 为形状参数,其以 $(\mu, \frac{1}{2})$ 为中心对称
其概率密度函数和分布函数形状为
3. 数学推导
线性方程
多元线性方程
写成矩阵形式为
判别函数sigmoid
多元线性方程经过判别函数后
依据$\sigma(z)$函数的特性,定义其预测为正例的概率,则
预测正确表示方式为
对于所有样本,假设每条样本生成过程独立,在整个样本空间(N个样本)的概率分布(即似然函数)为
通过对数变换,转换成加法形式,便于求解
其中常见的参考资料中使用 $\theta$ 代替 $w$ , 即
使用随机梯度下降法更新参数
通过扫描样本,迭代求得参数
式子中 $\alpha$ 表示学习率
4. 优缺点
优点:
- 自变量为连续和离散均可
- 易于解释
缺点:
- 对自变量多重共线性敏感。例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
- 预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。
相关资料:
https://www.jianshu.com/p/e8dca5613da6
https://zhuanlan.zhihu.com/p/102806312