Regression：Logistic Regression Analysis

isilic

浏览: 241882 次

最近访客更多访客>>

jackzhao1980

onmyway_1985

wlg88085224

LJFPHP

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

Regression：Logistic Regression Analysis

Linear Regression在处理数据输入和数据输出的线性关系上非常有用，但是还是有很多情况，如数据输出空间为R且连续，如果处理的数据离散、输出为二分类(Binary,{0,1})时，LR就不合适处理这宗数据模型，准确的说不是最优(Optimal)处理数据的方法。在这种数据模型下，Logistic Regression(LR)方法作为一种替代的Regression方法正好能够处理这些数据模型。

注意：LR从名字上看是Regression，实际上是分类算法；本文讨论的是Binomial二分数据，如Success or Fail，death or live，malignant or benign等。

在Logistic Regression中，使用更多的是Odds而非Proportions；前者定义的是输出空间中两个输出变量的比值。如果P定义为Positive的概率，1-P表示为Negative的概率，那么Odds的概率定义为：

Odds的定义是结果集中Positive和Negative的比例。

在Linear Regression中，输出值为线性函数，所以输出的空间为(-Infinate,+Infinate)，在Logistic Regression中，Positive概率的输出范围为[0,1]，需要映射这种关系，从[0,1]映射到[-Infinate,+Infinate]，引入logit函数能够满足这种映射关系：

Logit函数的数学意义大家可以仔细思考下，是怎么完成这种映射关系的。

我们使用logit函数进行建模，能够使输出空间为(-Infinate,+Infinate)，而Linear Regression的输出空间也为(-Infinate,+Infinate)，那么我们使用logit来按照Linear Regression的思路建模：

将Odds概念和logit函数的概念放到一起，可以得到：

其中P表示positive的概率，将P解出来，可以得到：

将其中的函数部分重新定义出来：

该函数被称为是Logistic Function、或者是Sigmoid Function，从wiki上的一张截图看下Sigmoid函数的性质：

前面的推导比较清楚地描述了为什么使用Sigmoid函数作为Logistic Regression的一部分。我看到其他人在分析Logistic Regression时，只是简单的将Sigmoid函数提出来作为结果的一部分，如果想了解Sigmoid函数在Logistic Regression中的推导，请再仔细看下上面的推导过程。

我们了解了Sigmoid函数在Logistic Regression中的地位后，我们继续来看Logistic Regression的分类问题。假设模型服从Bernoulli分布：