Regression Analysis
Regression Analysis是一种用来估计变量之间关系的统计技术,请注意估计、变量、统计等关键词;用用统计学知识,对于隐含变量进行处理,估计数据间的关系就叫Regression Analysis。
有很多中建模技术都用来解决回归问题,如单变量和多变量、变量独立和变量相关、线性统计和非线性统计、连续和离散、参数和非参数模型等各种统和和模型来进行Regression。在机器学习中,Regression用来进行预测(Prediction)、分类(Classification)。本文通过一些简单的方式来描述跟Regression有关的一些先验问题,如数据、模型、假设等。
在学习Regression Analysis之前,需要了解的数学知识比较多,包括概率、统计、信息论、线性代数、高等数学等学科的理论知识;本身对于计算机建模的技术也有要求;牵扯到算法实现,对于数值算法实现也有要求;再考虑下编程要求,其实学习机器学习还是比较耗神耗力的一件事情,需要很大的坚持和忍耐才能做自己喜欢的事情。
进入正题,我们想了解Regression Model,必须知道回归模型包含哪些内容:
Training Set:训练集合,其实是我们观察到的数据集合,一般称为X
Response Set:输出属于,使我们观察到的输出,一般称为Y
Object Function:目标函数h,准确的说是其中的隐含变量\theta
Feature:输入数据的纬度,也称为是Attribute,即观察变量的特征。
Regression Model表示如下:
可以看到该模型表示了回归模型的内容,这个模型表示里面的内容很多,还会在后面不断的出现;请仔细看这个公式5分钟,确保自己真正理解了这个回归模型公式。
了解了这个模型,我们再了解下回归模型的观察数据。假如说观察到的训练集合数目为N,数据的特征为k,如果单纯认为知晓了N和k就能进行Regression的话,就会步入歧途。关于N和k的关系有如下几种:
N<k:在这种情况下,如果数据不经过预处理的话,大部分的Regression Analysis算法都无能为力;系统决定的回归模型欠定(Underdetermined),观察数据不足以恢复其中的隐含变量。
N=K:在这种情况下,理论上系统的参数\beta刚好能够知晓,因为这就是根据N个等式求解N个变量的问题;说是理论上是因为这些采集数据之间必须线性独立,否则会有无数个解满足。
N>k:这种情况才是正常观察并且能够估计的情况,我们的大部分Regression算法都是基于这个假设进行的操作。
我们看个最为简单的Regression分析:
上面这个简单的回归模型成立,需要做一些理论假设(Assumptions);通常的假设有:
误差Ut为随机变量,更为普遍的假设为E[Ut]=0,即Ut的期望值为0。
误差独立:
参数线性独立:即参数之间是独立的,否则的话需要使用多重共线性(Multicollinearity)模型
误差线性无关:误差的协方差矩阵应该是个对角阵(Diagonal)
误差对于观察数据来说一致:误差对于观察数据来说没有区分,否则的话就需要权重(Weighted)模型。
Regression Analysis的分析模型比较多,目前使用比较大的几个种类是:
Linear Regression Analysis:线性回归分析
Logistic Regression Analysis:Logistic回归分析
Generalized Linear Model:广义线性模型
下面分别简单的学习下各个回归分析方法,更详细的解释会在后续文章中学习。
Linear Regression Analysis:线性回归分析:
线性回归分析是一种比较简单的统计模型,虽然模型简单,但是对于后面的概念学习有非常重要的作用。线性回归的模型假设(Hypothesis)为:
我们对于模型参数w,如何确定这个参数(Vector)是评估回归模型好坏的关键。该模型在Linear Regression Analysis中非常重要,我们以后的讨论都是要基于这个简单的模型来进行。
Logistic Regression Analysis:Logistic回归分析
使用Linear Regression 来解决回归问题比较正常,但是利用Regression来解决分类问题就比较怪异。而利用Regression Analysis来解决Classification的常用模型 就是Logistic Regression Analysis,该模型是用来解决Classification问题的概率判别模型。
Logistic Regression的本质是还是线性回归,在特征到结果的过程中添加了层映射函数,该映射函数使用g表示:
该函数是将回归模型应用于分类的关键,被称为是sigmoid函数,后面会用到这个函数。
Generalized Linear Model:广义线性模型
广义线性模型是对对经典线性回归模型的进一步推广,统一计算理论和计算框架。在广义线性模型中,输出变量和预测变量之间是通过非线性连接函数(Link Function)表达,因此可以处理多种数据。该模型的了解请参考wiki:http://en.wikipedia.org/wiki/Generalized_linear_model。
由于我们的假设分布未必会符合观察数据的分布函数,如果观察的随机变量分布函数与实验中系统效应不同时,我们可以添加链接函数来进一步解释其相关性。该模型在MLAPP第九章有详细节介绍。
本文的内容比较简单,就是将Regression的整体内容分类,为后面学习Regression理清思路。
相关推荐
Nonlinear regression analysis and its applications
Linear Regression Analysis.pdf
Regression Analysis with Python 英文mobi 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
Spatial Regression Analysis in R
Regression Analysis with Python 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
Nonlinear Regression Analysis and Its Applications.pdf Bates D.M., Watts D.G.
Regression Analysis with Python (2) 英文无水印pdf pdf所有页面使用FoxitReader和PDF-XChangeViewer测试都可以打开 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请...
Applied Logistic Regression Analysis, (2nd Edition) Scott Menard 有些图不是很清楚
In statistics, regression analysis consists of techniques for modeling the relationship between a dependent variable (also called response variable) and one or more independent variables (also known ...
Image Processing and Jump Regression Analysis builds a bridge between the worlds of computer graphics and statistics by addressing both the connections and the differences between these two ...
Regression Analysis with Python by Luca Massaron and Alberto Boschetti
The main purpose of this presentation though is to show the reader how to use linear regression models in studies that include quantitative data Specific objectives include discussing why linear ...
图像处理基础书。回归方法用于图像处理、机器学习是近几年的热点。
Stat课件基础讲解第一章。英文版上课课件From SFU
一、回归分析(Regression Analysis)定义与分类 回归分析(Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测...
应用回归分析(Applied Regression Analysis), 作者Norman R. Draper
第二版英文原版,作者:John O. Rawlings Sastry G. Pantula David A. Dickey
R语言回归分析Regression Analysis
regression-analysis-by-example-5th-edition