线性回归

1.例子

举个例子

给定这样的X、Y值:(1,1)、(2,2)、(3,3)、(4,4)、(10,10),问当X=5时,Y等于多少?显然Y=5;建立了X与Y的关系:

再看一个难一点的例子:给定这样的X、Y值:(1,1)、(2,4)s、(4,16)、(100,10000),问当X=5时,Y等于多少?显然Y=25,同样建立了X与Y之间的关系:

再举个例子

  • 期末考试成绩=0.7 考试成绩+0.3 平时成绩 ----------- 建立这样的一个关系:

    代表考试成绩、代表平时成绩、表示期末成绩)

  • 房子价格=0.02 中心区域的距离 + 0.04 城市一氧化氮浓度 +0.2 * 城镇犯罪率---------建立关系:(其中Y为房价、为中心区域距离、为城市一氧化氮浓度、为城市犯罪率)

线性回归就是采用这样的工作原理。计算机会通过"理解"给定的数据,尝试确定X和Y之间”最合适“的关系。使用建立好的关系就可以预测给定的X值并预测未知的Y值(X记为特征值、Y记为目标值,建立特征值与目标值之间的关系---->回归方程)

特征与目标之间关系画图分析

特征值:房屋面积(单特征值)

目标值:房屋价格

image-20220329100128545

特征值:

目标值:

image-20220329100234970

红点代表的就是实际的目标值(房屋价格);平面上和红点竖向相交的点代表我们根据线性回归模型得到的点。也就是说实际房屋价格和预测的房屋价格是有一定差距的,这个就是误差项

2.符号约定与定义

​ 线性回归(Liner regression)是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间的关系进行建模的一种分析方式。

(1)符号约定

面积 朝向 .... 价格
....
  • 代表一个样本(一行就是一个样本)
  • 代表一个特征值
  • 代表目标值

(2)假设函数

(3)损失函数

总损失定义如下:

  • 为第i个训练样本的真实值
  • 为第i个训练样本特征值组合预测值
  • 又称为最小二乘法

为了使我们预测的更加准确,如何减小这个损失?我们一直说机器学习有自动学习的功能,在线性回归这里更是能够体现。这里可以通过一些优化方法去优化(其实就是数学当中的求导功能)回归的总损失!

3.求解使得损失最小对应θ的方法

求解θ目的:寻找模型中的θ,使得损失(误差项)最小(更好拟合)

(1)正规方程求解θ矩阵推导

一步可以求解θ矩阵使得损失最小

image-20220329105851751

X为特征值矩阵;Y为目标值矩阵,直接求到最好的结果

缺点:当特征过多过于复杂时,求解速度太慢并且得不到结果


正规方程推导过程:

解释:

    • 我们根据实际情况,假设认为这个误差项是满足以下几个条件
      • (1)独立:任意样本之间互不影响,不同房屋之间互不影响 P(AB)=P(A)P(B)独立,说明AB独立
      • (2)同分布:服从高斯分布

开始推导:

(2)梯度下降法

4.特征归一化

5.欠拟合与过拟合

6.Ridage回归

7.LASSO回归

8.房价预测案例

powered by Gitbook最后修改时间: 2022-06-27 17:26:54

results matching ""

    No results matching ""