当先锋百科网

首页 1 2 3 4 5 6 7

1. 线性回归模型中所需数学知识储备

1.1 均方误差

  • 方差是用来描述真实值偏离均值的程度
  • 均方误差是误差平方和的平均数,用来描述测量值与真实值的误差程度

1.2 凸函数

此处的凸函数强调的是来自最优化理论中的概念,不同于高数书中的凸函数的概念(两者表示的东西是相反的)。
机器学习中的凸函数概念:对区间[a,b]上定义的函数 f,若它对区间中任意两点X1,X2均有 f((X1+X2)/2) <= ( f(X1) + f(X2) ) / 2 ,则称 f 为区间[a,b]上的凸函数。
在这里插入图片描述
在这里插入图片描述

凸函数的作用是当求解关于w的最优解时,令关于w的一阶导数为0即可求得。
凸函数的证明,即函数所在区间上的二阶导数为非负函数便是凸函数。

1.3 极大似然估计

极大似然估计,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。图示为极大似然估计函数
在这里插入图片描述

换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”

在证明极大似然估计函数为凸函数后,对其套一个In函数(将连乘转变为连加),然后梯度(一阶导数)置零,求得使L函数最大的参数。

2.线性回归

线性回归通过学习一个线性模型,能尽可能地准确预测实数输出。
基于均方误差最小化来求解线性模型的方法叫 “最小二乘法”,最小二乘法的目的——使所有样本到直线上的欧氏距离之和最小。

2.1 吃瓜公式3.7

在这里插入图片描述

在这里插入图片描述

公式3.7是如何得到的?首先将公式 3.5 和 3.6 置零,然后将公式3.6置零结果带 入公式3.5中,置换掉偏置b,3.5中变量只有w,然后再通过一些变换得到公式3.7。
在这里插入图片描述

2.2 多元线性回归

多元线性回中需对所有参数进行向量化。
向量中的一阶求导公式不同于单元线性回归,矩阵微分如下:
在这里插入图片描述

所以可这样推理公式3.10,如下
在这里插入图片描述

2.3 矩阵X中的 1

在这里插入图片描述

X向量中的1 是 表示偏置项由W来代替

在这里插入图片描述

3.对数几率回归

对数几率回归的目的是实现分类,该回归的英文名叫 logistic regression
简单说,对数几率回归=线性回归+映射函数(类似于神经网络中激活函数)。前一部分输出实数预测值,然后通过映射函数将预测值归化到一个0到1的概率区间。

好处:

  • 直接对分类可能性进行建模,无需事先假设数据分布,避免假设分布不准确所带来的问题
  • 仅仅预测所需的类别,和类别的概率

为了使模型分类的概率尽可能的接近真实标记的概率,我们可以通过采用 极大似然估计法 来估计w和b。极大似然估计法的作用是使每个样本属于其真实标记概率最大化。图中的公式3.26参见西瓜书
在这里插入图片描述

4.线性判别分析

线性判别分析(Linear Discriminant Analysis,LDA),简单说,是一种多分类方法。思路是通过降维学习样本的特征(可视为一种降噪提纯的方法),将样本投影到D-1维空间(样本属性有D个维度)。

在这里插入图片描述
如图所示,样本具有X1,X2两个维度,其中二维构成了一个平面,降维后是一条直线。设法找到一直线,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。

4.1西瓜书公式3.32

在这里插入图片描述
其中分子为二范数的平方,相当于求矩阵的內积,表示异类样本在w向量上的投影中心的距离大小,公式如下:
在这里插入图片描述
公式3.33,类内散度矩阵,与其说是协方差,更像非严格的方差(没有除以总数)
在这里插入图片描述
方差用来衡量同类样例偏离中心(均值)的程度。

4.2 拉格朗日乘子法

在这里插入图片描述
其中最值的可以通过将拉格朗日函数的一阶导数置零,求得X,再根据X就可以求出函数的极值。