梯度下降 | realyee's blog

简介

求解线性回归模型函数求极值解析解根据严格的推导和计算得到，是方程的精确解能够在任意精度下满足方程数值解通过某种近似计算得到的解能够在给定的精度下满足方程常用的求数值解的方法：梯度下降法

一元凸函数求极值对于迭代法来说：

步长过小，迭代次数过多，收敛慢
步长过大，产生震荡 overshoot the minimum（更新 x 时，步长太大，跨越了最小值）震荡：1. 来回震荡，振幅越来越小，最终收敛 2. 来回震荡，无法收敛

让步长和斜率之间保持正比例关系, \(\eta\) 是一个常数，称为学习率 \(step = \eta\frac{df(x)}{dx}\)

超参数：在开始学习之前设置，不是通过训练得到的，学习率就是一个超参数。

选择一组好的超参数，可以提高学习的性能和效果。

第 k+1 轮迭代和第 k 轮迭代的关系式：\(x^{(k+1)}=x^{(k)}-\eta \frac{df(x)}{dx}\)

优点：

16154310451785 梯度

只要能够把损失函数描述成凸函数，那么就一定可以采用梯度下降法，以最快的速度更新权值向量 w，找到使损失函数达到最小值点的位置。

16154312967312 首先，判断一元线性回归的 Loss 为凸函数，然后采用梯度下降法。 16154314178291

步骤：

# 设置超参数
learn_rate = 0.00001  # 通常是一个很小的常数
iter = 100  # 迭代次数

display_step = 10  # 输出结果的间隔，它不属于超参数，因为其取值完全不影响模型训练,只是改变显示的效果

在线性回归中,初始值的选择并没有那么重要,通常情况下我们将其设置为 0 即可.

归一化/标准化：将数据的值限制在一定的范围之内使所有属性处于同一个范围、同一个数量级下更快收敛到最优解提高学习器的精度分为：线性归一化，标准差归一化，非线性映射归一化

加载样本数据 area，room，price
数据处理归一化，X，Y
设置超参数：学习率，迭代次数
设置模型参数初值 Wo(wo，w1，w2)
训练模型 W \(W^{k+1} = W^{k}-\eta X^{T}(XW-Y)\) \[ \begin{aligned} \frac{\partial \text { Loss }}{\partial W} &=X^{T}(X W-Y) \\ W^{(k+1)} &=W^{(k)}-\eta \frac{\partial \operatorname{Loss}(W)}{\partial W} \end{aligned} \]
结果可视化