目标函数或准则

最大化 f(x) 最小化 -f(x) cost function/loss function/error function

y = f(x) 导数 f(x)f'(x)dydx\frac{dy}{dx} f(x+ϵ)f(x)+ϵf(x)f(x + \epsilon) \approx f(x) +\epsilon f'(x)

梯度下降 gradient descent 导数的反方向移动减少f(x)

临界点或驻点: f'(x) =0 导数无法提供往哪个方向移动的信息 局部极小点: f(x) 小于相邻点 局部极大点: f(x) 大于相邻点 鞍点: 同时存在更高和更低的相邻点

全局最小点

偏导数 partial derivative

梯度

方向导数 directional derivative

最快下降法/梯度下降 被限制在连续空间的优化问题

推广到离散空间 爬山算法

Jacobian 矩阵 都是偏导数

Hessian 矩阵 二阶导数矩阵 等价于梯度的 Jacobian 矩阵 Hessian 矩阵是是实对阵,可以将其分解成一组实特征值 和一组特征向量的正交基

二阶导数测试 通过检测Hessian矩阵是否正定,负定来判断临界点是一个局部极大点,全局极小点 还是鞍点

约束优化 Lagrangian

仅使用梯度信息的优化算法称为 一阶优化算法 first-order optimization algorithms 如梯度下降

使用Hessian 矩阵的优化算法 称为 二阶优化算法 second-order optimization algorithms 如牛顿法

results matching ""

    No results matching ""