目标函数或准则
最大化 f(x) 最小化 -f(x) cost function/loss function/error function
y = f(x) 导数 或
梯度下降 gradient descent 导数的反方向移动减少f(x)
临界点或驻点: f'(x) =0 导数无法提供往哪个方向移动的信息 局部极小点: f(x) 小于相邻点 局部极大点: f(x) 大于相邻点 鞍点: 同时存在更高和更低的相邻点
全局最小点
偏导数 partial derivative
方向导数 directional derivative
最快下降法/梯度下降 被限制在连续空间的优化问题
推广到离散空间 爬山算法
Jacobian 矩阵 都是偏导数
Hessian 矩阵 二阶导数矩阵 等价于梯度的 Jacobian 矩阵 Hessian 矩阵是是实对阵,可以将其分解成一组实特征值 和一组特征向量的正交基
二阶导数测试 通过检测Hessian矩阵是否正定,负定来判断临界点是一个局部极大点,全局极小点 还是鞍点
约束优化 Lagrangian
仅使用梯度信息的优化算法称为 一阶优化算法 first-order optimization algorithms 如梯度下降
使用Hessian 矩阵的优化算法 称为 二阶优化算法 second-order optimization algorithms 如牛顿法