牛顿法为什么比梯度下降法求解需要的迭代次数更少?

发布网友

我来回答

1个回答

热心网友

凸优化主要学习《凸优化》(Stephen Boyd等著,王书宁等译)[1]这本书。学习过程中,对其内容的理解时有困惑,也参考一些其他书籍资料。笔者尽量将这部分知识整理地简洁明了,成此系列笔记。

用目标函数的二阶泰勒展开近似该目标函数,通过求解这个二次函数的极小值来求解凸优化的搜索方向。

这从另一个角度揭示了为什么Newton步径是好的搜索方向了。

这里我没有去查找证明过程,我觉得只要知道就可以了,因为这有助于理解最速下降方法(《凸优化(六)——最速下降法》)。

在实际应用中,牛顿法往往比梯度下降法有更少的迭代次数。

2.2已经从一个角度说明了Newton步径是好的搜索方向。

知乎问答《最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?》[2]这篇也讲了一些,其中,排名第一的引自Wiki的“从几何上说,牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面,而梯度下降法是用一个平面去拟合当前的局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径”,比较有说服力和概括性。

图2形象地说明了牛顿法和梯度下降法的区别,红色为牛顿方法搜索路径,绿色为梯度下降法搜索路径。

牛顿法需要计算目标函数Hessian矩阵的逆矩阵,运算复杂度太高,计算效率很低,尤其维数很大时。拟牛顿算法的核心思想用一个近似矩阵替代逆Hessian矩阵。

[1]、《凸优化》,Stephen Boyd等著,王书宁等译

[2]、 《最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?》

凸优化(一)——概述

凸优化(二)——凸集

凸优化(三)——凸函数

凸优化(四)——问题求解

凸优化(五)——回溯直线搜索

凸优化(六)——最速下降法

凸优化(七)——牛顿法

凸优化(八)——Lagrange对偶问题

2016-08-08 第一次发布

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com