摘要:而基于梯度更新也意味着面临一些挑战选择恰当的初始学习率很困难,学习率太大会妨碍收敛,导致损失函数在最小值附近振荡甚至偏离最小值非凸的损失函数优化过程存在大量的局部最优解或鞍点参数更新采用相同的学习率。
感谢阅读「美图数据技术团队」的原创文章,关注我们持续获取美图最新数据技术动态。
平时我们说的训练神经网络就是最小化损失函数的过程,损失函数的值衡量了模型在给定数据集下的表现(拟合)能力。
损失函数 J 如上图所示,B 点为函数最低点,设 A 点为初始值,那么优化器的作用就是指引初始值 A 点走向最低点 B 点,那么如何让这个过程执行的更加迅速呢?
梯度下降了解一下!
位于三维空间里的任意一个点都可以找到与之相切的平面,在高维的情况下也能找到超平面与其相切。那么在相切平面上的任意一个点都有多种方向,但只有一个方向能使该函数值上升最快,这个方向我们称之为梯度方向,而这个梯度方向的反方向就是函数值下降最快的方向,这就是梯度下降的过程。
基于以上概念我们进一步了解批量梯度更新 BGD,顾名思义,它就是一次性把所有样本同时计算之后得到梯度值,然后更新参数。这种方法十分简便,它对凸函数可以收敛到全局最优值,对于非凸函数则收敛到局部最优值。与此同时它缺点显而易见:在大数据量下内存占用巨大、计算时间久,并且无法进行在线更新。
面对 BGD 的瓶颈 SGD 应运而生,它每次只更新一个样本,相对比于 BGD ,它的收敛速度更快并且可以在线更新,有机会跳出局部最优。但 SGD 无法利用矩阵操作加速计算过程,考虑到上述两种方法的优缺点,就有了小批量梯度下降算法(MBGD),每次只选取固定小批量数据进行梯度更新。
而基于梯度更新也意味着面临一些挑战:
选择恰当的初始学习率很困难,学习率太大会妨碍收敛,导致损失函数在最小值附近振荡甚至偏离最小值;
非凸的损失函数优化过程存在大量的局部最优解或鞍点;
参数更新采用相同的学习率。
针对上述挑战,接下来为大家列举一些优化算法。
如果我们把梯度下降法当作小球从山坡到山谷的一个过程,那么在小球滚动时是带有一定的初速度,在下落过程,小球积累的动能越来越大,小球的速度也会越滚越大,更快的奔向谷底,受此启发就有了动量法 Momentum。
如上公式所示,动量法在当前梯度值的基础上再加上一次的梯度值与衰减率
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/19816.html
摘要:学习速率的取值问题当取值较大时,即梯度下降迭代的步长较大,梯度下降迭代过程较快。在处的次梯度集称为微分集并表示为。在随机梯度下降中,我们不要求更新方向完全基于梯度。相反,我们允许方向为随机向量,并要求其期望值为当前向量处函数的次梯度。 1,概述 1.1,梯度下降法 假定给定函数: ,求解...
摘要:在这堂课中,学生将可以学习到深度学习的基础,学会构建神经网络,包括和等。课程中也会有很多实操项目,帮助学生更好地应用自己学到的深度学习技术,解决真实世界问题。 深度学习入门首推课程就是吴恩达的深度学习专项课程系列的 5 门课。该专项课程最大的特色就是内容全面、通俗易懂并配备了丰富的实战项目。今天,给大家推荐一份关于该专项课程的核心笔记!这份笔记只能用两个字形容:全面! showImg(...
摘要:近来在深度学习中,卷积神经网络和循环神经网络等深度模型在各种复杂的任务中表现十分优秀。机器学习中最常用的正则化方法是对权重施加范数约束。 近来在深度学习中,卷积神经网络和循环神经网络等深度模型在各种复杂的任务中表现十分优秀。例如卷积神经网络(CNN)这种由生物启发而诞生的网络,它基于数学的卷积运算而能检测大量的图像特征,因此可用于解决多种图像视觉应用、目标分类和语音识别等问题。但是,深层网络...
阅读 564·2023-04-26 02:59
阅读 698·2023-04-25 16:02
阅读 2166·2021-08-05 09:55
阅读 3577·2019-08-30 15:55
阅读 4673·2019-08-30 15:44
阅读 1806·2019-08-30 13:02
阅读 2205·2019-08-29 16:57
阅读 2294·2019-08-26 13:35