目录
RMSProp 算法
Adam算法
学习率衰减
RMSProp 算法
RMSProp(Root Mean Square Prop)算法是在对梯度进行指数加权平均的基础上,引入平方和平方根。
其中e是一个非常小的数,防止分母太小导致不稳定,当 dw 或 db 较大时,(du)2,(db)2会较大,进而sdu也会较大,最终使得-m-等结果变得非常小。Vsdb+E最终RMSProp 有助于减少抵达最小值路径上的摆动,并允许使用一个更大的学习率a,从而加快算法学习速度。
Adam算法
Adam 优化算法(Adaptive Moment Estimation,自适应矩估计)将Momentum 和 RMSProp 算法结合在一起。
参数更新
学习率衰减
如果设置一个固定的学习率 a在最小值点附近,由于不同的 batch 中存在一定的噪声,因此不会精确收敛,而是始终在最小值周围一个较大的范围内波动。如果随着时间慢慢减少学习率a的大小,在初期 a较大时,下降的步长较大,能以较快的速度进行梯度下降;而后期逐步减小 a的值,即减小步长,有助于算法的收敛,更容易接近最优解。
最常用的学习率衰减方法:
其中,decay_rate为衰减率(超参数),epoch_num为将所有的训练样本完整过一遍的次数。
还有一种指数衰减