3.3 优化器及自定义优化器
Adam算法
Adam算法在RMSProp算法基础上对小批量随机梯度也做了指数加权移动平均。下面我们来介绍这个算法。
1. 算法
Adam算法使用了动量变量和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量,并在时间步0将它们中每个元素初始化为0。给定超参数(算法作者建议设为0.9),时间步的动量变量即小批量随机梯度的指数加权移动平均:
和RMSProp算法中一样,给定超参数$$0 \leq \beta_2 < 1$(算法作者建议设为0.999), 将小批量随机梯度按元素平方后的项$\boldsymbol{g}_t \odot \boldsymbol{g}_t$做指数加权移动平均得到$\boldsymbol{s}_t$:
由于我们将和中的元素都初始化为0, 在时间步我们得到。将过去各时间步小批量随机梯度的权值相加,得到 。需要注意的是,当较小时,过去各时间步小批量随机梯度权值之和会较小。例如,当时,。为了消除这样的影响,对于任意时间步,我们可以将再除以,从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。在Adam算法中,我们对变量和均作偏差修正:
接下来,Adam算法使用以上偏差修正后的变量和,将模型参数中每个元素的学习率通过按元素运算重新调整:
其中是学习率,是为了维持数值稳定性而添加的常数,如。和AdaGrad算法、RMSProp算法以及AdaDelta算法一样,目标函数自变量中每个元素都分别拥有自己的学习率。最后,使用迭代自变量:
原始论文中实现:

2. 简单实现
基于Python实现Adam优化器:
class Adam:
def __init__(self, lr=0.001, beta1=0.9, beta2=0.999):
self.lr = lr
self.beta1 = beta1
self.beta2 = beta2
self.iter = 0
self.m = None
self.v = None
def update(self, params, grads):
if self.m is None:
self.m, self.v = {}, {}
for key, val in params.items():
self.m[key] = np.zeros_like(val)
self.v[key] = np.zeros_like(val)
self.iter += 1
lr_t = self.lr * np.sqrt(1.0 - self.beta2**self.iter) / (1.0 - self.beta1**self.iter)
for key in params.keys():
self.m[key] += (1 - self.beta1) * (grads[key] - self.m[key])
self.v[key] += (1 - self.beta2) * (grads[key]**2 - self.v[key])
params[key] -= lr_t * self.m[key] / (np.sqrt(self.v[key]) + 1e-7)
TODO:
https://github.com/OverLordGoldDragon/keras-adamw/blob/master/keras_adamw/optimizers_v2.py
实验
最后更新于
这有帮助吗?