Args |
| 、浮点值或 时间表,或不带参数并返回要使用的实际值的可调用函数,即学习率。默认为 0.001。 |
| 浮点值或常量浮点张量,或不带参数并返回要使用的实际值的可调用对象。第一时刻估计的指数衰减率。默认为 0.9。 |
| 浮点值或常量浮点张量,或不带参数并返回要使用的实际值的可调用函数,第二矩估计的指数衰减率。默认为 0.999。 |
| 数值稳定性的小常数。这个epsilon是Kingma和Ba论文中的 "epsilon hat" (在2.1节之前的公式中),而不是论文算法1中的epsilon。默认为 1e-7。 |
| 布尔值。是否应用论文 "On the Convergence of Adam and beyond" 中该算法的 AMSGrad 变体。默认为 。 |
| 应用渐变时创建的操作的可选名称。默认为 。 |
| 关键字参数。允许的参数为 、 、 。如果设置了 (float),则每个权重的梯度被裁剪为不高于该值。如果设置了 (float),则每个权重的梯度将被单独剪裁,使其范数不高于该值。如果设置了 (浮点),则所有权重的梯度都会被剪裁,以便它们的全局范数不高于该值。 |