tf.keras.optimizers.Adam

  星辉资讯     |      2024-07-29 14:08
Args
、浮点值或 时间表,或不带参数并返回要使用的实际值的可调用函数,即学习率。默认为 0.001。
浮点值或常量浮点张量,或不带参数并返回要使用的实际值的可调用对象。第一时刻估计的指数衰减率。默认为 0.9。
浮点值或常量浮点张量,或不带参数并返回要使用的实际值的可调用函数,第二矩估计的指数衰减率。默认为 0.999。
数值稳定性的小常数。这个epsilon是Kingma和Ba论文中的 "epsilon hat" (在2.1节之前的公式中),而不是论文算法1中的epsilon。默认为 1e-7。
布尔值。是否应用论文 "On the Convergence of Adam and beyond" 中该算法的 AMSGrad 变体。默认为 。
应用渐变时创建的操作的可选名称。默认为 。
关键字参数。允许的参数为 、 、 。如果设置了 (float),则每个权重的梯度被裁剪为不高于该值。如果设置了 (float),则每个权重的梯度将被单独剪裁,使其范数不高于该值。如果设置了 (浮点),则所有权重的梯度都会被剪裁,以便它们的全局范数不高于该值。