tf.keras.optimizers.Adam_星辉注册登录官网

星辉资讯 | 2024-07-29 14:08

Args
	、浮点值或时间表，或不带参数并返回要使用的实际值的可调用函数，即学习率。默认为 0.001。
	浮点值或常量浮点张量，或不带参数并返回要使用的实际值的可调用对象。第一时刻估计的指数衰减率。默认为 0.9。
	浮点值或常量浮点张量，或不带参数并返回要使用的实际值的可调用函数，第二矩估计的指数衰减率。默认为 0.999。
	数值稳定性的小常数。这个epsilon是Kingma和Ba论文中的 "epsilon hat" （在2.1节之前的公式中），而不是论文算法1中的epsilon。默认为 1e-7。
	布尔值。是否应用论文 "On the Convergence of Adam and beyond" 中该算法的 AMSGrad 变体。默认为。
	应用渐变时创建的操作的可选名称。默认为。
	关键字参数。允许的参数为、、。如果设置了（float），则每个权重的梯度被裁剪为不高于该值。如果设置了（float），则每个权重的梯度将被单独剪裁，使其范数不高于该值。如果设置了（浮点），则所有权重的梯度都会被剪裁，以便它们的全局范数不高于该值。