fix fused_layer_norm fused_rms_norm outputs (#69960)

Wangzheee · web-flow · commit 67f3613c12e7 · 2024-12-10T19:48:00.000+08:00
* fix fused_layer_norm fused_rms_norm outputs
diff --git a/python/paddle/incubate/nn/functional/fused_layer_norm.py b/python/paddle/incubate/nn/functional/fused_layer_norm.py
@@ -18,7 +18,7 @@
 
 import paddle
 from paddle import _C_ops
-from paddle.framework import LayerHelper, in_dynamic_mode, in_pir_mode
+from paddle.framework import LayerHelper, in_dynamic_or_pir_mode
 
 if TYPE_CHECKING:
     from paddle import Tensor
@@ -108,8 +108,7 @@ def fused_layer_norm(
             >>> epsilon = 1e-6
             >>> paddle_layernorm = paddle.incubate.nn.functional.fused_layer_norm(paddle_x, paddle_weight, paddle_bias, epsilon, 1)
     """
-
-    if in_dynamic_mode():
+    if in_dynamic_or_pir_mode():
         return _C_ops.fused_bias_residual_layernorm(
             x,
             bias,
@@ -124,23 +123,7 @@ def fused_layer_norm(
             quant_max_bound,
             quant_min_bound,
         )
-    elif in_pir_mode():
-        out, residual_out, _, _ = _C_ops.fused_bias_residual_layernorm(
-            x,
-            bias,
-            residual,
-            norm_weight,
-            norm_bias,
-            epsilon,
-            residual_alpha,
-            begin_norm_axis,
-            quant_scale,
-            quant_round_type,
-            quant_max_bound,
-            quant_min_bound,
-        )
-        return (out, residual_out) if residual is not None else out
-
+    # static mode
     helper = LayerHelper('fused_layernorm', **locals())
     out = None
     if quant_scale <= 0:
@@ -183,4 +166,4 @@ def fused_layer_norm(
         },
         outputs=outputs_dict,
     )
-    return (out, residual_out) if residual is not None else out
+    return (out, residual_out, outputs_dict['mean'], outputs_dict['variance'])
diff --git a/python/paddle/incubate/nn/functional/fused_rms_norm.py b/python/paddle/incubate/nn/functional/fused_rms_norm.py
@@ -18,7 +18,7 @@
 
 import paddle
 from paddle import _C_ops
-from paddle.framework import LayerHelper, in_dynamic_mode, in_pir_mode
+from paddle.framework import LayerHelper, in_dynamic_or_pir_mode
 
 if TYPE_CHECKING:
     from paddle import Tensor
@@ -102,7 +102,7 @@ def fused_rms_norm(
             >>> epsilon = 1e-6
             >>> paddle_rmsnorm = paddle.incubate.nn.functional.fused_rms_norm(paddle_x, paddle_weight, paddle_bias, epsilon, 1)
     """
-    if in_dynamic_mode():
+    if in_dynamic_or_pir_mode():
         return _C_ops.rms_norm(
             x,
             bias,
@@ -116,21 +116,7 @@ def fused_rms_norm(
             quant_max_bound,
             quant_min_bound,
         )
-    if in_pir_mode():
-        out, residual_out = _C_ops.rms_norm(
-            x,
-            bias,
-            residual,
-            norm_weight,
-            norm_bias,
-            epsilon,
-            begin_norm_axis,
-            quant_scale,
-            quant_round_type,
-            quant_max_bound,
-            quant_min_bound,
-        )
-        return (out, residual_out) if residual is not None else out
+    # static mode
     helper = LayerHelper('rms_norm', **locals())
     out = None
     if quant_scale <= 0:
@@ -167,4 +153,4 @@ def fused_rms_norm(
         },
         outputs=outputs_dict,
     )
-    return (out, residual_out) if residual is not None else out
+    return (out, residual_out, outputs_dict['inv_var'])
diff --git a/test/legacy_test/test_fused_layernorm_op.py b/test/legacy_test/test_fused_layernorm_op.py
@@ -448,7 +448,7 @@ def check_layernorm(self, x_np, gamma_np, beta_np, dtype):
                 beta_static,
                 self.epsilon,
                 begin_norm_axis=1,
-            )
+            )[0]
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
                 feed={
@@ -498,7 +498,7 @@ def check_layernorm_int8(self, x_np, gamma_np, beta_np, dtype):
                 quant_round_type=self.quant_round_type,
                 quant_max_bound=self.quant_max_bound,
                 quant_min_bound=self.quant_min_bound,
-            )
+            )[0]
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
                 feed={
@@ -546,7 +546,7 @@ def check_residual_bias_add(self, x_np, residual_np, bias_np, dtype):
                 quant_round_type=self.quant_round_type,
                 quant_max_bound=self.quant_max_bound,
                 quant_min_bound=self.quant_min_bound,
-            )
+            )[0]
 
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
@@ -556,7 +556,7 @@ def check_residual_bias_add(self, x_np, residual_np, bias_np, dtype):
                     "bias_static": bias_np.astype(dtype),
                 },
                 fetch_list=[
-                    outs[0]
+                    outs
                 ],  # NOTE: Only fetch `out`, because `residual_out` will not be initialized if both `norm_weight` and `norm_bias` are None.
             )
         return out_s, paddle_naive_residual_out
@@ -597,7 +597,7 @@ def check_residual_bias_layernorm(
             beta_static = paddle.static.data(
                 name="beta_static", shape=[self.cols], dtype='float32'
             )
-            outs = paddle.incubate.nn.functional.fused_layer_norm(
+            outs, residual = paddle.incubate.nn.functional.fused_layer_norm(
                 x_static,
                 gamma_static,
                 beta_static,
@@ -606,7 +606,7 @@ def check_residual_bias_layernorm(
                 residual_alpha=self.residual_alpha,
                 bias=bias_static,
                 residual=residual_static,
-            )
+            )[:2]
 
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
@@ -617,7 +617,7 @@ def check_residual_bias_layernorm(
                     "residual_static": residual_np.astype(dtype),
                     "bias_static": bias_np.astype(dtype),
                 },
-                fetch_list=[outs],
+                fetch_list=[outs, residual],
             )
         return out_s, paddle_naive_layernorm_out, paddle_naive_residual_out
 
@@ -667,7 +667,7 @@ def check_residual_bias_layernorm_int8(
             beta_static = paddle.static.data(
                 name="beta_static", shape=[self.cols], dtype='float32'
             )
-            outs = paddle.incubate.nn.functional.fused_layer_norm(
+            outs, residual = paddle.incubate.nn.functional.fused_layer_norm(
                 x_static,
                 gamma_static,
                 beta_static,
@@ -680,7 +680,7 @@ def check_residual_bias_layernorm_int8(
                 quant_round_type=self.quant_round_type,
                 quant_max_bound=self.quant_max_bound,
                 quant_min_bound=self.quant_min_bound,
-            )
+            )[:2]
 
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
@@ -691,7 +691,7 @@ def check_residual_bias_layernorm_int8(
                     "residual_static": residual_np.astype(dtype),
                     "bias_static": bias_np.astype(dtype),
                 },
-                fetch_list=[outs],
+                fetch_list=[outs, residual],
             )
         return out_s, paddle_naive_layernorm_out, paddle_naive_residual_out
 
@@ -847,7 +847,7 @@ def check_layernorm(self, x_np, gamma_np, beta_np, dtype):
 
         paddle_layernorm_out = paddle.incubate.nn.functional.fused_layer_norm(
             x, gamma, beta, self.epsilon, begin_norm_axis=1
-        )
+        )[0]
         paddle_naive_layernorm_out = naive_layer_norm(
             x, gamma, beta, self.epsilon
         )
@@ -869,7 +869,7 @@ def check_residual_bias_add(self, x_np, residual_np, bias_np, dtype):
             bias=bias,
             residual=residual,
             residual_alpha=self.residual_alpha,
-        )
+        )[0]
 
         paddle_naive_residual_out = naive_residual_bias_add(
             x, residual, bias, self.residual_alpha
@@ -919,7 +919,7 @@ def test_residual_bias_add(self):
             self.x_np, self.residual_np, self.bias_np, 'float32'
         )
         np.testing.assert_allclose(
-            paddle_residual_bias_out[0].numpy(),
+            paddle_residual_bias_out.numpy(),
             paddle_naive_residual_bias_out.numpy(),
             rtol=1e-3,
             atol=1e-3,
@@ -931,7 +931,7 @@ def test_layernorm(self):
         )
 
         np.testing.assert_allclose(
-            paddle_layernorm[0].numpy(),
+            paddle_layernorm.numpy(),
             paddle_naive_layernorm.numpy(),
             rtol=1e-3,
             atol=1e-3,
@@ -1016,7 +1016,7 @@ def check_layernorm(self, x_np, gamma_np, beta_np, dtype):
                 beta_static,
                 self.epsilon,
                 begin_norm_axis=1,
-            )
+            )[0]
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
                 feed={
@@ -1060,7 +1060,7 @@ def check_residual_bias_add(self, x_np, residual_np, bias_np, dtype):
                 bias=bias_static,
                 residual=residual_static,
                 residual_alpha=self.residual_alpha,
-            )
+            )[0]
 
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
@@ -1070,7 +1070,7 @@ def check_residual_bias_add(self, x_np, residual_np, bias_np, dtype):
                     "bias_static": bias_np.astype(dtype),
                 },
                 fetch_list=[
-                    outs[0]
+                    outs
                 ],  # NOTE: Only fetch `out`, because `residual_out` will not be initialized if both `norm_weight` and `norm_bias` are None.
             )
         return out_s, paddle_naive_residual_out
@@ -1111,7 +1111,7 @@ def check_residual_bias_layernorm(
             beta_static = paddle.static.data(
                 name="beta_static", shape=[self.cols], dtype='float32'
             )
-            outs = paddle.incubate.nn.functional.fused_layer_norm(
+            outs, residual = paddle.incubate.nn.functional.fused_layer_norm(
                 x_static,
                 gamma_static,
                 beta_static,
@@ -1120,7 +1120,7 @@ def check_residual_bias_layernorm(
                 residual_alpha=self.residual_alpha,
                 bias=bias_static,
                 residual=residual_static,
-            )
+            )[:2]
 
             exe = paddle.static.Executor(self.place)
             out_s = exe.run(
@@ -1131,7 +1131,7 @@ def check_residual_bias_layernorm(
                     "residual_static": residual_np.astype(dtype),
                     "bias_static": bias_np.astype(dtype),
                 },
-                fetch_list=[outs],
+                fetch_list=[outs, residual],
             )
         return out_s, paddle_naive_layernorm_out, paddle_naive_residual_out
 
diff --git a/test/legacy_test/test_rms_norm_op.py b/test/legacy_test/test_rms_norm_op.py