Adapt python op converters covered in paddle-3-beta2 for TRT 10 (#69510)

anderson101866 · web-flow · commit 25ed80497329 · 2024-12-09T19:01:21.000+08:00
* Adapt `paddle.tensorrt.converter` to TRT 10

This commit includes basic migration to TRT 10 API, and also enable
 those converter who are tested with existing unittest to TRT10

For those 2 converter which is NOT included in this commit:
- python/paddle/tensorrt/impls/attribute.py
- python/paddle/tensorrt/impls/common.py
Need to fix these 2 behavior issues in later commit.

* Adapt "pd_op.shape" TRT op converter to TRT10

Although `IShapeLayer` supports shape in int64 since TRT10, some paddle
 native op kernel only implements their input shape tensor (if exists)
 in int32. Hence, there is a workaround in `trt_shape` to cast the
 result of TRT `IShapeLayer` back to int32 to be more compatible with
 other paddle op. (see python/paddle/tensorrt/converter_utils.py)

Please remove the workaround when all paddle op supports their shape in
 int64.

Also, since `IShapeLayer` return shape in int64 in TRT10, the
 "pd_op.shape64" will be seamlessly supported in TRT10 w/o any extra
  workaround.

* Fix converter error in TRT10 for interpolation ops

Error detail:
  {
      (%1) = "pd_op.bilinear_interp" [id:28] (%2, %3, &lt;&lt;NULL VALUE&gt;&gt;, &lt;&lt;NULL VALUE&gt;&gt;) {__l_trt__:true,align_corners:false,align_mode:(Int32)0,data_format:"NCHW",interp_method:"bilinear",out_d:(Int32)-1,out_h:(Int32)12,out_w:(Int32)12,scale:[],stop_gradient:[true]} : (builtin.tensor&lt;-1x3x6x10xf32&gt;, builtin.tensor&lt;2xi32&gt;, &lt;&lt;NULL TYPE&gt;&gt;, &lt;&lt;NULL TYPE&gt;&gt;) -&gt; builtin.tensor&lt;-1x3x12x12xf32&gt;
      () = "cf.yield" [id:36] (%1) {} : (builtin.tensor&lt;-1x3x12x12xf32&gt;) -&gt;
  }
  [TRT] [E] ITensor::getDimensions: Error Code 4: API Usage Error ((Unnamed Layer* 6) [Concatenation]: concat input tensors 0 and 2 have incompatible types Int64 and Int32)
  [TRT] [E] IBuilder::buildSerializedNetwork: Error Code 4: API Usage Error ((Unnamed Layer* 6) [Concatenation]: concat input tensors 0 and 2 have incompatible types Int64 and Int32)

The error happened in "python/paddle/tensorrt/impls/common.py" because
 IConcatenationLayer requires all input to be same dtype.
The (shape)tensor passed from paddle op will be int32, while the TRT
 IShapeLayer supports int64 shape; thereby, cannot be concatenated with
 each other.

Here, we call `trt_shape` to get shape tensor whose dtype aligned with
 the dtype from paddle op.

* Add int64 in TRT-&gt;paddle dtype mapping function

* Fix "test_converter_math" by enable op for TRT 10

test_converter_math can pass unittest with environment with TRT 10.6

* Adapt 3 manipulation converters to TRT 10

- "pd_op.expand"
- "pd_op.expand_as"
- "pd_op.slice"
diff --git a/paddle/fluid/framework/new_executor/instruction/tensorrt_engine_instruction.cc b/paddle/fluid/framework/new_executor/instruction/tensorrt_engine_instruction.cc
@@ -233,6 +233,12 @@ static phi::DataType TRT2PaddleDataType(nvinfer1::DataType type) {
       return phi::DataType::FLOAT16;
     case nvinfer1::DataType::kINT8:
       return phi::DataType::INT8;
+#if IS_TRT_VERSION_GE(9000)
+    case nvinfer1::DataType::kINT64:
+      VLOG(4) << "get nvinfer1::DataType::kINT64 from TRT op, and will output "
+                 "to paddle. Does the downstream paddle op here support int64?";
+      return phi::DataType::INT64;
+#endif
 #if IS_TRT_VERSION_GE(7000)
     case nvinfer1::DataType::kBOOL:
       return phi::DataType::BOOL;
diff --git a/python/paddle/tensorrt/converter.py b/python/paddle/tensorrt/converter.py
@@ -448,6 +448,9 @@ def convert_subgraph_to_trt(self, program, group_op):
                 config.set_flag(trt.BuilderFlag.PREFER_PRECISION_CONSTRAINTS)
 
         trt_engine = builder.build_serialized_network(network, config)
+        assert (
+            trt_engine is not None
+        ), 'Failed to build engine. please see ERROR log from trt.Logger'
         trt_params = paddle.base.libpaddle.TRTEngineParams()
         trt_params.min_input_shape = min_shape_map
         trt_params.max_input_shape = max_shape_map
diff --git a/python/paddle/tensorrt/converter_utils.py b/python/paddle/tensorrt/converter_utils.py
@@ -25,6 +25,8 @@
     sys.path.append(parent_dir)
 
 
+from tensorrt import INetworkDefinition, ITensor
+
 from paddle.base.log_helper import get_logger
 
 _logger = get_logger(
@@ -243,9 +245,17 @@ def trt_cast(network, input, dtype):
     return identity_layer.get_output(0)
 
 
-def trt_shape(network, input):
+def trt_shape(network: INetworkDefinition, input: ITensor) -> ITensor:
+    """
+    Add a IShapeLayer to get the shape of `input` ITensor.
+    This includes a workaround that casting the shape result(int64) from TRT10 back to int32.
+    Many existing paddle op kernels only support input shape tensor as int32
+    , to make TRT op more compatible with other paddle op, we cast back to int32.
+    NOTE: please remove this workaround when all paddle op supports shape tensor in int64
+    """
     shape_layer = network.add_shape(input)
     if version_list[0] >= 10:  # trt_version >=10
+        # workaround
         return trt_cast(network, shape_layer.get_output(0), trt.int32)
     return shape_layer.get_output(0)
 
diff --git a/python/paddle/tensorrt/impls/activation.py b/python/paddle/tensorrt/impls/activation.py
@@ -35,17 +35,17 @@
 }
 
 
-@converter_registry.register("pd_op.relu", trt_version="8.x")
-@converter_registry.register("pd_op.tanh", trt_version="8.x")
-@converter_registry.register("pd_op.sigmoid", trt_version="8.x")
+@converter_registry.register("pd_op.relu", trt_version="trt_version_ge=8.0")
+@converter_registry.register("pd_op.tanh", trt_version="trt_version_ge=8.0")
+@converter_registry.register("pd_op.sigmoid", trt_version="trt_version_ge=8.0")
 def activation_converter(network, paddle_op, inputs):
     layer = network.add_activation(
         inputs[0], activation_type_map[paddle_op.name()]
     )
     return layer.get_output(0)
 
 
-@converter_registry.register("pd_op.softmax", trt_version="8.x")
+@converter_registry.register("pd_op.softmax", trt_version="trt_version_ge=8.0")
 def softmax_converter(network, paddle_op, inputs):
     axis = paddle_op.attrs().get("axis", 0)
     if axis < 0:
@@ -56,7 +56,7 @@ def softmax_converter(network, paddle_op, inputs):
     return softmax_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.gelu", trt_version="8.x")
+@converter_registry.register("pd_op.gelu", trt_version="trt_version_ge=8.0")
 def gelu_converter(network, paddle_op, inputs):
     input_val = inputs[0]
     approximate = paddle_op.attrs()["approximate"]
@@ -79,7 +79,9 @@ def gelu_converter(network, paddle_op, inputs):
     return layer.get_output(0)
 
 
-@converter_registry.register("pd_op.hardsigmoid", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.hardsigmoid", trt_version="trt_version_ge=8.0"
+)
 def hardsigmoid_converter(network, paddle_op, inputs):
     x = inputs[0]
     slope = paddle_op.attrs()["slope"]
@@ -92,7 +94,9 @@ def hardsigmoid_converter(network, paddle_op, inputs):
     return hardsigmoid_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.hardswish", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.hardswish", trt_version="trt_version_ge=8.0"
+)
 def hardswish_converter(network, paddle_op, inputs):
     x = inputs[0]
     threshold = 6.0
diff --git a/python/paddle/tensorrt/impls/attribute.py b/python/paddle/tensorrt/impls/attribute.py
@@ -12,17 +12,16 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+from paddle.tensorrt.converter_utils import trt_shape
 from paddle.tensorrt.register import converter_registry
 
 
-@converter_registry.register("pd_op.shape", trt_version="8.x")
+@converter_registry.register("pd_op.shape", trt_version="trt_version_ge=8.0")
 def shape_converter(network, paddle_op, inputs):
-    input_tensor = inputs[0]
-    shape_layer = network.add_shape(input_tensor)
-    return shape_layer.get_output(0)
+    return trt_shape(network, inputs[0])
 
 
-@converter_registry.register("pd_op.shape64", trt_version="8.x")
+@converter_registry.register("pd_op.shape64", trt_version="trt_version_ge=8.0")
 def shape64_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
     shape_layer = network.add_shape(input_tensor)
diff --git a/python/paddle/tensorrt/impls/common.py b/python/paddle/tensorrt/impls/common.py
@@ -16,7 +16,7 @@
 import numpy as np
 import tensorrt as trt
 
-from paddle.tensorrt.converter_utils import get_shape_tensor_element
+from paddle.tensorrt.converter_utils import get_shape_tensor_element, trt_shape
 from paddle.tensorrt.register import converter_registry
 from paddle.tensorrt.util import get_trt_version_list
 
@@ -48,7 +48,9 @@ def dropout_converter(network, paddle_op, inputs):
     return scale_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.bilinear_interp", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.bilinear_interp", trt_version="trt_version_ge=8.0"
+)
 def bilinear_interp_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
     data_format = paddle_op.attrs().get("data_format")
@@ -139,7 +141,7 @@ def bilinear_interp_converter(network, paddle_op, inputs):
     else:
         if outsize_tensor is not None:
             outsize_itensors = []
-            input_shape_tensor = network.add_shape(input_tensor).get_output(0)
+            input_shape_tensor = trt_shape(network, input_tensor)
             batch_dim = get_shape_tensor_element(network, input_shape_tensor, 0)
             outsize_itensors.append(batch_dim)
             if data_format == "NCHW":
@@ -162,7 +164,9 @@ def bilinear_interp_converter(network, paddle_op, inputs):
     return resize_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.nearest_interp", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.nearest_interp", trt_version="trt_version_ge=8.0"
+)
 def nearest_interp_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
     data_format = paddle_op.attrs().get("data_format")
@@ -254,7 +258,7 @@ def nearest_interp_converter(network, paddle_op, inputs):
         )
     if outsize_tensor is not None:
         outsize_itensors = []
-        input_shape_tensor = network.add_shape(input_tensor).get_output(0)
+        input_shape_tensor = trt_shape(network, input_tensor)
         batch_dim = get_shape_tensor_element(network, input_shape_tensor, 0)
         outsize_itensors.append(batch_dim)
         if data_format == "NCHW":
diff --git a/python/paddle/tensorrt/impls/conv.py b/python/paddle/tensorrt/impls/conv.py
@@ -18,7 +18,7 @@
 
 
 @converter_registry.register("pd_op.depthwise_conv2d", trt_version="8.x")
-@converter_registry.register("pd_op.conv2d", trt_version="8.x")
+@converter_registry.register("pd_op.conv2d", trt_version="trt_version_ge=8.0")
 @converter_registry.register("pd_op.conv2d_transpose", trt_version="8.x")
 @converter_registry.register(
     "pd_op.depthwise_conv2d_transpose", trt_version="8.x"
diff --git a/python/paddle/tensorrt/impls/creation.py b/python/paddle/tensorrt/impls/creation.py
@@ -29,7 +29,9 @@
 from paddle.tensorrt.register import converter_registry
 
 
-@converter_registry.register("pd_op.full_int_array", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.full_int_array", trt_version="trt_version_ge=8.0"
+)
 def full_int_array_converter(network, paddle_op, inputs):
     value = paddle_op.attrs()["value"]
     if len(value) == 0:
@@ -39,7 +41,7 @@ def full_int_array_converter(network, paddle_op, inputs):
     return full_int_array_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.full", trt_version="8.x")
+@converter_registry.register("pd_op.full", trt_version="trt_version_ge=8.0")
 def full_converter(network, paddle_op, inputs):
     shape = paddle_op.attrs()["shape"]
     value = paddle_op.attrs().get("value", 1.0)
diff --git a/python/paddle/tensorrt/impls/linalg.py b/python/paddle/tensorrt/impls/linalg.py
@@ -25,7 +25,7 @@
 from paddle.tensorrt.register import converter_registry
 
 
-@converter_registry.register("pd_op.matmul", trt_version="8.x")
+@converter_registry.register("pd_op.matmul", trt_version="trt_version_ge=8.0")
 def matmul_converter(network, paddle_op, inputs):
     weight_shape = paddle_op.operands()[1].source().shape
     transpose_x = paddle_op.attrs()["transpose_x"]
@@ -61,7 +61,9 @@ def matmul_converter(network, paddle_op, inputs):
     return out.get_output(0)
 
 
-@converter_registry.register("pd_op.transpose", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.transpose", trt_version="trt_version_ge=8.0"
+)
 def transpose_converter(network, paddle_op, inputs):
     perm = paddle_op.attrs()["perm"]
     transposed_tensor = network.add_shuffle(inputs[0])
diff --git a/python/paddle/tensorrt/impls/manipulation.py b/python/paddle/tensorrt/impls/manipulation.py
@@ -44,7 +44,7 @@
 from ..util import get_trt_version_list
 
 
-@converter_registry.register("pd_op.reshape", trt_version="8.x")
+@converter_registry.register("pd_op.reshape", trt_version="trt_version_ge=8.0")
 def reshape_converter(network, paddle_op, inputs):
     x = inputs[0]
     is_constant_shape = False
@@ -87,7 +87,7 @@ def gather_nd_converter(network, paddle_op, inputs):
     return non_zero_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.flatten", trt_version="8.x")
+@converter_registry.register("pd_op.flatten", trt_version="trt_version_ge=8.0")
 def flatten_converter(network, paddle_op, inputs):
     input_val = inputs[0]
     input_val_shape = paddle_op.operands()[0].source().shape
@@ -172,7 +172,7 @@ def flatten_converter(network, paddle_op, inputs):
 
 
 # In the converter, pd_op.concat has three inputs, because builtin.combine has two inputs.
-@converter_registry.register("pd_op.concat", trt_version="8.x")
+@converter_registry.register("pd_op.concat", trt_version="trt_version_ge=8.0")
 def concat_converter(network, paddle_op, inputs):
     input_tensors = inputs[0]
     axis_tensor = inputs[1]
@@ -187,8 +187,12 @@ def concat_converter(network, paddle_op, inputs):
     return concat_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.unsqueeze", trt_version="8.x")
-@converter_registry.register("pd_op.unsqueeze_", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.unsqueeze", trt_version="trt_version_ge=8.0"
+)
+@converter_registry.register(
+    "pd_op.unsqueeze_", trt_version="trt_version_ge=8.0"
+)
 def unsqueeze_converter(network, paddle_op, inputs):
     x = inputs[0]
     input_dims = x.shape
@@ -235,8 +239,8 @@ def unsqueeze_converter(network, paddle_op, inputs):
     return layer.get_output(0)
 
 
-@converter_registry.register("pd_op.squeeze", trt_version="8.x")
-@converter_registry.register("pd_op.squeeze_", trt_version="8.x")
+@converter_registry.register("pd_op.squeeze", trt_version="trt_version_ge=8.0")
+@converter_registry.register("pd_op.squeeze_", trt_version="trt_version_ge=8.0")
 def squeeze_converter(network, paddle_op, inputs):
     input_val = inputs[0]
     input_shape = input_val.shape
@@ -260,7 +264,7 @@ def squeeze_converter(network, paddle_op, inputs):
     return layer.get_output(0)
 
 
-@converter_registry.register("pd_op.expand", trt_version="8.x")
+@converter_registry.register("pd_op.expand", trt_version="trt_version_ge=8.0")
 def expand_converter(network, paddle_op, inputs):
     input = inputs[0]
     input_dims = input.shape
@@ -282,7 +286,9 @@ def expand_converter(network, paddle_op, inputs):
     return trt_expand(network, input, rank, shape_tensor, shape_rank)
 
 
-@converter_registry.register("pd_op.expand_as", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.expand_as", trt_version="trt_version_ge=8.0"
+)
 def expand_as_converter(network, paddle_op, inputs):
     input = inputs[0]
     input_dims = input.shape
@@ -328,15 +334,15 @@ def cast_converter(network, paddle_op, inputs):
     return cast_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.slice", trt_version="8.x")
+@converter_registry.register("pd_op.slice", trt_version="trt_version_ge=8.0")
 def slice_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
     axes = paddle_op.attrs()["axes"]
     decrease_axis = paddle_op.attrs().get("decrease_axis")
 
     starts_op = paddle_op.operands()[1].source().get_defining_op()
     ends_op = paddle_op.operands()[2].source().get_defining_op()
-    input_shape_tensor = network.add_shape(input_tensor).get_output(0)
+    input_shape_tensor = trt_shape(network, input_tensor)
     input_rank = len(input_tensor.shape)
 
     starts_tensor = []
diff --git a/python/paddle/tensorrt/impls/math.py b/python/paddle/tensorrt/impls/math.py
@@ -30,15 +30,15 @@
 from paddle.tensorrt.register import converter_registry
 
 
-@converter_registry.register("pd_op.add", trt_version="8.x")
-@converter_registry.register("pd_op.add_", trt_version="8.x")
+@converter_registry.register("pd_op.add", trt_version="trt_version_ge=8.0")
+@converter_registry.register("pd_op.add_", trt_version="trt_version_ge=8.0")
 def add_converter(network, paddle_op, inputs):
     return add_elementwise_layer(
         network, paddle_op, inputs, trt.ElementWiseOperation.SUM
     )
 
 
-@converter_registry.register("pd_op.scale", trt_version="8.x")
+@converter_registry.register("pd_op.scale", trt_version="trt_version_ge=8.0")
 def scale_converter(network, paddle_op, inputs):
     scale = paddle_op.operands()[1].source().get_defining_op().attrs()["value"]
     bias = paddle_op.attrs().get("bias", 0.0)
@@ -59,7 +59,7 @@ def scale_converter(network, paddle_op, inputs):
     return scale_layer.get_output(0)
 
 
-@converter_registry.register("pd_op.max", trt_version="8.x")
+@converter_registry.register("pd_op.max", trt_version="trt_version_ge=8.0")
 def max_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
     axis = paddle_op.operands()[1].source().get_defining_op().attrs()["value"]
@@ -84,21 +84,21 @@ def max_converter(network, paddle_op, inputs):
     return layer.get_output(0)
 
 
-@converter_registry.register("pd_op.divide", trt_version="8.x")
+@converter_registry.register("pd_op.divide", trt_version="trt_version_ge=8.0")
 def divide_converter(network, paddle_op, inputs):
     return add_elementwise_layer(
         network, paddle_op, inputs, trt.ElementWiseOperation.DIV
     )
 
 
-@converter_registry.register("pd_op.subtract", trt_version="8.x")
+@converter_registry.register("pd_op.subtract", trt_version="trt_version_ge=8.0")
 def substract_converter(network, paddle_op, inputs):
     return add_elementwise_layer(
         network, paddle_op, inputs, trt.ElementWiseOperation.SUB
     )
 
 
-@converter_registry.register("pd_op.multiply", trt_version="8.x")
+@converter_registry.register("pd_op.multiply", trt_version="trt_version_ge=8.0")
 def multiply_converter(network, paddle_op, inputs):
     return add_elementwise_layer(
         network, paddle_op, inputs, trt.ElementWiseOperation.PROD
diff --git a/python/paddle/tensorrt/impls/norm.py b/python/paddle/tensorrt/impls/norm.py
@@ -66,8 +66,12 @@ def layernorm_converter(network, paddle_op, inputs):
     return layer_norm.get_output(0)
 
 
-@converter_registry.register("pd_op.batch_norm", trt_version="8.x")
-@converter_registry.register("pd_op.batch_norm_", trt_version="8.x")
+@converter_registry.register(
+    "pd_op.batch_norm", trt_version="trt_version_ge=8.0"
+)
+@converter_registry.register(
+    "pd_op.batch_norm_", trt_version="trt_version_ge=8.0"
+)
 def batch_norm_converter(network, paddle_op, inputs):
     input_tensor, mean, variance, scale, bias = inputs
     scale_shape = paddle_op.operands()[3].source().shape
diff --git a/python/paddle/tensorrt/impls/ops.py b/python/paddle/tensorrt/impls/ops.py
@@ -22,8 +22,8 @@
 }
 
 
-@converter_registry.register("pd_op.sqrt", trt_version="8.x")
-@converter_registry.register("pd_op.sqrt_", trt_version="8.x")
+@converter_registry.register("pd_op.sqrt", trt_version="trt_version_ge=8.0")
+@converter_registry.register("pd_op.sqrt_", trt_version="trt_version_ge=8.0")
 @converter_registry.register("pd_op.floor", trt_version="8.x")
 def sqrt_converter(network, paddle_op, inputs):
     input_tensor = inputs[0]
diff --git a/python/paddle/tensorrt/impls/others.py b/python/paddle/tensorrt/impls/others.py
diff --git a/python/paddle/tensorrt/impls/pooling.py b/python/paddle/tensorrt/impls/pooling.py
diff --git a/python/paddle/tensorrt/impls/search.py b/python/paddle/tensorrt/impls/search.py
diff --git a/python/paddle/tensorrt/impls/stat.py b/python/paddle/tensorrt/impls/stat.py