fix generating attention_mask of ernie-m (#4494)

Yam0214 · web-flow · commit d9a485568074 · 2023-01-16T17:24:32.000+08:00
diff --git a/paddlenlp/transformers/ernie_m/configuration.py b/paddlenlp/transformers/ernie_m/configuration.py
@@ -160,7 +160,7 @@ def __init__(
         max_position_embeddings: int = 514,
         type_vocab_size: int = 16,
         initializer_range: float = 0.02,
-        pad_token_id: int = 0,
+        pad_token_id: int = 1,
         **kwargs
     ):
         super().__init__(pad_token_id=pad_token_id, **kwargs)
diff --git a/paddlenlp/transformers/ernie_m/modeling.py b/paddlenlp/transformers/ernie_m/modeling.py
@@ -278,7 +278,7 @@ def forward(
 
         if attention_mask is None:
             attention_mask = paddle.unsqueeze(
-                (input_ids == 0).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]
+                (input_ids == self.pad_token_id).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]
             )
             if past_key_values is not None:
                 batch_size = past_key_values[0][0].shape[0]

Original file line number	Diff line number	Diff line change
`@@ -278,7 +278,7 @@ def forward(`
`278`	`278`
`279`	`279`	`if attention_mask is None:`
`280`	`280`	`attention_mask = paddle.unsqueeze(`
`281`		`- (input_ids == 0).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]`
	`281`	`+ (input_ids == self.pad_token_id).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]`
`282`	`282`	`)`
`283`	`283`	`if past_key_values is not None:`
`284`	`284`	`batch_size = past_key_values[0][0].shape[0]`