PaddlePaddle · zxcd · Dec 9, 2024 · Dec 3, 2024 · Dec 3, 2024 · Dec 5, 2024
diff --git a/paddlespeech/t2s/modules/losses.py b/paddlespeech/t2s/modules/losses.py
@@ -1115,7 +1115,8 @@ def forward(
                     paddle.reshape(xs_pad, (-1, self.odim))),
                 axis=-1)
         mlm_loss = paddle.sum((loss * paddle.reshape(
-            mlm_loss_pos, [-1]))) / paddle.sum((mlm_loss_pos) + 1e-10)
+            mlm_loss_pos,
+            [-1]).astype(loss.dtype))) / paddle.sum((mlm_loss_pos) + 1e-10)
 
         text_mlm_loss = None
 

diff --git a/paddlespeech/t2s/modules/nets_utils.py b/paddlespeech/t2s/modules/nets_utils.py
@@ -465,7 +465,7 @@ def phones_masking(xs_pad: paddle.Tensor,
                 for s, e in zip(masked_start, masked_end):
                     masked_pos[idx, s:e] = 1
     non_eos_mask = paddle.reshape(src_mask, paddle.shape(xs_pad)[:2])
-    masked_pos = masked_pos * non_eos_mask
+    masked_pos = masked_pos * non_eos_mask.astype(masked_pos.dtype)
     masked_pos = paddle.cast(masked_pos, 'bool')
 
     return masked_pos
@@ -549,10 +549,11 @@ def phones_text_masking(xs_pad: paddle.Tensor,
                 for s, e in zip(masked_start, masked_end):
                     masked_pos[idx, s:e] = 1
     non_eos_mask = paddle.reshape(src_mask, shape=paddle.shape(xs_pad)[:2])
-    masked_pos = masked_pos * non_eos_mask
+    masked_pos = masked_pos * non_eos_mask.astype(masked_pos.dtype)
     non_eos_text_mask = paddle.reshape(
         text_mask, shape=paddle.shape(text_pad)[:2])
-    text_masked_pos = text_masked_pos * non_eos_text_mask
+    text_masked_pos = text_masked_pos * non_eos_text_mask.astype(
+        text_masked_pos.dtype)
     masked_pos = paddle.cast(masked_pos, 'bool')
     text_masked_pos = paddle.cast(text_masked_pos, 'bool')
 

diff --git a/paddlespeech/t2s/modules/tacotron2/attentions.py b/paddlespeech/t2s/modules/tacotron2/attentions.py
@@ -171,7 +171,7 @@ def forward(
         if paddle.sum(att_prev) == 0:
             # if no bias, 0 0-pad goes 0
             att_prev = 1.0 - make_pad_mask(enc_hs_len)
-            att_prev = att_prev / enc_hs_len.unsqueeze(-1)
+            att_prev = att_prev / enc_hs_len.unsqueeze(-1).astype(att_prev.dtype)
 
         # att_prev: (utt, frame) -> (utt, 1, 1, frame)
         # -> (utt, att_conv_chans, 1, frame)

diff --git a/paddlespeech/t2s/modules/tacotron2/encoder.py b/paddlespeech/t2s/modules/tacotron2/encoder.py
@@ -162,6 +162,8 @@ def forward(self, xs, ilens=None):
             return xs.transpose([0, 2, 1])
         if not isinstance(ilens, paddle.Tensor):
             ilens = paddle.to_tensor(ilens)
+        if ilens.ndim == 0:
+            ilens = ilens.unsqueeze(0)
         xs = xs.transpose([0, 2, 1])
         # for dygraph to static graph
         # self.blstm.flatten_parameters()