[Embedding] Fix embedding random (#9721)

DesmonDay · web-flow · commit 3a3bb653ede5 · 2025-01-02T14:49:20.000+08:00
diff --git a/paddlenlp/datasets/embedding_dataset.py b/paddlenlp/datasets/embedding_dataset.py
@@ -117,10 +117,10 @@ def _process_truncation(self, tokens, text_type):
         pos_ids = list(range(len(token_ids)))
         return token_ids, pos_ids
 
-    def _postprocess_sequence(self, example: Example):
+    def _postprocess_sequence(self, example: Example, rng):
         """Post process sequence: tokenization & truncation."""
         query = example.query
-        pos_passage = random.choice(example.pos_passage)
+        pos_passage = rng.choice(example.pos_passage)
         neg_passage = example.neg_passage
         if len(neg_passage) > 0:
             if len(neg_passage) < self.group_size - 1:
@@ -132,12 +132,12 @@ def _postprocess_sequence(self, example: Example):
                 selected_neg_passage = neg_passage * full_sets_needed
 
                 # Ensure the remainder part is filled; randomly select from neg_passage
-                selected_neg_passage += random.sample(neg_passage, remainder)
+                selected_neg_passage += rng.sample(neg_passage, remainder)
 
                 # Shuffle the result to ensure randomness
-                random.shuffle(selected_neg_passage)
+                rng.shuffle(selected_neg_passage)
             else:
-                selected_neg_passage = random.sample(neg_passage, self.group_size - 1)
+                selected_neg_passage = rng.sample(neg_passage, self.group_size - 1)
         else:
             selected_neg_passage = []
         # Process query tokens
@@ -241,9 +241,11 @@ def iter_one_epoch(self):
         """Iterates through one epoch of the dataset."""
 
         num_sequences = 0
-        for index, example in enumerate(self.example_dataset):
+        rng = random.Random()
+        for _, example in enumerate(self.example_dataset):
             example = self.convert_example(example)
-            sequence = self._postprocess_sequence(example)
+            rng.seed(num_sequences)
+            sequence = self._postprocess_sequence(example, rng)
             if sequence is None:
                 continue
             num_sequences += 1