[GRPO] Make sure special tokens aren't lost when truncating prompt. (#3651)

pramodith · qgallouedec · commit 7dbf4777b4fc · 2025-07-08T00:34:42.000Z
diff --git a/trl/trainer/grpo_trainer.py b/trl/trainer/grpo_trainer.py
@@ -1065,7 +1065,7 @@ def _generate_and_score_completions(
             prompt_ids = prompt_ids[:, -self.max_prompt_length :]
             prompt_mask = prompt_mask[:, -self.max_prompt_length :]
             prompts_text = self.processing_class.batch_decode(
-                prompt_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
+                prompt_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False
             )
 
         # Generate completions using either vLLM or regular generation

Original file line number	Diff line number	Diff line change
`@@ -1065,7 +1065,7 @@ def _generate_and_score_completions(`
`1065`	`1065`	`prompt_ids = prompt_ids[:, -self.max_prompt_length :]`
`1066`	`1066`	`prompt_mask = prompt_mask[:, -self.max_prompt_length :]`
`1067`	`1067`	`prompts_text = self.processing_class.batch_decode(`
`1068`		`- prompt_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False`
	`1068`	`+ prompt_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False`
`1069`	`1069`	`)`
`1070`	`1070`
`1071`	`1071`	`# Generate completions using either vLLM or regular generation`