[GRPO] Make sure special tokens aren't lost when truncating prompt. (huggingface#3651)

pramodith · marcandrelarochelle · commit 2b4d7d1feb1b · 2025-07-29T08:19:35.000-04:00
diff --git a/trl/trainer/grpo_trainer.py b/trl/trainer/grpo_trainer.py
@@ -1146,7 +1146,7 @@ def _generate_and_score_completions(
             prompt_ids = prompt_ids[:, -self.max_prompt_length :]
             prompt_mask = prompt_mask[:, -self.max_prompt_length :]
             prompts_text = self.processing_class.batch_decode(
-                prompt_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
+                prompt_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False
             )
 
         # Generate completions using either vLLM or regular generation

Original file line number	Diff line number	Diff line change
`@@ -1146,7 +1146,7 @@ def _generate_and_score_completions(`
`1146`	`1146`	`prompt_ids = prompt_ids[:, -self.max_prompt_length :]`
`1147`	`1147`	`prompt_mask = prompt_mask[:, -self.max_prompt_length :]`
`1148`	`1148`	`prompts_text = self.processing_class.batch_decode(`
`1149`		`- prompt_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False`
	`1149`	`+ prompt_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False`
`1150`	`1150`	`)`
`1151`	`1151`
`1152`	`1152`	`# Generate completions using either vLLM or regular generation`