modelscope · hjh0119 · Jul 29, 2025 · Jul 29, 2025 · Jul 29, 2025
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -894,6 +894,7 @@ def _fast_infer(self, inputs: InputsType) -> Tuple[InputsType, OutputsType]:
                     outputs = self._infer_single_or_multi_turn(inputs, self.request_config)
 
             if self.vllm_mode == 'colocate' and self.args.sleep_level > 0:
+                self.engine.engine.reset_prefix_cache()
                 self.engine.engine.sleep(level=self.args.sleep_level)
                 empty_cache()