vllm-project · dsikka · Jan 28, 2025 · Jan 28, 2025 · Jan 28, 2025
diff --git a/src/llmcompressor/transformers/compression/sparsity_config.py b/src/llmcompressor/transformers/compression/sparsity_config.py
@@ -181,7 +181,11 @@ def is_sparse24_bitmask_supported(
             return False
 
         if not is_model_quantized(model):
-            # non-quantized 2:4 sparse models are supported
+            logger.warning(
+                "Compressed Sparse-only 2:4 models are not supported in vLLM<=0.7.0, "
+                "consider saving with `disable_sparse_compression` set, "
+                "`model.save_pretrained(..., disable_sparse_compression=True)`"
+            )
             return True
 
         # when model is quantized, and has 2:4 sparsity