rebase latest main branch

lxgsbqylbk · lxgsbqylbk · commit d2e83e4fc5a8 · 2024-08-21T11:33:28.000+08:00
diff --git a/vllm/attention/backends/flashinfer.py b/vllm/attention/backends/flashinfer.py
@@ -113,7 +113,8 @@ def _get_decode_wrapper(self):
                 self.runner.parallel_config))
             num_kv_heads = self.runner.model_config.get_num_kv_heads(
                 self.runner.parallel_config)
-            use_tensor_cores = num_qo_heads // num_kv_heads >= 4
+            use_tensor_cores = (num_qo_heads // num_kv_heads) not in
+                (1, 2, 4, 8)
             self._decode_wrapper = BatchDecodeWithPagedKVCacheWrapper(
                 self._get_workspace_buffer(),
                 "NHD",
@@ -171,7 +172,8 @@ def graph_capture_get_metadata_for_batch(self, batch_size: int):
             self.runner.parallel_config))
         num_kv_heads = self.runner.model_config.get_num_kv_heads(
             self.runner.parallel_config)
-        use_tensor_cores = num_qo_heads // num_kv_heads >= 4
+        use_tensor_cores = (num_qo_heads // num_kv_heads) not in
+            (1, 2, 4, 8)
         self._graph_decode_wrapper = \
             CUDAGraphBatchDecodeWithPagedKVCacheWrapper(
             self._graph_decode_workspace_buffer, _indptr_buffer,