Dao-AILab
diff --git a/‎flash_attn/cute/block_info.py‎
Lines changed: 16 additions & 1 deletion b/‎flash_attn/cute/block_info.py‎
Lines changed: 16 additions & 1 deletion
diff --git a/‎flash_attn/cute/flash_bwd.py‎
Lines changed: 3 additions & 2 deletions b/‎flash_attn/cute/flash_bwd.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎flash_attn/cute/flash_bwd_postprocess.py‎
Lines changed: 3 additions & 2 deletions b/‎flash_attn/cute/flash_bwd_postprocess.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎flash_attn/cute/flash_bwd_preprocess.py‎
Lines changed: 3 additions & 2 deletions b/‎flash_attn/cute/flash_bwd_preprocess.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎flash_attn/cute/flash_bwd_sm100.py‎
Lines changed: 7 additions & 5 deletions b/‎flash_attn/cute/flash_bwd_sm100.py‎
Lines changed: 7 additions & 5 deletions
diff --git a/‎flash_attn/cute/flash_bwd_sm90.py‎
Lines changed: 6 additions & 4 deletions b/‎flash_attn/cute/flash_bwd_sm90.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎flash_attn/cute/flash_fwd.py‎
Lines changed: 7 additions & 4 deletions b/‎flash_attn/cute/flash_fwd.py‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎flash_attn/cute/flash_fwd_combine.py‎
Lines changed: 2 additions & 2 deletions b/‎flash_attn/cute/flash_fwd_combine.py‎
Lines changed: 2 additions & 2 deletions
@@ -15,12 +15,19 @@ class BlockInfo:
     tile_n: cutlass.Constexpr[int]
     is_causal: cutlass.Constexpr[bool]
     is_local: cutlass.Constexpr[bool] = False
+    is_split_kv: cutlass.Constexpr[bool] = False
     window_size_left: Optional[Int32] = None
     window_size_right: Optional[Int32] = None
     qhead_per_kvhead_packgqa: cutlass.Constexpr[int] = 1
 
     @cute.jit
-    def get_n_block_min_max(self, seqlen_info: SeqlenInfoQK, m_block: Int32) -> Tuple[Int32, Int32]:
+    def get_n_block_min_max(
+        self,
+        seqlen_info: SeqlenInfoQK,
+        m_block: Int32,
+        split_idx: cutlass.Int32 = 0,
+        num_splits: cutlass.Int32 = 1,
+    ) -> Tuple[Int32, Int32]:
         n_block_max = cute.ceil_div(seqlen_info.seqlen_k, self.tile_n)
         if const_expr(self.is_causal or (self.is_local and self.window_size_right is not None)):
             m_idx_max = (m_block + 1) * self.tile_m
@@ -37,6 +44,14 @@ def get_n_block_min_max(self, seqlen_info: SeqlenInfoQK, m_block: Int32) -> Tupl
             n_idx = m_idx_min + seqlen_info.seqlen_k - seqlen_info.seqlen_q
             n_idx_left = n_idx - self.window_size_left
             n_block_min = cutlass.max(n_idx_left // self.tile_n, 0)
+        if cutlass.const_expr(self.is_split_kv):
+            num_n_blocks_per_split = (
+                cutlass.Int32(0)
+                if n_block_max <= n_block_min
+                else (n_block_max - n_block_min + num_splits - 1) // num_splits
+            )
+            n_block_min = n_block_min + split_idx * num_n_blocks_per_split
+            n_block_max = cutlass.min(n_block_min + num_n_blocks_per_split, n_block_max)
         return n_block_min, n_block_max
 
     @cute.jit
 
@@ -405,6 +405,7 @@ def __call__(
             num_block=cute.ceil_div(mK.shape[1], self.n_block_size),
             num_head=num_head,
             num_batch=num_batch,
+            num_splits=1,
             seqlen_k=0,
             headdim=mK.shape[2],
             headdim_v=mV.shape[2],
@@ -505,10 +506,10 @@ def kernel(
         tile_scheduler = TileScheduler.create(tile_sched_params)
         work_tile = tile_scheduler.initial_work_tile_info()
 
-        n_block, head_idx, batch_idx = work_tile.tile_idx
+        n_block, head_idx, batch_idx, _ = work_tile.tile_idx
 
         if work_tile.is_valid_tile:
-            seqlen = SeqlenInfoQK(batch_idx, mQ.shape[1], mK.shape[1], mCuSeqlensQ=mCuSeqlensQ, mCuSeqlensK=mCuSeqlensK, mSeqUsedQ=mSeqUsedQ, mSeqUsedK=mSeqUsedK)
+            seqlen = SeqlenInfoQK.create(batch_idx, mQ.shape[1], mK.shape[1], mCuSeqlensQ=mCuSeqlensQ, mCuSeqlensK=mCuSeqlensK, mSeqUsedQ=mSeqUsedQ, mSeqUsedK=mSeqUsedK)
 
             m_block_max = cute.ceil_div(seqlen.seqlen_q, self.m_block_size)
             m_block_min = 0
 
@@ -242,6 +242,7 @@ def __call__(
             num_block=cute.ceil_div(mdQ.shape[1], self.tile_m),
             num_head=num_head,
             num_batch=num_batch,
+            num_splits=1,
             seqlen_k=0,
             headdim=mdQ.shape[2],
             headdim_v=0,
@@ -317,14 +318,14 @@ def kernel(
         tile_scheduler = TileScheduler.create(tile_sched_params)
         work_tile = tile_scheduler.initial_work_tile_info()
 
-        m_block, num_head, batch_size = work_tile.tile_idx
+        m_block, num_head, batch_size, _ = work_tile.tile_idx
 
         if work_tile.is_valid_tile:
             # ///////////////////////////////////////////////////////////////////////////////
             # Get the appropriate tiles for this thread block.
             # ///////////////////////////////////////////////////////////////////////////////
 
-            seqlen = SeqlenInfoQK(
+            seqlen = SeqlenInfoQK.create(
                 batch_size,
                 mdQ.shape[1],
                 0,
 
@@ -160,6 +160,7 @@ def __call__(
             num_block=cute.ceil_div(mO.shape[1], self.m_block_size),
             num_head=num_head,
             num_batch=num_batch,
+            num_splits=1,
             seqlen_k=0,
             headdim=0,
             headdim_v=mO.shape[2],
@@ -212,13 +213,13 @@ def kernel(
 
         tile_scheduler = TileScheduler.create(tile_sched_params)
         work_tile = tile_scheduler.initial_work_tile_info()
-        m_block, num_head, batch_size = work_tile.tile_idx
+        m_block, num_head, batch_size, _ = work_tile.tile_idx
 
         if work_tile.is_valid_tile:
             # ///////////////////////////////////////////////////////////////////////////////
             # Get the appropriate tiles for this thread block.
             # ///////////////////////////////////////////////////////////////////////////////
-            seqlen = SeqlenInfoQK(
+            seqlen = SeqlenInfoQK.create(
                 batch_size,
                 mO.shape[1],
                 0,
 
@@ -541,6 +541,7 @@ def __call__(
             cute.ceil_div(cute.size(mK.shape[0]), self.cta_tiler[0]),
             cute.size(mQ.shape[2]),  # num_heads = num_query_heads
             cute.size(mK.shape[3]),
+            1,  # num_splits
             cute.size(mK.shape[0]),
             mQ.shape[1],
             mV.shape[1],
@@ -927,12 +928,13 @@ def kernel(
             self.tile_n * self.cluster_shape_mnk[0],  # careful, this case is not very well-tested
             self.is_causal,
             self.is_local,
+            False,  # is_split_kv
             None,
             None,
             qhead_per_kvhead_packgqa=1,
         )
         SeqlenInfoCls = partial(
-            SeqlenInfoQK,
+            SeqlenInfoQK.create,
             seqlen_q_static=mQ.shape[0],
             seqlen_k_static=mK.shape[0],
             mCuSeqlensQ=None,
@@ -1159,7 +1161,7 @@ def load(
         tile_scheduler = TileSchedulerCls()
         work_tile = tile_scheduler.initial_work_tile_info()
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             m_block_min, m_block_max = block_info.get_m_block_min_max(
                 seqlen, n_block // self.cluster_shape_mnk[0]
@@ -1415,7 +1417,7 @@ def mma(
         tile_scheduler = TileSchedulerCls()
         work_tile = tile_scheduler.initial_work_tile_info()
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)  # must be seqlen_k
             m_block_min, m_block_max = block_info.get_m_block_min_max(
                 seqlen, n_block // self.cluster_shape_mnk[0]
@@ -1723,7 +1725,7 @@ def compute_loop(
         tile_scheduler = TileSchedulerCls()
         work_tile = tile_scheduler.initial_work_tile_info()
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             m_block_min, m_block_max = block_info.get_m_block_min_max(
                 seqlen, n_block // self.cluster_shape_mnk[0]
@@ -1981,7 +1983,7 @@ def dQacc_reduce(
             pipeline.PipelineUserType.Producer, self.sdQaccum_stage
         )
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             m_block_min, m_block_max = block_info.get_m_block_min_max(
                 seqlen, n_block // self.cluster_shape_mnk[0]
 
@@ -397,6 +397,7 @@ def __call__(
             cute.ceil_div(cute.size(mK.shape[0]), self.tile_n),
             cute.size(mK.shape[2]),
             cute.size(mK.shape[3]),
+            1,  # num_splits
             cute.size(mK.shape[0]),
             mQ.shape[1],
             mV.shape[1],
@@ -551,12 +552,13 @@ def kernel(
             self.tile_n,
             self.is_causal,
             self.is_local,
+            False,  # is_split_kv
             None,
             None,
             qhead_per_kvhead_packgqa=1,
         )
         SeqlenInfoCls = partial(
-            SeqlenInfoQK,
+            SeqlenInfoQK.create,
             seqlen_q_static=mQ.shape[0],
             seqlen_k_static=mK.shape[0],
             mCuSeqlensQ=None,
@@ -678,7 +680,7 @@ def load(
             tile_scheduler = TileSchedulerCls()
             work_tile = tile_scheduler.initial_work_tile_info()
             while work_tile.is_valid_tile:
-                n_block, head_idx, batch_idx = work_tile.tile_idx
+                n_block, head_idx, batch_idx, _ = work_tile.tile_idx
                 seqlen = SeqlenInfoCls(batch_idx)
                 mK_cur = mK[None, None, head_idx, batch_idx]
                 gK = cute.local_tile(mK_cur, (self.tile_n, self.tile_hdim), (n_block, 0))
@@ -932,7 +934,7 @@ def mma(
         tile_scheduler = TileSchedulerCls()
         work_tile = tile_scheduler.initial_work_tile_info()
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             mask = AttentionMaskCls(seqlen.seqlen_q, seqlen.seqlen_k)
             mask_fn = partial(
@@ -1208,7 +1210,7 @@ def dQaccum_store(
         tile_scheduler = TileSchedulerCls()
         work_tile = tile_scheduler.initial_work_tile_info()
         while work_tile.is_valid_tile:
-            n_block, head_idx, batch_idx = work_tile.tile_idx
+            n_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             mdQaccum_cur = mdQaccum[None, head_idx, batch_idx]
             gdQaccum_ = cute.local_tile(mdQaccum_cur, (self.tile_m * self.tile_hdim,), (None,))
 
@@ -759,11 +759,12 @@ def kernel(
             self.tile_n,
             self.is_causal,
             self.is_local,
+            False,  # is_split_kv
             window_size_left,
             window_size_right,
             qhead_per_kvhead_packgqa=self.qhead_per_kvhead if const_expr(self.pack_gqa) else 1,
         )
-        seqlen = SeqlenInfoQK(seqlen_q_static=mQ.shape[0], seqlen_k_static=mK.shape[0])
+        seqlen = SeqlenInfoQK.create(seqlen_q_static=mQ.shape[0], seqlen_k_static=mK.shape[0])
         n_block_min, n_block_max = block_info.get_n_block_min_max(seqlen, m_block)
         # TODO: return early if n_block_max == 0
         # if self.is_causal:
@@ -1459,6 +1460,7 @@ def __call__(
             cute.size(mQ.shape[3])
             if const_expr(mCuSeqlensQ is None)
             else cute.size(mCuSeqlensQ.shape[0] - 1),
+            1,  # num_splits
             cute.size(mK.shape[0]),
             mQ.shape[1],
             mV.shape[1],
@@ -1652,12 +1654,13 @@ def kernel(
             self.tile_n,
             self.is_causal,
             self.is_local,
+            False,  # is_split_kv
             window_size_left,
             window_size_right,
             qhead_per_kvhead_packgqa=self.qhead_per_kvhead if const_expr(self.pack_gqa) else 1,
         )
         SeqlenInfoCls = partial(
-            SeqlenInfoQK,
+            SeqlenInfoQK.create,
             seqlen_q_static=mQ.shape[0] if const_expr(not self.pack_gqa) else mQ.shape[0][1],
             seqlen_k_static=mK.shape[0],
             mCuSeqlensQ=mCuSeqlensQ,
@@ -1764,7 +1767,7 @@ def load(
             work_tile = tile_scheduler.initial_work_tile_info()
             while work_tile.is_valid_tile:
                 # if work_tile.is_valid_tile:
-                m_block, head_idx, batch_idx = work_tile.tile_idx
+                m_block, head_idx, batch_idx, _ = work_tile.tile_idx
                 seqlen = SeqlenInfoCls(batch_idx)
                 mQ_cur = seqlen.offset_batch_Q(mQ, batch_idx, dim=3)[None, None, head_idx]
                 head_idx_kv = (
@@ -2106,7 +2109,7 @@ def mma(
             # if work_tile.is_valid_tile:
 
             # shape: (atom_v_m * rest_m)
-            m_block, head_idx, batch_idx = work_tile.tile_idx
+            m_block, head_idx, batch_idx, _ = work_tile.tile_idx
             seqlen = SeqlenInfoCls(batch_idx)
             mask = AttentionMaskCls(seqlen.seqlen_q, seqlen.seqlen_k)
             mask_fn = partial(
 
@@ -255,7 +255,7 @@ class SharedStorage:
         # Grid dimensions: (ceil_div(seqlen, m_block), ceil_div(head_dim, k_block), num_head * batch)
         seqlen = mO_partial.shape[0]
         num_head = mO_partial.shape[3]
-        batch_size = mO_partial.shape[4]
+        batch_size = mO_partial.shape[4] if const_expr(cu_seqlens is None) else Int32(cu_seqlens.shape[0] - 1)
 
         # Create FastDivmod objects for efficient division
         seqlen_divmod = FastDivmod.create(seqlen)
@@ -341,7 +341,7 @@ def kernel(
             else mLSE_partial.shape[1]
         )
         # Handle variable length sequences using SeqlenInfo
-        seqlen_info = SeqlenInfo(
+        seqlen_info = SeqlenInfo.create(
             batch_idx=batch_idx,
             seqlen_static=mO_partial.shape[0],
             cu_seqlens=cu_seqlens,