[Fix] Fix RoPE in ChatGLM-32K (vllm-project#1841)

WoosukKwon · jimpang · commit f38df5a24b10 · 2023-12-04T10:27:13.000+08:00
diff --git a/vllm/model_executor/models/chatglm.py b/vllm/model_executor/models/chatglm.py
@@ -75,12 +75,17 @@ def __init__(
             linear_method=linear_method,
         )
 
+        # https://huggingface.co/THUDM/chatglm3-6b-32k/blob/e210410255278dd9d74463cf396ba559c0ef801c/modeling_chatglm.py#L141
+        rope_ratio = getattr(config, "rope_ratio", 1.0)
+        max_positions = getattr(config, "seq_length", 8192)
         self.attn = PagedAttentionWithRoPE(
             self.num_heads,
             self.head_dim,
             self.scaling,
             rotary_dim=self.head_dim // 2,
             num_kv_heads=self.num_kv_heads,
+            max_position=max_positions,
+            base=10000 * rope_ratio,
             is_neox_style=False,
         )