[chatglm] rename chatglm to causallm (#6444)

lugimzzz · web-flow · commit 55efa3d3be8b · 2023-07-20T10:48:01.000+08:00
* change AutoModelForCalsalLM

* update
diff --git a/examples/benchmark/peft/paddle/benchmark.py b/examples/benchmark/peft/paddle/benchmark.py
@@ -22,11 +22,7 @@
 from paddlenlp.data import DataCollatorForSeq2Seq
 from paddlenlp.peft import LoRAConfig, LoRAModel
 from paddlenlp.trainer import PdArgumentParser, TrainingArguments
-from paddlenlp.transformers import (
-    AutoModelForCausalLM,
-    AutoTokenizer,
-    ChatGLMForConditionalGeneration,
-)
+from paddlenlp.transformers import AutoModelForCausalLM, AutoTokenizer
 
 """
 单卡
@@ -83,29 +79,16 @@ def main():
     tokenizer = AutoTokenizer.from_pretrained(model_args.model_name_or_path)
     if "llama" in model_args.model_name_or_path:
         tokenizer.pad_token = tokenizer.unk_token
-    if "chatglm" in model_args.model_name_or_path:
-        model = ChatGLMForConditionalGeneration.from_pretrained(
-            model_args.model_name_or_path,
-            load_state_as_np=True,
-            low_cpu_mem_usage=True,
-            # use_flash_attention=True,
-            dtype=dtype,
-            tensor_parallel_degree=training_args.tensor_parallel_degree,
-            tensor_parallel_rank=training_args.tensor_parallel_rank,
-            recompute=training_args.recompute,
-        )
-
-    else:
-        model = AutoModelForCausalLM.from_pretrained(
-            model_args.model_name_or_path,
-            load_state_as_np=True,
-            low_cpu_mem_usage=True,
-            # use_flash_attention=True,
-            dtype=dtype,
-            tensor_parallel_degree=training_args.tensor_parallel_degree,
-            tensor_parallel_rank=training_args.tensor_parallel_rank,
-            use_recompute=training_args.recompute,
-        )
+    model = AutoModelForCausalLM.from_pretrained(
+        model_args.model_name_or_path,
+        load_state_as_np=True,
+        low_cpu_mem_usage=True,
+        # use_flash_attention=True,
+        dtype=dtype,
+        tensor_parallel_degree=training_args.tensor_parallel_degree,
+        tensor_parallel_rank=training_args.tensor_parallel_rank,
+        use_recompute=training_args.recompute,
+    )
 
     if model_args.lora:
         if "llama" in model_args.model_name_or_path:
diff --git a/llm/chatglm/export_generation_model.py b/llm/chatglm/export_generation_model.py
@@ -18,11 +18,7 @@
 import paddle
 
 from paddlenlp.peft import LoRAConfig, LoRAModel
-from paddlenlp.transformers import (
-    ChatGLMConfig,
-    ChatGLMForConditionalGeneration,
-    ChatGLMTokenizer,
-)
+from paddlenlp.transformers import ChatGLMConfig, ChatGLMForCausalLM, ChatGLMTokenizer
 
 
 def parse_args():
@@ -61,9 +57,7 @@ def main():
         config = ChatGLMConfig.from_pretrained(args.model_name_or_path)
         dtype = config.dtype if config.dtype is not None else config.paddle_dtype
 
-    model = ChatGLMForConditionalGeneration.from_pretrained(
-        args.model_name_or_path, load_state_as_np=True, dtype=dtype
-    )
+    model = ChatGLMForCausalLM.from_pretrained(args.model_name_or_path, load_state_as_np=True, dtype=dtype)
     if args.lora_path is not None:
         model = LoRAModel.from_pretrained(model, args.lora_path)
 
diff --git a/llm/chatglm/finetune_generation.py b/llm/chatglm/finetune_generation.py
@@ -32,7 +32,7 @@
     chatglm_v2_pad_attention_mask,
 )
 from paddlenlp.trainer import PdArgumentParser, TrainingArguments, get_last_checkpoint
-from paddlenlp.transformers import AutoModelForConditionalGeneration, AutoTokenizer
+from paddlenlp.transformers import AutoModelForCausalLM, AutoTokenizer
 from paddlenlp.utils.log import logger
 
 
@@ -101,7 +101,7 @@ def main():
             dtype = "float16"
 
     # Load the pretrained language model.
-    model = AutoModelForConditionalGeneration.from_pretrained(
+    model = AutoModelForCausalLM.from_pretrained(
         model_args.model_name_or_path,
         dtype=dtype,
         low_cpu_mem_usage=True,
diff --git a/llm/chatglm/predict_generation.py b/llm/chatglm/predict_generation.py
@@ -21,11 +21,7 @@
     chatglm_pad_attention_mask,
     chatglm_postprocess_past_key_value,
 )
-from paddlenlp.transformers import (
-    ChatGLMConfig,
-    ChatGLMForConditionalGeneration,
-    ChatGLMTokenizer,
-)
+from paddlenlp.transformers import ChatGLMConfig, ChatGLMForCausalLM, ChatGLMTokenizer
 
 
 def parse_arguments():
@@ -96,7 +92,7 @@ def __init__(self, args=None, tokenizer=None, model=None, **kwargs):
                 config = ChatGLMConfig.from_pretrained(args.model_name_or_path)
                 dtype = config.dtype if config.dtype is not None else config.paddle_dtype
 
-            self.model = ChatGLMForConditionalGeneration.from_pretrained(
+            self.model = ChatGLMForCausalLM.from_pretrained(
                 args.model_name_or_path,
                 tensor_parallel_degree=tensor_parallel_degree,
                 tensor_parallel_rank=tensor_parallel_rank,
diff --git a/llm/chatglm/test_modeling.py b/llm/chatglm/test_modeling.py
@@ -25,7 +25,7 @@
 def run_mp_paddle():
     import paddle
 
-    from paddlenlp.transformers import ChatGLMForConditionalGeneration
+    from paddlenlp.transformers import ChatGLMForCausalLM
 
     tensor_parallel_degree = paddle.distributed.get_world_size()
     strategy = paddle.distributed.fleet.DistributedStrategy()
@@ -42,7 +42,7 @@ def run_mp_paddle():
     tensor_parallel_rank = mp_group.rank
 
     paddle.set_default_dtype("float32")
-    model = ChatGLMForConditionalGeneration.from_pretrained(
+    model = ChatGLMForCausalLM.from_pretrained(
         "torch_cache",  # "/root/paddlejob/workspace/GLM/ChatGLM-6B/",
         load_state_as_np=True,
         low_cpu_mem_usage=True,
@@ -59,10 +59,10 @@ def run_mp_paddle():
 def run_paddle():
     import paddle
 
-    from paddlenlp.transformers import ChatGLMForConditionalGeneration
+    from paddlenlp.transformers import ChatGLMForCausalLM
 
     paddle.set_default_dtype("float32")
-    model = ChatGLMForConditionalGeneration.from_pretrained(
+    model = ChatGLMForCausalLM.from_pretrained(
         "torch_cache",  # "/root/paddlejob/workspace/GLM/ChatGLM-6B/",
         load_state_as_np=True,
         low_cpu_mem_usage=True,
@@ -87,11 +87,10 @@ def run_torch():
 
 def run_generate():
     import paddle
-
-    from modeling import ChatGLMForConditionalGeneration
+    from modeling import ChatGLMForCausalLM
 
     paddle.set_default_dtype("float16")
-    model = ChatGLMForConditionalGeneration.from_pretrained(
+    model = ChatGLMForCausalLM.from_pretrained(
         "torch_cache", load_state_as_np=True, low_cpu_mem_usage=True, dtype="float16"
     )
     model.eval()
diff --git a/paddlenlp/taskflow/text2text_generation.py b/paddlenlp/taskflow/text2text_generation.py
@@ -14,7 +14,7 @@
 
 import paddle
 
-from ..transformers import ChatGLMForConditionalGeneration, ChatGLMTokenizer
+from ..transformers import ChatGLMForCausalLM, ChatGLMTokenizer
 from ..utils.log import logger
 from .task import Task
 from .utils import static_mode_guard
@@ -115,7 +115,7 @@ def _construct_model(self, model):
         """
         Construct the inference model for the predictor.
         """
-        model_instance = ChatGLMForConditionalGeneration.from_pretrained(
+        model_instance = ChatGLMForCausalLM.from_pretrained(
             self.model,
             load_state_as_np=True,
             dtype=self._dtype,
diff --git a/paddlenlp/transformers/chatglm/modeling.py b/paddlenlp/transformers/chatglm/modeling.py
@@ -38,7 +38,7 @@
 __all__ = [
     "ChatGLMModel",
     "ChatGLMPretrainedModel",
-    "ChatGLMForConditionalGeneration",
+    "ChatGLMForCausalLM",
 ]
 
 
@@ -743,12 +743,12 @@ def forward(
         return BaseModelOutputWithPastAndCrossAttentions(last_hidden_state=logits, past_key_values=new_caches)
 
 
-class ChatGLMForConditionalGeneration(ChatGLMPretrainedModel):
+class ChatGLMForCausalLM(ChatGLMPretrainedModel):
     _keys_to_ignore_on_save = [r"lm_head.weight"]
     _tied_weights_keys = ["lm_head.weight"]
 
     def __init__(self, config: ChatGLMConfig):
-        super(ChatGLMForConditionalGeneration, self).__init__(config)
+        super(ChatGLMForCausalLM, self).__init__(config)
 
         self.config = config
         self.max_sequence_length = config.max_sequence_length
diff --git a/paddlenlp/transformers/chatglm_v2/modeling.py b/paddlenlp/transformers/chatglm_v2/modeling.py
@@ -30,6 +30,12 @@
 )
 from .configuration import CHATGLM_V2_PRETRAINED_RESOURCE_FILES_MAP, ChatGLMv2Config
 
+__all__ = [
+    "ChatGLMv2Model",
+    "ChatGLMv2PretrainedModel",
+    "ChatGLMv2ForCausalLM",
+]
+
 
 def assign_kv_heads(num_kv_heads, num_gpus):
     # Initialize the assignment list
@@ -745,7 +751,7 @@ def forward(
         )
 
 
-class ChatGLMv2ForConditionalGeneration(ChatGLMv2PretrainedModel):
+class ChatGLMv2ForCausalLM(ChatGLMv2PretrainedModel):
     def __init__(self, config: ChatGLMv2Config):
         super().__init__(config)
         self.max_sequence_length = config.max_sequence_length
diff --git a/paddlenlp/transformers/visualglm/modeling.py b/paddlenlp/transformers/visualglm/modeling.py
@@ -27,7 +27,7 @@
 from ...utils.initializer import normal_, ones_, zeros_
 from ..activations import ACT2FN
 from ..chatglm.configuration import ChatGLMConfig
-from ..chatglm.modeling import ChatGLMForConditionalGeneration
+from ..chatglm.modeling import ChatGLMForCausalLM
 from ..model_outputs import (
     BaseModelOutput,
     BaseModelOutputWithPastAndCrossAttentions,
@@ -1163,7 +1163,7 @@ def __init__(self, config: VisualGLMConfig):
         self.qformer = VisualGLMQFormerModel(config.qformer_config)
 
         self.language_projection = nn.Linear(config.qformer_config.hidden_size, config.text_config.hidden_size)
-        self.language_model = ChatGLMForConditionalGeneration(config.text_config)
+        self.language_model = ChatGLMForCausalLM(config.text_config)
 
     def get_input_embeddings(self) -> nn.Layer:
         return self.vision_model.embeddings.patch_embedding
@@ -1413,7 +1413,7 @@ def forward(
         )
 
 
-class ChatGLMForConditionalGenerationWithImage(ChatGLMForConditionalGeneration):
+class ChatGLMForConditionalGenerationWithImage(ChatGLMForCausalLM):
     def __init__(self, config: ChatGLMConfig):
         super(ChatGLMForConditionalGenerationWithImage, self).__init__(config)
         self.config = config
diff --git a/tests/peft/test_prefix.py b/tests/peft/test_prefix.py
@@ -25,7 +25,7 @@
 )
 from paddlenlp.transformers import (
     ChatGLMv2Config,
-    ChatGLMv2ForConditionalGeneration,
+    ChatGLMv2ForCausalLM,
     LlamaConfig,
     LlamaForCausalLM,
 )
@@ -116,7 +116,7 @@ def setUpClass(cls):
             dtype="float32",
         )
 
-        cls.model = ChatGLMv2ForConditionalGeneration(cls.config)
+        cls.model = ChatGLMv2ForCausalLM(cls.config)
         cls.prefix_config = PrefixConfig(
             num_prefix_tokens=2,
             num_attention_heads=cls.model.config.num_attention_heads,
diff --git a/tests/transformers/chatglm/test_modeling.py b/tests/transformers/chatglm/test_modeling.py
@@ -17,11 +17,7 @@
 import numpy as np
 import paddle
 
-from paddlenlp.transformers import (
-    ChatGLMConfig,
-    ChatGLMForConditionalGeneration,
-    ChatGLMModel,
-)
+from paddlenlp.transformers import ChatGLMConfig, ChatGLMForCausalLM, ChatGLMModel
 from tests.transformers.test_configuration_common import ConfigTester
 from tests.transformers.test_modeling_common import ModelTesterMixin, ids_tensor
 
@@ -175,7 +171,7 @@ def prepare_config_and_inputs_for_common(self):
         return config, inputs_dict
 
     def create_and_check_lm_head_model(self, config, input_ids, labels, *args):
-        model = ChatGLMForConditionalGeneration(config)
+        model = ChatGLMForCausalLM(config)
         model.eval()
 
         result = model(
@@ -206,7 +202,7 @@ class ChatGLMTest(ModelTesterMixin, unittest.TestCase):
     return_dict = False
     use_labels = False
 
-    all_model_classes = (ChatGLMModel, ChatGLMForConditionalGeneration)
+    all_model_classes = (ChatGLMModel, ChatGLMForCausalLM)
 
     def setUp(self):
         super().setUp()
diff --git a/tests/transformers/chatglm_v2/test_modeling.py b/tests/transformers/chatglm_v2/test_modeling.py
@@ -17,11 +17,7 @@
 import paddle
 from parameterized import parameterized_class
 
-from paddlenlp.transformers import (
-    ChatGLMv2Config,
-    ChatGLMv2ForConditionalGeneration,
-    ChatGLMv2Model,
-)
+from paddlenlp.transformers import ChatGLMv2Config, ChatGLMv2ForCausalLM, ChatGLMv2Model
 from tests.transformers.test_generation_utils import GenerationTesterMixin
 from tests.transformers.test_modeling_common import ModelTesterMixin, ids_tensor
 
@@ -125,7 +121,7 @@ def prepare_config_and_inputs_for_common(self):
         return config, inputs_dict
 
     def create_and_check_lm_head_model(self, config, input_ids, labels, *args):
-        model = ChatGLMv2ForConditionalGeneration(config)
+        model = ChatGLMv2ForCausalLM(config)
         model.eval()
 
         result = model(
@@ -167,8 +163,8 @@ class ChatGLMv2Test(ModelTesterMixin, GenerationTesterMixin, unittest.TestCase):
     use_labels: bool = False
     use_test_model_name_list = False
 
-    all_model_classes = (ChatGLMv2Model, ChatGLMv2ForConditionalGeneration)
-    all_generative_model_classes = {ChatGLMv2ForConditionalGeneration: (ChatGLMv2Model, "chatglm_v2")}
+    all_model_classes = (ChatGLMv2Model, ChatGLMv2ForCausalLM)
+    all_generative_model_classes = {ChatGLMv2ForCausalLM: (ChatGLMv2Model, "chatglm_v2")}
 
     def setUp(self):
         self.model_tester = ChatGLMv2Tester(self)
diff --git a/tests/transformers/test_tensor_parallel.py b/tests/transformers/test_tensor_parallel.py
@@ -101,12 +101,12 @@ def _test_llama():
 
 
 def _test_chatglm():
-    from paddlenlp.transformers import ChatGLMConfig, ChatGLMForConditionalGeneration
+    from paddlenlp.transformers import ChatGLMConfig, ChatGLMForCausalLM
 
     config = ChatGLMConfig()
     config = prepare_config(config)
-    model = ChatGLMForConditionalGeneration._from_config(config)
-    common_test_merge(model, ChatGLMForConditionalGeneration)
+    model = ChatGLMForCausalLM._from_config(config)
+    common_test_merge(model, ChatGLMForCausalLM)
 
 
 def _test_bloom():

Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@`
`25`	`25`	`)`
`26`	`26`	`from paddlenlp.transformers import (`
`27`	`27`	`ChatGLMv2Config,`
`28`		`- ChatGLMv2ForConditionalGeneration,`
	`28`	`+ ChatGLMv2ForCausalLM,`
`29`	`29`	`LlamaConfig,`
`30`	`30`	`LlamaForCausalLM,`
`31`	`31`	`)`
`@@ -116,7 +116,7 @@ def setUpClass(cls):`
`116`	`116`	`dtype="float32",`
`117`	`117`	`)`
`118`	`118`
`119`		`- cls.model = ChatGLMv2ForConditionalGeneration(cls.config)`
	`119`	`+ cls.model = ChatGLMv2ForCausalLM(cls.config)`
`120`	`120`	`cls.prefix_config = PrefixConfig(`
`121`	`121`	`num_prefix_tokens=2,`
`122`	`122`	`num_attention_heads=cls.model.config.num_attention_heads,`