add belle finetune (#5836)

lugimzzz · web-flow · commit 90cbb21f226f · 2023-05-05T17:50:56.000+08:00
diff --git a/examples/language_model/chatglm/README.md b/examples/language_model/chatglm/README.md
@@ -20,7 +20,7 @@ python -m pip install paddlepaddle-gpu==0.0.0.post112 -f https://www.paddlepaddl
 ```
 python -m paddle.distributed.launch --gpus "0,1,2,3" finetune_generation.py \
 --model_name_or_path THUDM/chatglm-6b \
---task_path AdvertiseGen/ \
+--task_name_or_path AdvertiseGen/ \
 --max_steps 3000 \
 --learning_rate 3e-5 \
 --warmup_steps 20 \
@@ -45,7 +45,7 @@ python -m paddle.distributed.launch --gpus "0,1,2,3" finetune_generation.py \
 其中参数释义如下：
 
 - `model_name_or_path`: 预训练模型内置名称或者模型所在目录，默认为`THUDM/chatglm-6b`。
-- `task_path`: 数据集存储目录。
+- `task_name_or_path`: 数据集存储目录。
 - `max_steps`: 模型训练步数。
 - `learning_rate`: 参数更新的学习率。
 - `warmup_steps`: 学习率热启的步数。
@@ -64,6 +64,31 @@ python -m paddle.distributed.launch --gpus "0,1,2,3" finetune_generation.py \
 - `do_eval`: 是否评估模型。
 - `tensor_parallel_degree`: 模型并行数量。
 
+## BelleGroup/school_math_0.25M
+
+```
+python -m paddle.distributed.launch --gpus "0,1,2,3" finetune_generation.py \
+--output_dir ./checkpoints/chatglm-6b \
+--per_device_train_batch_size 4 \
+--gradient_accumulation_steps 8 \
+--save_steps 500 \
+--model_name_or_path THUDM/chatglm-6b \
+--task_name_or_path school_math_0.25M \
+--num_train_epochs 2 \
+--learning_rate 3e-5 \
+--warmup_ratio 0.03 \
+--logging_steps 1 \
+--evaluation_strategy no \
+--src_length 128 \
+--tgt_length 512 \
+--fp16 \
+--fp16_opt_level O2 \
+--recompute True \
+--do_train \
+--disable_tqdm True \
+--metric_for_best_model ppl \
+--greater_is_better False
+```
 
 ## 模型预测
 
diff --git a/examples/language_model/chatglm/data.py b/examples/language_model/chatglm/data.py
@@ -79,3 +79,65 @@ def convert_example(example, tokenizer, data_args, is_test=True):
             "labels": labels,
         }
     return inputs
+
+
+def custom_instruction_convert_example(example, tokenizer, data_args, is_test=True):
+    instruction = ""
+    input = ""
+    response = ""
+    if "instruction" in example and "output" in example:
+        instruction = example["instruction"]
+        response = example["output"]
+    else:
+        assert False, "instruction and output are not in the input dictionary."
+    if "input" in example["input"]:
+        input = example["input"]
+
+    if "chat" in data_args.task_name_or_path:
+        prompt = instruction + input
+    else:
+        prompt = "Human: " + instruction + input + "\n Assistant: "
+
+    # dataset for evaluation
+    if is_test:
+        inputs = {
+            **tokenizer(prompt, max_length=data_args.src_length, truncation=True, padding="max_length"),
+            "labels": tokenizer(response, max_length=data_args.tgt_length, truncation=True, padding="max_length")[
+                "input_ids"
+            ],
+        }
+    # dataset for training
+    else:
+        src_ids = tokenizer(
+            prompt,
+            add_special_tokens=False,
+            max_length=data_args.src_length - 1,
+            truncation=True,
+            truncation_side="left",
+        )["input_ids"]
+        tgt_ids = tokenizer(
+            response,
+            add_special_tokens=False,
+            max_length=data_args.tgt_length - 2,
+            truncation=True,
+            truncation_side="right",
+        )["input_ids"]
+
+        input_ids = tokenizer.build_inputs_with_special_tokens(src_ids, tgt_ids)
+
+        context_length = input_ids.index(tokenizer.bos_token_id)
+        mask_position = context_length - 1
+
+        attention_mask = np.tri(len(input_ids), len(input_ids))
+        attention_mask[:, :context_length] = 1
+        attention_mask = attention_mask[None, :, :]
+        attention_mask = (attention_mask < 0.5).astype("int64")
+
+        labels = [-100] * context_length + input_ids[mask_position + 1 :]
+
+        inputs = {
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+            "labels": labels,
+        }
+    return inputs
diff --git a/examples/language_model/chatglm/finetune_generation.py b/examples/language_model/chatglm/finetune_generation.py
@@ -17,7 +17,7 @@
 from functools import partial
 
 import paddle
-from data import convert_example, read_local_dataset
+from data import convert_example, custom_instruction_convert_example, read_local_dataset
 from utils import ChatGLMTrainer
 
 from paddlenlp.data import DataCollatorWithPadding
@@ -36,7 +36,7 @@
 
 @dataclass
 class DataArgument:
-    task_path: str = field(default="./data/", metadata={"help": "Path to data"})
+    task_name_or_path: str = field(default="./data/", metadata={"help": "Path to data"})
     src_length: int = field(default=128, metadata={"help": "The max length of source text."})
     tgt_length: int = field(default=180, metadata={"help": "The max length of target text."})
     num_beams: int = field(default=5, metadata={"help": "The number of beams."})
@@ -113,8 +113,8 @@ def main():
     if model_args.lora:
         lora_config = LoRAConfig(
             target_modules=[".*query_key_value.*"],
-            r=4,
-            lora_alpha=8,
+            r=8,
+            lora_alpha=16,
             merge_weights=True,
             enable_lora_list=[[True, False, True]],
             tensor_parallel_degree=training_args.tensor_parallel_degree,
@@ -126,9 +126,20 @@ def main():
     tokenizer = ChatGLMTokenizer.from_pretrained(model_args.model_name_or_path)
 
     # Load the dataset.
-    train_ds = load_dataset(read_local_dataset, path=os.path.join(data_args.task_path, "train.json"), lazy=False)
-    dev_ds = load_dataset(read_local_dataset, path=os.path.join(data_args.task_path, "dev.json"), lazy=False)
-    trans_func = partial(convert_example, tokenizer=tokenizer, data_args=data_args)
+    if os.path.exists(os.path.join(data_args.task_name_or_path, "train.json")) and os.path.exists(
+        os.path.join(data_args.task_name_or_path, "dev.json")
+    ):
+        train_ds = load_dataset(
+            read_local_dataset, path=os.path.join(data_args.task_name_or_path, "train.json"), lazy=False
+        )
+        dev_ds = load_dataset(
+            read_local_dataset, path=os.path.join(data_args.task_name_or_path, "dev.json"), lazy=False
+        )
+        trans_func = partial(convert_example, tokenizer=tokenizer, data_args=data_args)
+    else:
+        train_ds, dev_ds = load_dataset("bellegroup", data_args.task_name_or_path, splits=["train", "dev"])
+        trans_func = partial(custom_instruction_convert_example, tokenizer=tokenizer, data_args=data_args)
+
     train_ds = train_ds.map(partial(trans_func, is_test=False))
     test_ds = dev_ds.map(trans_func)
 
diff --git a/examples/language_model/chatglm/utils.py b/examples/language_model/chatglm/utils.py
@@ -12,6 +12,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+from typing import Dict
+
+import numpy as np
 import paddle
 
 from paddlenlp.trainer import Trainer
@@ -92,3 +95,11 @@ def prediction_step(
                 all_labels = None
 
         return (loss, all_preds, all_labels)
+
+    def log(self, logs: Dict[str, float], **kwargs) -> None:
+        if "loss" in logs:
+            logs["ppl"] = np.exp(logs["loss"])
+        if "eval_loss" in logs:
+            logs["eval_ppl"] = np.exp(logs["eval_loss"])
+
+        super(ChatGLMTrainer, self).log(logs, **kwargs)
diff --git a/paddlenlp/layers/lora.py b/paddlenlp/layers/lora.py
@@ -735,7 +735,7 @@ def _convert_tensor_parallel(self, lora_state_dict):
             lora_state_dict[name] = action(tensor)
         return lora_state_dict
 
-    def save_pretrained(self, save_directory: str, merge_tensor_parallel: bool = False):
+    def save_pretrained(self, save_directory: str, merge_tensor_parallel: bool = False, **kwargs):
         assert not os.path.isfile(
             save_directory
         ), f"Saving directory ({save_directory}) should be a directory, not a file"