[CI] Fix ci of small models (#9633)

ZHUI · web-flow · commit 30fa8b920dd6 · 2025-01-23T11:16:31.000+08:00
diff --git a/slm/examples/machine_reading_comprehension/SQuAD/run_squad.py b/slm/examples/machine_reading_comprehension/SQuAD/run_squad.py
@@ -250,7 +250,7 @@ def run(args):
             partial(prepare_train_features, tokenizer=tokenizer, args=args),
             batched=True,
             remove_columns=column_names,
-            num_proc=4,
+            num_proc=1,
         )
         train_batch_sampler = paddle.io.DistributedBatchSampler(train_ds, batch_size=args.batch_size, shuffle=True)
         train_batchify_fn = DataCollatorWithPadding(tokenizer)
@@ -332,7 +332,7 @@ def run(args):
             partial(prepare_validation_features, tokenizer=tokenizer, args=args),
             batched=True,
             remove_columns=column_names,
-            num_proc=4,
+            num_proc=1,
         )
         dev_batch_sampler = paddle.io.BatchSampler(dev_ds, batch_size=args.batch_size, shuffle=False)
         dev_ds_for_model = dev_ds.remove_columns(["example_id", "offset_mapping"])
diff --git a/slm/model_zoo/ernie-3.0/README.md b/slm/model_zoo/ernie-3.0/README.md
@@ -1329,6 +1329,7 @@ batch_size=32 和 1，预测精度为 FP16 时，GPU 下的效果-时延图：
 - paddlepaddle >= 2.3
 - paddlenlp >= 2.4
 - paddleslim >= 2.4
+- evaluate
 
 ### 数据准备
 此次微调数据主要是以 CLUE benchmark 数据集为主, CLUE benchmark 包括了文本分类、实体抽取、问答三大类数据集，而 CLUE benchmark 数据目前已经集成在 PaddleNLP 的 datasets 里面，可以通过下面的方式来使用数据集
diff --git a/slm/model_zoo/ernie-3.0/run_qa.py b/slm/model_zoo/ernie-3.0/run_qa.py
@@ -105,7 +105,7 @@ def main():
             train_dataset = train_dataset.map(
                 partial(prepare_train_features, tokenizer=tokenizer, args=data_args),
                 batched=True,
-                num_proc=4,
+                num_proc=1,
                 batch_size=4,
                 remove_columns=column_names,
                 load_from_cache_file=not data_args.overwrite_cache,
@@ -118,7 +118,7 @@ def main():
             eval_dataset = eval_examples.map(
                 partial(prepare_validation_features, tokenizer=tokenizer, args=data_args),
                 batched=True,
-                num_proc=4,
+                num_proc=1,
                 batch_size=4,
                 remove_columns=column_names,
                 load_from_cache_file=not data_args.overwrite_cache,
@@ -132,7 +132,7 @@ def main():
             predict_dataset = predict_examples.map(
                 partial(prepare_validation_features, tokenizer=tokenizer, args=data_args),
                 batched=True,
-                num_proc=4,
+                num_proc=1,
                 batch_size=4,
                 remove_columns=column_names,
                 load_from_cache_file=not data_args.overwrite_cache,
diff --git a/slm/model_zoo/ernie-3.0/run_token_cls.py b/slm/model_zoo/ernie-3.0/run_token_cls.py
@@ -19,7 +19,7 @@
 import numpy as np
 import paddle
 import paddle.nn as nn
-from datasets import load_metric
+from evaluate import load as load_metric
 from utils import DataArguments, ModelArguments, load_config, token_convert_example
 
 import paddlenlp