default load_best_model_at_end=False (#432)

Jintao-Huang · Jintao-Huang · commit dcf0a13b4f2a · 2024-02-21T14:39:08.000+08:00
diff --git a/swift/llm/dpo.py b/swift/llm/dpo.py
@@ -119,10 +119,8 @@ def llm_dpo(args: DPOArguments) -> str:
 
     # Setting training_args
     evaluation_strategy = IntervalStrategy.STEPS
-    load_best_model_at_end = False
     if val_dataset is None:
         evaluation_strategy = IntervalStrategy.NO
-        load_best_model_at_end = False
     additional_saved_files = []
     if args.sft_type == 'full':
         additional_saved_files = get_additional_saved_files(args.model_type)
@@ -149,7 +147,6 @@ def llm_dpo(args: DPOArguments) -> str:
         fp16=args.fp16,
         eval_steps=args.eval_steps,
         dataloader_num_workers=args.dataloader_num_workers,
-        load_best_model_at_end=load_best_model_at_end,
         metric_for_best_model='rouge-l'
         if args.predict_with_generate else 'loss',
         greater_is_better=args.predict_with_generate,
diff --git a/swift/llm/sft.py b/swift/llm/sft.py
@@ -170,11 +170,8 @@ def llm_sft(args: SftArguments) -> Dict[str, Union[str, Any]]:
     data_collator = partial(template.data_collator, padding_to=padding_to)
     # Setting training_args
     evaluation_strategy = args.evaluation_strategy
-    load_best_model_at_end = True
     if val_dataset is None:
         evaluation_strategy = 'no'
-    if evaluation_strategy == 'no':
-        load_best_model_at_end = False
     additional_saved_files = []
     if args.sft_type == 'full':
         additional_saved_files = get_additional_saved_files(args.model_type)
@@ -210,7 +207,6 @@ def llm_sft(args: SftArguments) -> Dict[str, Union[str, Any]]:
         eval_steps=args.eval_steps,
         dataloader_num_workers=args.dataloader_num_workers,
         dataloader_pin_memory=args.dataloader_pin_memory,
-        load_best_model_at_end=load_best_model_at_end,
         metric_for_best_model='rouge-l'
         if args.predict_with_generate else 'loss',
         greater_is_better=args.predict_with_generate,