PaddlePaddle
diff --git a/‎llm/run_profile.sh‎
Lines changed: 91 additions & 0 deletions b/‎llm/run_profile.sh‎
Lines changed: 91 additions & 0 deletions
diff --git a/‎llm/run_profile_dy.sh‎
Lines changed: 23 additions & 0 deletions b/‎llm/run_profile_dy.sh‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎llm/run_profile_pir.sh‎
Lines changed: 100 additions & 0 deletions b/‎llm/run_profile_pir.sh‎
Lines changed: 100 additions & 0 deletions
diff --git a/‎llm/run_profile_st.sh‎
Lines changed: 89 additions & 0 deletions b/‎llm/run_profile_st.sh‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎paddlenlp/trainer/auto_trainer.py‎
Lines changed: 27 additions & 8 deletions b/‎paddlenlp/trainer/auto_trainer.py‎
Lines changed: 27 additions & 8 deletions
@@ -0,0 +1,91 @@
+set -x
+set -e
+unset CUDA_VISIBLE_DEVICES
+unset PADDLE_TRAINER_ENDPOINTS
+unset DISTRIBUTED_TRAINER_ENDPOINTS
+task_name="llama2_7B_sd8_dy2st_pir"
+
+rm -rf output/$task_name/
+rm -rf "output/$task_name""_log"
+
+export PYTHONPATH=/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/python:../:$PYTHONPATH:legacy/model_zoo/gpt-3/external_ops/
+
+#export FLAGS_embedding_deterministic=1
+#export FLAGS_cudnn_deterministic=1
+
+export PATH=/opt/nvidia/nsight-systems/2023.2.1/bin:$PATH
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PARALLEL_CROSS_ENTROPY=true
+
+export FLAGS_enable_pir_api=1
+#export FLAGS_call_stack_level=3
+#export GLOG_v=7
+#nsys profile --stats=true -t cuda,nvtx,cublas,cudnn -o $task_name --capture-range=cudaProfilerApi --force-overwrite true \
+python -u  -m paddle.distributed.launch \
+    --gpus "0,1,2,3" \
+    --log_dir  "output/$task_name""_log" \
+    ./auto_parallel/llama/run_pretrain_auto.py \
+    --model_name_or_path "meta-llama/Llama-2-7b" \
+    --tokenizer_name_or_path "meta-llama/Llama-2-7b" \
+    --input_dir "./data" \
+    --output_dir "./output" \
+    --split 949,50,1 \
+    --weight_decay 0.01 \
+    --warmup_ratio 0.01 \
+    --warmup_steps 30 \
+	--max_grad_norm 1.0 \
+    --learning_rate 3e-05 \
+    --min_learning_rate 3e-06 \
+    --max_steps 30 \
+    --logging_steps 10 \
+    --eval_steps 1000 \
+    --save_steps 50000 \
+    --continue_training 0 \
+    --do_train true \
+    --do_eval false \
+    --do_predict false \
+    --disable_tqdm true \
+    --skip_profile_timer true \
+    --save_total_limit 2 \
+    --device gpu \
+    --disable_tqdm true \
+    --dataloader_num_workers 1 \
+    --distributed_dataloader 0 \
+    --enable_auto_parallel 1 \
+    --per_device_train_batch_size 1 \
+    --gradient_accumulation_steps 1 \
+    --per_device_eval_batch_size 2 \
+    --recompute false \
+    --recompute_use_reentrant true \
+    --recompute_granularity full \
+    --pp_recompute_interval 0 \
+    --bf16 true \
+    --fp16_opt_level "O2"  \
+    --amp_custom_black_list "reduce_sum" "c_softmax_with_cross_entropy" \
+    --amp_custom_white_list "lookup_table" "lookup_table_v2" \
+    --amp_master_grad true \
+    --fuse_attention_ffn true \
+    --fuse_attention_qkv true \
+    --fused_linear_param_grad_add 1 \
+    --fuse_sequence_parallel_allreduce false \
+    --use_flash_attention 0 \
+    --use_fused_rope true \
+    --use_fused_rope false \
+    --use_fused_rms_norm 0 \
+    --max_seq_length 4096 \
+    --sep_parallel_degree 1 \
+    --sequence_parallel false \
+    --pipeline_parallel_degree 1 \
+    --sharding_parallel_degree 4 \
+    --tensor_parallel_degree 1 \
+    --virtual_pp_degree 1 \
+    --pipeline_schedule_mode "VPP" \
+    --sharding "stage2" \
+    --data_parallel_config "enable_allreduce_avg_in_gradinent_scale gradient_sync_after_accumulate" \
+    --sharding_parallel_config "enable_stage2_overlap" \
+    --tensor_parallel_config "enable_mp_async_allreduce" \
+    --to_static 1 \
+    --num_hidden_layers 1 \
+    #--nvprof_start 5 \
+    #--nvprof_end 8 \
@@ -0,0 +1,23 @@
+set -x
+set -e
+unset CUDA_VISIBLE_DEVICES
+unset PADDLE_TRAINER_ENDPOINTS
+unset DISTRIBUTED_TRAINER_ENDPOINTS
+
+task_name="llama2_7B_sd8_dy_stage1"
+
+rm -rf output/$task_name/
+rm -rf "output/$task_name""_log"
+
+
+export PYTHONPATH=/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/python:../:$PYTHONPATH:legacy/model_zoo/gpt-3/external_ops/
+
+# export FLAGS_cudnn_deterministic=1
+# export NVIDIA_TF32_OVERRIDE=0
+# export FLAGS_embedding_deterministic=1
+# export FLAGS_flash_attn_version=v1
+#export GLOG_v=7
+#export FLAGS_log_memory_stats=1
+#export PATH=/opt/nvidia/nsight-systems/2023.2.1/bin:$PATH
+unset GLOG_v
+python -u -m paddle.distributed.launch --gpus=0,1,2,3,4,5,6,7 --run_mode=collective --log_dir ./dy2st_log2 ./run_pretrain.py ./llama_7b.json
@@ -0,0 +1,100 @@
+set -x
+set -e
+unset CUDA_VISIBLE_DEVICES
+unset PADDLE_TRAINER_ENDPOINTS
+unset DISTRIBUTED_TRAINER_ENDPOINTS
+
+to_static=1  # 是否开启动转静训练
+task_name="llama2_7B_sd8_dy2st_pir_fp16"
+
+# to_static=0  # 是否开启动转静训练
+# task_name="llama2_7B_sd8_dy_fp16"
+
+rm -rf output/$task_name/
+rm -rf "output/$task_name""_log"
+
+export PYTHONPATH=/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/python:../:$PYTHONPATH:legacy/model_zoo/gpt-3/external_ops/
+
+export FLAGS_cudnn_deterministic=1
+export NVIDIA_TF32_OVERRIDE=0
+export FLAGS_embedding_deterministic=1
+export FLAGS_flash_attn_version=v1
+export PATH=/opt/nvidia/nsight-systems/2023.2.1/bin:$PATH
+
+#export PYTHONPATH=/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/test:/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/python:../:$PYTHONPATH
+
+# export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PARALLEL_CROSS_ENTROPY=true
+#export GLOG_v=8
+export FLAGS_enable_pir_api=1
+export FLAGS_dynamic_static_unified_comm=True
+#export FLAGS_log_memory_stats=1
+#export FLAGS_call_stack_level=3
+#nsys profile --stats=true -t cuda,nvtx,cublas,cudnn -o $task_name --capture-range=cudaProfilerApi --force-overwrite true \
+python -u  -m paddle.distributed.launch \
+    --gpus "0,1" \
+    --log_dir  "output/$task_name""_log" \
+    ./auto_parallel/llama/run_pretrain_auto.py \
+    --model_name_or_path "meta-llama/Llama-2-7b" \
+    --tokenizer_name_or_path "meta-llama/Llama-2-7b" \
+    --input_dir "./data" \
+    --output_dir "./output" \
+    --split 949,50,1 \
+    --weight_decay 0.01 \
+    --warmup_ratio 0.01 \
+    --warmup_steps 30 \
+    --max_grad_norm 0.0 \
+    --learning_rate 3e-05 \
+    --min_learning_rate 3e-06 \
+    --max_steps 10 \
+    --logging_steps 10 \
+    --eval_steps 1000 \
+    --save_steps 50000 \
+    --continue_training 0 \
+    --do_train true \
+    --do_eval false \
+    --do_predict false \
+    --disable_tqdm true \
+    --skip_profile_timer true \
+    --save_total_limit 2 \
+    --device gpu \
+    --disable_tqdm true \
+    --dataloader_num_workers 1 \
+    --distributed_dataloader 0 \
+    --enable_auto_parallel 1 \
+    --per_device_train_batch_size 1 \
+    --gradient_accumulation_steps 1 \
+    --per_device_eval_batch_size 2 \
+    --recompute false \
+    --recompute_use_reentrant true \
+    --recompute_granularity full \
+    --pp_recompute_interval 0 \
+    --fp16 1\
+    --fp16_opt_level "O2"  \
+    --amp_custom_black_list "reduce_sum" "c_softmax_with_cross_entropy" \
+    --amp_custom_white_list "lookup_table" "lookup_table_v2" \
+    --amp_master_grad true \
+    --fuse_attention_ffn true \
+    --fuse_attention_qkv false \
+    --fuse_sequence_parallel_allreduce false \
+    --use_flash_attention 0 \
+    --use_fused_rope false \
+    --use_fused_rms_norm 0 \
+    --max_seq_length 4096 \
+    --sep_parallel_degree 1 \
+    --sequence_parallel false \
+    --pipeline_parallel_degree 1 \
+    --sharding_parallel_degree 1 \
+    --tensor_parallel_degree 1 \
+    --virtual_pp_degree 1 \
+    --pipeline_schedule_mode "VPP" \
+    --sharding "" \
+    --to_static $to_static \
+    --num_hidden_layers 2 \
+    #--amp_custom_black_list "reduce_sum" "c_softmax_with_cross_entropy" \
+    #--amp_custom_white_list "lookup_table" "lookup_table_v2" \
+    # --nvprof_start 25 \
+    # --nvprof_end 29 \
+    #--sharding_parallel_config "enable_stage2_overlap" \
+    #--tensor_parallel_config "enable_mp_async_allreduce" \
+    #--data_parallel_config "enable_allreduce_avg_in_gradinent_scale gradient_sync_after_accumulate" \
@@ -0,0 +1,89 @@
+set -x
+set -e
+unset CUDA_VISIBLE_DEVICES
+unset PADDLE_TRAINER_ENDPOINTS
+unset DISTRIBUTED_TRAINER_ENDPOINTS
+task_name="llama2_7B_sd8_dy2st"
+
+rm -rf output/$task_name/
+rm -rf "output/$task_name""_log"
+
+export PYTHONPATH=/root/paddlejob/workspace/env_run/wangmingdong/Paddle/build/python:../:$PYTHONPATH:legacy/model_zoo/gpt-3/external_ops/
+
+#export FLAGS_embedding_deterministic=1
+#export FLAGS_cudnn_deterministic=1
+
+export PATH=/opt/nvidia/nsight-systems/2023.2.1/bin:$PATH
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PARALLEL_CROSS_ENTROPY=true
+#export GLOG_v=2
+#export FLAGS_enable_pir_api=1
+#export FLAGS_call_stack_level=3
+#nsys profile --stats=true -t cuda,nvtx,cublas,cudnn -o $task_name --capture-range=cudaProfilerApi --force-overwrite true \
+python -u  -m paddle.distributed.launch \
+    --gpus "0,1,2,3,4,5,6,7" \
+    --log_dir  "output/$task_name""_log" \
+    ./auto_parallel/llama/run_pretrain_auto.py \
+    --model_name_or_path "meta-llama/Llama-2-7b" \
+    --tokenizer_name_or_path "meta-llama/Llama-2-7b" \
+    --input_dir "./data" \
+    --output_dir "./output" \
+    --split 949,50,1 \
+    --weight_decay 0.01 \
+    --warmup_ratio 0.01 \
+    --warmup_steps 30 \
+    --max_grad_norm 1.0 \
+    --learning_rate 3e-05 \
+    --min_learning_rate 3e-06 \
+    --max_steps 30 \
+    --logging_steps 10 \
+    --eval_steps 1000 \
+    --save_steps 50000 \
+    --continue_training 0 \
+    --do_train true \
+    --do_eval false \
+    --do_predict false \
+    --disable_tqdm true \
+    --skip_profile_timer true \
+    --save_total_limit 2 \
+    --device gpu \
+    --disable_tqdm true \
+    --dataloader_num_workers 1 \
+    --distributed_dataloader 0 \
+    --enable_auto_parallel 1 \
+    --per_device_train_batch_size 1 \
+    --gradient_accumulation_steps 1 \
+    --per_device_eval_batch_size 2 \
+    --recompute false \
+    --recompute_use_reentrant true \
+    --recompute_granularity full \
+    --pp_recompute_interval 0 \
+    --bf16 true \
+    --fp16_opt_level "O2"  \
+    --amp_custom_black_list "reduce_sum" "c_softmax_with_cross_entropy" \
+    --amp_custom_white_list "lookup_table" "lookup_table_v2" \
+    --amp_master_grad true \
+    --fuse_attention_ffn true \
+    --fuse_attention_qkv true \
+    --fused_linear_param_grad_add 1 \
+    --fuse_sequence_parallel_allreduce false \
+    --use_flash_attention 0 \
+    --use_fused_rope 0 \
+    --use_fused_rms_norm 0 \
+    --max_seq_length 4096 \
+    --sep_parallel_degree 1 \
+    --sequence_parallel false \
+    --pipeline_parallel_degree 1 \
+    --sharding_parallel_degree 8 \
+    --tensor_parallel_degree 1 \
+    --virtual_pp_degree 1 \
+    --pipeline_schedule_mode "VPP" \
+    --sharding "stage1" \
+    --data_parallel_config "enable_allreduce_avg_in_gradinent_scale gradient_sync_after_accumulate" \
+    --sharding_parallel_config "enable_stage2_overlap" \
+    --tensor_parallel_config "enable_mp_async_allreduce" \
+    --to_static 1 \
+    --num_hidden_layers 8 \
+    #--nvprof_start 5 \
+    #--nvprof_end 8 \
@@ -15,6 +15,8 @@
 import os
 import random
 import time
+import sys
+import hashlib
 from typing import Any, Dict, Optional, Union
 
 import numpy as np
@@ -129,12 +131,7 @@ def _wrap_for_auto(self, model, train_dataloader):
 
     def _wrap_amp_model(self, args, model):
         logger.info("Using half precision")
-        if args.to_static:
-            return
-        self.enable_autocast_context_manager = True
-        self.do_grad_scaling = True if self.args.fp16 else False
-        self.amp_dtype = "float16" if self.args.fp16 else "bfloat16"
-        self.scaler = dist.shard_scaler(paddle.amp.GradScaler(init_loss_scaling=self.args.scale_loss))
+        self.amp_dtype = "float16" if self.args.fp16 else "bfloat16"        
         if self.args.fp16_opt_level == "O2":
             paddle.amp.decorate(
                 models=model,
@@ -143,6 +140,11 @@ def _wrap_amp_model(self, args, model):
                 master_grad=self.args.amp_master_grad,
                 excluded_layers=QuantizationLinear,
             )
+        if args.to_static:
+            return
+        self.enable_autocast_context_manager = True
+        self.do_grad_scaling = True if self.args.fp16 else False
+        self.scaler = dist.shard_scaler(paddle.amp.GradScaler(init_loss_scaling=self.args.scale_loss))
 
     def _get_item_from_loss(self, loss):
         if isinstance(loss, paddle.Tensor):
@@ -306,7 +308,6 @@ def _inner_training_loop(
 
                     with _exec_mode_guard("dynamic"):
                         tr_loss += tr_loss_step
-
                     disable_accumulation = self.args.pipeline_parallel_degree > 1 and self.args.to_static
                     # disable_accumulation = self.args.to_static
 
@@ -340,6 +341,20 @@ def _inner_training_loop(
                         self._maybe_log_save_evaluate(tr_loss, model, epoch, ignore_keys_for_eval, inputs=inputs)
                         self._print_timer()
                         step_control = 0
+                        if self.args.nvprof_start < self.args.nvprof_end:                                                             
+                            # for end                                                                                                 
+                            if self.state.global_step - 1 >= self.args.nvprof_start:                                                  
+                                paddle.base.core.nvprof_nvtx_pop()                                                                    
+                            if self.state.global_step == self.args.nvprof_end:                                                        
+                                paddle.base.core.nvprof_stop()                                                                        
+                                sys.exit()                                                                                            
+                                                                                                                                    
+                            # for begin                                                                                               
+                            if self.state.global_step == self.args.nvprof_start:                                                      
+                                paddle.base.core.nvprof_start()                                                                       
+                                paddle.base.core.nvprof_enable_record_event()                                                         
+                            if self.state.global_step >= self.args.nvprof_start:                                                      
+                                paddle.base.core.nvprof_nvtx_push(str(self.state.global_step))  
                     else:
                         self.control = self.callback_handler.on_substep_end(args, self.state, self.control)
                         step_control += 1
@@ -479,11 +494,15 @@ def training_step(self, model: nn.Layer, inputs: Dict[str, Union[paddle.Tensor,
         model.train()
 
         inputs = self._prepare_inputs(inputs)
-
         if not self.args.to_static:
             loss = self.dynamic_traning(model, inputs)
+            print("auto trainer dygraph md5sum:", loss._md5sum(), flush =True)
         else:
             loss = self.static_traning(model, inputs)
+            numpy_array = np.array(loss)
+            array_bytes = numpy_array.tobytes()
+            loss_md5 = hashlib.md5(array_bytes).hexdigest()
+            print("auto trainer static md5sum:", loss_md5, flush =True)
 
         if isinstance(loss, paddle.Tensor):
             return loss.detach() if loss._is_initialized() else float(0.0)