PaddlePaddle · pkhk-1 · Feb 19, 2025 · jerrywgz · Feb 19, 2025
diff --git a/paddlemix/examples/llava/pretrain.py b/paddlemix/examples/llava/pretrain.py
@@ -171,8 +171,15 @@ def get_paddle_memory_info():
             mem_gpu = (
                 train_result.metrics["train_mem_gpu_peaked_delta"] + train_result.metrics["train_mem_gpu_alloc_delta"]
             )
+                        logger.info(f'Memory_allocated:{memory_allocated}GB, max_memory_allocated: {max_memory_allocated}GB, memory_reserved:{memory_reserved}GB, max_memory_reserved: {max_memory_reserved}GB \n')
+
+            total_effective_samples = total_samples * training_args.num_train_epochs
+            effective_samples_per_second = total_effective_samples / train_result.metrics["train_runtime"]
+
             logger.info(f"Effective_samples_per_second: {effective_samples_per_second} ")
-            logger.info(f"train_mem_gpu_peaked: {int(mem_gpu/ (2**20))} MB")
+            logger.info(f"avg_efficient_tokens_per_sec_per_card: {train_result.metrics['avg_efficient_tokens_per_sec_per_card']}")
+            logger.info(f"avg_tokens_per_sec_per_card: {train_result.metrics['avg_tokens_per_sec_per_card']}")
+
             logger.info("Benchmark done.")
         else:
             trainer.save_model(merge_tensor_parallel=training_args.tensor_parallel_degree > 1)

diff --git a/paddlemix/models/llava/language_model/llava_llama.py b/paddlemix/models/llava/language_model/llava_llama.py
@@ -99,6 +99,17 @@ def forward(
             ) = self.prepare_inputs_labels_for_multimodal(
                 input_ids, position_ids, attention_mask, past_key_values, labels, images, image_size
             )
+
+        # 通过attention_mask计算有效token数量
+        if attention_mask is not None:
+            # 统计当前batch的有效token数（排除padding）
+            current_batch_tokens = attention_mask.sum().item()  # shape: (batch_size, seq_len)
+        else:
+            # 如果没有padding，直接取inputs_embeds的batch_size*seq_length
+            current_batch_tokens = inputs_embeds.size(0) * inputs_embeds.size(1)
+
+        self.efficient_token_count = current_batch_tokens
+        self.input_shape = inputs_embeds.shape
 
         return super().forward(
             input_ids=input_ids,

diff --git a/paddlemix/tools/supervised_finetune.py b/paddlemix/tools/supervised_finetune.py
@@ -191,15 +191,15 @@ def get_paddle_memory_info():
                 )
             memory_allocated, max_memory_allocated, memory_reserved, max_memory_reserved = get_paddle_memory_info()
 
-            logger.info(f'memory_allocated:{memory_allocated}GB, max_memory_allocated: {max_memory_allocated}GB, memory_reserved:{memory_reserved}GB, max_memory_reserved: {max_memory_reserved}GB \n')
+            logger.info(f'Memory_allocated:{memory_allocated}GB, max_memory_allocated: {max_memory_allocated}GB, memory_reserved:{memory_reserved}GB, max_memory_reserved: {max_memory_reserved}GB \n')
 
             total_effective_samples = total_samples * training_args.num_train_epochs
             effective_samples_per_second = total_effective_samples / train_result.metrics["train_runtime"]
-            mem_gpu = (
-                train_result.metrics["train_mem_gpu_peaked_delta"] + train_result.metrics["train_mem_gpu_alloc_delta"]
-            )
+
             logger.info(f"Effective_samples_per_second: {effective_samples_per_second} ")
-            logger.info(f"train_mem_gpu_peaked: {int(mem_gpu/ (2**20))} MB")
+            logger.info(f"avg_efficient_tokens_per_sec_per_card: {train_result.metrics['avg_efficient_tokens_per_sec_per_card']}")
+            logger.info(f"avg_tokens_per_sec_per_card: {train_result.metrics['avg_tokens_per_sec_per_card']}")
+
             logger.info("Benchmark done.")
         else:
             trainer.save_model(merge_tensor_parallel=training_args.tensor_parallel_degree > 1)