[AutoParallel] add release_gradients and comm_buffer_size_MB to strategy (#9432)

AndSonder · web-flow · commit d5a90f74caf5 · 2024-11-20T13:56:49.000+08:00
* add release_gradients and comm_buffer_size_MB to strategy

* Update training_args.py

* add note

* fix codestyle
diff --git a/paddlenlp/trainer/training_args.py b/paddlenlp/trainer/training_args.py
@@ -1341,13 +1341,21 @@ def is_segment_parallel_supported():
                             strategy.hybrid_configs["sharding_configs"].comm_buffer_size_MB = int(
                                 self.sharding_comm_buffer_size_MB
                             )
+                            # The `comm_buffer_size_MB` is added directly to sharding properties
+                            # for semi-auto mode, avoiding potential confusion with strategy config,
+                            # as parameters in semi-auto mode are managed via strategy.
+                            strategy.sharding.comm_buffer_size_MB = int(self.sharding_comm_buffer_size_MB)
 
                         if "split_param" in sharding_parallel_config:
                             strategy.hybrid_configs["sharding_configs"].split_param = True
                             assert self.amp_master_grad, "Currently sharding stage1 v2 only support amp_master_grad"
 
                         if "enable_release_grads" in sharding_parallel_config:
                             strategy.hybrid_configs["sharding_configs"].release_gradients = True
+                            # `release_gradients` is set directly in sharding properties for the same
+                            # reason as `comm_buffer_size_MB`, to avoid confusion with centralized
+                            # strategy management in semi-auto mode.
+                            strategy.sharding.release_gradients = True
 
                         if self.pipeline_parallel_degree == 1:
                             strategy.hybrid_configs["sharding_configs"].tensor_fusion = (