huggingface · qgallouedec · Jun 3, 2025 · May 29, 2025 · May 29, 2025 · May 29, 2025
diff --git a/trl/trainer/bco_config.py b/trl/trainer/bco_config.py
@@ -78,7 +78,15 @@ class BCOConfig(TrainingArguments):
     """
 
     # Parameters whose default values are overridden from TrainingArguments
-    # No default overrides currently
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/cpo_config.py b/trl/trainer/cpo_config.py
@@ -84,6 +84,15 @@ class CPOConfig(TrainingArguments):
         default=1e-6,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/dpo_config.py b/trl/trainer/dpo_config.py
@@ -174,6 +174,15 @@ class DPOConfig(TrainingArguments):
         default=1e-6,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     # Parameters that control the model and reference model
     model_init_kwargs: Optional[dict[str, Any]] = field(

diff --git a/trl/trainer/grpo_config.py b/trl/trainer/grpo_config.py
@@ -208,6 +208,15 @@ class GRPOConfig(TrainingArguments):
         default=1e-6,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     # Parameters that control the model and reference model
     model_init_kwargs: Optional[Union[dict, str]] = field(

diff --git a/trl/trainer/iterative_sft_config.py b/trl/trainer/iterative_sft_config.py
@@ -49,7 +49,15 @@ class may differ from those in [`~transformers.TrainingArguments`].
     """
 
     # Parameters whose default values are overridden from TrainingArguments
-    # No default overrides currently
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     # Parameters that control the model
     model_init_kwargs: Optional[dict[str, Any]] = field(

diff --git a/trl/trainer/kto_config.py b/trl/trainer/kto_config.py
@@ -91,6 +91,15 @@ class KTOConfig(TrainingArguments):
         default=1e-6,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/online_dpo_config.py b/trl/trainer/online_dpo_config.py
@@ -78,6 +78,15 @@ class may differ from those in [`~transformers.TrainingArguments`].
         default=5e-7,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     reward_model_path: Optional[str] = field(
         default=None,

diff --git a/trl/trainer/orpo_config.py b/trl/trainer/orpo_config.py
@@ -69,6 +69,15 @@ class ORPOConfig(TrainingArguments):
         default=1e-6,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/prm_config.py b/trl/trainer/prm_config.py
@@ -53,6 +53,15 @@ class PRMConfig(TrainingArguments):
         default=1e-5,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/reward_config.py b/trl/trainer/reward_config.py
@@ -48,7 +48,15 @@ class may differ from those in [`~transformers.TrainingArguments`].
     """
 
     # Parameters whose default values are overridden from TrainingArguments
-    # No default overrides currently
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     max_length: Optional[int] = field(
         default=1024,

diff --git a/trl/trainer/sft_config.py b/trl/trainer/sft_config.py
@@ -89,6 +89,15 @@ class SFTConfig(TrainingArguments):
         default=2e-5,
         metadata={"help": "The initial learning rate for AdamW."},
     )
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     # Parameters that control the model
     model_init_kwargs: Optional[dict[str, Any]] = field(

diff --git a/trl/trainer/utils.py b/trl/trainer/utils.py
@@ -1068,7 +1068,15 @@ class may differ from those in [`~transformers.TrainingArguments`].
     """
 
     # Parameters whose default values are overridden from TrainingArguments
-    # No default overrides currently
+    logging_steps: float = field(
+        default=10,
+        metadata={
+            "help": (
+                "Log every X updates steps. Should be an integer or a float in range `[0,1)`. "
+                "If smaller than 1, will be interpreted as ratio of total training steps."
+            )
+        },
+    )
 
     run_name: Optional[str] = field(
         default=None,