Spaces:

Dovakiins
/

qwerrwe

Build error

winglian commited on Sep 22, 2023

Commit

2844eb2

•

1 Parent(s): e85d2eb

run eval on the first step to get a baseline (#617)

* run eval on the first step to get a baseline

* wandb kleeps getting moved around by pre-commit ...

Files changed (2) hide show

src/axolotl/utils/callbacks.py CHANGED Viewed

@@ -66,6 +66,29 @@ class SavePeftModelCallback(TrainerCallback):  # pylint: disable=too-few-public-
         return control
 class SaveBetterTransformerModelCallback(
     TrainerCallback
 ):  # pylint: disable=too-few-public-methods

         return control
+class EvalFirstStepCallback(
+    TrainerCallback
+):  # pylint: disable=too-few-public-methods disable=unused-argument
+    """
+    Callback to trigger evals on the first step
+    """
+    def on_step_end(
+        self,
+        args: TrainingArguments,
+        state: TrainerState,
+        control: TrainerControl,
+        **kwargs,
+    ):
+        if (
+            args.evaluation_strategy == IntervalStrategy.STEPS
+            and args.eval_steps < 1.0
+            and state.global_step == 1
+        ):
+            control.should_evaluate = True
+        return control
 class SaveBetterTransformerModelCallback(
     TrainerCallback
 ):  # pylint: disable=too-few-public-methods

src/axolotl/utils/trainer.py CHANGED Viewed

@@ -28,6 +28,7 @@ from transformers.trainer_pt_utils import SequentialDistributedSampler
 from axolotl.monkeypatch.relora import ReLoRACallback, ReLoRAScheduler
 from axolotl.utils.callbacks import (
     GPUStatsCallback,
     SaveBetterTransformerModelCallback,
     SavePeftModelCallback,
@@ -704,6 +705,7 @@ def setup_trainer(cfg, train_dataset, eval_dataset, model, tokenizer, total_num_
     callbacks = []
     callbacks.append(GPUStatsCallback(cfg))
     if cfg.relora_steps:
         callbacks.append(ReLoRACallback(cfg))

 from axolotl.monkeypatch.relora import ReLoRACallback, ReLoRAScheduler
 from axolotl.utils.callbacks import (
+    EvalFirstStepCallback,
     GPUStatsCallback,
     SaveBetterTransformerModelCallback,
     SavePeftModelCallback,
     callbacks = []
     callbacks.append(GPUStatsCallback(cfg))
+    callbacks.append(EvalFirstStepCallback)
     if cfg.relora_steps:
         callbacks.append(ReLoRACallback(cfg))