{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4101963082332259,
  "global_step": 4200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5e-05,
      "loss": 3.3163,
      "step": 50
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001,
      "loss": 2.491,
      "step": 100
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001,
      "loss": 2.0415,
      "step": 150
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001,
      "loss": 1.9681,
      "step": 200
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001,
      "loss": 1.8944,
      "step": 250
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0001,
      "loss": 1.8218,
      "step": 300
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0001,
      "loss": 1.7536,
      "step": 350
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0001,
      "loss": 1.681,
      "step": 400
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0001,
      "loss": 1.6851,
      "step": 450
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0001,
      "loss": 1.6193,
      "step": 500
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0001,
      "loss": 1.6291,
      "step": 550
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0001,
      "loss": 1.6241,
      "step": 600
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0001,
      "loss": 1.5997,
      "step": 650
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0001,
      "loss": 1.5744,
      "step": 700
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0001,
      "loss": 1.6018,
      "step": 750
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0001,
      "loss": 1.6006,
      "step": 800
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0001,
      "loss": 1.5671,
      "step": 850
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0001,
      "loss": 1.5721,
      "step": 900
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0001,
      "loss": 1.5573,
      "step": 950
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0001,
      "loss": 1.5539,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0001,
      "loss": 1.542,
      "step": 1050
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0001,
      "loss": 1.5165,
      "step": 1100
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0001,
      "loss": 1.5797,
      "step": 1150
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0001,
      "loss": 1.5609,
      "step": 1200
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0001,
      "loss": 1.5435,
      "step": 1250
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0001,
      "loss": 1.5645,
      "step": 1300
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0001,
      "loss": 1.5258,
      "step": 1350
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0001,
      "loss": 1.4773,
      "step": 1400
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0001,
      "loss": 1.4825,
      "step": 1450
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0001,
      "loss": 1.5124,
      "step": 1500
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0001,
      "loss": 1.4963,
      "step": 1550
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0001,
      "loss": 1.4861,
      "step": 1600
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0001,
      "loss": 1.5275,
      "step": 1650
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0001,
      "loss": 1.484,
      "step": 1700
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0001,
      "loss": 1.5349,
      "step": 1750
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0001,
      "loss": 1.4641,
      "step": 1800
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0001,
      "loss": 1.4752,
      "step": 1850
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001,
      "loss": 1.4475,
      "step": 1900
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0001,
      "loss": 1.5358,
      "step": 1950
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0001,
      "loss": 1.4652,
      "step": 2000
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0001,
      "loss": 1.419,
      "step": 2050
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0001,
      "loss": 1.4588,
      "step": 2100
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0001,
      "loss": 1.4593,
      "step": 2150
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0001,
      "loss": 1.4604,
      "step": 2200
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0001,
      "loss": 1.4598,
      "step": 2250
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0001,
      "loss": 1.482,
      "step": 2300
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0001,
      "loss": 1.4749,
      "step": 2350
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0001,
      "loss": 1.4718,
      "step": 2400
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0001,
      "loss": 1.4343,
      "step": 2450
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0001,
      "loss": 1.4861,
      "step": 2500
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0001,
      "loss": 1.4717,
      "step": 2550
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0001,
      "loss": 1.4599,
      "step": 2600
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0001,
      "loss": 1.4746,
      "step": 2650
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0001,
      "loss": 1.4517,
      "step": 2700
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0001,
      "loss": 1.4267,
      "step": 2750
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0001,
      "loss": 1.4303,
      "step": 2800
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0001,
      "loss": 1.4146,
      "step": 2850
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0001,
      "loss": 1.4245,
      "step": 2900
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0001,
      "loss": 1.4356,
      "step": 2950
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0001,
      "loss": 1.4183,
      "step": 3000
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0001,
      "loss": 1.423,
      "step": 3050
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0001,
      "loss": 1.4854,
      "step": 3100
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0001,
      "loss": 1.4552,
      "step": 3150
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0001,
      "loss": 1.456,
      "step": 3200
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0001,
      "loss": 1.4202,
      "step": 3250
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0001,
      "loss": 1.4025,
      "step": 3300
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0001,
      "loss": 1.4134,
      "step": 3350
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0001,
      "loss": 1.4282,
      "step": 3400
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0001,
      "loss": 1.4256,
      "step": 3450
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0001,
      "loss": 1.4056,
      "step": 3500
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0001,
      "loss": 1.3779,
      "step": 3550
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0001,
      "loss": 1.3857,
      "step": 3600
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0001,
      "loss": 1.3819,
      "step": 3650
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0001,
      "loss": 1.4095,
      "step": 3700
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0001,
      "loss": 1.4387,
      "step": 3750
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0001,
      "loss": 1.3831,
      "step": 3800
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0001,
      "loss": 1.3913,
      "step": 3850
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0001,
      "loss": 1.4007,
      "step": 3900
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0001,
      "loss": 1.4038,
      "step": 3950
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0001,
      "loss": 1.3926,
      "step": 4000
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0001,
      "loss": 1.36,
      "step": 4050
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0001,
      "loss": 1.4146,
      "step": 4100
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001,
      "loss": 1.3626,
      "step": 4150
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001,
      "loss": 1.3562,
      "step": 4200
    }
  ],
  "max_steps": 20478,
  "num_train_epochs": 2,
  "total_flos": 6.3352674125568e+16,
  "trial_name": null,
  "trial_params": null
}