End of training

Browse files

Files changed (5) hide show

README.md +44 -24
model.safetensors +1 -1
runs/Dec05_23-35-46_DESKTOP-A45193E/events.out.tfevents.1701812151.DESKTOP-A45193E +3 -0
trainer_state.json +1119 -919
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0393
 - Mean Distance: 0
 - Max Distance: 1
@@ -43,32 +43,52 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 20
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
-| 0.2324        | 1.0   | 2664  | 0.1072          | 0             | 1            |
-| 0.0151        | 2.0   | 5328  | 0.0436          | 0             | 1            |
-| 0.0094        | 3.0   | 7992  | 0.0241          | 0             | 1            |
-| 0.0056        | 4.0   | 10656 | 0.0309          | 0             | 1            |
-| 0.0068        | 5.0   | 13320 | 0.0356          | 0             | 1            |
-| 0.0041        | 6.0   | 15984 | 0.0186          | 0             | 1            |
-| 0.0034        | 7.0   | 18648 | 0.0426          | 0             | 1            |
-| 0.0043        | 8.0   | 21312 | 0.0172          | 0             | 1            |
-| 0.004         | 9.0   | 23976 | 0.0272          | 0             | 1            |
-| 0.0005        | 10.0  | 26640 | 0.0333          | 0             | 1            |
-| 0.0025        | 11.0  | 29304 | 0.0358          | 0             | 1            |
-| 0.0021        | 12.0  | 31968 | 0.0474          | 0             | 1            |
-| 0.0007        | 13.0  | 34632 | 0.0402          | 0             | 1            |
-| 0.0017        | 14.0  | 37296 | 0.0392          | 0             | 1            |
-| 0.0007        | 15.0  | 39960 | 0.0394          | 0             | 1            |
-| 0.0013        | 16.0  | 42624 | 0.0442          | 0             | 1            |
-| 0.0002        | 17.0  | 45288 | 0.0443          | 0             | 1            |
-| 0.0013        | 18.0  | 47952 | 0.0389          | 0             | 1            |
-| 0.0001        | 19.0  | 50616 | 0.0412          | 0             | 1            |
-| 0.0001        | 20.0  | 53280 | 0.0393          | 0             | 1            |
 ### Framework versions

 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0632
 - Mean Distance: 0
 - Max Distance: 1
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 40
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
+| 0.8541        | 1.0   | 2664   | 0.3404          | 0             | 1            |
+| 0.0451        | 2.0   | 5328   | 0.0605          | 0             | 1            |
+| 0.0112        | 3.0   | 7992   | 0.0411          | 0             | 1            |
+| 0.0068        | 4.0   | 10656  | 0.0205          | 0             | 1            |
+| 0.007         | 5.0   | 13320  | 0.0242          | 0             | 1            |
+| 0.0022        | 6.0   | 15984  | 0.0272          | 0             | 1            |
+| 0.0054        | 7.0   | 18648  | 0.0080          | 0             | 1            |
+| 0.0036        | 8.0   | 21312  | 0.0252          | 0             | 1            |
+| 0.0039        | 9.0   | 23976  | 0.0210          | 0             | 1            |
+| 0.0026        | 10.0  | 26640  | 0.0170          | 0             | 1            |
+| 0.0026        | 11.0  | 29304  | 0.0043          | 0             | 1            |
+| 0.0029        | 12.0  | 31968  | 0.0135          | 0             | 1            |
+| 0.0011        | 13.0  | 34632  | 0.0313          | 0             | 1            |
+| 0.0017        | 14.0  | 37296  | 0.0353          | 0             | 1            |
+| 0.0014        | 15.0  | 39960  | 0.0117          | 0             | 1            |
+| 0.0014        | 16.0  | 42624  | 0.0140          | 0             | 1            |
+| 0.0013        | 17.0  | 45288  | 0.0220          | 0             | 1            |
+| 0.0009        | 18.0  | 47952  | 0.0247          | 0             | 1            |
+| 0.0017        | 19.0  | 50616  | 0.0322          | 0             | 1            |
+| 0.0022        | 20.0  | 53280  | 0.0314          | 0             | 1            |
+| 0.0006        | 21.0  | 55944  | 0.0305          | 0             | 1            |
+| 0.001         | 22.0  | 58608  | 0.0292          | 0             | 1            |
+| 0.0008        | 23.0  | 61272  | 0.0373          | 0             | 1            |
+| 0.0008        | 24.0  | 63936  | 0.0309          | 0             | 1            |
+| 0.0008        | 25.0  | 66600  | 0.0385          | 0             | 1            |
+| 0.0014        | 26.0  | 69264  | 0.0134          | 0             | 1            |
+| 0.0004        | 27.0  | 71928  | 0.0239          | 0             | 1            |
+| 0.0011        | 28.0  | 74592  | 0.0164          | 0             | 1            |
+| 0.0002        | 29.0  | 77256  | 0.0186          | 0             | 1            |
+| 0.0001        | 30.0  | 79920  | 0.0298          | 0             | 1            |
+| 0.0008        | 31.0  | 82584  | 0.0277          | 0             | 1            |
+| 0.0003        | 32.0  | 85248  | 0.0377          | 0             | 1            |
+| 0.0003        | 33.0  | 87912  | 0.0354          | 0             | 1            |
+| 0.0007        | 34.0  | 90576  | 0.0585          | 0             | 1            |
+| 0.0005        | 35.0  | 93240  | 0.0568          | 0             | 1            |
+| 0.0001        | 36.0  | 95904  | 0.0567          | 0             | 1            |
+| 0.0009        | 37.0  | 98568  | 0.0605          | 0             | 1            |
+| 0.0002        | 38.0  | 101232 | 0.0613          | 0             | 1            |
+| 0.0002        | 39.0  | 103896 | 0.0563          | 0             | 1            |
+| 0.0002        | 40.0  | 106560 | 0.0632          | 0             | 1            |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:139f4efafa81328de028fe45cfd22391527b568ecc61cf081db24d84a0d357e1
 size 1200729512

 version https://git-lfs.github.com/spec/v1
+oid sha256:b231aefa39c9a5055819cb061fe2728111c61d5f415f2208c6a2c7bf69d4cb02
 size 1200729512

runs/Dec05_23-35-46_DESKTOP-A45193E/events.out.tfevents.1701812151.DESKTOP-A45193E ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3503a3389c33e4b4456fe130dbdc3125a33273ba6e52e4dd20c768694f87ec7
+size 52187

trainer_state.json CHANGED Viewed

@@ -1,1428 +1,1628 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 53280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.876876876876877e-08,
-      "loss": 26.3774,
       "step": 1
     },
-    {
-      "epoch": 0.1,
-      "learning_rate": 5.011261261261262e-06,
-      "loss": 28.5448,
-      "step": 267
-    },
     {
       "epoch": 0.2,
-      "learning_rate": 1.0022522522522524e-05,
-      "loss": 27.0258,
-      "step": 534
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 1.5033783783783784e-05,
-      "loss": 22.7776,
-      "step": 801
     },
     {
       "epoch": 0.4,
-      "learning_rate": 2.0045045045045048e-05,
-      "loss": 17.4592,
-      "step": 1068
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.505630630630631e-05,
-      "loss": 8.3509,
-      "step": 1335
     },
     {
       "epoch": 0.6,
-      "learning_rate": 3.006756756756757e-05,
-      "loss": 0.8438,
-      "step": 1602
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 3.507882882882883e-05,
-      "loss": 0.3406,
-      "step": 1869
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.0090090090090096e-05,
-      "loss": 0.2968,
-      "step": 2136
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 4.510135135135135e-05,
-      "loss": 0.2324,
-      "step": 2403
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.10719971358776093,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 1.1818,
-      "eval_samples_per_second": 302.937,
-      "eval_steps_per_second": 20.309,
       "step": 2664
     },
     {
       "epoch": 1.0,
-      "learning_rate": 5.011261261261262e-05,
-      "loss": 0.122,
-      "step": 2670
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 5.512387387387388e-05,
-      "loss": 0.1234,
-      "step": 2937
     },
     {
       "epoch": 1.2,
-      "learning_rate": 6.013513513513514e-05,
-      "loss": 0.1377,
-      "step": 3204
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 6.514639639639641e-05,
-      "loss": 0.0721,
-      "step": 3471
     },
     {
       "epoch": 1.4,
-      "learning_rate": 7.015765765765766e-05,
-      "loss": 0.0447,
-      "step": 3738
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 7.516891891891891e-05,
-      "loss": 0.0262,
-      "step": 4005
     },
     {
       "epoch": 1.6,
-      "learning_rate": 8.018018018018019e-05,
-      "loss": 0.0262,
-      "step": 4272
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 8.519144144144144e-05,
-      "loss": 0.0235,
-      "step": 4539
     },
     {
       "epoch": 1.8,
-      "learning_rate": 9.02027027027027e-05,
-      "loss": 0.0163,
-      "step": 4806
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 9.521396396396397e-05,
-      "loss": 0.0151,
-      "step": 5073
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.04358534514904022,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.906,
-      "eval_samples_per_second": 395.165,
-      "eval_steps_per_second": 26.492,
       "step": 5328
     },
     {
       "epoch": 2.0,
-      "learning_rate": 9.997497497497498e-05,
-      "loss": 0.014,
-      "step": 5340
     },
     {
-      "epoch": 2.1,
-      "learning_rate": 9.941816816816817e-05,
-      "loss": 0.0136,
-      "step": 5607
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 9.886136136136137e-05,
-      "loss": 0.007,
-      "step": 5874
     },
     {
-      "epoch": 2.31,
-      "learning_rate": 9.830455455455457e-05,
-      "loss": 0.0144,
-      "step": 6141
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 9.774774774774775e-05,
-      "loss": 0.008,
-      "step": 6408
     },
     {
-      "epoch": 2.51,
-      "learning_rate": 9.719094094094095e-05,
       "loss": 0.0109,
-      "step": 6675
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 9.663413413413414e-05,
-      "loss": 0.0141,
-      "step": 6942
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 9.607732732732732e-05,
-      "loss": 0.011,
-      "step": 7209
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 9.552052052052053e-05,
-      "loss": 0.0136,
-      "step": 7476
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 9.496371371371372e-05,
-      "loss": 0.0094,
-      "step": 7743
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.024132976308465004,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9049,
-      "eval_samples_per_second": 395.615,
-      "eval_steps_per_second": 26.522,
-      "step": 7992
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 9.440690690690692e-05,
-      "loss": 0.0158,
-      "step": 8010
     },
     {
-      "epoch": 3.11,
-      "learning_rate": 9.38501001001001e-05,
-      "loss": 0.0085,
-      "step": 8277
     },
     {
-      "epoch": 3.21,
-      "learning_rate": 9.329329329329329e-05,
-      "loss": 0.0074,
-      "step": 8544
     },
     {
-      "epoch": 3.31,
-      "learning_rate": 9.27364864864865e-05,
-      "loss": 0.0069,
-      "step": 8811
     },
     {
-      "epoch": 3.41,
-      "learning_rate": 9.217967967967968e-05,
-      "loss": 0.0049,
-      "step": 9078
     },
     {
-      "epoch": 3.51,
-      "learning_rate": 9.162287287287288e-05,
-      "loss": 0.0045,
-      "step": 9345
     },
     {
-      "epoch": 3.61,
-      "learning_rate": 9.106606606606607e-05,
-      "loss": 0.0053,
-      "step": 9612
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 9.050925925925925e-05,
-      "loss": 0.0069,
-      "step": 9879
     },
     {
-      "epoch": 3.81,
-      "learning_rate": 8.995245245245245e-05,
-      "loss": 0.0067,
-      "step": 10146
     },
     {
-      "epoch": 3.91,
-      "learning_rate": 8.939564564564565e-05,
-      "loss": 0.0056,
-      "step": 10413
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.030885161831974983,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9782,
-      "eval_samples_per_second": 365.991,
-      "eval_steps_per_second": 24.536,
-      "step": 10656
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 8.883883883883885e-05,
-      "loss": 0.0057,
-      "step": 10680
     },
     {
-      "epoch": 4.11,
-      "learning_rate": 8.828203203203204e-05,
-      "loss": 0.0018,
-      "step": 10947
     },
     {
-      "epoch": 4.21,
-      "learning_rate": 8.772522522522522e-05,
       "loss": 0.0034,
-      "step": 11214
     },
     {
-      "epoch": 4.31,
-      "learning_rate": 8.716841841841842e-05,
-      "loss": 0.0074,
-      "step": 11481
     },
     {
-      "epoch": 4.41,
-      "learning_rate": 8.661161161161162e-05,
-      "loss": 0.002,
-      "step": 11748
     },
     {
-      "epoch": 4.51,
-      "learning_rate": 8.605480480480482e-05,
-      "loss": 0.0121,
-      "step": 12015
     },
     {
-      "epoch": 4.61,
-      "learning_rate": 8.5497997997998e-05,
-      "loss": 0.0049,
-      "step": 12282
     },
     {
-      "epoch": 4.71,
-      "learning_rate": 8.49411911911912e-05,
-      "loss": 0.0045,
-      "step": 12549
     },
     {
-      "epoch": 4.81,
-      "learning_rate": 8.438438438438439e-05,
-      "loss": 0.0022,
-      "step": 12816
     },
     {
-      "epoch": 4.91,
-      "learning_rate": 8.382757757757757e-05,
-      "loss": 0.0068,
-      "step": 13083
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.03561040014028549,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.882,
-      "eval_samples_per_second": 405.884,
-      "eval_steps_per_second": 27.21,
-      "step": 13320
     },
     {
-      "epoch": 5.01,
-      "learning_rate": 8.327077077077078e-05,
-      "loss": 0.0063,
-      "step": 13350
     },
     {
-      "epoch": 5.11,
-      "learning_rate": 8.271396396396397e-05,
-      "loss": 0.002,
-      "step": 13617
     },
     {
-      "epoch": 5.21,
-      "learning_rate": 8.215715715715717e-05,
-      "loss": 0.007,
-      "step": 13884
     },
     {
-      "epoch": 5.31,
-      "learning_rate": 8.160035035035035e-05,
-      "loss": 0.0036,
-      "step": 14151
     },
     {
-      "epoch": 5.41,
-      "learning_rate": 8.104354354354354e-05,
-      "loss": 0.0036,
-      "step": 14418
     },
     {
-      "epoch": 5.51,
-      "learning_rate": 8.048673673673675e-05,
-      "loss": 0.0087,
-      "step": 14685
     },
     {
-      "epoch": 5.61,
-      "learning_rate": 7.992992992992994e-05,
-      "loss": 0.0013,
-      "step": 14952
     },
     {
-      "epoch": 5.71,
-      "learning_rate": 7.937312312312313e-05,
-      "loss": 0.0031,
-      "step": 15219
     },
     {
-      "epoch": 5.81,
-      "learning_rate": 7.881631631631632e-05,
-      "loss": 0.0031,
-      "step": 15486
     },
     {
-      "epoch": 5.91,
-      "learning_rate": 7.82595095095095e-05,
-      "loss": 0.0041,
-      "step": 15753
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.018554789945483208,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8772,
-      "eval_samples_per_second": 408.133,
-      "eval_steps_per_second": 27.361,
-      "step": 15984
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 7.77027027027027e-05,
-      "loss": 0.0044,
-      "step": 16020
     },
     {
-      "epoch": 6.11,
-      "learning_rate": 7.71458958958959e-05,
-      "loss": 0.0012,
-      "step": 16287
     },
     {
-      "epoch": 6.21,
-      "learning_rate": 7.65890890890891e-05,
-      "loss": 0.0036,
-      "step": 16554
     },
     {
-      "epoch": 6.31,
-      "learning_rate": 7.603228228228229e-05,
-      "loss": 0.0028,
-      "step": 16821
     },
     {
-      "epoch": 6.41,
-      "learning_rate": 7.547547547547547e-05,
-      "loss": 0.0039,
-      "step": 17088
     },
     {
-      "epoch": 6.51,
-      "learning_rate": 7.491866866866867e-05,
-      "loss": 0.0013,
-      "step": 17355
     },
     {
-      "epoch": 6.61,
-      "learning_rate": 7.436186186186187e-05,
-      "loss": 0.0026,
-      "step": 17622
     },
     {
-      "epoch": 6.72,
-      "learning_rate": 7.380505505505507e-05,
-      "loss": 0.0015,
-      "step": 17889
     },
     {
-      "epoch": 6.82,
-      "learning_rate": 7.324824824824825e-05,
       "loss": 0.0009,
-      "step": 18156
     },
     {
-      "epoch": 6.92,
-      "learning_rate": 7.269144144144144e-05,
-      "loss": 0.0034,
-      "step": 18423
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.04260706901550293,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9016,
-      "eval_samples_per_second": 397.069,
-      "eval_steps_per_second": 26.619,
-      "step": 18648
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 7.213463463463464e-05,
       "loss": 0.0027,
-      "step": 18690
     },
     {
-      "epoch": 7.12,
-      "learning_rate": 7.157782782782782e-05,
-      "loss": 0.0018,
-      "step": 18957
     },
     {
-      "epoch": 7.22,
-      "learning_rate": 7.102102102102103e-05,
-      "loss": 0.0024,
-      "step": 19224
     },
     {
-      "epoch": 7.32,
-      "learning_rate": 7.046421421421422e-05,
-      "loss": 0.0021,
-      "step": 19491
     },
     {
-      "epoch": 7.42,
-      "learning_rate": 6.99074074074074e-05,
-      "loss": 0.0017,
-      "step": 19758
     },
     {
-      "epoch": 7.52,
-      "learning_rate": 6.93506006006006e-05,
-      "loss": 0.0013,
-      "step": 20025
     },
     {
-      "epoch": 7.62,
-      "learning_rate": 6.879379379379379e-05,
-      "loss": 0.0025,
-      "step": 20292
     },
     {
-      "epoch": 7.72,
-      "learning_rate": 6.8236986986987e-05,
       "loss": 0.0017,
-      "step": 20559
     },
     {
-      "epoch": 7.82,
-      "learning_rate": 6.768018018018019e-05,
-      "loss": 0.0022,
-      "step": 20826
     },
     {
-      "epoch": 7.92,
-      "learning_rate": 6.712337337337337e-05,
-      "loss": 0.0043,
-      "step": 21093
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.017180927097797394,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8803,
-      "eval_samples_per_second": 406.66,
-      "eval_steps_per_second": 27.262,
-      "step": 21312
     },
     {
-      "epoch": 8.02,
-      "learning_rate": 6.656656656656657e-05,
-      "loss": 0.0035,
-      "step": 21360
     },
     {
-      "epoch": 8.12,
-      "learning_rate": 6.600975975975976e-05,
-      "loss": 0.0024,
-      "step": 21627
     },
     {
-      "epoch": 8.22,
-      "learning_rate": 6.545295295295295e-05,
-      "loss": 0.0036,
-      "step": 21894
     },
     {
-      "epoch": 8.32,
-      "learning_rate": 6.489614614614615e-05,
-      "loss": 0.0034,
-      "step": 22161
     },
     {
-      "epoch": 8.42,
-      "learning_rate": 6.433933933933934e-05,
-      "loss": 0.002,
-      "step": 22428
     },
     {
-      "epoch": 8.52,
-      "learning_rate": 6.378253253253254e-05,
-      "loss": 0.0029,
-      "step": 22695
     },
     {
-      "epoch": 8.62,
-      "learning_rate": 6.322572572572572e-05,
-      "loss": 0.002,
-      "step": 22962
     },
     {
-      "epoch": 8.72,
-      "learning_rate": 6.266891891891892e-05,
-      "loss": 0.0011,
-      "step": 23229
     },
     {
-      "epoch": 8.82,
-      "learning_rate": 6.211211211211212e-05,
       "loss": 0.0006,
-      "step": 23496
     },
     {
-      "epoch": 8.92,
-      "learning_rate": 6.15553053053053e-05,
-      "loss": 0.004,
-      "step": 23763
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.027217011898756027,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8897,
-      "eval_samples_per_second": 402.398,
-      "eval_steps_per_second": 26.976,
-      "step": 23976
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 6.0998498498498503e-05,
-      "loss": 0.0038,
-      "step": 24030
     },
     {
-      "epoch": 9.12,
-      "learning_rate": 6.0441691691691695e-05,
-      "loss": 0.0022,
-      "step": 24297
     },
     {
-      "epoch": 9.22,
-      "learning_rate": 5.988488488488489e-05,
       "loss": 0.0011,
-      "step": 24564
     },
     {
-      "epoch": 9.32,
-      "learning_rate": 5.932807807807807e-05,
-      "loss": 0.0013,
-      "step": 24831
     },
     {
-      "epoch": 9.42,
-      "learning_rate": 5.877127127127128e-05,
-      "loss": 0.0014,
-      "step": 25098
     },
     {
-      "epoch": 9.52,
-      "learning_rate": 5.821446446446447e-05,
-      "loss": 0.0037,
-      "step": 25365
     },
     {
-      "epoch": 9.62,
-      "learning_rate": 5.765765765765766e-05,
-      "loss": 0.0011,
-      "step": 25632
     },
     {
-      "epoch": 9.72,
-      "learning_rate": 5.7100850850850854e-05,
-      "loss": 0.0028,
-      "step": 25899
     },
     {
-      "epoch": 9.82,
-      "learning_rate": 5.654404404404404e-05,
-      "loss": 0.0012,
-      "step": 26166
     },
     {
-      "epoch": 9.92,
-      "learning_rate": 5.5987237237237245e-05,
-      "loss": 0.0005,
-      "step": 26433
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.033312857151031494,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9102,
-      "eval_samples_per_second": 393.315,
-      "eval_steps_per_second": 26.367,
-      "step": 26640
     },
     {
-      "epoch": 10.02,
-      "learning_rate": 5.543043043043044e-05,
-      "loss": 0.0023,
-      "step": 26700
     },
     {
-      "epoch": 10.12,
-      "learning_rate": 5.487362362362363e-05,
-      "loss": 0.0032,
-      "step": 26967
     },
     {
-      "epoch": 10.22,
-      "learning_rate": 5.431681681681682e-05,
-      "loss": 0.0013,
-      "step": 27234
     },
     {
-      "epoch": 10.32,
-      "learning_rate": 5.3760010010010006e-05,
-      "loss": 0.0009,
-      "step": 27501
     },
     {
-      "epoch": 10.42,
-      "learning_rate": 5.320320320320321e-05,
-      "loss": 0.0039,
-      "step": 27768
     },
     {
-      "epoch": 10.52,
-      "learning_rate": 5.2646396396396403e-05,
-      "loss": 0.0008,
-      "step": 28035
     },
     {
-      "epoch": 10.62,
-      "learning_rate": 5.2089589589589595e-05,
-      "loss": 0.0009,
-      "step": 28302
     },
     {
-      "epoch": 10.72,
-      "learning_rate": 5.153278278278279e-05,
-      "loss": 0.002,
-      "step": 28569
     },
     {
-      "epoch": 10.82,
-      "learning_rate": 5.097597597597597e-05,
-      "loss": 0.0006,
-      "step": 28836
     },
     {
-      "epoch": 10.92,
-      "learning_rate": 5.0419169169169165e-05,
-      "loss": 0.0025,
-      "step": 29103
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.03584469109773636,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8813,
-      "eval_samples_per_second": 406.214,
-      "eval_steps_per_second": 27.232,
-      "step": 29304
     },
     {
-      "epoch": 11.02,
-      "learning_rate": 4.9862362362362363e-05,
-      "loss": 0.0041,
-      "step": 29370
     },
     {
-      "epoch": 11.12,
-      "learning_rate": 4.930555555555556e-05,
-      "loss": 0.0002,
-      "step": 29637
     },
     {
-      "epoch": 11.23,
-      "learning_rate": 4.8748748748748754e-05,
-      "loss": 0.0001,
-      "step": 29904
     },
     {
-      "epoch": 11.33,
-      "learning_rate": 4.819194194194194e-05,
-      "loss": 0.0001,
-      "step": 30171
     },
     {
-      "epoch": 11.43,
-      "learning_rate": 4.763513513513514e-05,
-      "loss": 0.0003,
-      "step": 30438
     },
     {
-      "epoch": 11.53,
-      "learning_rate": 4.707832832832833e-05,
-      "loss": 0.003,
-      "step": 30705
     },
     {
-      "epoch": 11.63,
-      "learning_rate": 4.652152152152152e-05,
-      "loss": 0.0002,
-      "step": 30972
     },
     {
-      "epoch": 11.73,
-      "learning_rate": 4.596471471471472e-05,
-      "loss": 0.0037,
-      "step": 31239
     },
     {
-      "epoch": 11.83,
-      "learning_rate": 4.540790790790791e-05,
-      "loss": 0.0014,
-      "step": 31506
     },
     {
-      "epoch": 11.93,
-      "learning_rate": 4.48511011011011e-05,
-      "loss": 0.0021,
-      "step": 31773
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.04740298539400101,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.881,
-      "eval_samples_per_second": 406.347,
-      "eval_steps_per_second": 27.241,
-      "step": 31968
     },
     {
-      "epoch": 12.03,
-      "learning_rate": 4.42942942942943e-05,
       "loss": 0.0006,
-      "step": 32040
     },
     {
-      "epoch": 12.13,
-      "learning_rate": 4.373748748748749e-05,
-      "loss": 0.0007,
-      "step": 32307
     },
     {
-      "epoch": 12.23,
-      "learning_rate": 4.318068068068069e-05,
-      "loss": 0.0015,
-      "step": 32574
     },
     {
-      "epoch": 12.33,
-      "learning_rate": 4.262387387387388e-05,
-      "loss": 0.0014,
-      "step": 32841
     },
     {
-      "epoch": 12.43,
-      "learning_rate": 4.2067067067067065e-05,
-      "loss": 0.0012,
-      "step": 33108
     },
     {
-      "epoch": 12.53,
-      "learning_rate": 4.1510260260260263e-05,
-      "loss": 0.0019,
-      "step": 33375
     },
     {
-      "epoch": 12.63,
-      "learning_rate": 4.0953453453453455e-05,
-      "loss": 0.0011,
-      "step": 33642
     },
     {
-      "epoch": 12.73,
-      "learning_rate": 4.039664664664665e-05,
-      "loss": 0.0016,
-      "step": 33909
     },
     {
-      "epoch": 12.83,
-      "learning_rate": 3.9839839839839846e-05,
       "loss": 0.0001,
-      "step": 34176
     },
     {
-      "epoch": 12.93,
-      "learning_rate": 3.928303303303303e-05,
-      "loss": 0.0007,
-      "step": 34443
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.0401989221572876,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.887,
-      "eval_samples_per_second": 403.585,
-      "eval_steps_per_second": 27.056,
-      "step": 34632
     },
     {
-      "epoch": 13.03,
-      "learning_rate": 3.8726226226226223e-05,
       "loss": 0.0006,
-      "step": 34710
     },
     {
-      "epoch": 13.13,
-      "learning_rate": 3.816941941941942e-05,
-      "loss": 0.0002,
-      "step": 34977
     },
     {
-      "epoch": 13.23,
-      "learning_rate": 3.7612612612612614e-05,
-      "loss": 0.0012,
-      "step": 35244
     },
     {
-      "epoch": 13.33,
-      "learning_rate": 3.705580580580581e-05,
-      "loss": 0.0027,
-      "step": 35511
     },
     {
-      "epoch": 13.43,
-      "learning_rate": 3.6498998998999e-05,
       "loss": 0.0014,
-      "step": 35778
     },
     {
-      "epoch": 13.53,
-      "learning_rate": 3.594219219219219e-05,
-      "loss": 0.0006,
-      "step": 36045
     },
     {
-      "epoch": 13.63,
-      "learning_rate": 3.538538538538539e-05,
-      "loss": 0.0023,
-      "step": 36312
     },
     {
-      "epoch": 13.73,
-      "learning_rate": 3.482857857857858e-05,
-      "loss": 0.0,
-      "step": 36579
     },
     {
-      "epoch": 13.83,
-      "learning_rate": 3.427177177177177e-05,
-      "loss": 0.0056,
-      "step": 36846
     },
     {
-      "epoch": 13.93,
-      "learning_rate": 3.3714964964964965e-05,
-      "loss": 0.0017,
-      "step": 37113
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.03919493407011032,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8793,
-      "eval_samples_per_second": 407.126,
-      "eval_steps_per_second": 27.293,
-      "step": 37296
     },
     {
-      "epoch": 14.03,
-      "learning_rate": 3.315815815815816e-05,
-      "loss": 0.0002,
-      "step": 37380
     },
     {
-      "epoch": 14.13,
-      "learning_rate": 3.260135135135135e-05,
-      "loss": 0.0012,
-      "step": 37647
     },
     {
-      "epoch": 14.23,
-      "learning_rate": 3.204454454454455e-05,
-      "loss": 0.0009,
-      "step": 37914
     },
     {
-      "epoch": 14.33,
-      "learning_rate": 3.148773773773774e-05,
-      "loss": 0.0006,
-      "step": 38181
     },
     {
-      "epoch": 14.43,
-      "learning_rate": 3.093093093093093e-05,
-      "loss": 0.0006,
-      "step": 38448
     },
     {
-      "epoch": 14.53,
-      "learning_rate": 3.0374124124124127e-05,
-      "loss": 0.0015,
-      "step": 38715
     },
     {
-      "epoch": 14.63,
-      "learning_rate": 2.9817317317317315e-05,
-      "loss": 0.0014,
-      "step": 38982
     },
     {
-      "epoch": 14.73,
-      "learning_rate": 2.9260510510510514e-05,
-      "loss": 0.0009,
-      "step": 39249
     },
     {
-      "epoch": 14.83,
-      "learning_rate": 2.8703703703703706e-05,
-      "loss": 0.0016,
-      "step": 39516
     },
     {
-      "epoch": 14.93,
-      "learning_rate": 2.8146896896896895e-05,
-      "loss": 0.0007,
-      "step": 39783
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.03942238539457321,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8858,
-      "eval_samples_per_second": 404.155,
-      "eval_steps_per_second": 27.094,
-      "step": 39960
     },
     {
-      "epoch": 15.03,
-      "learning_rate": 2.7590090090090094e-05,
       "loss": 0.0003,
-      "step": 40050
     },
     {
-      "epoch": 15.13,
-      "learning_rate": 2.7033283283283286e-05,
       "loss": 0.0002,
-      "step": 40317
     },
     {
-      "epoch": 15.23,
-      "learning_rate": 2.6476476476476474e-05,
-      "loss": 0.0002,
-      "step": 40584
     },
     {
-      "epoch": 15.33,
-      "learning_rate": 2.5919669669669673e-05,
-      "loss": 0.0,
-      "step": 40851
     },
     {
-      "epoch": 15.43,
-      "learning_rate": 2.536286286286286e-05,
-      "loss": 0.0017,
-      "step": 41118
     },
     {
-      "epoch": 15.53,
-      "learning_rate": 2.4806056056056057e-05,
-      "loss": 0.0002,
-      "step": 41385
     },
     {
-      "epoch": 15.64,
-      "learning_rate": 2.4249249249249252e-05,
-      "loss": 0.0007,
-      "step": 41652
     },
     {
-      "epoch": 15.74,
-      "learning_rate": 2.3692442442442444e-05,
       "loss": 0.0001,
-      "step": 41919
     },
     {
-      "epoch": 15.84,
-      "learning_rate": 2.3135635635635636e-05,
-      "loss": 0.0011,
-      "step": 42186
     },
     {
-      "epoch": 15.94,
-      "learning_rate": 2.2578828828828828e-05,
-      "loss": 0.0013,
-      "step": 42453
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.04424785450100899,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8837,
-      "eval_samples_per_second": 405.133,
-      "eval_steps_per_second": 27.16,
-      "step": 42624
     },
     {
-      "epoch": 16.04,
-      "learning_rate": 2.2022022022022024e-05,
-      "loss": 0.0006,
-      "step": 42720
     },
     {
-      "epoch": 16.14,
-      "learning_rate": 2.146521521521522e-05,
-      "loss": 0.0013,
-      "step": 42987
     },
     {
-      "epoch": 16.24,
-      "learning_rate": 2.0908408408408408e-05,
-      "loss": 0.0005,
-      "step": 43254
     },
     {
-      "epoch": 16.34,
-      "learning_rate": 2.0351601601601603e-05,
-      "loss": 0.0008,
-      "step": 43521
     },
     {
-      "epoch": 16.44,
-      "learning_rate": 1.9794794794794795e-05,
       "loss": 0.0003,
-      "step": 43788
     },
     {
-      "epoch": 16.54,
-      "learning_rate": 1.9237987987987987e-05,
-      "loss": 0.0001,
-      "step": 44055
     },
     {
-      "epoch": 16.64,
-      "learning_rate": 1.8681181181181182e-05,
-      "loss": 0.0005,
-      "step": 44322
     },
     {
-      "epoch": 16.74,
-      "learning_rate": 1.8124374374374374e-05,
-      "loss": 0.0026,
-      "step": 44589
     },
     {
-      "epoch": 16.84,
-      "learning_rate": 1.756756756756757e-05,
-      "loss": 0.0008,
-      "step": 44856
     },
     {
-      "epoch": 16.94,
-      "learning_rate": 1.701076076076076e-05,
       "loss": 0.0002,
-      "step": 45123
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.04427039995789528,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8885,
-      "eval_samples_per_second": 402.91,
-      "eval_steps_per_second": 27.011,
-      "step": 45288
     },
     {
-      "epoch": 17.04,
-      "learning_rate": 1.6453953953953954e-05,
-      "loss": 0.0001,
-      "step": 45390
     },
     {
-      "epoch": 17.14,
-      "learning_rate": 1.589714714714715e-05,
-      "loss": 0.0004,
-      "step": 45657
     },
     {
-      "epoch": 17.24,
-      "learning_rate": 1.534034034034034e-05,
-      "loss": 0.0001,
-      "step": 45924
     },
     {
-      "epoch": 17.34,
-      "learning_rate": 1.4783533533533533e-05,
-      "loss": 0.0011,
-      "step": 46191
     },
     {
-      "epoch": 17.44,
-      "learning_rate": 1.4226726726726727e-05,
-      "loss": 0.001,
-      "step": 46458
     },
     {
-      "epoch": 17.54,
-      "learning_rate": 1.3669919919919922e-05,
-      "loss": 0.0003,
-      "step": 46725
     },
     {
-      "epoch": 17.64,
-      "learning_rate": 1.3113113113113112e-05,
-      "loss": 0.0007,
-      "step": 46992
     },
     {
-      "epoch": 17.74,
-      "learning_rate": 1.2556306306306306e-05,
-      "loss": 0.0002,
-      "step": 47259
     },
     {
-      "epoch": 17.84,
-      "learning_rate": 1.19994994994995e-05,
-      "loss": 0.0024,
-      "step": 47526
     },
     {
-      "epoch": 17.94,
-      "learning_rate": 1.1442692692692693e-05,
-      "loss": 0.0013,
-      "step": 47793
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.038870543241500854,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8826,
-      "eval_samples_per_second": 405.621,
-      "eval_steps_per_second": 27.192,
-      "step": 47952
     },
     {
-      "epoch": 18.04,
-      "learning_rate": 1.0885885885885887e-05,
       "loss": 0.0005,
-      "step": 48060
     },
     {
-      "epoch": 18.14,
-      "learning_rate": 1.0329079079079079e-05,
-      "loss": 0.0,
-      "step": 48327
     },
     {
-      "epoch": 18.24,
-      "learning_rate": 9.772272272272273e-06,
-      "loss": 0.0005,
-      "step": 48594
     },
     {
-      "epoch": 18.34,
-      "learning_rate": 9.215465465465466e-06,
-      "loss": 0.0017,
-      "step": 48861
     },
     {
-      "epoch": 18.44,
-      "learning_rate": 8.65865865865866e-06,
       "loss": 0.0003,
-      "step": 49128
     },
     {
-      "epoch": 18.54,
-      "learning_rate": 8.101851851851852e-06,
-      "loss": 0.0012,
-      "step": 49395
     },
     {
-      "epoch": 18.64,
-      "learning_rate": 7.545045045045046e-06,
-      "loss": 0.0,
-      "step": 49662
     },
     {
-      "epoch": 18.74,
-      "learning_rate": 6.9882382382382385e-06,
-      "loss": 0.0011,
-      "step": 49929
     },
     {
-      "epoch": 18.84,
-      "learning_rate": 6.431431431431431e-06,
-      "loss": 0.0013,
-      "step": 50196
     },
     {
-      "epoch": 18.94,
-      "learning_rate": 5.874624624624625e-06,
       "loss": 0.0001,
-      "step": 50463
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.04122824966907501,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8851,
-      "eval_samples_per_second": 404.458,
-      "eval_steps_per_second": 27.114,
-      "step": 50616
     },
     {
-      "epoch": 19.04,
-      "learning_rate": 5.317817817817819e-06,
-      "loss": 0.0012,
-      "step": 50730
     },
     {
-      "epoch": 19.14,
-      "learning_rate": 4.7610110110110115e-06,
       "loss": 0.0001,
-      "step": 50997
     },
     {
-      "epoch": 19.24,
-      "learning_rate": 4.204204204204204e-06,
-      "loss": 0.0002,
-      "step": 51264
     },
     {
-      "epoch": 19.34,
-      "learning_rate": 3.647397397397397e-06,
-      "loss": 0.0,
-      "step": 51531
     },
     {
-      "epoch": 19.44,
-      "learning_rate": 3.090590590590591e-06,
-      "loss": 0.0003,
-      "step": 51798
     },
     {
-      "epoch": 19.54,
-      "learning_rate": 2.533783783783784e-06,
-      "loss": 0.0021,
-      "step": 52065
     },
     {
-      "epoch": 19.64,
-      "learning_rate": 1.976976976976977e-06,
-      "loss": 0.0,
-      "step": 52332
     },
     {
-      "epoch": 19.74,
-      "learning_rate": 1.4201701701701704e-06,
       "loss": 0.0001,
-      "step": 52599
     },
     {
-      "epoch": 19.84,
-      "learning_rate": 8.633633633633634e-07,
-      "loss": 0.0009,
-      "step": 52866
     },
     {
-      "epoch": 19.94,
-      "learning_rate": 3.0655655655655656e-07,
-      "loss": 0.0001,
-      "step": 53133
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.0392613410949707,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.8819,
-      "eval_samples_per_second": 405.923,
-      "eval_steps_per_second": 27.213,
-      "step": 53280
-    },
-    {
-      "epoch": 20.0,
-      "step": 53280,
-      "total_flos": 3.004276018040832e+16,
-      "train_loss": 0.5359516274340651,
-      "train_runtime": 5327.8303,
-      "train_samples_per_second": 149.956,
-      "train_steps_per_second": 10.0
     }
   ],
-  "logging_steps": 267,
-  "max_steps": 53280,
-  "num_train_epochs": 20,
-  "save_steps": 533,
-  "total_flos": 3.004276018040832e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 40.0,
   "eval_steps": 500,
+  "global_step": 106560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 9.384384384384385e-09,
+      "loss": 30.0191,
       "step": 1
     },
     {
       "epoch": 0.2,
+      "learning_rate": 5.001876876876877e-06,
+      "loss": 28.4983,
+      "step": 533
     },
     {
       "epoch": 0.4,
+      "learning_rate": 1.0003753753753754e-05,
+      "loss": 21.5164,
+      "step": 1066
     },
     {
       "epoch": 0.6,
+      "learning_rate": 1.5005630630630632e-05,
+      "loss": 7.132,
+      "step": 1599
     },
     {
       "epoch": 0.8,
+      "learning_rate": 2.000750750750751e-05,
+      "loss": 0.8541,
+      "step": 2132
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.3403850197792053,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 1.1154,
+      "eval_samples_per_second": 320.968,
+      "eval_steps_per_second": 21.517,
       "step": 2664
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.500938438438439e-05,
+      "loss": 0.3348,
+      "step": 2665
     },
     {
       "epoch": 1.2,
+      "learning_rate": 3.0011261261261263e-05,
+      "loss": 0.5279,
+      "step": 3198
     },
     {
       "epoch": 1.4,
+      "learning_rate": 3.501313813813814e-05,
+      "loss": 0.2294,
+      "step": 3731
     },
     {
       "epoch": 1.6,
+      "learning_rate": 4.001501501501502e-05,
+      "loss": 0.0605,
+      "step": 4264
     },
     {
       "epoch": 1.8,
+      "learning_rate": 4.5016891891891895e-05,
+      "loss": 0.0451,
+      "step": 4797
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.060470160096883774,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9182,
+      "eval_samples_per_second": 389.888,
+      "eval_steps_per_second": 26.138,
       "step": 5328
     },
     {
       "epoch": 2.0,
+      "learning_rate": 5.001876876876878e-05,
+      "loss": 0.0605,
+      "step": 5330
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 5.502064564564565e-05,
+      "loss": 0.025,
+      "step": 5863
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 6.0022522522522526e-05,
+      "loss": 0.0193,
+      "step": 6396
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 6.502439939939941e-05,
+      "loss": 0.0153,
+      "step": 6929
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 7.002627627627628e-05,
+      "loss": 0.0112,
+      "step": 7462
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.04112406447529793,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9146,
+      "eval_samples_per_second": 391.418,
+      "eval_steps_per_second": 26.24,
+      "step": 7992
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 7.502815315315315e-05,
       "loss": 0.0109,
+      "step": 7995
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 8.003003003003004e-05,
+      "loss": 0.0095,
+      "step": 8528
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 8.50319069069069e-05,
+      "loss": 0.012,
+      "step": 9061
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 9.003378378378379e-05,
+      "loss": 0.0223,
+      "step": 9594
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 9.503566066066066e-05,
+      "loss": 0.0068,
+      "step": 10127
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.020507752895355225,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9253,
+      "eval_samples_per_second": 386.912,
+      "eval_steps_per_second": 25.938,
+      "step": 10656
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 9.999582916249583e-05,
+      "loss": 0.0077,
+      "step": 10660
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 9.944006506506507e-05,
+      "loss": 0.0058,
+      "step": 11193
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 9.88843009676343e-05,
+      "loss": 0.0072,
+      "step": 11726
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 9.832853687020355e-05,
+      "loss": 0.0097,
+      "step": 12259
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 9.777277277277279e-05,
+      "loss": 0.007,
+      "step": 12792
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.02420434169471264,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9141,
+      "eval_samples_per_second": 391.658,
+      "eval_steps_per_second": 26.256,
+      "step": 13320
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 9.721700867534201e-05,
+      "loss": 0.0049,
+      "step": 13325
     },
     {
+      "epoch": 5.2,
+      "learning_rate": 9.666124457791124e-05,
+      "loss": 0.005,
+      "step": 13858
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 9.610548048048048e-05,
+      "loss": 0.0035,
+      "step": 14391
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 9.554971638304973e-05,
+      "loss": 0.0061,
+      "step": 14924
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 9.499395228561896e-05,
+      "loss": 0.0022,
+      "step": 15457
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.027173461392521858,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9101,
+      "eval_samples_per_second": 393.378,
+      "eval_steps_per_second": 26.372,
+      "step": 15984
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 9.44381881881882e-05,
+      "loss": 0.0048,
+      "step": 15990
     },
     {
+      "epoch": 6.2,
+      "learning_rate": 9.388242409075743e-05,
+      "loss": 0.0053,
+      "step": 16523
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 9.332665999332665e-05,
+      "loss": 0.005,
+      "step": 17056
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 9.27708958958959e-05,
       "loss": 0.0034,
+      "step": 17589
     },
     {
+      "epoch": 6.8,
+      "learning_rate": 9.221513179846514e-05,
+      "loss": 0.0054,
+      "step": 18122
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.008011276833713055,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9187,
+      "eval_samples_per_second": 389.697,
+      "eval_steps_per_second": 26.125,
+      "step": 18648
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 9.165936770103437e-05,
+      "loss": 0.0036,
+      "step": 18655
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 9.110360360360361e-05,
+      "loss": 0.002,
+      "step": 19188
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 9.054783950617284e-05,
+      "loss": 0.0029,
+      "step": 19721
     },
     {
+      "epoch": 7.6,
+      "learning_rate": 8.999207540874208e-05,
+      "loss": 0.0031,
+      "step": 20254
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 8.943631131131131e-05,
+      "loss": 0.0036,
+      "step": 20787
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.025212394073605537,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9136,
+      "eval_samples_per_second": 391.872,
+      "eval_steps_per_second": 26.271,
+      "step": 21312
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 8.888054721388055e-05,
+      "loss": 0.0022,
+      "step": 21320
     },
     {
+      "epoch": 8.2,
+      "learning_rate": 8.832478311644978e-05,
+      "loss": 0.0021,
+      "step": 21853
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 8.776901901901903e-05,
+      "loss": 0.0016,
+      "step": 22386
     },
     {
+      "epoch": 8.6,
+      "learning_rate": 8.721325492158827e-05,
+      "loss": 0.0021,
+      "step": 22919
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 8.665749082415749e-05,
+      "loss": 0.0039,
+      "step": 23452
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.020978303626179695,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9126,
+      "eval_samples_per_second": 392.285,
+      "eval_steps_per_second": 26.298,
+      "step": 23976
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 8.610172672672672e-05,
+      "loss": 0.0032,
+      "step": 23985
     },
     {
+      "epoch": 9.2,
+      "learning_rate": 8.554596262929596e-05,
+      "loss": 0.0027,
+      "step": 24518
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 8.499019853186521e-05,
+      "loss": 0.0022,
+      "step": 25051
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 8.443443443443444e-05,
+      "loss": 0.002,
+      "step": 25584
     },
     {
+      "epoch": 9.8,
+      "learning_rate": 8.387867033700368e-05,
+      "loss": 0.0026,
+      "step": 26117
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.017031751573085785,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9145,
+      "eval_samples_per_second": 391.481,
+      "eval_steps_per_second": 26.245,
+      "step": 26640
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 8.332290623957291e-05,
+      "loss": 0.0014,
+      "step": 26650
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 8.276714214214215e-05,
+      "loss": 0.0016,
+      "step": 27183
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 8.221137804471138e-05,
+      "loss": 0.0045,
+      "step": 27716
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 8.165561394728062e-05,
+      "loss": 0.0017,
+      "step": 28249
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 8.109984984984985e-05,
+      "loss": 0.0026,
+      "step": 28782
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.004335461650043726,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9104,
+      "eval_samples_per_second": 393.245,
+      "eval_steps_per_second": 26.363,
+      "step": 29304
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 8.054408575241909e-05,
+      "loss": 0.0016,
+      "step": 29315
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 7.998832165498832e-05,
+      "loss": 0.0006,
+      "step": 29848
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 7.943255755755756e-05,
+      "loss": 0.0011,
+      "step": 30381
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 7.88767934601268e-05,
       "loss": 0.0009,
+      "step": 30914
     },
     {
+      "epoch": 11.8,
+      "learning_rate": 7.832102936269603e-05,
+      "loss": 0.0029,
+      "step": 31447
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.013542454689741135,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9125,
+      "eval_samples_per_second": 392.323,
+      "eval_steps_per_second": 26.301,
+      "step": 31968
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 7.776526526526526e-05,
+      "loss": 0.0029,
+      "step": 31980
+    },
+    {
+      "epoch": 12.2,
+      "learning_rate": 7.720950116783451e-05,
+      "loss": 0.0008,
+      "step": 32513
+    },
+    {
+      "epoch": 12.4,
+      "learning_rate": 7.665373707040375e-05,
       "loss": 0.0027,
+      "step": 33046
     },
     {
+      "epoch": 12.6,
+      "learning_rate": 7.609797297297297e-05,
+      "loss": 0.0016,
+      "step": 33579
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 7.55422088755422e-05,
+      "loss": 0.0011,
+      "step": 34112
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.03128792718052864,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9117,
+      "eval_samples_per_second": 392.662,
+      "eval_steps_per_second": 26.324,
+      "step": 34632
     },
     {
+      "epoch": 13.0,
+      "learning_rate": 7.498644477811145e-05,
+      "loss": 0.0007,
+      "step": 34645
     },
     {
+      "epoch": 13.2,
+      "learning_rate": 7.443068068068069e-05,
+      "loss": 0.0014,
+      "step": 35178
     },
     {
+      "epoch": 13.41,
+      "learning_rate": 7.387491658324992e-05,
+      "loss": 0.0067,
+      "step": 35711
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 7.331915248581916e-05,
+      "loss": 0.0008,
+      "step": 36244
     },
     {
+      "epoch": 13.81,
+      "learning_rate": 7.27633883883884e-05,
       "loss": 0.0017,
+      "step": 36777
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.03530227765440941,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9178,
+      "eval_samples_per_second": 390.083,
+      "eval_steps_per_second": 26.151,
+      "step": 37296
     },
     {
+      "epoch": 14.01,
+      "learning_rate": 7.220762429095763e-05,
+      "loss": 0.001,
+      "step": 37310
     },
     {
+      "epoch": 14.21,
+      "learning_rate": 7.165186019352686e-05,
+      "loss": 0.001,
+      "step": 37843
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 7.10960960960961e-05,
+      "loss": 0.0012,
+      "step": 38376
+    },
+    {
+      "epoch": 14.61,
+      "learning_rate": 7.054033199866533e-05,
+      "loss": 0.0011,
+      "step": 38909
+    },
+    {
+      "epoch": 14.81,
+      "learning_rate": 6.998456790123458e-05,
+      "loss": 0.0014,
+      "step": 39442
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.011675473302602768,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.916,
+      "eval_samples_per_second": 390.823,
+      "eval_steps_per_second": 26.2,
+      "step": 39960
     },
     {
+      "epoch": 15.01,
+      "learning_rate": 6.94288038038038e-05,
+      "loss": 0.001,
+      "step": 39975
     },
     {
+      "epoch": 15.21,
+      "learning_rate": 6.887303970637304e-05,
+      "loss": 0.0003,
+      "step": 40508
     },
     {
+      "epoch": 15.41,
+      "learning_rate": 6.831727560894227e-05,
+      "loss": 0.002,
+      "step": 41041
     },
     {
+      "epoch": 15.61,
+      "learning_rate": 6.776151151151151e-05,
+      "loss": 0.001,
+      "step": 41574
     },
     {
+      "epoch": 15.81,
+      "learning_rate": 6.720574741408076e-05,
+      "loss": 0.0014,
+      "step": 42107
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.0139808664098382,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9131,
+      "eval_samples_per_second": 392.074,
+      "eval_steps_per_second": 26.284,
+      "step": 42624
     },
     {
+      "epoch": 16.01,
+      "learning_rate": 6.664998331665e-05,
+      "loss": 0.0007,
+      "step": 42640
     },
     {
+      "epoch": 16.21,
+      "learning_rate": 6.609421921921923e-05,
+      "loss": 0.0004,
+      "step": 43173
     },
     {
+      "epoch": 16.41,
+      "learning_rate": 6.553845512178845e-05,
       "loss": 0.0006,
+      "step": 43706
+    },
+    {
+      "epoch": 16.61,
+      "learning_rate": 6.498269102435769e-05,
+      "loss": 0.0017,
+      "step": 44239
     },
     {
+      "epoch": 16.81,
+      "learning_rate": 6.442692692692693e-05,
+      "loss": 0.0013,
+      "step": 44772
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.022025227546691895,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9176,
+      "eval_samples_per_second": 390.127,
+      "eval_steps_per_second": 26.154,
+      "step": 45288
     },
     {
+      "epoch": 17.01,
+      "learning_rate": 6.387116282949617e-05,
+      "loss": 0.0013,
+      "step": 45305
     },
     {
+      "epoch": 17.21,
+      "learning_rate": 6.33153987320654e-05,
+      "loss": 0.0003,
+      "step": 45838
     },
     {
+      "epoch": 17.41,
+      "learning_rate": 6.275963463463464e-05,
       "loss": 0.0011,
+      "step": 46371
     },
     {
+      "epoch": 17.61,
+      "learning_rate": 6.220387053720387e-05,
+      "loss": 0.0004,
+      "step": 46904
     },
     {
+      "epoch": 17.81,
+      "learning_rate": 6.164810643977311e-05,
+      "loss": 0.0009,
+      "step": 47437
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.024678541347384453,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.908,
+      "eval_samples_per_second": 394.28,
+      "eval_steps_per_second": 26.432,
+      "step": 47952
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 6.109234234234234e-05,
+      "loss": 0.0023,
+      "step": 47970
     },
     {
+      "epoch": 18.21,
+      "learning_rate": 6.053657824491158e-05,
+      "loss": 0.0007,
+      "step": 48503
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 5.9980814147480815e-05,
+      "loss": 0.0015,
+      "step": 49036
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 5.9425050050050057e-05,
+      "loss": 0.0004,
+      "step": 49569
     },
     {
+      "epoch": 18.81,
+      "learning_rate": 5.886928595261929e-05,
+      "loss": 0.0017,
+      "step": 50102
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.03220739960670471,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9151,
+      "eval_samples_per_second": 391.2,
+      "eval_steps_per_second": 26.226,
+      "step": 50616
     },
     {
+      "epoch": 19.01,
+      "learning_rate": 5.831352185518853e-05,
+      "loss": 0.0011,
+      "step": 50635
     },
     {
+      "epoch": 19.21,
+      "learning_rate": 5.7757757757757755e-05,
+      "loss": 0.0009,
+      "step": 51168
     },
     {
+      "epoch": 19.41,
+      "learning_rate": 5.720199366032699e-05,
+      "loss": 0.0005,
+      "step": 51701
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 5.664622956289624e-05,
+      "loss": 0.0011,
+      "step": 52234
     },
     {
+      "epoch": 19.81,
+      "learning_rate": 5.609046546546547e-05,
+      "loss": 0.0022,
+      "step": 52767
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.0314439982175827,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9074,
+      "eval_samples_per_second": 394.526,
+      "eval_steps_per_second": 26.449,
+      "step": 53280
     },
     {
+      "epoch": 20.01,
+      "learning_rate": 5.55347013680347e-05,
+      "loss": 0.001,
+      "step": 53300
     },
     {
+      "epoch": 20.21,
+      "learning_rate": 5.497893727060394e-05,
+      "loss": 0.001,
+      "step": 53833
     },
     {
+      "epoch": 20.41,
+      "learning_rate": 5.442317317317318e-05,
+      "loss": 0.0,
+      "step": 54366
     },
     {
+      "epoch": 20.61,
+      "learning_rate": 5.3867409075742415e-05,
+      "loss": 0.0015,
+      "step": 54899
     },
     {
+      "epoch": 20.81,
+      "learning_rate": 5.331164497831165e-05,
+      "loss": 0.0006,
+      "step": 55432
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.030524656176567078,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9097,
+      "eval_samples_per_second": 393.555,
+      "eval_steps_per_second": 26.384,
+      "step": 55944
     },
     {
+      "epoch": 21.01,
+      "learning_rate": 5.275588088088088e-05,
+      "loss": 0.0005,
+      "step": 55965
     },
     {
+      "epoch": 21.21,
+      "learning_rate": 5.220011678345011e-05,
+      "loss": 0.0006,
+      "step": 56498
     },
     {
+      "epoch": 21.41,
+      "learning_rate": 5.164435268601936e-05,
+      "loss": 0.0012,
+      "step": 57031
     },
     {
+      "epoch": 21.61,
+      "learning_rate": 5.108858858858859e-05,
+      "loss": 0.0005,
+      "step": 57564
     },
     {
+      "epoch": 21.81,
+      "learning_rate": 5.0532824491157825e-05,
+      "loss": 0.001,
+      "step": 58097
     },
     {
+      "epoch": 22.0,
+      "eval_loss": 0.029209736734628677,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9114,
+      "eval_samples_per_second": 392.814,
+      "eval_steps_per_second": 26.334,
+      "step": 58608
     },
     {
+      "epoch": 22.01,
+      "learning_rate": 4.997706039372707e-05,
+      "loss": 0.0007,
+      "step": 58630
     },
     {
+      "epoch": 22.21,
+      "learning_rate": 4.94212962962963e-05,
+      "loss": 0.0011,
+      "step": 59163
     },
     {
+      "epoch": 22.41,
+      "learning_rate": 4.886553219886553e-05,
+      "loss": 0.0004,
+      "step": 59696
     },
     {
+      "epoch": 22.61,
+      "learning_rate": 4.830976810143477e-05,
+      "loss": 0.001,
+      "step": 60229
     },
     {
+      "epoch": 22.81,
+      "learning_rate": 4.775400400400401e-05,
+      "loss": 0.0008,
+      "step": 60762
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.03728558123111725,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9095,
+      "eval_samples_per_second": 393.613,
+      "eval_steps_per_second": 26.387,
+      "step": 61272
     },
     {
+      "epoch": 23.01,
+      "learning_rate": 4.719823990657324e-05,
+      "loss": 0.0001,
+      "step": 61295
+    },
+    {
+      "epoch": 23.21,
+      "learning_rate": 4.664247580914248e-05,
       "loss": 0.0006,
+      "step": 61828
     },
     {
+      "epoch": 23.41,
+      "learning_rate": 4.608671171171172e-05,
+      "loss": 0.0002,
+      "step": 62361
     },
     {
+      "epoch": 23.61,
+      "learning_rate": 4.553094761428095e-05,
+      "loss": 0.0009,
+      "step": 62894
     },
     {
+      "epoch": 23.81,
+      "learning_rate": 4.497518351685018e-05,
+      "loss": 0.0008,
+      "step": 63427
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 0.030942877754569054,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9149,
+      "eval_samples_per_second": 391.282,
+      "eval_steps_per_second": 26.231,
+      "step": 63936
     },
     {
+      "epoch": 24.01,
+      "learning_rate": 4.4419419419419425e-05,
+      "loss": 0.0003,
+      "step": 63960
     },
     {
+      "epoch": 24.21,
+      "learning_rate": 4.386365532198865e-05,
+      "loss": 0.0007,
+      "step": 64493
     },
     {
+      "epoch": 24.41,
+      "learning_rate": 4.3307891224557895e-05,
+      "loss": 0.0004,
+      "step": 65026
     },
     {
+      "epoch": 24.61,
+      "learning_rate": 4.275212712712713e-05,
       "loss": 0.0001,
+      "step": 65559
     },
     {
+      "epoch": 24.81,
+      "learning_rate": 4.2196363029696365e-05,
+      "loss": 0.0008,
+      "step": 66092
     },
     {
+      "epoch": 25.0,
+      "eval_loss": 0.038451410830020905,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9087,
+      "eval_samples_per_second": 393.969,
+      "eval_steps_per_second": 26.411,
+      "step": 66600
     },
     {
+      "epoch": 25.01,
+      "learning_rate": 4.16405989322656e-05,
       "loss": 0.0006,
+      "step": 66625
     },
     {
+      "epoch": 25.21,
+      "learning_rate": 4.1084834834834836e-05,
+      "loss": 0.0,
+      "step": 67158
     },
     {
+      "epoch": 25.41,
+      "learning_rate": 4.052907073740407e-05,
+      "loss": 0.0013,
+      "step": 67691
     },
     {
+      "epoch": 25.61,
+      "learning_rate": 3.9973306639973306e-05,
+      "loss": 0.0001,
+      "step": 68224
     },
     {
+      "epoch": 25.81,
+      "learning_rate": 3.941754254254255e-05,
       "loss": 0.0014,
+      "step": 68757
     },
     {
+      "epoch": 26.0,
+      "eval_loss": 0.0133729362860322,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9209,
+      "eval_samples_per_second": 388.755,
+      "eval_steps_per_second": 26.062,
+      "step": 69264
     },
     {
+      "epoch": 26.01,
+      "learning_rate": 3.8861778445111776e-05,
+      "loss": 0.0001,
+      "step": 69290
     },
     {
+      "epoch": 26.21,
+      "learning_rate": 3.830601434768102e-05,
+      "loss": 0.0008,
+      "step": 69823
     },
     {
+      "epoch": 26.41,
+      "learning_rate": 3.775025025025025e-05,
+      "loss": 0.0008,
+      "step": 70356
     },
     {
+      "epoch": 26.61,
+      "learning_rate": 3.719448615281949e-05,
+      "loss": 0.0002,
+      "step": 70889
     },
     {
+      "epoch": 26.81,
+      "learning_rate": 3.663872205538872e-05,
+      "loss": 0.0004,
+      "step": 71422
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.023867754265666008,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9071,
+      "eval_samples_per_second": 394.647,
+      "eval_steps_per_second": 26.457,
+      "step": 71928
     },
     {
+      "epoch": 27.01,
+      "learning_rate": 3.608295795795796e-05,
+      "loss": 0.0009,
+      "step": 71955
     },
     {
+      "epoch": 27.21,
+      "learning_rate": 3.55271938605272e-05,
+      "loss": 0.0005,
+      "step": 72488
     },
     {
+      "epoch": 27.41,
+      "learning_rate": 3.497142976309643e-05,
+      "loss": 0.0007,
+      "step": 73021
     },
     {
+      "epoch": 27.61,
+      "learning_rate": 3.441566566566567e-05,
+      "loss": 0.0001,
+      "step": 73554
     },
     {
+      "epoch": 27.81,
+      "learning_rate": 3.3859901568234906e-05,
+      "loss": 0.0011,
+      "step": 74087
     },
     {
+      "epoch": 28.0,
+      "eval_loss": 0.01642591878771782,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9124,
+      "eval_samples_per_second": 392.371,
+      "eval_steps_per_second": 26.304,
+      "step": 74592
     },
     {
+      "epoch": 28.01,
+      "learning_rate": 3.3304137470804134e-05,
+      "loss": 0.0006,
+      "step": 74620
     },
     {
+      "epoch": 28.21,
+      "learning_rate": 3.2748373373373376e-05,
+      "loss": 0.0008,
+      "step": 75153
     },
     {
+      "epoch": 28.41,
+      "learning_rate": 3.219260927594261e-05,
+      "loss": 0.0005,
+      "step": 75686
     },
     {
+      "epoch": 28.61,
+      "learning_rate": 3.1636845178511846e-05,
+      "loss": 0.0002,
+      "step": 76219
     },
     {
+      "epoch": 28.81,
+      "learning_rate": 3.108108108108108e-05,
+      "loss": 0.0002,
+      "step": 76752
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.018625039607286453,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9144,
+      "eval_samples_per_second": 391.524,
+      "eval_steps_per_second": 26.247,
+      "step": 77256
     },
     {
+      "epoch": 29.01,
+      "learning_rate": 3.052531698365032e-05,
       "loss": 0.0003,
+      "step": 77285
     },
     {
+      "epoch": 29.21,
+      "learning_rate": 2.9969552886219555e-05,
       "loss": 0.0002,
+      "step": 77818
     },
     {
+      "epoch": 29.41,
+      "learning_rate": 2.9413788788788787e-05,
+      "loss": 0.0001,
+      "step": 78351
     },
     {
+      "epoch": 29.61,
+      "learning_rate": 2.8858024691358025e-05,
+      "loss": 0.0013,
+      "step": 78884
     },
     {
+      "epoch": 29.81,
+      "learning_rate": 2.830226059392726e-05,
+      "loss": 0.0001,
+      "step": 79417
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 0.029812639579176903,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9075,
+      "eval_samples_per_second": 394.481,
+      "eval_steps_per_second": 26.446,
+      "step": 79920
     },
     {
+      "epoch": 30.01,
+      "learning_rate": 2.77464964964965e-05,
+      "loss": 0.0012,
+      "step": 79950
     },
     {
+      "epoch": 30.21,
+      "learning_rate": 2.7190732399065734e-05,
+      "loss": 0.0003,
+      "step": 80483
+    },
+    {
+      "epoch": 30.41,
+      "learning_rate": 2.6634968301634972e-05,
       "loss": 0.0001,
+      "step": 81016
     },
     {
+      "epoch": 30.61,
+      "learning_rate": 2.6079204204204204e-05,
+      "loss": 0.0004,
+      "step": 81549
     },
     {
+      "epoch": 30.81,
+      "learning_rate": 2.5523440106773443e-05,
+      "loss": 0.0008,
+      "step": 82082
     },
     {
+      "epoch": 31.0,
+      "eval_loss": 0.027695728465914726,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9096,
+      "eval_samples_per_second": 393.574,
+      "eval_steps_per_second": 26.385,
+      "step": 82584
     },
     {
+      "epoch": 31.01,
+      "learning_rate": 2.4967676009342678e-05,
+      "loss": 0.0008,
+      "step": 82615
     },
     {
+      "epoch": 31.21,
+      "learning_rate": 2.4411911911911913e-05,
+      "loss": 0.0003,
+      "step": 83148
     },
     {
+      "epoch": 31.41,
+      "learning_rate": 2.385614781448115e-05,
+      "loss": 0.0003,
+      "step": 83681
     },
     {
+      "epoch": 31.61,
+      "learning_rate": 2.3300383717050383e-05,
+      "loss": 0.0002,
+      "step": 84214
     },
     {
+      "epoch": 31.81,
+      "learning_rate": 2.2744619619619618e-05,
       "loss": 0.0003,
+      "step": 84747
     },
     {
+      "epoch": 32.0,
+      "eval_loss": 0.03773302584886551,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9096,
+      "eval_samples_per_second": 393.585,
+      "eval_steps_per_second": 26.386,
+      "step": 85248
     },
     {
+      "epoch": 32.01,
+      "learning_rate": 2.2188855522188857e-05,
+      "loss": 0.0007,
+      "step": 85280
     },
     {
+      "epoch": 32.21,
+      "learning_rate": 2.1633091424758092e-05,
+      "loss": 0.001,
+      "step": 85813
     },
     {
+      "epoch": 32.41,
+      "learning_rate": 2.107732732732733e-05,
+      "loss": 0.0002,
+      "step": 86346
     },
     {
+      "epoch": 32.61,
+      "learning_rate": 2.0521563229896565e-05,
       "loss": 0.0002,
+      "step": 86879
     },
     {
+      "epoch": 32.81,
+      "learning_rate": 1.99657991324658e-05,
+      "loss": 0.0003,
+      "step": 87412
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.03536462038755417,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9089,
+      "eval_samples_per_second": 393.87,
+      "eval_steps_per_second": 26.405,
+      "step": 87912
     },
     {
+      "epoch": 33.01,
+      "learning_rate": 1.9410035035035036e-05,
+      "loss": 0.0006,
+      "step": 87945
     },
     {
+      "epoch": 33.21,
+      "learning_rate": 1.885427093760427e-05,
+      "loss": 0.0003,
+      "step": 88478
     },
     {
+      "epoch": 33.41,
+      "learning_rate": 1.8298506840173506e-05,
+      "loss": 0.0003,
+      "step": 89011
     },
     {
+      "epoch": 33.61,
+      "learning_rate": 1.7742742742742744e-05,
+      "loss": 0.0006,
+      "step": 89544
     },
     {
+      "epoch": 33.81,
+      "learning_rate": 1.718697864531198e-05,
+      "loss": 0.0007,
+      "step": 90077
     },
     {
+      "epoch": 34.0,
+      "eval_loss": 0.05854496732354164,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9101,
+      "eval_samples_per_second": 393.356,
+      "eval_steps_per_second": 26.37,
+      "step": 90576
     },
     {
+      "epoch": 34.01,
+      "learning_rate": 1.6631214547881215e-05,
+      "loss": 0.0002,
+      "step": 90610
     },
     {
+      "epoch": 34.21,
+      "learning_rate": 1.6075450450450453e-05,
+      "loss": 0.0006,
+      "step": 91143
     },
     {
+      "epoch": 34.41,
+      "learning_rate": 1.5519686353019688e-05,
+      "loss": 0.0003,
+      "step": 91676
     },
     {
+      "epoch": 34.61,
+      "learning_rate": 1.4963922255588922e-05,
+      "loss": 0.0006,
+      "step": 92209
     },
     {
+      "epoch": 34.81,
+      "learning_rate": 1.4408158158158158e-05,
+      "loss": 0.0005,
+      "step": 92742
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.05680559575557709,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9087,
+      "eval_samples_per_second": 393.956,
+      "eval_steps_per_second": 26.41,
+      "step": 93240
     },
     {
+      "epoch": 35.01,
+      "learning_rate": 1.3852394060727395e-05,
+      "loss": 0.0,
+      "step": 93275
+    },
+    {
+      "epoch": 35.21,
+      "learning_rate": 1.329662996329663e-05,
       "loss": 0.0005,
+      "step": 93808
     },
     {
+      "epoch": 35.41,
+      "learning_rate": 1.2740865865865867e-05,
+      "loss": 0.0002,
+      "step": 94341
     },
     {
+      "epoch": 35.61,
+      "learning_rate": 1.2185101768435102e-05,
+      "loss": 0.0007,
+      "step": 94874
     },
     {
+      "epoch": 35.81,
+      "learning_rate": 1.1629337671004337e-05,
+      "loss": 0.0001,
+      "step": 95407
     },
     {
+      "epoch": 36.0,
+      "eval_loss": 0.05670797452330589,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9196,
+      "eval_samples_per_second": 389.279,
+      "eval_steps_per_second": 26.097,
+      "step": 95904
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 1.1073573573573574e-05,
       "loss": 0.0003,
+      "step": 95940
     },
     {
+      "epoch": 36.21,
+      "learning_rate": 1.0517809476142811e-05,
+      "loss": 0.0004,
+      "step": 96473
     },
     {
+      "epoch": 36.41,
+      "learning_rate": 9.962045378712046e-06,
+      "loss": 0.0002,
+      "step": 97006
     },
     {
+      "epoch": 36.61,
+      "learning_rate": 9.406281281281281e-06,
+      "loss": 0.0006,
+      "step": 97539
     },
     {
+      "epoch": 36.81,
+      "learning_rate": 8.850517183850518e-06,
+      "loss": 0.0009,
+      "step": 98072
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.060491062700748444,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9347,
+      "eval_samples_per_second": 383.022,
+      "eval_steps_per_second": 25.677,
+      "step": 98568
+    },
+    {
+      "epoch": 37.01,
+      "learning_rate": 8.294753086419753e-06,
+      "loss": 0.0002,
+      "step": 98605
+    },
+    {
+      "epoch": 37.21,
+      "learning_rate": 7.738988988988988e-06,
+      "loss": 0.001,
+      "step": 99138
+    },
+    {
+      "epoch": 37.41,
+      "learning_rate": 7.183224891558225e-06,
+      "loss": 0.0003,
+      "step": 99671
     },
     {
+      "epoch": 37.61,
+      "learning_rate": 6.627460794127462e-06,
       "loss": 0.0001,
+      "step": 100204
     },
     {
+      "epoch": 37.81,
+      "learning_rate": 6.071696696696697e-06,
+      "loss": 0.0002,
+      "step": 100737
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.06128498166799545,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9116,
+      "eval_samples_per_second": 392.708,
+      "eval_steps_per_second": 26.327,
+      "step": 101232
     },
     {
+      "epoch": 38.01,
+      "learning_rate": 5.515932599265933e-06,
+      "loss": 0.0002,
+      "step": 101270
     },
     {
+      "epoch": 38.21,
+      "learning_rate": 4.960168501835169e-06,
+      "loss": 0.0002,
+      "step": 101803
+    },
+    {
+      "epoch": 38.41,
+      "learning_rate": 4.404404404404405e-06,
       "loss": 0.0001,
+      "step": 102336
     },
     {
+      "epoch": 38.61,
+      "learning_rate": 3.848640306973641e-06,
+      "loss": 0.0006,
+      "step": 102869
     },
     {
+      "epoch": 38.81,
+      "learning_rate": 3.2928762095428764e-06,
+      "loss": 0.0002,
+      "step": 103402
     },
     {
+      "epoch": 39.0,
+      "eval_loss": 0.05631242319941521,
+      "eval_max_distance": 1,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.9146,
+      "eval_samples_per_second": 391.433,
+      "eval_steps_per_second": 26.241,
+      "step": 103896
     },
     {
+      "epoch": 39.01,
+      "learning_rate": 2.7371121121121123e-06,
+      "loss": 0.0004,
+      "step": 103935
     },
     {
+      "epoch": 39.21,
+      "learning_rate": 2.1813480146813483e-06,
+      "loss": 0.0004,
+      "step": 104468
     },
     {
+      "epoch": 39.41,
+      "learning_rate": 1.625583917250584e-06,
       "loss": 0.0001,
+      "step": 105001
     },
     {
+      "epoch": 39.61,
+      "learning_rate": 1.0698198198198198e-06,
+      "loss": 0.0013,
+      "step": 105534
     },
     {
+      "epoch": 39.81,
+      "learning_rate": 5.140557223890558e-07,
+      "loss": 0.0002,
+      "step": 106067
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 0.06320372968912125,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9155,
+      "eval_samples_per_second": 391.055,
+      "eval_steps_per_second": 26.216,
+      "step": 106560
+    },
+    {
+      "epoch": 40.0,
+      "step": 106560,
+      "total_flos": 6.005678715251712e+16,
+      "train_loss": 0.2983123329788039,
+      "train_runtime": 9788.1362,
+      "train_samples_per_second": 163.251,
+      "train_steps_per_second": 10.887
     }
   ],
+  "logging_steps": 533,
+  "max_steps": 106560,
+  "num_train_epochs": 40,
+  "save_steps": 1066,
+  "total_flos": 6.005678715251712e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c96f8fdbf9fd73c249b43d3bffe70a51dda3b7a8b070e37888600604b3e00bcb
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5e0326a3796f2941f5716fa2fff187aa13e78d8388fdce8869a34735725ca5a
 size 4664