End of training

Browse files

Files changed (5) hide show

README.md +26 -46
model.safetensors +1 -1
runs/Dec24_15-59-58_DESKTOP-A45193E/events.out.tfevents.1703426400.DESKTOP-A45193E +3 -0
trainer_state.json +934 -1128
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0632
 - Mean Distance: 0
 - Max Distance: 1
@@ -37,58 +37,38 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 15
-- eval_batch_size: 15
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 40
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Mean Distance | Max Distance |
-|:-------------:|:-----:|:------:|:---------------:|:-------------:|:------------:|
-| 0.8541        | 1.0   | 2664   | 0.3404          | 0             | 1            |
-| 0.0451        | 2.0   | 5328   | 0.0605          | 0             | 1            |
-| 0.0112        | 3.0   | 7992   | 0.0411          | 0             | 1            |
-| 0.0068        | 4.0   | 10656  | 0.0205          | 0             | 1            |
-| 0.007         | 5.0   | 13320  | 0.0242          | 0             | 1            |
-| 0.0022        | 6.0   | 15984  | 0.0272          | 0             | 1            |
-| 0.0054        | 7.0   | 18648  | 0.0080          | 0             | 1            |
-| 0.0036        | 8.0   | 21312  | 0.0252          | 0             | 1            |
-| 0.0039        | 9.0   | 23976  | 0.0210          | 0             | 1            |
-| 0.0026        | 10.0  | 26640  | 0.0170          | 0             | 1            |
-| 0.0026        | 11.0  | 29304  | 0.0043          | 0             | 1            |
-| 0.0029        | 12.0  | 31968  | 0.0135          | 0             | 1            |
-| 0.0011        | 13.0  | 34632  | 0.0313          | 0             | 1            |
-| 0.0017        | 14.0  | 37296  | 0.0353          | 0             | 1            |
-| 0.0014        | 15.0  | 39960  | 0.0117          | 0             | 1            |
-| 0.0014        | 16.0  | 42624  | 0.0140          | 0             | 1            |
-| 0.0013        | 17.0  | 45288  | 0.0220          | 0             | 1            |
-| 0.0009        | 18.0  | 47952  | 0.0247          | 0             | 1            |
-| 0.0017        | 19.0  | 50616  | 0.0322          | 0             | 1            |
-| 0.0022        | 20.0  | 53280  | 0.0314          | 0             | 1            |
-| 0.0006        | 21.0  | 55944  | 0.0305          | 0             | 1            |
-| 0.001         | 22.0  | 58608  | 0.0292          | 0             | 1            |
-| 0.0008        | 23.0  | 61272  | 0.0373          | 0             | 1            |
-| 0.0008        | 24.0  | 63936  | 0.0309          | 0             | 1            |
-| 0.0008        | 25.0  | 66600  | 0.0385          | 0             | 1            |
-| 0.0014        | 26.0  | 69264  | 0.0134          | 0             | 1            |
-| 0.0004        | 27.0  | 71928  | 0.0239          | 0             | 1            |
-| 0.0011        | 28.0  | 74592  | 0.0164          | 0             | 1            |
-| 0.0002        | 29.0  | 77256  | 0.0186          | 0             | 1            |
-| 0.0001        | 30.0  | 79920  | 0.0298          | 0             | 1            |
-| 0.0008        | 31.0  | 82584  | 0.0277          | 0             | 1            |
-| 0.0003        | 32.0  | 85248  | 0.0377          | 0             | 1            |
-| 0.0003        | 33.0  | 87912  | 0.0354          | 0             | 1            |
-| 0.0007        | 34.0  | 90576  | 0.0585          | 0             | 1            |
-| 0.0005        | 35.0  | 93240  | 0.0568          | 0             | 1            |
-| 0.0001        | 36.0  | 95904  | 0.0567          | 0             | 1            |
-| 0.0009        | 37.0  | 98568  | 0.0605          | 0             | 1            |
-| 0.0002        | 38.0  | 101232 | 0.0613          | 0             | 1            |
-| 0.0002        | 39.0  | 103896 | 0.0563          | 0             | 1            |
-| 0.0002        | 40.0  | 106560 | 0.0632          | 0             | 1            |
 ### Framework versions

 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0102
 - Mean Distance: 0
 - Max Distance: 1
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 32
+- eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 20
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mean Distance | Max Distance |
+|:-------------:|:-----:|:-----:|:---------------:|:-------------:|:------------:|
+| 0.2779        | 1.0   | 1050  | 0.3371          | 0             | 1            |
+| 0.0346        | 2.0   | 2100  | 0.0173          | 0             | 1            |
+| 0.0072        | 3.0   | 3150  | 0.0077          | 0             | 1            |
+| 0.0057        | 4.0   | 4200  | 0.0093          | 0             | 1            |
+| 0.005         | 5.0   | 5250  | 0.0053          | 0             | 1            |
+| 0.002         | 6.0   | 6300  | 0.0056          | 0             | 1            |
+| 0.002         | 7.0   | 7350  | 0.0091          | 0             | 1            |
+| 0.0018        | 8.0   | 8400  | 0.0010          | 0             | 0            |
+| 0.0044        | 9.0   | 9450  | 0.0043          | 0             | 1            |
+| 0.0024        | 10.0  | 10500 | 0.0048          | 0             | 1            |
+| 0.0032        | 11.0  | 11550 | 0.0023          | 0             | 1            |
+| 0.0028        | 12.0  | 12600 | 0.0003          | 0             | 0            |
+| 0.0005        | 13.0  | 13650 | 0.0008          | 0             | 0            |
+| 0.0026        | 14.0  | 14700 | 0.0012          | 0             | 1            |
+| 0.0011        | 15.0  | 15750 | 0.0171          | 0             | 1            |
+| 0.0           | 16.0  | 16800 | 0.0120          | 0             | 1            |
+| 0.0001        | 17.0  | 17850 | 0.0031          | 0             | 1            |
+| 0.0007        | 18.0  | 18900 | 0.0165          | 0             | 1            |
+| 0.001         | 19.0  | 19950 | 0.0194          | 0             | 1            |
+| 0.0001        | 20.0  | 21000 | 0.0102          | 0             | 1            |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b231aefa39c9a5055819cb061fe2728111c61d5f415f2208c6a2c7bf69d4cb02
 size 1200729512

 version https://git-lfs.github.com/spec/v1
+oid sha256:3180de15bd1c09f657d097a414082e5c3e98ebfdc101611626b6fa3b1747f1b1
 size 1200729512

runs/Dec24_15-59-58_DESKTOP-A45193E/events.out.tfevents.1703426400.DESKTOP-A45193E ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7842d3f87b74287c68edf2154dcc5ab5d5b83fbe3845a0ab47a267e345b37245
+size 44083

trainer_state.json CHANGED Viewed

@@ -1,1628 +1,1434 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 40.0,
   "eval_steps": 500,
-  "global_step": 106560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 9.384384384384385e-09,
-      "loss": 30.0191,
       "step": 1
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 5.001876876876877e-06,
-      "loss": 28.4983,
-      "step": 533
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 1.0003753753753754e-05,
-      "loss": 21.5164,
-      "step": 1066
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 1.5005630630630632e-05,
-      "loss": 7.132,
-      "step": 1599
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 2.000750750750751e-05,
-      "loss": 0.8541,
-      "step": 2132
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.3403850197792053,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 1.1154,
-      "eval_samples_per_second": 320.968,
-      "eval_steps_per_second": 21.517,
-      "step": 2664
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 2.500938438438439e-05,
-      "loss": 0.3348,
-      "step": 2665
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 3.0011261261261263e-05,
-      "loss": 0.5279,
-      "step": 3198
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 3.501313813813814e-05,
-      "loss": 0.2294,
-      "step": 3731
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 4.001501501501502e-05,
-      "loss": 0.0605,
-      "step": 4264
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 4.5016891891891895e-05,
-      "loss": 0.0451,
-      "step": 4797
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.060470160096883774,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9182,
-      "eval_samples_per_second": 389.888,
-      "eval_steps_per_second": 26.138,
-      "step": 5328
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 5.001876876876878e-05,
-      "loss": 0.0605,
-      "step": 5330
     },
     {
-      "epoch": 2.2,
-      "learning_rate": 5.502064564564565e-05,
-      "loss": 0.025,
-      "step": 5863
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 6.0022522522522526e-05,
-      "loss": 0.0193,
-      "step": 6396
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 6.502439939939941e-05,
-      "loss": 0.0153,
-      "step": 6929
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 7.002627627627628e-05,
-      "loss": 0.0112,
-      "step": 7462
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.04112406447529793,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9146,
-      "eval_samples_per_second": 391.418,
-      "eval_steps_per_second": 26.24,
-      "step": 7992
     },
     {
-      "epoch": 3.0,
-      "learning_rate": 7.502815315315315e-05,
-      "loss": 0.0109,
-      "step": 7995
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 8.003003003003004e-05,
-      "loss": 0.0095,
-      "step": 8528
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 8.50319069069069e-05,
-      "loss": 0.012,
-      "step": 9061
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 9.003378378378379e-05,
-      "loss": 0.0223,
-      "step": 9594
     },
     {
-      "epoch": 3.8,
-      "learning_rate": 9.503566066066066e-05,
-      "loss": 0.0068,
-      "step": 10127
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.020507752895355225,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9253,
-      "eval_samples_per_second": 386.912,
-      "eval_steps_per_second": 25.938,
-      "step": 10656
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 9.999582916249583e-05,
-      "loss": 0.0077,
-      "step": 10660
     },
     {
-      "epoch": 4.2,
-      "learning_rate": 9.944006506506507e-05,
-      "loss": 0.0058,
-      "step": 11193
-    },
-    {
-      "epoch": 4.4,
-      "learning_rate": 9.88843009676343e-05,
-      "loss": 0.0072,
-      "step": 11726
     },
     {
-      "epoch": 4.6,
-      "learning_rate": 9.832853687020355e-05,
-      "loss": 0.0097,
-      "step": 12259
     },
     {
-      "epoch": 4.8,
-      "learning_rate": 9.777277277277279e-05,
-      "loss": 0.007,
-      "step": 12792
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.02420434169471264,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9141,
-      "eval_samples_per_second": 391.658,
-      "eval_steps_per_second": 26.256,
-      "step": 13320
     },
     {
-      "epoch": 5.0,
-      "learning_rate": 9.721700867534201e-05,
-      "loss": 0.0049,
-      "step": 13325
     },
     {
-      "epoch": 5.2,
-      "learning_rate": 9.666124457791124e-05,
-      "loss": 0.005,
-      "step": 13858
     },
     {
-      "epoch": 5.4,
-      "learning_rate": 9.610548048048048e-05,
-      "loss": 0.0035,
-      "step": 14391
     },
     {
-      "epoch": 5.6,
-      "learning_rate": 9.554971638304973e-05,
-      "loss": 0.0061,
-      "step": 14924
     },
     {
-      "epoch": 5.8,
-      "learning_rate": 9.499395228561896e-05,
-      "loss": 0.0022,
-      "step": 15457
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.027173461392521858,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9101,
-      "eval_samples_per_second": 393.378,
-      "eval_steps_per_second": 26.372,
-      "step": 15984
-    },
-    {
-      "epoch": 6.0,
-      "learning_rate": 9.44381881881882e-05,
-      "loss": 0.0048,
-      "step": 15990
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 9.388242409075743e-05,
-      "loss": 0.0053,
-      "step": 16523
     },
     {
-      "epoch": 6.4,
-      "learning_rate": 9.332665999332665e-05,
-      "loss": 0.005,
-      "step": 17056
     },
     {
-      "epoch": 6.6,
-      "learning_rate": 9.27708958958959e-05,
-      "loss": 0.0034,
-      "step": 17589
     },
     {
-      "epoch": 6.8,
-      "learning_rate": 9.221513179846514e-05,
-      "loss": 0.0054,
-      "step": 18122
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.008011276833713055,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9187,
-      "eval_samples_per_second": 389.697,
-      "eval_steps_per_second": 26.125,
-      "step": 18648
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 9.165936770103437e-05,
-      "loss": 0.0036,
-      "step": 18655
     },
     {
-      "epoch": 7.2,
-      "learning_rate": 9.110360360360361e-05,
-      "loss": 0.002,
-      "step": 19188
     },
     {
-      "epoch": 7.4,
-      "learning_rate": 9.054783950617284e-05,
-      "loss": 0.0029,
-      "step": 19721
     },
     {
-      "epoch": 7.6,
-      "learning_rate": 8.999207540874208e-05,
-      "loss": 0.0031,
-      "step": 20254
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 8.943631131131131e-05,
-      "loss": 0.0036,
-      "step": 20787
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.025212394073605537,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9136,
-      "eval_samples_per_second": 391.872,
-      "eval_steps_per_second": 26.271,
-      "step": 21312
     },
     {
-      "epoch": 8.0,
-      "learning_rate": 8.888054721388055e-05,
-      "loss": 0.0022,
-      "step": 21320
-    },
-    {
-      "epoch": 8.2,
-      "learning_rate": 8.832478311644978e-05,
-      "loss": 0.0021,
-      "step": 21853
     },
     {
-      "epoch": 8.4,
-      "learning_rate": 8.776901901901903e-05,
-      "loss": 0.0016,
-      "step": 22386
     },
     {
-      "epoch": 8.6,
-      "learning_rate": 8.721325492158827e-05,
-      "loss": 0.0021,
-      "step": 22919
     },
     {
-      "epoch": 8.8,
-      "learning_rate": 8.665749082415749e-05,
-      "loss": 0.0039,
-      "step": 23452
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.020978303626179695,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9126,
-      "eval_samples_per_second": 392.285,
-      "eval_steps_per_second": 26.298,
-      "step": 23976
     },
     {
-      "epoch": 9.0,
-      "learning_rate": 8.610172672672672e-05,
-      "loss": 0.0032,
-      "step": 23985
     },
     {
-      "epoch": 9.2,
-      "learning_rate": 8.554596262929596e-05,
-      "loss": 0.0027,
-      "step": 24518
     },
     {
-      "epoch": 9.4,
-      "learning_rate": 8.499019853186521e-05,
-      "loss": 0.0022,
-      "step": 25051
     },
     {
-      "epoch": 9.6,
-      "learning_rate": 8.443443443443444e-05,
-      "loss": 0.002,
-      "step": 25584
     },
     {
-      "epoch": 9.8,
-      "learning_rate": 8.387867033700368e-05,
-      "loss": 0.0026,
-      "step": 26117
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.017031751573085785,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9145,
-      "eval_samples_per_second": 391.481,
-      "eval_steps_per_second": 26.245,
-      "step": 26640
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 8.332290623957291e-05,
-      "loss": 0.0014,
-      "step": 26650
     },
     {
-      "epoch": 10.2,
-      "learning_rate": 8.276714214214215e-05,
-      "loss": 0.0016,
-      "step": 27183
     },
     {
-      "epoch": 10.4,
-      "learning_rate": 8.221137804471138e-05,
-      "loss": 0.0045,
-      "step": 27716
-    },
-    {
-      "epoch": 10.6,
-      "learning_rate": 8.165561394728062e-05,
-      "loss": 0.0017,
-      "step": 28249
-    },
-    {
-      "epoch": 10.8,
-      "learning_rate": 8.109984984984985e-05,
-      "loss": 0.0026,
-      "step": 28782
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.004335461650043726,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9104,
-      "eval_samples_per_second": 393.245,
-      "eval_steps_per_second": 26.363,
-      "step": 29304
     },
     {
-      "epoch": 11.0,
-      "learning_rate": 8.054408575241909e-05,
       "loss": 0.0016,
-      "step": 29315
-    },
-    {
-      "epoch": 11.2,
-      "learning_rate": 7.998832165498832e-05,
-      "loss": 0.0006,
-      "step": 29848
-    },
-    {
-      "epoch": 11.4,
-      "learning_rate": 7.943255755755756e-05,
-      "loss": 0.0011,
-      "step": 30381
-    },
-    {
-      "epoch": 11.6,
-      "learning_rate": 7.88767934601268e-05,
-      "loss": 0.0009,
-      "step": 30914
     },
     {
-      "epoch": 11.8,
-      "learning_rate": 7.832102936269603e-05,
-      "loss": 0.0029,
-      "step": 31447
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.013542454689741135,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9125,
-      "eval_samples_per_second": 392.323,
-      "eval_steps_per_second": 26.301,
-      "step": 31968
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 7.776526526526526e-05,
       "loss": 0.0029,
-      "step": 31980
     },
     {
-      "epoch": 12.2,
-      "learning_rate": 7.720950116783451e-05,
-      "loss": 0.0008,
-      "step": 32513
     },
     {
-      "epoch": 12.4,
-      "learning_rate": 7.665373707040375e-05,
-      "loss": 0.0027,
-      "step": 33046
     },
     {
-      "epoch": 12.6,
-      "learning_rate": 7.609797297297297e-05,
-      "loss": 0.0016,
-      "step": 33579
     },
     {
-      "epoch": 12.8,
-      "learning_rate": 7.55422088755422e-05,
-      "loss": 0.0011,
-      "step": 34112
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.03128792718052864,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9117,
-      "eval_samples_per_second": 392.662,
-      "eval_steps_per_second": 26.324,
-      "step": 34632
     },
     {
-      "epoch": 13.0,
-      "learning_rate": 7.498644477811145e-05,
-      "loss": 0.0007,
-      "step": 34645
-    },
-    {
-      "epoch": 13.2,
-      "learning_rate": 7.443068068068069e-05,
-      "loss": 0.0014,
-      "step": 35178
     },
     {
-      "epoch": 13.41,
-      "learning_rate": 7.387491658324992e-05,
-      "loss": 0.0067,
-      "step": 35711
     },
     {
-      "epoch": 13.61,
-      "learning_rate": 7.331915248581916e-05,
-      "loss": 0.0008,
-      "step": 36244
     },
     {
-      "epoch": 13.81,
-      "learning_rate": 7.27633883883884e-05,
-      "loss": 0.0017,
-      "step": 36777
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.03530227765440941,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9178,
-      "eval_samples_per_second": 390.083,
-      "eval_steps_per_second": 26.151,
-      "step": 37296
     },
     {
-      "epoch": 14.01,
-      "learning_rate": 7.220762429095763e-05,
-      "loss": 0.001,
-      "step": 37310
     },
     {
-      "epoch": 14.21,
-      "learning_rate": 7.165186019352686e-05,
-      "loss": 0.001,
-      "step": 37843
     },
     {
-      "epoch": 14.41,
-      "learning_rate": 7.10960960960961e-05,
-      "loss": 0.0012,
-      "step": 38376
     },
     {
-      "epoch": 14.61,
-      "learning_rate": 7.054033199866533e-05,
-      "loss": 0.0011,
-      "step": 38909
     },
     {
-      "epoch": 14.81,
-      "learning_rate": 6.998456790123458e-05,
-      "loss": 0.0014,
-      "step": 39442
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.011675473302602768,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.916,
-      "eval_samples_per_second": 390.823,
-      "eval_steps_per_second": 26.2,
-      "step": 39960
-    },
-    {
-      "epoch": 15.01,
-      "learning_rate": 6.94288038038038e-05,
-      "loss": 0.001,
-      "step": 39975
     },
     {
-      "epoch": 15.21,
-      "learning_rate": 6.887303970637304e-05,
-      "loss": 0.0003,
-      "step": 40508
     },
     {
-      "epoch": 15.41,
-      "learning_rate": 6.831727560894227e-05,
-      "loss": 0.002,
-      "step": 41041
     },
     {
-      "epoch": 15.61,
-      "learning_rate": 6.776151151151151e-05,
-      "loss": 0.001,
-      "step": 41574
     },
     {
-      "epoch": 15.81,
-      "learning_rate": 6.720574741408076e-05,
-      "loss": 0.0014,
-      "step": 42107
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.0139808664098382,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9131,
-      "eval_samples_per_second": 392.074,
-      "eval_steps_per_second": 26.284,
-      "step": 42624
     },
     {
-      "epoch": 16.01,
-      "learning_rate": 6.664998331665e-05,
-      "loss": 0.0007,
-      "step": 42640
     },
     {
-      "epoch": 16.21,
-      "learning_rate": 6.609421921921923e-05,
-      "loss": 0.0004,
-      "step": 43173
     },
     {
-      "epoch": 16.41,
-      "learning_rate": 6.553845512178845e-05,
-      "loss": 0.0006,
-      "step": 43706
     },
     {
-      "epoch": 16.61,
-      "learning_rate": 6.498269102435769e-05,
-      "loss": 0.0017,
-      "step": 44239
     },
     {
-      "epoch": 16.81,
-      "learning_rate": 6.442692692692693e-05,
-      "loss": 0.0013,
-      "step": 44772
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.022025227546691895,
-      "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9176,
-      "eval_samples_per_second": 390.127,
-      "eval_steps_per_second": 26.154,
-      "step": 45288
     },
     {
-      "epoch": 17.01,
-      "learning_rate": 6.387116282949617e-05,
-      "loss": 0.0013,
-      "step": 45305
     },
     {
-      "epoch": 17.21,
-      "learning_rate": 6.33153987320654e-05,
-      "loss": 0.0003,
-      "step": 45838
-    },
-    {
-      "epoch": 17.41,
-      "learning_rate": 6.275963463463464e-05,
-      "loss": 0.0011,
-      "step": 46371
     },
     {
-      "epoch": 17.61,
-      "learning_rate": 6.220387053720387e-05,
-      "loss": 0.0004,
-      "step": 46904
     },
     {
-      "epoch": 17.81,
-      "learning_rate": 6.164810643977311e-05,
-      "loss": 0.0009,
-      "step": 47437
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.024678541347384453,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.908,
-      "eval_samples_per_second": 394.28,
-      "eval_steps_per_second": 26.432,
-      "step": 47952
     },
     {
-      "epoch": 18.01,
-      "learning_rate": 6.109234234234234e-05,
-      "loss": 0.0023,
-      "step": 47970
     },
     {
-      "epoch": 18.21,
-      "learning_rate": 6.053657824491158e-05,
-      "loss": 0.0007,
-      "step": 48503
     },
     {
-      "epoch": 18.41,
-      "learning_rate": 5.9980814147480815e-05,
-      "loss": 0.0015,
-      "step": 49036
     },
     {
-      "epoch": 18.61,
-      "learning_rate": 5.9425050050050057e-05,
-      "loss": 0.0004,
-      "step": 49569
     },
     {
-      "epoch": 18.81,
-      "learning_rate": 5.886928595261929e-05,
-      "loss": 0.0017,
-      "step": 50102
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.03220739960670471,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9151,
-      "eval_samples_per_second": 391.2,
-      "eval_steps_per_second": 26.226,
-      "step": 50616
     },
     {
-      "epoch": 19.01,
-      "learning_rate": 5.831352185518853e-05,
-      "loss": 0.0011,
-      "step": 50635
-    },
-    {
-      "epoch": 19.21,
-      "learning_rate": 5.7757757757757755e-05,
-      "loss": 0.0009,
-      "step": 51168
     },
     {
-      "epoch": 19.41,
-      "learning_rate": 5.720199366032699e-05,
-      "loss": 0.0005,
-      "step": 51701
     },
     {
-      "epoch": 19.61,
-      "learning_rate": 5.664622956289624e-05,
-      "loss": 0.0011,
-      "step": 52234
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 5.609046546546547e-05,
-      "loss": 0.0022,
-      "step": 52767
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.0314439982175827,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9074,
-      "eval_samples_per_second": 394.526,
-      "eval_steps_per_second": 26.449,
-      "step": 53280
     },
     {
-      "epoch": 20.01,
-      "learning_rate": 5.55347013680347e-05,
-      "loss": 0.001,
-      "step": 53300
     },
     {
-      "epoch": 20.21,
-      "learning_rate": 5.497893727060394e-05,
-      "loss": 0.001,
-      "step": 53833
     },
     {
-      "epoch": 20.41,
-      "learning_rate": 5.442317317317318e-05,
-      "loss": 0.0,
-      "step": 54366
     },
     {
-      "epoch": 20.61,
-      "learning_rate": 5.3867409075742415e-05,
-      "loss": 0.0015,
-      "step": 54899
     },
     {
-      "epoch": 20.81,
-      "learning_rate": 5.331164497831165e-05,
-      "loss": 0.0006,
-      "step": 55432
     },
     {
-      "epoch": 21.0,
-      "eval_loss": 0.030524656176567078,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9097,
-      "eval_samples_per_second": 393.555,
-      "eval_steps_per_second": 26.384,
-      "step": 55944
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 5.275588088088088e-05,
-      "loss": 0.0005,
-      "step": 55965
     },
     {
-      "epoch": 21.21,
-      "learning_rate": 5.220011678345011e-05,
-      "loss": 0.0006,
-      "step": 56498
     },
     {
-      "epoch": 21.41,
-      "learning_rate": 5.164435268601936e-05,
-      "loss": 0.0012,
-      "step": 57031
     },
     {
-      "epoch": 21.61,
-      "learning_rate": 5.108858858858859e-05,
-      "loss": 0.0005,
-      "step": 57564
     },
     {
-      "epoch": 21.81,
-      "learning_rate": 5.0532824491157825e-05,
-      "loss": 0.001,
-      "step": 58097
     },
     {
-      "epoch": 22.0,
-      "eval_loss": 0.029209736734628677,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9114,
-      "eval_samples_per_second": 392.814,
-      "eval_steps_per_second": 26.334,
-      "step": 58608
     },
     {
-      "epoch": 22.01,
-      "learning_rate": 4.997706039372707e-05,
-      "loss": 0.0007,
-      "step": 58630
     },
     {
-      "epoch": 22.21,
-      "learning_rate": 4.94212962962963e-05,
-      "loss": 0.0011,
-      "step": 59163
     },
     {
-      "epoch": 22.41,
-      "learning_rate": 4.886553219886553e-05,
-      "loss": 0.0004,
-      "step": 59696
     },
     {
-      "epoch": 22.61,
-      "learning_rate": 4.830976810143477e-05,
-      "loss": 0.001,
-      "step": 60229
     },
     {
-      "epoch": 22.81,
-      "learning_rate": 4.775400400400401e-05,
-      "loss": 0.0008,
-      "step": 60762
     },
     {
-      "epoch": 23.0,
-      "eval_loss": 0.03728558123111725,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9095,
-      "eval_samples_per_second": 393.613,
-      "eval_steps_per_second": 26.387,
-      "step": 61272
     },
     {
-      "epoch": 23.01,
-      "learning_rate": 4.719823990657324e-05,
-      "loss": 0.0001,
-      "step": 61295
     },
     {
-      "epoch": 23.21,
-      "learning_rate": 4.664247580914248e-05,
-      "loss": 0.0006,
-      "step": 61828
     },
     {
-      "epoch": 23.41,
-      "learning_rate": 4.608671171171172e-05,
-      "loss": 0.0002,
-      "step": 62361
     },
     {
-      "epoch": 23.61,
-      "learning_rate": 4.553094761428095e-05,
-      "loss": 0.0009,
-      "step": 62894
     },
     {
-      "epoch": 23.81,
-      "learning_rate": 4.497518351685018e-05,
-      "loss": 0.0008,
-      "step": 63427
     },
     {
-      "epoch": 24.0,
-      "eval_loss": 0.030942877754569054,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9149,
-      "eval_samples_per_second": 391.282,
-      "eval_steps_per_second": 26.231,
-      "step": 63936
     },
     {
-      "epoch": 24.01,
-      "learning_rate": 4.4419419419419425e-05,
-      "loss": 0.0003,
-      "step": 63960
     },
     {
-      "epoch": 24.21,
-      "learning_rate": 4.386365532198865e-05,
-      "loss": 0.0007,
-      "step": 64493
     },
     {
-      "epoch": 24.41,
-      "learning_rate": 4.3307891224557895e-05,
-      "loss": 0.0004,
-      "step": 65026
     },
     {
-      "epoch": 24.61,
-      "learning_rate": 4.275212712712713e-05,
-      "loss": 0.0001,
-      "step": 65559
     },
     {
-      "epoch": 24.81,
-      "learning_rate": 4.2196363029696365e-05,
-      "loss": 0.0008,
-      "step": 66092
     },
     {
-      "epoch": 25.0,
-      "eval_loss": 0.038451410830020905,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9087,
-      "eval_samples_per_second": 393.969,
-      "eval_steps_per_second": 26.411,
-      "step": 66600
     },
     {
-      "epoch": 25.01,
-      "learning_rate": 4.16405989322656e-05,
-      "loss": 0.0006,
-      "step": 66625
     },
     {
-      "epoch": 25.21,
-      "learning_rate": 4.1084834834834836e-05,
-      "loss": 0.0,
-      "step": 67158
     },
     {
-      "epoch": 25.41,
-      "learning_rate": 4.052907073740407e-05,
-      "loss": 0.0013,
-      "step": 67691
     },
     {
-      "epoch": 25.61,
-      "learning_rate": 3.9973306639973306e-05,
       "loss": 0.0001,
-      "step": 68224
     },
     {
-      "epoch": 25.81,
-      "learning_rate": 3.941754254254255e-05,
-      "loss": 0.0014,
-      "step": 68757
     },
     {
-      "epoch": 26.0,
-      "eval_loss": 0.0133729362860322,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9209,
-      "eval_samples_per_second": 388.755,
-      "eval_steps_per_second": 26.062,
-      "step": 69264
     },
     {
-      "epoch": 26.01,
-      "learning_rate": 3.8861778445111776e-05,
-      "loss": 0.0001,
-      "step": 69290
     },
     {
-      "epoch": 26.21,
-      "learning_rate": 3.830601434768102e-05,
-      "loss": 0.0008,
-      "step": 69823
     },
     {
-      "epoch": 26.41,
-      "learning_rate": 3.775025025025025e-05,
-      "loss": 0.0008,
-      "step": 70356
     },
     {
-      "epoch": 26.61,
-      "learning_rate": 3.719448615281949e-05,
-      "loss": 0.0002,
-      "step": 70889
     },
     {
-      "epoch": 26.81,
-      "learning_rate": 3.663872205538872e-05,
       "loss": 0.0004,
-      "step": 71422
     },
     {
-      "epoch": 27.0,
-      "eval_loss": 0.023867754265666008,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9071,
-      "eval_samples_per_second": 394.647,
-      "eval_steps_per_second": 26.457,
-      "step": 71928
     },
     {
-      "epoch": 27.01,
-      "learning_rate": 3.608295795795796e-05,
-      "loss": 0.0009,
-      "step": 71955
     },
     {
-      "epoch": 27.21,
-      "learning_rate": 3.55271938605272e-05,
-      "loss": 0.0005,
-      "step": 72488
     },
     {
-      "epoch": 27.41,
-      "learning_rate": 3.497142976309643e-05,
-      "loss": 0.0007,
-      "step": 73021
     },
     {
-      "epoch": 27.61,
-      "learning_rate": 3.441566566566567e-05,
       "loss": 0.0001,
-      "step": 73554
     },
     {
-      "epoch": 27.81,
-      "learning_rate": 3.3859901568234906e-05,
-      "loss": 0.0011,
-      "step": 74087
     },
     {
-      "epoch": 28.0,
-      "eval_loss": 0.01642591878771782,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9124,
-      "eval_samples_per_second": 392.371,
-      "eval_steps_per_second": 26.304,
-      "step": 74592
     },
     {
-      "epoch": 28.01,
-      "learning_rate": 3.3304137470804134e-05,
-      "loss": 0.0006,
-      "step": 74620
     },
     {
-      "epoch": 28.21,
-      "learning_rate": 3.2748373373373376e-05,
       "loss": 0.0008,
-      "step": 75153
     },
     {
-      "epoch": 28.41,
-      "learning_rate": 3.219260927594261e-05,
       "loss": 0.0005,
-      "step": 75686
     },
     {
-      "epoch": 28.61,
-      "learning_rate": 3.1636845178511846e-05,
-      "loss": 0.0002,
-      "step": 76219
-    },
-    {
-      "epoch": 28.81,
-      "learning_rate": 3.108108108108108e-05,
-      "loss": 0.0002,
-      "step": 76752
     },
     {
-      "epoch": 29.0,
-      "eval_loss": 0.018625039607286453,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9144,
-      "eval_samples_per_second": 391.524,
-      "eval_steps_per_second": 26.247,
-      "step": 77256
     },
     {
-      "epoch": 29.01,
-      "learning_rate": 3.052531698365032e-05,
-      "loss": 0.0003,
-      "step": 77285
     },
     {
-      "epoch": 29.21,
-      "learning_rate": 2.9969552886219555e-05,
-      "loss": 0.0002,
-      "step": 77818
     },
     {
-      "epoch": 29.41,
-      "learning_rate": 2.9413788788788787e-05,
-      "loss": 0.0001,
-      "step": 78351
     },
     {
-      "epoch": 29.61,
-      "learning_rate": 2.8858024691358025e-05,
-      "loss": 0.0013,
-      "step": 78884
     },
     {
-      "epoch": 29.81,
-      "learning_rate": 2.830226059392726e-05,
-      "loss": 0.0001,
-      "step": 79417
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 0.029812639579176903,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9075,
-      "eval_samples_per_second": 394.481,
-      "eval_steps_per_second": 26.446,
-      "step": 79920
     },
     {
-      "epoch": 30.01,
-      "learning_rate": 2.77464964964965e-05,
-      "loss": 0.0012,
-      "step": 79950
     },
     {
-      "epoch": 30.21,
-      "learning_rate": 2.7190732399065734e-05,
-      "loss": 0.0003,
-      "step": 80483
     },
     {
-      "epoch": 30.41,
-      "learning_rate": 2.6634968301634972e-05,
       "loss": 0.0001,
-      "step": 81016
     },
     {
-      "epoch": 30.61,
-      "learning_rate": 2.6079204204204204e-05,
-      "loss": 0.0004,
-      "step": 81549
     },
     {
-      "epoch": 30.81,
-      "learning_rate": 2.5523440106773443e-05,
-      "loss": 0.0008,
-      "step": 82082
     },
     {
-      "epoch": 31.0,
-      "eval_loss": 0.027695728465914726,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9096,
-      "eval_samples_per_second": 393.574,
-      "eval_steps_per_second": 26.385,
-      "step": 82584
     },
     {
-      "epoch": 31.01,
-      "learning_rate": 2.4967676009342678e-05,
       "loss": 0.0008,
-      "step": 82615
-    },
-    {
-      "epoch": 31.21,
-      "learning_rate": 2.4411911911911913e-05,
-      "loss": 0.0003,
-      "step": 83148
     },
     {
-      "epoch": 31.41,
-      "learning_rate": 2.385614781448115e-05,
-      "loss": 0.0003,
-      "step": 83681
     },
     {
-      "epoch": 31.61,
-      "learning_rate": 2.3300383717050383e-05,
       "loss": 0.0002,
-      "step": 84214
     },
     {
-      "epoch": 31.81,
-      "learning_rate": 2.2744619619619618e-05,
-      "loss": 0.0003,
-      "step": 84747
     },
     {
-      "epoch": 32.0,
-      "eval_loss": 0.03773302584886551,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9096,
-      "eval_samples_per_second": 393.585,
-      "eval_steps_per_second": 26.386,
-      "step": 85248
     },
     {
-      "epoch": 32.01,
-      "learning_rate": 2.2188855522188857e-05,
-      "loss": 0.0007,
-      "step": 85280
-    },
-    {
-      "epoch": 32.21,
-      "learning_rate": 2.1633091424758092e-05,
-      "loss": 0.001,
-      "step": 85813
     },
     {
-      "epoch": 32.41,
-      "learning_rate": 2.107732732732733e-05,
-      "loss": 0.0002,
-      "step": 86346
     },
     {
-      "epoch": 32.61,
-      "learning_rate": 2.0521563229896565e-05,
-      "loss": 0.0002,
-      "step": 86879
     },
     {
-      "epoch": 32.81,
-      "learning_rate": 1.99657991324658e-05,
-      "loss": 0.0003,
-      "step": 87412
     },
     {
-      "epoch": 33.0,
-      "eval_loss": 0.03536462038755417,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9089,
-      "eval_samples_per_second": 393.87,
-      "eval_steps_per_second": 26.405,
-      "step": 87912
     },
     {
-      "epoch": 33.01,
-      "learning_rate": 1.9410035035035036e-05,
-      "loss": 0.0006,
-      "step": 87945
     },
     {
-      "epoch": 33.21,
-      "learning_rate": 1.885427093760427e-05,
-      "loss": 0.0003,
-      "step": 88478
     },
     {
-      "epoch": 33.41,
-      "learning_rate": 1.8298506840173506e-05,
-      "loss": 0.0003,
-      "step": 89011
     },
     {
-      "epoch": 33.61,
-      "learning_rate": 1.7742742742742744e-05,
-      "loss": 0.0006,
-      "step": 89544
     },
     {
-      "epoch": 33.81,
-      "learning_rate": 1.718697864531198e-05,
-      "loss": 0.0007,
-      "step": 90077
     },
     {
-      "epoch": 34.0,
-      "eval_loss": 0.05854496732354164,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9101,
-      "eval_samples_per_second": 393.356,
-      "eval_steps_per_second": 26.37,
-      "step": 90576
     },
     {
-      "epoch": 34.01,
-      "learning_rate": 1.6631214547881215e-05,
-      "loss": 0.0002,
-      "step": 90610
     },
     {
-      "epoch": 34.21,
-      "learning_rate": 1.6075450450450453e-05,
-      "loss": 0.0006,
-      "step": 91143
     },
     {
-      "epoch": 34.41,
-      "learning_rate": 1.5519686353019688e-05,
       "loss": 0.0003,
-      "step": 91676
     },
     {
-      "epoch": 34.61,
-      "learning_rate": 1.4963922255588922e-05,
-      "loss": 0.0006,
-      "step": 92209
     },
     {
-      "epoch": 34.81,
-      "learning_rate": 1.4408158158158158e-05,
-      "loss": 0.0005,
-      "step": 92742
     },
     {
-      "epoch": 35.0,
-      "eval_loss": 0.05680559575557709,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9087,
-      "eval_samples_per_second": 393.956,
-      "eval_steps_per_second": 26.41,
-      "step": 93240
     },
     {
-      "epoch": 35.01,
-      "learning_rate": 1.3852394060727395e-05,
-      "loss": 0.0,
-      "step": 93275
     },
     {
-      "epoch": 35.21,
-      "learning_rate": 1.329662996329663e-05,
-      "loss": 0.0005,
-      "step": 93808
     },
     {
-      "epoch": 35.41,
-      "learning_rate": 1.2740865865865867e-05,
-      "loss": 0.0002,
-      "step": 94341
     },
     {
-      "epoch": 35.61,
-      "learning_rate": 1.2185101768435102e-05,
       "loss": 0.0007,
-      "step": 94874
     },
     {
-      "epoch": 35.81,
-      "learning_rate": 1.1629337671004337e-05,
-      "loss": 0.0001,
-      "step": 95407
-    },
-    {
-      "epoch": 36.0,
-      "eval_loss": 0.05670797452330589,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9196,
-      "eval_samples_per_second": 389.279,
-      "eval_steps_per_second": 26.097,
-      "step": 95904
     },
     {
-      "epoch": 36.01,
-      "learning_rate": 1.1073573573573574e-05,
-      "loss": 0.0003,
-      "step": 95940
-    },
-    {
-      "epoch": 36.21,
-      "learning_rate": 1.0517809476142811e-05,
       "loss": 0.0004,
-      "step": 96473
     },
     {
-      "epoch": 36.41,
-      "learning_rate": 9.962045378712046e-06,
       "loss": 0.0002,
-      "step": 97006
     },
     {
-      "epoch": 36.61,
-      "learning_rate": 9.406281281281281e-06,
-      "loss": 0.0006,
-      "step": 97539
     },
     {
-      "epoch": 36.81,
-      "learning_rate": 8.850517183850518e-06,
       "loss": 0.0009,
-      "step": 98072
     },
     {
-      "epoch": 37.0,
-      "eval_loss": 0.060491062700748444,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9347,
-      "eval_samples_per_second": 383.022,
-      "eval_steps_per_second": 25.677,
-      "step": 98568
     },
     {
-      "epoch": 37.01,
-      "learning_rate": 8.294753086419753e-06,
-      "loss": 0.0002,
-      "step": 98605
     },
     {
-      "epoch": 37.21,
-      "learning_rate": 7.738988988988988e-06,
-      "loss": 0.001,
-      "step": 99138
     },
     {
-      "epoch": 37.41,
-      "learning_rate": 7.183224891558225e-06,
-      "loss": 0.0003,
-      "step": 99671
     },
     {
-      "epoch": 37.61,
-      "learning_rate": 6.627460794127462e-06,
-      "loss": 0.0001,
-      "step": 100204
     },
     {
-      "epoch": 37.81,
-      "learning_rate": 6.071696696696697e-06,
-      "loss": 0.0002,
-      "step": 100737
     },
     {
-      "epoch": 38.0,
-      "eval_loss": 0.06128498166799545,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9116,
-      "eval_samples_per_second": 392.708,
-      "eval_steps_per_second": 26.327,
-      "step": 101232
-    },
-    {
-      "epoch": 38.01,
-      "learning_rate": 5.515932599265933e-06,
-      "loss": 0.0002,
-      "step": 101270
     },
     {
-      "epoch": 38.21,
-      "learning_rate": 4.960168501835169e-06,
-      "loss": 0.0002,
-      "step": 101803
     },
     {
-      "epoch": 38.41,
-      "learning_rate": 4.404404404404405e-06,
-      "loss": 0.0001,
-      "step": 102336
     },
     {
-      "epoch": 38.61,
-      "learning_rate": 3.848640306973641e-06,
-      "loss": 0.0006,
-      "step": 102869
     },
     {
-      "epoch": 38.81,
-      "learning_rate": 3.2928762095428764e-06,
-      "loss": 0.0002,
-      "step": 103402
     },
     {
-      "epoch": 39.0,
-      "eval_loss": 0.05631242319941521,
-      "eval_max_distance": 1,
-      "eval_mean_distance": 0,
-      "eval_runtime": 0.9146,
-      "eval_samples_per_second": 391.433,
-      "eval_steps_per_second": 26.241,
-      "step": 103896
     },
     {
-      "epoch": 39.01,
-      "learning_rate": 2.7371121121121123e-06,
-      "loss": 0.0004,
-      "step": 103935
     },
     {
-      "epoch": 39.21,
-      "learning_rate": 2.1813480146813483e-06,
-      "loss": 0.0004,
-      "step": 104468
     },
     {
-      "epoch": 39.41,
-      "learning_rate": 1.625583917250584e-06,
-      "loss": 0.0001,
-      "step": 105001
     },
     {
-      "epoch": 39.61,
-      "learning_rate": 1.0698198198198198e-06,
-      "loss": 0.0013,
-      "step": 105534
     },
     {
-      "epoch": 39.81,
-      "learning_rate": 5.140557223890558e-07,
-      "loss": 0.0002,
-      "step": 106067
     },
     {
-      "epoch": 40.0,
-      "eval_loss": 0.06320372968912125,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
-      "eval_runtime": 0.9155,
-      "eval_samples_per_second": 391.055,
-      "eval_steps_per_second": 26.216,
-      "step": 106560
-    },
-    {
-      "epoch": 40.0,
-      "step": 106560,
-      "total_flos": 6.005678715251712e+16,
-      "train_loss": 0.2983123329788039,
-      "train_runtime": 9788.1362,
-      "train_samples_per_second": 163.251,
-      "train_steps_per_second": 10.887
     }
   ],
-  "logging_steps": 533,
-  "max_steps": 106560,
-  "num_train_epochs": 40,
-  "save_steps": 1066,
-  "total_flos": 6.005678715251712e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 4.761904761904762e-08,
+      "loss": 30.681,
       "step": 1
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 5e-06,
+      "loss": 29.2188,
+      "step": 105
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 1e-05,
+      "loss": 27.9484,
+      "step": 210
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 1.5e-05,
+      "loss": 25.4971,
+      "step": 315
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 2e-05,
+      "loss": 21.1988,
+      "step": 420
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 2.5e-05,
+      "loss": 15.2033,
+      "step": 525
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 3e-05,
+      "loss": 7.4762,
+      "step": 630
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 3.5e-05,
+      "loss": 1.8812,
+      "step": 735
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 4e-05,
+      "loss": 0.5258,
+      "step": 840
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 4.5e-05,
+      "loss": 0.347,
+      "step": 945
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 5e-05,
+      "loss": 0.2779,
+      "step": 1050
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.33707377314567566,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.804,
+      "eval_samples_per_second": 436.567,
+      "eval_steps_per_second": 13.682,
+      "step": 1050
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.2162,
+      "step": 1155
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 6e-05,
+      "loss": 0.1397,
+      "step": 1260
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.1035,
+      "step": 1365
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 7e-05,
+      "loss": 0.0765,
+      "step": 1470
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.035,
+      "step": 1575
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 8e-05,
+      "loss": 0.0481,
+      "step": 1680
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 8.5e-05,
+      "loss": 0.0285,
+      "step": 1785
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 9e-05,
+      "loss": 0.0305,
+      "step": 1890
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 9.5e-05,
+      "loss": 0.034,
+      "step": 1995
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 0.0001,
+      "loss": 0.0346,
+      "step": 2100
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.01727573201060295,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.9791,
+      "eval_samples_per_second": 358.485,
+      "eval_steps_per_second": 11.235,
+      "step": 2100
     },
     {
+      "epoch": 2.1,
+      "learning_rate": 9.944444444444446e-05,
+      "loss": 0.0147,
+      "step": 2205
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 9.888888888888889e-05,
+      "loss": 0.0125,
+      "step": 2310
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 9.833333333333333e-05,
+      "loss": 0.0139,
+      "step": 2415
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 9.777777777777778e-05,
+      "loss": 0.0129,
+      "step": 2520
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 9.722222222222223e-05,
+      "loss": 0.0086,
+      "step": 2625
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 9.666666666666667e-05,
+      "loss": 0.0118,
+      "step": 2730
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 9.611111111111112e-05,
+      "loss": 0.0198,
+      "step": 2835
     },
     {
+      "epoch": 2.8,
+      "learning_rate": 9.555555555555557e-05,
+      "loss": 0.0082,
+      "step": 2940
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 9.5e-05,
+      "loss": 0.0074,
+      "step": 3045
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0072,
+      "step": 3150
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.007698288187384605,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.773,
+      "eval_samples_per_second": 454.074,
+      "eval_steps_per_second": 14.23,
+      "step": 3150
     },
     {
+      "epoch": 3.1,
+      "learning_rate": 9.388888888888889e-05,
+      "loss": 0.0146,
+      "step": 3255
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 9.333333333333334e-05,
+      "loss": 0.0072,
+      "step": 3360
     },
     {
+      "epoch": 3.3,
+      "learning_rate": 9.277777777777778e-05,
+      "loss": 0.0065,
+      "step": 3465
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 9.222222222222223e-05,
+      "loss": 0.0092,
+      "step": 3570
     },
     {
+      "epoch": 3.5,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.0065,
+      "step": 3675
     },
     {
+      "epoch": 3.6,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.0083,
+      "step": 3780
     },
     {
+      "epoch": 3.7,
+      "learning_rate": 9.055555555555556e-05,
+      "loss": 0.009,
+      "step": 3885
     },
     {
+      "epoch": 3.8,
+      "learning_rate": 9e-05,
+      "loss": 0.0027,
+      "step": 3990
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 8.944444444444446e-05,
+      "loss": 0.0073,
+      "step": 4095
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0057,
+      "step": 4200
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.009315615519881248,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.7737,
+      "eval_samples_per_second": 453.665,
+      "eval_steps_per_second": 14.217,
+      "step": 4200
     },
     {
+      "epoch": 4.1,
+      "learning_rate": 8.833333333333333e-05,
+      "loss": 0.0072,
+      "step": 4305
     },
     {
+      "epoch": 4.2,
+      "learning_rate": 8.777777777777778e-05,
+      "loss": 0.0072,
+      "step": 4410
     },
     {
+      "epoch": 4.3,
+      "learning_rate": 8.722222222222223e-05,
+      "loss": 0.0109,
+      "step": 4515
     },
     {
+      "epoch": 4.4,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 0.01,
+      "step": 4620
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 8.611111111111112e-05,
+      "loss": 0.0013,
+      "step": 4725
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 8.555555555555556e-05,
+      "loss": 0.017,
+      "step": 4830
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 8.5e-05,
+      "loss": 0.0061,
+      "step": 4935
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 8.444444444444444e-05,
+      "loss": 0.0078,
+      "step": 5040
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 8.38888888888889e-05,
+      "loss": 0.0028,
+      "step": 5145
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.005,
+      "step": 5250
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.005270855501294136,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.584,
+      "eval_samples_per_second": 601.029,
+      "eval_steps_per_second": 18.836,
+      "step": 5250
     },
     {
+      "epoch": 5.1,
+      "learning_rate": 8.277777777777778e-05,
+      "loss": 0.006,
+      "step": 5355
     },
     {
+      "epoch": 5.2,
+      "learning_rate": 8.222222222222222e-05,
+      "loss": 0.0068,
+      "step": 5460
     },
     {
+      "epoch": 5.3,
+      "learning_rate": 8.166666666666667e-05,
+      "loss": 0.0029,
+      "step": 5565
     },
     {
+      "epoch": 5.4,
+      "learning_rate": 8.111111111111112e-05,
       "loss": 0.0016,
+      "step": 5670
     },
     {
+      "epoch": 5.5,
+      "learning_rate": 8.055555555555556e-05,
+      "loss": 0.0055,
+      "step": 5775
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 8e-05,
       "loss": 0.0029,
+      "step": 5880
     },
     {
+      "epoch": 5.7,
+      "learning_rate": 7.944444444444444e-05,
+      "loss": 0.006,
+      "step": 5985
     },
     {
+      "epoch": 5.8,
+      "learning_rate": 7.88888888888889e-05,
+      "loss": 0.0028,
+      "step": 6090
     },
     {
+      "epoch": 5.9,
+      "learning_rate": 7.833333333333333e-05,
+      "loss": 0.0067,
+      "step": 6195
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.002,
+      "step": 6300
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.005636307876557112,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.5895,
+      "eval_samples_per_second": 595.407,
+      "eval_steps_per_second": 18.659,
+      "step": 6300
     },
     {
+      "epoch": 6.1,
+      "learning_rate": 7.722222222222223e-05,
+      "loss": 0.0003,
+      "step": 6405
     },
     {
+      "epoch": 6.2,
+      "learning_rate": 7.666666666666667e-05,
+      "loss": 0.002,
+      "step": 6510
     },
     {
+      "epoch": 6.3,
+      "learning_rate": 7.61111111111111e-05,
+      "loss": 0.0011,
+      "step": 6615
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 7.555555555555556e-05,
+      "loss": 0.0028,
+      "step": 6720
     },
     {
+      "epoch": 6.5,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0062,
+      "step": 6825
     },
     {
+      "epoch": 6.6,
+      "learning_rate": 7.444444444444444e-05,
+      "loss": 0.0006,
+      "step": 6930
     },
     {
+      "epoch": 6.7,
+      "learning_rate": 7.38888888888889e-05,
+      "loss": 0.003,
+      "step": 7035
     },
     {
+      "epoch": 6.8,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.0048,
+      "step": 7140
     },
     {
+      "epoch": 6.9,
+      "learning_rate": 7.277777777777778e-05,
+      "loss": 0.0038,
+      "step": 7245
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.002,
+      "step": 7350
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.009145626798272133,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.605,
+      "eval_samples_per_second": 580.167,
+      "eval_steps_per_second": 18.182,
+      "step": 7350
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 7.166666666666667e-05,
+      "loss": 0.005,
+      "step": 7455
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 7.111111111111112e-05,
+      "loss": 0.0018,
+      "step": 7560
     },
     {
+      "epoch": 7.3,
+      "learning_rate": 7.055555555555556e-05,
+      "loss": 0.0031,
+      "step": 7665
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 7e-05,
+      "loss": 0.0027,
+      "step": 7770
     },
     {
+      "epoch": 7.5,
+      "learning_rate": 6.944444444444444e-05,
+      "loss": 0.0011,
+      "step": 7875
     },
     {
+      "epoch": 7.6,
+      "learning_rate": 6.88888888888889e-05,
+      "loss": 0.0032,
+      "step": 7980
     },
     {
+      "epoch": 7.7,
+      "learning_rate": 6.833333333333333e-05,
+      "loss": 0.0018,
+      "step": 8085
     },
     {
+      "epoch": 7.8,
+      "learning_rate": 6.777777777777778e-05,
+      "loss": 0.0032,
+      "step": 8190
     },
     {
+      "epoch": 7.9,
+      "learning_rate": 6.722222222222223e-05,
+      "loss": 0.0045,
+      "step": 8295
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0018,
+      "step": 8400
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.0010060666827484965,
+      "eval_max_distance": 0,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.618,
+      "eval_samples_per_second": 567.961,
+      "eval_steps_per_second": 17.799,
+      "step": 8400
     },
     {
+      "epoch": 8.1,
+      "learning_rate": 6.611111111111111e-05,
+      "loss": 0.003,
+      "step": 8505
     },
     {
+      "epoch": 8.2,
+      "learning_rate": 6.555555555555556e-05,
+      "loss": 0.0023,
+      "step": 8610
     },
     {
+      "epoch": 8.3,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.0028,
+      "step": 8715
     },
     {
+      "epoch": 8.4,
+      "learning_rate": 6.444444444444446e-05,
+      "loss": 0.002,
+      "step": 8820
     },
     {
+      "epoch": 8.5,
+      "learning_rate": 6.388888888888888e-05,
+      "loss": 0.0012,
+      "step": 8925
     },
     {
+      "epoch": 8.6,
+      "learning_rate": 6.333333333333333e-05,
+      "loss": 0.0013,
+      "step": 9030
     },
     {
+      "epoch": 8.7,
+      "learning_rate": 6.277777777777778e-05,
+      "loss": 0.0011,
+      "step": 9135
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 6.222222222222222e-05,
+      "loss": 0.0008,
+      "step": 9240
     },
     {
+      "epoch": 8.9,
+      "learning_rate": 6.166666666666667e-05,
+      "loss": 0.0029,
+      "step": 9345
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0044,
+      "step": 9450
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.004300011787563562,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.7083,
+      "eval_samples_per_second": 495.526,
+      "eval_steps_per_second": 15.529,
+      "step": 9450
     },
     {
+      "epoch": 9.1,
+      "learning_rate": 6.055555555555555e-05,
+      "loss": 0.0012,
+      "step": 9555
     },
     {
+      "epoch": 9.2,
+      "learning_rate": 6e-05,
+      "loss": 0.002,
+      "step": 9660
     },
     {
+      "epoch": 9.3,
+      "learning_rate": 5.9444444444444445e-05,
+      "loss": 0.0017,
+      "step": 9765
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 5.8888888888888896e-05,
+      "loss": 0.0002,
+      "step": 9870
     },
     {
+      "epoch": 9.5,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 0.0015,
+      "step": 9975
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 5.7777777777777776e-05,
+      "loss": 0.003,
+      "step": 10080
     },
     {
+      "epoch": 9.7,
+      "learning_rate": 5.722222222222222e-05,
+      "loss": 0.0011,
+      "step": 10185
     },
     {
+      "epoch": 9.8,
+      "learning_rate": 5.666666666666667e-05,
+      "loss": 0.0018,
+      "step": 10290
     },
     {
+      "epoch": 9.9,
+      "learning_rate": 5.6111111111111114e-05,
+      "loss": 0.0003,
+      "step": 10395
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0024,
+      "step": 10500
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.004753963556140661,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.593,
+      "eval_samples_per_second": 591.906,
+      "eval_steps_per_second": 18.55,
+      "step": 10500
     },
     {
+      "epoch": 10.1,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.0004,
+      "step": 10605
     },
     {
+      "epoch": 10.2,
+      "learning_rate": 5.4444444444444446e-05,
+      "loss": 0.0022,
+      "step": 10710
     },
     {
+      "epoch": 10.3,
+      "learning_rate": 5.388888888888889e-05,
+      "loss": 0.0016,
+      "step": 10815
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 5.333333333333333e-05,
+      "loss": 0.0008,
+      "step": 10920
     },
     {
+      "epoch": 10.5,
+      "learning_rate": 5.2777777777777784e-05,
+      "loss": 0.0002,
+      "step": 11025
     },
     {
+      "epoch": 10.6,
+      "learning_rate": 5.222222222222223e-05,
+      "loss": 0.0023,
+      "step": 11130
     },
     {
+      "epoch": 10.7,
+      "learning_rate": 5.166666666666667e-05,
+      "loss": 0.0009,
+      "step": 11235
     },
     {
+      "epoch": 10.8,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.0036,
+      "step": 11340
     },
     {
+      "epoch": 10.9,
+      "learning_rate": 5.055555555555556e-05,
+      "loss": 0.0049,
+      "step": 11445
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0032,
+      "step": 11550
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.0022743879817426205,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.656,
+      "eval_samples_per_second": 535.061,
+      "eval_steps_per_second": 16.768,
+      "step": 11550
     },
     {
+      "epoch": 11.1,
+      "learning_rate": 4.9444444444444446e-05,
+      "loss": 0.0036,
+      "step": 11655
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.0014,
+      "step": 11760
     },
     {
+      "epoch": 11.3,
+      "learning_rate": 4.8333333333333334e-05,
+      "loss": 0.0022,
+      "step": 11865
     },
     {
+      "epoch": 11.4,
+      "learning_rate": 4.7777777777777784e-05,
+      "loss": 0.0034,
+      "step": 11970
     },
     {
+      "epoch": 11.5,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.0009,
+      "step": 12075
     },
     {
+      "epoch": 11.6,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.0012,
+      "step": 12180
     },
     {
+      "epoch": 11.7,
+      "learning_rate": 4.6111111111111115e-05,
+      "loss": 0.0012,
+      "step": 12285
     },
     {
+      "epoch": 11.8,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 0.0023,
+      "step": 12390
     },
     {
+      "epoch": 11.9,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0003,
+      "step": 12495
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0028,
+      "step": 12600
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.00027711206348612905,
+      "eval_max_distance": 0,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.5911,
+      "eval_samples_per_second": 593.792,
+      "eval_steps_per_second": 18.609,
+      "step": 12600
     },
     {
+      "epoch": 12.1,
+      "learning_rate": 4.388888888888889e-05,
+      "loss": 0.001,
+      "step": 12705
     },
     {
+      "epoch": 12.2,
+      "learning_rate": 4.3333333333333334e-05,
+      "loss": 0.0011,
+      "step": 12810
     },
     {
+      "epoch": 12.3,
+      "learning_rate": 4.277777777777778e-05,
+      "loss": 0.0028,
+      "step": 12915
     },
     {
+      "epoch": 12.4,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 0.0009,
+      "step": 13020
     },
     {
+      "epoch": 12.5,
+      "learning_rate": 4.166666666666667e-05,
       "loss": 0.0001,
+      "step": 13125
     },
     {
+      "epoch": 12.6,
+      "learning_rate": 4.111111111111111e-05,
+      "loss": 0.0005,
+      "step": 13230
     },
     {
+      "epoch": 12.7,
+      "learning_rate": 4.055555555555556e-05,
+      "loss": 0.003,
+      "step": 13335
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 4e-05,
+      "loss": 0.0,
+      "step": 13440
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 3.944444444444445e-05,
+      "loss": 0.0038,
+      "step": 13545
     },
     {
+      "epoch": 13.0,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.0005,
+      "step": 13650
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.0007963060052134097,
+      "eval_max_distance": 0,
+      "eval_mean_distance": 0,
+      "eval_runtime": 0.66,
+      "eval_samples_per_second": 531.819,
+      "eval_steps_per_second": 16.667,
+      "step": 13650
+    },
+    {
+      "epoch": 13.1,
+      "learning_rate": 3.8333333333333334e-05,
+      "loss": 0.0009,
+      "step": 13755
     },
     {
+      "epoch": 13.2,
+      "learning_rate": 3.777777777777778e-05,
       "loss": 0.0004,
+      "step": 13860
     },
     {
+      "epoch": 13.3,
+      "learning_rate": 3.722222222222222e-05,
+      "loss": 0.0085,
+      "step": 13965
     },
     {
+      "epoch": 13.4,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.0028,
+      "step": 14070
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.0019,
+      "step": 14175
     },
     {
+      "epoch": 13.6,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 0.0008,
+      "step": 14280
     },
     {
+      "epoch": 13.7,
+      "learning_rate": 3.5e-05,
       "loss": 0.0001,
+      "step": 14385
     },
     {
+      "epoch": 13.8,
+      "learning_rate": 3.444444444444445e-05,
+      "loss": 0.0014,
+      "step": 14490
+    },
+    {
+      "epoch": 13.9,
+      "learning_rate": 3.388888888888889e-05,
+      "loss": 0.002,
+      "step": 14595
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0026,
+      "step": 14700
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.0011878299992531538,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.599,
+      "eval_samples_per_second": 585.977,
+      "eval_steps_per_second": 18.364,
+      "step": 14700
     },
     {
+      "epoch": 14.1,
+      "learning_rate": 3.277777777777778e-05,
+      "loss": 0.0016,
+      "step": 14805
     },
     {
+      "epoch": 14.2,
+      "learning_rate": 3.222222222222223e-05,
       "loss": 0.0008,
+      "step": 14910
     },
     {
+      "epoch": 14.3,
+      "learning_rate": 3.1666666666666666e-05,
       "loss": 0.0005,
+      "step": 15015
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0005,
+      "step": 15120
     },
     {
+      "epoch": 14.5,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.001,
+      "step": 15225
     },
     {
+      "epoch": 14.6,
+      "learning_rate": 3e-05,
+      "loss": 0.002,
+      "step": 15330
     },
     {
+      "epoch": 14.7,
+      "learning_rate": 2.9444444444444448e-05,
+      "loss": 0.0001,
+      "step": 15435
     },
     {
+      "epoch": 14.8,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.0,
+      "step": 15540
     },
     {
+      "epoch": 14.9,
+      "learning_rate": 2.8333333333333335e-05,
+      "loss": 0.0,
+      "step": 15645
     },
     {
+      "epoch": 15.0,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0011,
+      "step": 15750
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.017123280093073845,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.6147,
+      "eval_samples_per_second": 570.998,
+      "eval_steps_per_second": 17.895,
+      "step": 15750
     },
     {
+      "epoch": 15.1,
+      "learning_rate": 2.7222222222222223e-05,
+      "loss": 0.0001,
+      "step": 15855
     },
     {
+      "epoch": 15.2,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0031,
+      "step": 15960
     },
     {
+      "epoch": 15.3,
+      "learning_rate": 2.6111111111111114e-05,
       "loss": 0.0001,
+      "step": 16065
     },
     {
+      "epoch": 15.4,
+      "learning_rate": 2.5555555555555554e-05,
+      "loss": 0.0016,
+      "step": 16170
     },
     {
+      "epoch": 15.5,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0006,
+      "step": 16275
     },
     {
+      "epoch": 15.6,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.0002,
+      "step": 16380
     },
     {
+      "epoch": 15.7,
+      "learning_rate": 2.3888888888888892e-05,
       "loss": 0.0008,
+      "step": 16485
     },
     {
+      "epoch": 15.8,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.0016,
+      "step": 16590
     },
     {
+      "epoch": 15.9,
+      "learning_rate": 2.277777777777778e-05,
       "loss": 0.0002,
+      "step": 16695
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0,
+      "step": 16800
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.011970149353146553,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.591,
+      "eval_samples_per_second": 593.899,
+      "eval_steps_per_second": 18.612,
+      "step": 16800
     },
     {
+      "epoch": 16.1,
+      "learning_rate": 2.1666666666666667e-05,
+      "loss": 0.0009,
+      "step": 16905
     },
     {
+      "epoch": 16.2,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 0.0009,
+      "step": 17010
     },
     {
+      "epoch": 16.3,
+      "learning_rate": 2.0555555555555555e-05,
+      "loss": 0.0004,
+      "step": 17115
     },
     {
+      "epoch": 16.4,
+      "learning_rate": 2e-05,
+      "loss": 0.0001,
+      "step": 17220
     },
     {
+      "epoch": 16.5,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.0032,
+      "step": 17325
     },
     {
+      "epoch": 16.6,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.0,
+      "step": 17430
     },
     {
+      "epoch": 16.7,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.0002,
+      "step": 17535
     },
     {
+      "epoch": 16.8,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.0,
+      "step": 17640
     },
     {
+      "epoch": 16.9,
+      "learning_rate": 1.7222222222222224e-05,
+      "loss": 0.001,
+      "step": 17745
     },
     {
+      "epoch": 17.0,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0001,
+      "step": 17850
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.003116948762908578,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.6156,
+      "eval_samples_per_second": 570.218,
+      "eval_steps_per_second": 17.87,
+      "step": 17850
     },
     {
+      "epoch": 17.1,
+      "learning_rate": 1.6111111111111115e-05,
+      "loss": 0.0011,
+      "step": 17955
     },
     {
+      "epoch": 17.2,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.0004,
+      "step": 18060
     },
     {
+      "epoch": 17.3,
+      "learning_rate": 1.5e-05,
       "loss": 0.0003,
+      "step": 18165
     },
     {
+      "epoch": 17.4,
+      "learning_rate": 1.4444444444444444e-05,
+      "loss": 0.0001,
+      "step": 18270
     },
     {
+      "epoch": 17.5,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0001,
+      "step": 18375
     },
     {
+      "epoch": 17.6,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0004,
+      "step": 18480
     },
     {
+      "epoch": 17.7,
+      "learning_rate": 1.2777777777777777e-05,
+      "loss": 0.0007,
+      "step": 18585
     },
     {
+      "epoch": 17.8,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.0,
+      "step": 18690
     },
     {
+      "epoch": 17.9,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.0,
+      "step": 18795
     },
     {
+      "epoch": 18.0,
+      "learning_rate": 1.1111111111111112e-05,
       "loss": 0.0007,
+      "step": 18900
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.016535792499780655,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.5881,
+      "eval_samples_per_second": 596.809,
+      "eval_steps_per_second": 18.703,
+      "step": 18900
     },
     {
+      "epoch": 18.1,
+      "learning_rate": 1.0555555555555555e-05,
       "loss": 0.0004,
+      "step": 19005
     },
     {
+      "epoch": 18.2,
+      "learning_rate": 1e-05,
       "loss": 0.0002,
+      "step": 19110
     },
     {
+      "epoch": 18.3,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.0001,
+      "step": 19215
     },
     {
+      "epoch": 18.4,
+      "learning_rate": 8.88888888888889e-06,
       "loss": 0.0009,
+      "step": 19320
     },
     {
+      "epoch": 18.5,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0149,
+      "step": 19425
     },
     {
+      "epoch": 18.6,
+      "learning_rate": 7.777777777777777e-06,
+      "loss": 0.0003,
+      "step": 19530
     },
     {
+      "epoch": 18.7,
+      "learning_rate": 7.222222222222222e-06,
+      "loss": 0.0,
+      "step": 19635
     },
     {
+      "epoch": 18.8,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0,
+      "step": 19740
     },
     {
+      "epoch": 18.9,
+      "learning_rate": 6.111111111111111e-06,
+      "loss": 0.0,
+      "step": 19845
     },
     {
+      "epoch": 19.0,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.001,
+      "step": 19950
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.01935943029820919,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.6346,
+      "eval_samples_per_second": 553.109,
+      "eval_steps_per_second": 17.334,
+      "step": 19950
     },
     {
+      "epoch": 19.1,
+      "learning_rate": 5e-06,
+      "loss": 0.001,
+      "step": 20055
     },
     {
+      "epoch": 19.2,
+      "learning_rate": 4.444444444444445e-06,
+      "loss": 0.0,
+      "step": 20160
     },
     {
+      "epoch": 19.3,
+      "learning_rate": 3.888888888888889e-06,
+      "loss": 0.0004,
+      "step": 20265
     },
     {
+      "epoch": 19.4,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0,
+      "step": 20370
     },
     {
+      "epoch": 19.5,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.0011,
+      "step": 20475
     },
     {
+      "epoch": 19.6,
+      "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.0011,
+      "step": 20580
     },
     {
+      "epoch": 19.7,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0,
+      "step": 20685
     },
     {
+      "epoch": 19.8,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 0.0003,
+      "step": 20790
     },
     {
+      "epoch": 19.9,
+      "learning_rate": 5.555555555555556e-07,
+      "loss": 0.0004,
+      "step": 20895
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 0.0,
+      "loss": 0.0001,
+      "step": 21000
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.010230864398181438,
       "eval_max_distance": 1,
       "eval_mean_distance": 0,
+      "eval_runtime": 0.597,
+      "eval_samples_per_second": 587.939,
+      "eval_steps_per_second": 18.425,
+      "step": 21000
+    },
+    {
+      "epoch": 20.0,
+      "step": 21000,
+      "total_flos": 3.345253371675648e+16,
+      "train_loss": 0.6543119361943335,
+      "train_runtime": 2482.634,
+      "train_samples_per_second": 270.592,
+      "train_steps_per_second": 8.459
     }
   ],
+  "logging_steps": 105,
+  "max_steps": 21000,
+  "num_train_epochs": 20,
+  "save_steps": 210,
+  "total_flos": 3.345253371675648e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5e0326a3796f2941f5716fa2fff187aa13e78d8388fdce8869a34735725ca5a
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a608a335d69abf0fd9d81359bad97ed11bb291ac004c10e1a3220cf8140d433
 size 4664