End of training

Browse files

Files changed (5) hide show

README.md +17 -4
all_results.json +10 -10
eval_results.json +6 -6
train_results.json +4 -4
trainer_state.json +406 -118

README.md CHANGED Viewed

@@ -2,11 +2,24 @@
 base_model: demdecuong/vihealthbert-base-word
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: vihealthbert-w_unsup-SynPD
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -14,10 +27,10 @@ should probably proofread and complete it, then remove this comment. -->
 # vihealthbert-w_unsup-SynPD
-This model is a fine-tuned version of [demdecuong/vihealthbert-base-word](https://huggingface.co/demdecuong/vihealthbert-base-word) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5576
-- Accuracy: 0.6883
 ## Model description

 base_model: demdecuong/vihealthbert-base-word
 tags:
 - generated_from_trainer
+datasets:
+- tmnam20/pretrained-vn-med-nli
 metrics:
 - accuracy
 model-index:
 - name: vihealthbert-w_unsup-SynPD
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: tmnam20/pretrained-vn-med-nli all
+      type: tmnam20/pretrained-vn-med-nli
+      args: all
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.6891028971951825
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # vihealthbert-w_unsup-SynPD
+This model is a fine-tuned version of [demdecuong/vihealthbert-base-word](https://huggingface.co/demdecuong/vihealthbert-base-word) on the tmnam20/pretrained-vn-med-nli all dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5579
+- Accuracy: 0.6891
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.686153705209395,
-    "eval_loss": 1.5768413543701172,
-    "eval_runtime": 36.0583,
     "eval_samples": 9774,
-    "eval_samples_per_second": 271.061,
-    "eval_steps_per_second": 16.945,
-    "perplexity": 4.83964491985086,
     "total_flos": 0.0,
-    "train_loss": 4.85471958516693,
-    "train_runtime": 21406.4835,
     "train_samples": 185684,
-    "train_samples_per_second": 86.742,
-    "train_steps_per_second": 2.711
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.6891028971951825,
+    "eval_loss": 1.5579454898834229,
+    "eval_runtime": 24.5852,
     "eval_samples": 9774,
+    "eval_samples_per_second": 397.557,
+    "eval_steps_per_second": 24.852,
+    "perplexity": 4.749054235392457,
     "total_flos": 0.0,
+    "train_loss": 2.14307959750667,
+    "train_runtime": 18230.969,
     "train_samples": 185684,
+    "train_samples_per_second": 101.851,
+    "train_steps_per_second": 3.183
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.686153705209395,
-    "eval_loss": 1.5768413543701172,
-    "eval_runtime": 36.0583,
     "eval_samples": 9774,
-    "eval_samples_per_second": 271.061,
-    "eval_steps_per_second": 16.945,
-    "perplexity": 4.83964491985086
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.6891028971951825,
+    "eval_loss": 1.5579454898834229,
+    "eval_runtime": 24.5852,
     "eval_samples": 9774,
+    "eval_samples_per_second": 397.557,
+    "eval_steps_per_second": 24.852,
+    "perplexity": 4.749054235392457
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
     "total_flos": 0.0,
-    "train_loss": 4.85471958516693,
-    "train_runtime": 21406.4835,
     "train_samples": 185684,
-    "train_samples_per_second": 86.742,
-    "train_steps_per_second": 2.711
 }

 {
     "epoch": 10.0,
     "total_flos": 0.0,
+    "train_loss": 2.14307959750667,
+    "train_runtime": 18230.969,
     "train_samples": 185684,
+    "train_samples_per_second": 101.851,
+    "train_steps_per_second": 3.183
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.6879923855830649,
-  "best_model_checkpoint": "output/pretraining/vihealthbert-w_unsup-SynPD/lr3e-5_wr0.1_wd0.0/checkpoint-55000",
   "epoch": 10.0,
-  "eval_steps": 5000,
   "global_step": 58030,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,202 +10,490 @@
   "log_history": [
     {
       "epoch": 0.00017232465965879716,
-      "grad_norm": 41.827266693115234,
       "learning_rate": 5.169739789763915e-09,
-      "loss": 13.7242,
       "step": 1
     },
     {
-      "epoch": 0.8616232982939859,
-      "grad_norm": 5.6151957511901855,
-      "learning_rate": 2.584869894881958e-05,
-      "loss": 7.0234,
-      "step": 5000
     },
     {
-      "epoch": 0.8616232982939859,
-      "eval_accuracy": 0.5576033171446898,
-      "eval_loss": 2.590928077697754,
-      "eval_runtime": 37.589,
-      "eval_samples_per_second": 260.023,
-      "eval_steps_per_second": 16.255,
-      "step": 5000
     },
     {
       "epoch": 1.7232465965879717,
-      "grad_norm": 4.410743713378906,
       "learning_rate": 2.758917801137343e-05,
-      "loss": 5.2736,
       "step": 10000
     },
     {
       "epoch": 1.7232465965879717,
-      "eval_accuracy": 0.596153624823046,
-      "eval_loss": 2.188957452774048,
-      "eval_runtime": 37.6297,
-      "eval_samples_per_second": 259.741,
-      "eval_steps_per_second": 16.237,
       "step": 10000
     },
     {
-      "epoch": 2.5848698948819577,
-      "grad_norm": 4.754213809967041,
-      "learning_rate": 2.4717100350393475e-05,
-      "loss": 4.9126,
-      "step": 15000
     },
     {
-      "epoch": 2.5848698948819577,
-      "eval_accuracy": 0.6381037526075694,
-      "eval_loss": 1.909491777420044,
-      "eval_runtime": 36.8556,
-      "eval_samples_per_second": 265.197,
-      "eval_steps_per_second": 16.578,
-      "step": 15000
     },
     {
       "epoch": 3.4464931931759435,
-      "grad_norm": 4.2047200202941895,
       "learning_rate": 2.184502268941352e-05,
-      "loss": 4.791,
       "step": 20000
     },
     {
       "epoch": 3.4464931931759435,
-      "eval_accuracy": 0.6468589272593681,
-      "eval_loss": 1.8286069631576538,
-      "eval_runtime": 35.9342,
-      "eval_samples_per_second": 271.997,
-      "eval_steps_per_second": 17.003,
       "step": 20000
     },
     {
-      "epoch": 4.30811649146993,
-      "grad_norm": 4.629519462585449,
-      "learning_rate": 1.897294502843357e-05,
-      "loss": 4.6538,
-      "step": 25000
     },
     {
-      "epoch": 4.30811649146993,
-      "eval_accuracy": 0.6644416567883901,
-      "eval_loss": 1.714424967765808,
-      "eval_runtime": 35.6122,
-      "eval_samples_per_second": 274.456,
-      "eval_steps_per_second": 17.157,
-      "step": 25000
     },
     {
       "epoch": 5.1697397897639155,
-      "grad_norm": 3.993448257446289,
       "learning_rate": 1.6100867367453616e-05,
-      "loss": 4.5846,
       "step": 30000
     },
     {
       "epoch": 5.1697397897639155,
-      "eval_accuracy": 0.6703549228453575,
-      "eval_loss": 1.6779303550720215,
-      "eval_runtime": 36.1572,
-      "eval_samples_per_second": 270.32,
-      "eval_steps_per_second": 16.898,
       "step": 30000
     },
     {
-      "epoch": 6.031363088057901,
-      "grad_norm": 4.6959357261657715,
-      "learning_rate": 1.3228789706473663e-05,
-      "loss": 4.5568,
-      "step": 35000
     },
     {
-      "epoch": 6.031363088057901,
-      "eval_accuracy": 0.6765665494261385,
-      "eval_loss": 1.6362268924713135,
-      "eval_runtime": 36.2906,
-      "eval_samples_per_second": 269.326,
-      "eval_steps_per_second": 16.836,
-      "step": 35000
     },
     {
       "epoch": 6.892986386351887,
-      "grad_norm": 4.4082441329956055,
       "learning_rate": 1.035671204549371e-05,
-      "loss": 4.5079,
       "step": 40000
     },
     {
       "epoch": 6.892986386351887,
-      "eval_accuracy": 0.681425908452811,
-      "eval_loss": 1.6008453369140625,
-      "eval_runtime": 36.1284,
-      "eval_samples_per_second": 270.535,
-      "eval_steps_per_second": 16.912,
       "step": 40000
     },
     {
-      "epoch": 7.754609684645873,
-      "grad_norm": 5.832913398742676,
-      "learning_rate": 7.484634384513757e-06,
-      "loss": 4.469,
-      "step": 45000
     },
     {
-      "epoch": 7.754609684645873,
-      "eval_accuracy": 0.6805218690729352,
-      "eval_loss": 1.6063588857650757,
-      "eval_runtime": 36.0752,
-      "eval_samples_per_second": 270.934,
-      "eval_steps_per_second": 16.937,
-      "step": 45000
     },
     {
       "epoch": 8.61623298293986,
-      "grad_norm": 3.991995096206665,
       "learning_rate": 4.612556723533804e-06,
-      "loss": 4.4514,
       "step": 50000
     },
     {
       "epoch": 8.61623298293986,
-      "eval_accuracy": 0.6852411542306852,
-      "eval_loss": 1.5799689292907715,
-      "eval_runtime": 37.5803,
-      "eval_samples_per_second": 260.083,
-      "eval_steps_per_second": 16.259,
       "step": 50000
     },
     {
-      "epoch": 9.477856281233844,
-      "grad_norm": 4.424502849578857,
-      "learning_rate": 1.7404790625538515e-06,
-      "loss": 4.4317,
-      "step": 55000
     },
     {
-      "epoch": 9.477856281233844,
-      "eval_accuracy": 0.6879923855830649,
-      "eval_loss": 1.5539859533309937,
-      "eval_runtime": 35.7439,
-      "eval_samples_per_second": 273.445,
-      "eval_steps_per_second": 17.094,
-      "step": 55000
     },
     {
       "epoch": 10.0,
       "step": 58030,
       "total_flos": 0.0,
-      "train_loss": 4.85471958516693,
-      "train_runtime": 21406.4835,
-      "train_samples_per_second": 86.742,
-      "train_steps_per_second": 2.711
     }
   ],
-  "logging_steps": 5000,
   "max_steps": 58030,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
-  "save_steps": 5000,
   "total_flos": 0.0,
   "train_batch_size": 32,
   "trial_name": null,

 {
+  "best_metric": 0.6885031685091817,
+  "best_model_checkpoint": "output/pretraining/vihealthbert-w_unsup-SynPD/lr3e-5_wr0.1_wd0.0/checkpoint-52000",
   "epoch": 10.0,
+  "eval_steps": 2000,
   "global_step": 58030,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.00017232465965879716,
+      "grad_norm": 35.608882904052734,
       "learning_rate": 5.169739789763915e-09,
+      "loss": 10.7382,
       "step": 1
     },
     {
+      "epoch": 0.34464931931759435,
+      "grad_norm": 4.884454250335693,
+      "learning_rate": 1.033947957952783e-05,
+      "loss": 5.8543,
+      "step": 2000
     },
     {
+      "epoch": 0.34464931931759435,
+      "eval_accuracy": 0.3950195480446223,
+      "eval_loss": 3.896709680557251,
+      "eval_runtime": 24.6709,
+      "eval_samples_per_second": 396.175,
+      "eval_steps_per_second": 24.766,
+      "step": 2000
+    },
+    {
+      "epoch": 0.6892986386351887,
+      "grad_norm": 5.278345108032227,
+      "learning_rate": 2.067895915905566e-05,
+      "loss": 3.4544,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6892986386351887,
+      "eval_accuracy": 0.530626322082222,
+      "eval_loss": 2.811899423599243,
+      "eval_runtime": 24.6443,
+      "eval_samples_per_second": 396.602,
+      "eval_steps_per_second": 24.793,
+      "step": 4000
+    },
+    {
+      "epoch": 1.033947957952783,
+      "grad_norm": 4.731122016906738,
+      "learning_rate": 2.988684014015739e-05,
+      "loss": 2.8312,
+      "step": 6000
+    },
+    {
+      "epoch": 1.033947957952783,
+      "eval_accuracy": 0.5771132321637026,
+      "eval_loss": 2.4039628505706787,
+      "eval_runtime": 24.6266,
+      "eval_samples_per_second": 396.889,
+      "eval_steps_per_second": 24.811,
+      "step": 6000
+    },
+    {
+      "epoch": 1.3785972772703774,
+      "grad_norm": 12.213573455810547,
+      "learning_rate": 2.873800907576541e-05,
+      "loss": 2.5914,
+      "step": 8000
+    },
+    {
+      "epoch": 1.3785972772703774,
+      "eval_accuracy": 0.5349752225383133,
+      "eval_loss": 2.6481692790985107,
+      "eval_runtime": 24.6033,
+      "eval_samples_per_second": 397.264,
+      "eval_steps_per_second": 24.834,
+      "step": 8000
     },
     {
       "epoch": 1.7232465965879717,
+      "grad_norm": 5.172228813171387,
       "learning_rate": 2.758917801137343e-05,
+      "loss": 2.5649,
       "step": 10000
     },
     {
       "epoch": 1.7232465965879717,
+      "eval_accuracy": 0.6087076297937304,
+      "eval_loss": 2.13348388671875,
+      "eval_runtime": 24.6211,
+      "eval_samples_per_second": 396.976,
+      "eval_steps_per_second": 24.816,
       "step": 10000
     },
     {
+      "epoch": 2.067895915905566,
+      "grad_norm": 4.871993064880371,
+      "learning_rate": 2.6440346946981447e-05,
+      "loss": 2.2749,
+      "step": 12000
+    },
+    {
+      "epoch": 2.067895915905566,
+      "eval_accuracy": 0.6281529792701336,
+      "eval_loss": 1.9895449876785278,
+      "eval_runtime": 24.453,
+      "eval_samples_per_second": 399.705,
+      "eval_steps_per_second": 24.987,
+      "step": 12000
+    },
+    {
+      "epoch": 2.4125452352231607,
+      "grad_norm": 8.037242889404297,
+      "learning_rate": 2.5291515882589467e-05,
+      "loss": 2.1572,
+      "step": 14000
+    },
+    {
+      "epoch": 2.4125452352231607,
+      "eval_accuracy": 0.6353159252095423,
+      "eval_loss": 1.9312896728515625,
+      "eval_runtime": 24.4658,
+      "eval_samples_per_second": 399.496,
+      "eval_steps_per_second": 24.974,
+      "step": 14000
     },
     {
+      "epoch": 2.757194554540755,
+      "grad_norm": 4.320974349975586,
+      "learning_rate": 2.4142684818197487e-05,
+      "loss": 2.1009,
+      "step": 16000
+    },
+    {
+      "epoch": 2.757194554540755,
+      "eval_accuracy": 0.6428579553856829,
+      "eval_loss": 1.864585280418396,
+      "eval_runtime": 24.4545,
+      "eval_samples_per_second": 399.68,
+      "eval_steps_per_second": 24.985,
+      "step": 16000
+    },
+    {
+      "epoch": 3.101843873858349,
+      "grad_norm": 4.6416168212890625,
+      "learning_rate": 2.2993853753805504e-05,
+      "loss": 2.0609,
+      "step": 18000
+    },
+    {
+      "epoch": 3.101843873858349,
+      "eval_accuracy": 0.6450457483325106,
+      "eval_loss": 1.8571828603744507,
+      "eval_runtime": 24.4634,
+      "eval_samples_per_second": 399.535,
+      "eval_steps_per_second": 24.976,
+      "step": 18000
     },
     {
       "epoch": 3.4464931931759435,
+      "grad_norm": 4.341440677642822,
       "learning_rate": 2.184502268941352e-05,
+      "loss": 2.0885,
       "step": 20000
     },
     {
       "epoch": 3.4464931931759435,
+      "eval_accuracy": 0.6284792764252838,
+      "eval_loss": 1.9489394426345825,
+      "eval_runtime": 24.6433,
+      "eval_samples_per_second": 396.618,
+      "eval_steps_per_second": 24.794,
       "step": 20000
     },
     {
+      "epoch": 3.791142512493538,
+      "grad_norm": 4.660053253173828,
+      "learning_rate": 2.069619162502154e-05,
+      "loss": 1.9891,
+      "step": 22000
+    },
+    {
+      "epoch": 3.791142512493538,
+      "eval_accuracy": 0.6582960564701575,
+      "eval_loss": 1.7700080871582031,
+      "eval_runtime": 24.616,
+      "eval_samples_per_second": 397.059,
+      "eval_steps_per_second": 24.821,
+      "step": 22000
+    },
+    {
+      "epoch": 4.135791831811132,
+      "grad_norm": 3.9445292949676514,
+      "learning_rate": 1.954736056062956e-05,
+      "loss": 1.9368,
+      "step": 24000
+    },
+    {
+      "epoch": 4.135791831811132,
+      "eval_accuracy": 0.6608816779512006,
+      "eval_loss": 1.7397598028182983,
+      "eval_runtime": 24.6251,
+      "eval_samples_per_second": 396.912,
+      "eval_steps_per_second": 24.812,
+      "step": 24000
+    },
+    {
+      "epoch": 4.480441151128726,
+      "grad_norm": 4.561331748962402,
+      "learning_rate": 1.839852949623758e-05,
+      "loss": 1.9003,
+      "step": 26000
+    },
+    {
+      "epoch": 4.480441151128726,
+      "eval_accuracy": 0.666368433126864,
+      "eval_loss": 1.7164973020553589,
+      "eval_runtime": 24.4665,
+      "eval_samples_per_second": 399.485,
+      "eval_steps_per_second": 24.973,
+      "step": 26000
+    },
+    {
+      "epoch": 4.825090470446321,
+      "grad_norm": 4.358778476715088,
+      "learning_rate": 1.72496984318456e-05,
+      "loss": 1.9058,
+      "step": 28000
     },
     {
+      "epoch": 4.825090470446321,
+      "eval_accuracy": 0.666961039556835,
+      "eval_loss": 1.703224539756775,
+      "eval_runtime": 24.4455,
+      "eval_samples_per_second": 399.829,
+      "eval_steps_per_second": 24.994,
+      "step": 28000
     },
     {
       "epoch": 5.1697397897639155,
+      "grad_norm": 4.522342205047607,
       "learning_rate": 1.6100867367453616e-05,
+      "loss": 1.859,
       "step": 30000
     },
     {
       "epoch": 5.1697397897639155,
+      "eval_accuracy": 0.6717793867023528,
+      "eval_loss": 1.677147626876831,
+      "eval_runtime": 24.4697,
+      "eval_samples_per_second": 399.432,
+      "eval_steps_per_second": 24.97,
       "step": 30000
     },
     {
+      "epoch": 5.51438910908151,
+      "grad_norm": 4.162671089172363,
+      "learning_rate": 1.4952036303061636e-05,
+      "loss": 1.8401,
+      "step": 32000
     },
     {
+      "epoch": 5.51438910908151,
+      "eval_accuracy": 0.6709595439247201,
+      "eval_loss": 1.665189504623413,
+      "eval_runtime": 24.6261,
+      "eval_samples_per_second": 396.897,
+      "eval_steps_per_second": 24.811,
+      "step": 32000
+    },
+    {
+      "epoch": 5.859038428399104,
+      "grad_norm": 4.618478775024414,
+      "learning_rate": 1.3803205238669653e-05,
+      "loss": 1.8181,
+      "step": 34000
+    },
+    {
+      "epoch": 5.859038428399104,
+      "eval_accuracy": 0.675394469972155,
+      "eval_loss": 1.6417487859725952,
+      "eval_runtime": 24.5944,
+      "eval_samples_per_second": 397.408,
+      "eval_steps_per_second": 24.843,
+      "step": 34000
+    },
+    {
+      "epoch": 6.203687747716698,
+      "grad_norm": 4.046966075897217,
+      "learning_rate": 1.2654374174277672e-05,
+      "loss": 1.8133,
+      "step": 36000
+    },
+    {
+      "epoch": 6.203687747716698,
+      "eval_accuracy": 0.6748118789132058,
+      "eval_loss": 1.6430697441101074,
+      "eval_runtime": 24.6651,
+      "eval_samples_per_second": 396.268,
+      "eval_steps_per_second": 24.772,
+      "step": 36000
+    },
+    {
+      "epoch": 6.548337067034293,
+      "grad_norm": 4.522408962249756,
+      "learning_rate": 1.1505543109885692e-05,
+      "loss": 1.7888,
+      "step": 38000
+    },
+    {
+      "epoch": 6.548337067034293,
+      "eval_accuracy": 0.6755271447952356,
+      "eval_loss": 1.6363412141799927,
+      "eval_runtime": 24.6146,
+      "eval_samples_per_second": 397.081,
+      "eval_steps_per_second": 24.823,
+      "step": 38000
     },
     {
       "epoch": 6.892986386351887,
+      "grad_norm": 4.334969520568848,
       "learning_rate": 1.035671204549371e-05,
+      "loss": 1.7811,
       "step": 40000
     },
     {
       "epoch": 6.892986386351887,
+      "eval_accuracy": 0.679264661758257,
+      "eval_loss": 1.6205224990844727,
+      "eval_runtime": 24.6327,
+      "eval_samples_per_second": 396.79,
+      "eval_steps_per_second": 24.804,
       "step": 40000
     },
     {
+      "epoch": 7.237635705669481,
+      "grad_norm": 3.82973313331604,
+      "learning_rate": 9.20788098110173e-06,
+      "loss": 1.7481,
+      "step": 42000
+    },
+    {
+      "epoch": 7.237635705669481,
+      "eval_accuracy": 0.6806846415754118,
+      "eval_loss": 1.61899995803833,
+      "eval_runtime": 24.6165,
+      "eval_samples_per_second": 397.051,
+      "eval_steps_per_second": 24.821,
+      "step": 42000
+    },
+    {
+      "epoch": 7.582285024987076,
+      "grad_norm": 4.882840633392334,
+      "learning_rate": 8.059049916709748e-06,
+      "loss": 1.7509,
+      "step": 44000
+    },
+    {
+      "epoch": 7.582285024987076,
+      "eval_accuracy": 0.679368029739777,
+      "eval_loss": 1.614187240600586,
+      "eval_runtime": 24.6302,
+      "eval_samples_per_second": 396.829,
+      "eval_steps_per_second": 24.807,
+      "step": 44000
     },
     {
+      "epoch": 7.92693434430467,
+      "grad_norm": 5.021098613739014,
+      "learning_rate": 6.910218852317767e-06,
+      "loss": 1.7517,
+      "step": 46000
+    },
+    {
+      "epoch": 7.92693434430467,
+      "eval_accuracy": 0.6818803989003784,
+      "eval_loss": 1.594929814338684,
+      "eval_runtime": 24.6331,
+      "eval_samples_per_second": 396.783,
+      "eval_steps_per_second": 24.804,
+      "step": 46000
+    },
+    {
+      "epoch": 8.271583663622264,
+      "grad_norm": 4.21428108215332,
+      "learning_rate": 5.761387787925786e-06,
+      "loss": 1.7358,
+      "step": 48000
+    },
+    {
+      "epoch": 8.271583663622264,
+      "eval_accuracy": 0.6842720181437064,
+      "eval_loss": 1.5908812284469604,
+      "eval_runtime": 24.6065,
+      "eval_samples_per_second": 397.212,
+      "eval_steps_per_second": 24.831,
+      "step": 48000
     },
     {
       "epoch": 8.61623298293986,
+      "grad_norm": 4.599373817443848,
       "learning_rate": 4.612556723533804e-06,
+      "loss": 1.7287,
       "step": 50000
     },
     {
       "epoch": 8.61623298293986,
+      "eval_accuracy": 0.6850959060979102,
+      "eval_loss": 1.5757168531417847,
+      "eval_runtime": 24.4222,
+      "eval_samples_per_second": 400.209,
+      "eval_steps_per_second": 25.018,
       "step": 50000
     },
     {
+      "epoch": 8.960882302257453,
+      "grad_norm": 4.7850022315979,
+      "learning_rate": 3.4637256591418234e-06,
+      "loss": 1.7132,
+      "step": 52000
+    },
+    {
+      "epoch": 8.960882302257453,
+      "eval_accuracy": 0.6885031685091817,
+      "eval_loss": 1.567070722579956,
+      "eval_runtime": 24.6775,
+      "eval_samples_per_second": 396.07,
+      "eval_steps_per_second": 24.759,
+      "step": 52000
+    },
+    {
+      "epoch": 9.305531621575048,
+      "grad_norm": 4.081067085266113,
+      "learning_rate": 2.314894594749842e-06,
+      "loss": 1.7042,
+      "step": 54000
+    },
+    {
+      "epoch": 9.305531621575048,
+      "eval_accuracy": 0.6867081688779444,
+      "eval_loss": 1.5685173273086548,
+      "eval_runtime": 24.635,
+      "eval_samples_per_second": 396.753,
+      "eval_steps_per_second": 24.802,
+      "step": 54000
+    },
+    {
+      "epoch": 9.650180940892643,
+      "grad_norm": 4.741480350494385,
+      "learning_rate": 1.166063530357861e-06,
+      "loss": 1.7051,
+      "step": 56000
+    },
+    {
+      "epoch": 9.650180940892643,
+      "eval_accuracy": 0.6875510415348692,
+      "eval_loss": 1.56094229221344,
+      "eval_runtime": 24.6507,
+      "eval_samples_per_second": 396.5,
+      "eval_steps_per_second": 24.786,
+      "step": 56000
+    },
+    {
+      "epoch": 9.994830260210236,
+      "grad_norm": 4.400235176086426,
+      "learning_rate": 1.7232465965879718e-08,
+      "loss": 1.7051,
+      "step": 58000
     },
     {
+      "epoch": 9.994830260210236,
+      "eval_accuracy": 0.688299460328396,
+      "eval_loss": 1.5576411485671997,
+      "eval_runtime": 24.6434,
+      "eval_samples_per_second": 396.617,
+      "eval_steps_per_second": 24.794,
+      "step": 58000
     },
     {
       "epoch": 10.0,
       "step": 58030,
       "total_flos": 0.0,
+      "train_loss": 2.14307959750667,
+      "train_runtime": 18230.969,
+      "train_samples_per_second": 101.851,
+      "train_steps_per_second": 3.183
     }
   ],
+  "logging_steps": 2000,
   "max_steps": 58030,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
+  "save_steps": 2000,
   "total_flos": 0.0,
   "train_batch_size": 32,
   "trial_name": null,