Training in progress, step 5000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +296 -7
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0abaa86fc4833d57f7fe503c09526ace445919e1b76f14b35ac06c12e186254f
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3f6d7fbf311f06dffa533857155833f39e492a1e6e09467737aaae7d02033d4
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77a61b8fba58f2ecec15e248785b8d20ba3be4672b027d63e4ae27a50a6e05e6
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:42d1a12a31d0f16137c80f9dbea20b2559693f564e8c041bb266e4026444a44a
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4a887c0679a244fb3578da62fc4230274c5d38de547b25494a50298ffcd112e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fce579953b334f6cfba9152781b4b5b016a30a4024c41dd066d03ae60bfaddc7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a76e193687c482f6cc875caf45cbf094edc541bfbe3eb9f8259fd2d597d2f4e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:719b9638750507eaec42e786cd14bdd5ecf37679f81d3d2e9daed79b83274704
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 18.183709992924626,
-  "best_model_checkpoint": "./whisper-small-taiwanese-hanzi/checkpoint-4000",
-  "epoch": 1.6,
   "eval_steps": 1000,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1163,14 +1163,303 @@
       "eval_samples_per_second": 2.244,
       "eval_steps_per_second": 0.281,
       "step": 4000
     }
   ],
   "logging_steps": 25,
-  "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 1.846946562048e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 17.193157697590213,
+  "best_model_checkpoint": "./whisper-small-taiwanese-hanzi/checkpoint-5000",
+  "epoch": 2.0,
   "eval_steps": 1000,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.244,
       "eval_steps_per_second": 0.281,
       "step": 4000
+    },
+    {
+      "epoch": 1.6099999999999999,
+      "grad_norm": 6.242763042449951,
+      "learning_rate": 5.520833333333334e-06,
+      "loss": 0.1892,
+      "step": 4025
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 7.155097007751465,
+      "learning_rate": 5.486111111111112e-06,
+      "loss": 0.2207,
+      "step": 4050
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 10.018449783325195,
+      "learning_rate": 5.451388888888889e-06,
+      "loss": 0.2497,
+      "step": 4075
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 9.636473655700684,
+      "learning_rate": 5.416666666666667e-06,
+      "loss": 0.2356,
+      "step": 4100
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 8.315143585205078,
+      "learning_rate": 5.381944444444445e-06,
+      "loss": 0.2333,
+      "step": 4125
+    },
+    {
+      "epoch": 1.6600000000000001,
+      "grad_norm": 8.561467170715332,
+      "learning_rate": 5.347222222222222e-06,
+      "loss": 0.2205,
+      "step": 4150
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 5.167340278625488,
+      "learning_rate": 5.3125e-06,
+      "loss": 0.221,
+      "step": 4175
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 6.219302654266357,
+      "learning_rate": 5.2777777777777785e-06,
+      "loss": 0.2057,
+      "step": 4200
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 7.842504501342773,
+      "learning_rate": 5.243055555555556e-06,
+      "loss": 0.2239,
+      "step": 4225
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 5.829674243927002,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 0.2304,
+      "step": 4250
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 10.23341178894043,
+      "learning_rate": 5.173611111111112e-06,
+      "loss": 0.2134,
+      "step": 4275
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 5.533736228942871,
+      "learning_rate": 5.138888888888889e-06,
+      "loss": 0.2122,
+      "step": 4300
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 9.650428771972656,
+      "learning_rate": 5.104166666666667e-06,
+      "loss": 0.2256,
+      "step": 4325
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 7.121572494506836,
+      "learning_rate": 5.069444444444445e-06,
+      "loss": 0.2365,
+      "step": 4350
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 5.643657207489014,
+      "learning_rate": 5.034722222222222e-06,
+      "loss": 0.1922,
+      "step": 4375
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 7.42201042175293,
+      "learning_rate": 5e-06,
+      "loss": 0.2238,
+      "step": 4400
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 7.345561981201172,
+      "learning_rate": 4.9652777777777786e-06,
+      "loss": 0.2236,
+      "step": 4425
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 5.476310729980469,
+      "learning_rate": 4.930555555555556e-06,
+      "loss": 0.2232,
+      "step": 4450
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 9.794219970703125,
+      "learning_rate": 4.895833333333333e-06,
+      "loss": 0.2352,
+      "step": 4475
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 8.994114875793457,
+      "learning_rate": 4.861111111111111e-06,
+      "loss": 0.2164,
+      "step": 4500
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 8.589949607849121,
+      "learning_rate": 4.8263888888888895e-06,
+      "loss": 0.2062,
+      "step": 4525
+    },
+    {
+      "epoch": 1.8199999999999998,
+      "grad_norm": 6.32391881942749,
+      "learning_rate": 4.791666666666668e-06,
+      "loss": 0.2476,
+      "step": 4550
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 7.506887435913086,
+      "learning_rate": 4.756944444444445e-06,
+      "loss": 0.2243,
+      "step": 4575
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 5.173837661743164,
+      "learning_rate": 4.722222222222222e-06,
+      "loss": 0.1789,
+      "step": 4600
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 7.828786849975586,
+      "learning_rate": 4.6875000000000004e-06,
+      "loss": 0.2138,
+      "step": 4625
+    },
+    {
+      "epoch": 1.8599999999999999,
+      "grad_norm": 6.593687057495117,
+      "learning_rate": 4.652777777777779e-06,
+      "loss": 0.2238,
+      "step": 4650
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 8.0968599319458,
+      "learning_rate": 4.618055555555556e-06,
+      "loss": 0.2038,
+      "step": 4675
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 7.589450359344482,
+      "learning_rate": 4.583333333333333e-06,
+      "loss": 0.203,
+      "step": 4700
+    },
+    {
+      "epoch": 1.8900000000000001,
+      "grad_norm": 10.24547004699707,
+      "learning_rate": 4.548611111111111e-06,
+      "loss": 0.2468,
+      "step": 4725
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 6.878439426422119,
+      "learning_rate": 4.5138888888888895e-06,
+      "loss": 0.1983,
+      "step": 4750
+    },
+    {
+      "epoch": 1.9100000000000001,
+      "grad_norm": 5.918954372406006,
+      "learning_rate": 4.479166666666667e-06,
+      "loss": 0.1921,
+      "step": 4775
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 10.184906005859375,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.1898,
+      "step": 4800
+    },
+    {
+      "epoch": 1.9300000000000002,
+      "grad_norm": 8.617950439453125,
+      "learning_rate": 4.409722222222222e-06,
+      "loss": 0.1916,
+      "step": 4825
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 5.356297969818115,
+      "learning_rate": 4.3750000000000005e-06,
+      "loss": 0.1844,
+      "step": 4850
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 6.3137030601501465,
+      "learning_rate": 4.340277777777779e-06,
+      "loss": 0.2078,
+      "step": 4875
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 5.769162178039551,
+      "learning_rate": 4.305555555555556e-06,
+      "loss": 0.2193,
+      "step": 4900
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 8.022501945495605,
+      "learning_rate": 4.270833333333333e-06,
+      "loss": 0.2296,
+      "step": 4925
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 6.754506587982178,
+      "learning_rate": 4.236111111111111e-06,
+      "loss": 0.226,
+      "step": 4950
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 6.45380163192749,
+      "learning_rate": 4.2013888888888896e-06,
+      "loss": 0.1871,
+      "step": 4975
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.92453145980835,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.2223,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0,
+      "eval_cer": 17.193157697590213,
+      "eval_loss": 0.29516366124153137,
+      "eval_runtime": 1741.8319,
+      "eval_samples_per_second": 2.26,
+      "eval_steps_per_second": 0.282,
+      "step": 5000
     }
   ],
   "logging_steps": 25,
+  "max_steps": 8000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 1000,
+  "total_flos": 2.30868320256e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5db4033f6b868aaeb993204292a7f37e97e009a90ed66631bd9548f433d7f150
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3de5b9bda0f933887f039c8c86c5054848a6cee2f3d7f8f9e5d030a92f7f5ad
 size 5176