2020-Q3-90p-filtered-random / trainer_state.json

End of training

0a0ecee verified 7 months ago

No virus

80.9 kB

	{
	"best_metric": 2.244624614715576,
	"best_model_checkpoint": "./model_tweets_2020_Q3_90/checkpoint-768000",
	"epoch": 50.52525209995579,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.17,
	"eval_loss": 2.5349206924438477,
	"eval_runtime": 47.928,
	"eval_samples_per_second": 834.585,
	"eval_steps_per_second": 52.162,
	"step": 8000
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.0726666666666665e-07,
	"loss": 2.7955,
	"step": 16000
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.444758892059326,
	"eval_runtime": 48.5664,
	"eval_samples_per_second": 823.615,
	"eval_steps_per_second": 51.476,
	"step": 16000
	},
	{
	"epoch": 0.51,
	"eval_loss": 2.3948748111724854,
	"eval_runtime": 48.544,
	"eval_samples_per_second": 823.995,
	"eval_steps_per_second": 51.5,
	"step": 24000
	},
	{
	"epoch": 0.67,
	"learning_rate": 4.0453333333333336e-07,
	"loss": 2.5335,
	"step": 32000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.3699398040771484,
	"eval_runtime": 48.2115,
	"eval_samples_per_second": 829.678,
	"eval_steps_per_second": 51.855,
	"step": 32000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.354438066482544,
	"eval_runtime": 48.5047,
	"eval_samples_per_second": 824.662,
	"eval_steps_per_second": 51.541,
	"step": 40000
	},
	{
	"epoch": 1.01,
	"learning_rate": 4.018e-07,
	"loss": 2.4757,
	"step": 48000
	},
	{
	"epoch": 1.01,
	"eval_loss": 2.347705364227295,
	"eval_runtime": 48.6892,
	"eval_samples_per_second": 821.537,
	"eval_steps_per_second": 51.346,
	"step": 48000
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.3280608654022217,
	"eval_runtime": 48.0175,
	"eval_samples_per_second": 833.029,
	"eval_steps_per_second": 52.064,
	"step": 56000
	},
	{
	"epoch": 1.35,
	"learning_rate": 3.9906666666666667e-07,
	"loss": 2.446,
	"step": 64000
	},
	{
	"epoch": 1.35,
	"eval_loss": 2.317082166671753,
	"eval_runtime": 48.561,
	"eval_samples_per_second": 823.706,
	"eval_steps_per_second": 51.482,
	"step": 64000
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.308218240737915,
	"eval_runtime": 48.3682,
	"eval_samples_per_second": 826.989,
	"eval_steps_per_second": 51.687,
	"step": 72000
	},
	{
	"epoch": 1.68,
	"learning_rate": 3.963333333333333e-07,
	"loss": 2.4291,
	"step": 80000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.316983222961426,
	"eval_runtime": 48.1155,
	"eval_samples_per_second": 831.333,
	"eval_steps_per_second": 51.958,
	"step": 80000
	},
	{
	"epoch": 1.85,
	"eval_loss": 2.2962071895599365,
	"eval_runtime": 48.0395,
	"eval_samples_per_second": 832.648,
	"eval_steps_per_second": 52.041,
	"step": 88000
	},
	{
	"epoch": 2.02,
	"learning_rate": 3.936e-07,
	"loss": 2.4275,
	"step": 96000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.304356575012207,
	"eval_runtime": 48.8826,
	"eval_samples_per_second": 818.287,
	"eval_steps_per_second": 51.143,
	"step": 96000
	},
	{
	"epoch": 2.19,
	"eval_loss": 2.2738351821899414,
	"eval_runtime": 48.096,
	"eval_samples_per_second": 831.671,
	"eval_steps_per_second": 51.979,
	"step": 104000
	},
	{
	"epoch": 2.36,
	"learning_rate": 3.908666666666667e-07,
	"loss": 2.4148,
	"step": 112000
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.2927024364471436,
	"eval_runtime": 48.7643,
	"eval_samples_per_second": 820.272,
	"eval_steps_per_second": 51.267,
	"step": 112000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.2684385776519775,
	"eval_runtime": 48.701,
	"eval_samples_per_second": 821.338,
	"eval_steps_per_second": 51.334,
	"step": 120000
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.8813333333333334e-07,
	"loss": 2.4062,
	"step": 128000
	},
	{
	"epoch": 2.69,
	"eval_loss": 2.289085626602173,
	"eval_runtime": 48.1247,
	"eval_samples_per_second": 831.174,
	"eval_steps_per_second": 51.948,
	"step": 128000
	},
	{
	"epoch": 2.86,
	"eval_loss": 2.278874397277832,
	"eval_runtime": 48.1786,
	"eval_samples_per_second": 830.245,
	"eval_steps_per_second": 51.89,
	"step": 136000
	},
	{
	"epoch": 3.03,
	"learning_rate": 3.854e-07,
	"loss": 2.4022,
	"step": 144000
	},
	{
	"epoch": 3.03,
	"eval_loss": 2.2659101486206055,
	"eval_runtime": 48.6348,
	"eval_samples_per_second": 822.457,
	"eval_steps_per_second": 51.404,
	"step": 144000
	},
	{
	"epoch": 3.2,
	"eval_loss": 2.282435894012451,
	"eval_runtime": 48.1725,
	"eval_samples_per_second": 830.349,
	"eval_steps_per_second": 51.897,
	"step": 152000
	},
	{
	"epoch": 3.37,
	"learning_rate": 3.8266666666666665e-07,
	"loss": 2.3943,
	"step": 160000
	},
	{
	"epoch": 3.37,
	"eval_loss": 2.268383026123047,
	"eval_runtime": 48.1548,
	"eval_samples_per_second": 830.655,
	"eval_steps_per_second": 51.916,
	"step": 160000
	},
	{
	"epoch": 3.54,
	"eval_loss": 2.268256187438965,
	"eval_runtime": 48.6456,
	"eval_samples_per_second": 822.274,
	"eval_steps_per_second": 51.392,
	"step": 168000
	},
	{
	"epoch": 3.71,
	"learning_rate": 3.799333333333333e-07,
	"loss": 2.3957,
	"step": 176000
	},
	{
	"epoch": 3.71,
	"eval_loss": 2.2737274169921875,
	"eval_runtime": 48.1068,
	"eval_samples_per_second": 831.483,
	"eval_steps_per_second": 51.968,
	"step": 176000
	},
	{
	"epoch": 3.87,
	"eval_loss": 2.2779204845428467,
	"eval_runtime": 48.6234,
	"eval_samples_per_second": 822.65,
	"eval_steps_per_second": 51.416,
	"step": 184000
	},
	{
	"epoch": 4.04,
	"learning_rate": 3.772e-07,
	"loss": 2.3976,
	"step": 192000
	},
	{
	"epoch": 4.04,
	"eval_loss": 2.2710366249084473,
	"eval_runtime": 48.2531,
	"eval_samples_per_second": 828.961,
	"eval_steps_per_second": 51.81,
	"step": 192000
	},
	{
	"epoch": 4.21,
	"eval_loss": 2.249539852142334,
	"eval_runtime": 48.0877,
	"eval_samples_per_second": 831.813,
	"eval_steps_per_second": 51.988,
	"step": 200000
	},
	{
	"epoch": 4.38,
	"learning_rate": 3.7446666666666667e-07,
	"loss": 2.3933,
	"step": 208000
	},
	{
	"epoch": 4.38,
	"eval_loss": 2.266042947769165,
	"eval_runtime": 48.7475,
	"eval_samples_per_second": 820.554,
	"eval_steps_per_second": 51.285,
	"step": 208000
	},
	{
	"epoch": 4.55,
	"eval_loss": 2.2686843872070312,
	"eval_runtime": 48.6373,
	"eval_samples_per_second": 822.414,
	"eval_steps_per_second": 51.401,
	"step": 216000
	},
	{
	"epoch": 4.72,
	"learning_rate": 3.7173333333333333e-07,
	"loss": 2.4039,
	"step": 224000
	},
	{
	"epoch": 4.72,
	"eval_loss": 2.258059024810791,
	"eval_runtime": 48.8049,
	"eval_samples_per_second": 819.591,
	"eval_steps_per_second": 51.224,
	"step": 224000
	},
	{
	"epoch": 4.88,
	"eval_loss": 2.265613079071045,
	"eval_runtime": 48.1482,
	"eval_samples_per_second": 830.769,
	"eval_steps_per_second": 51.923,
	"step": 232000
	},
	{
	"epoch": 5.05,
	"learning_rate": 3.69e-07,
	"loss": 2.3966,
	"step": 240000
	},
	{
	"epoch": 5.05,
	"eval_loss": 2.254256248474121,
	"eval_runtime": 48.4211,
	"eval_samples_per_second": 826.087,
	"eval_steps_per_second": 51.63,
	"step": 240000
	},
	{
	"epoch": 5.22,
	"eval_loss": 2.2767629623413086,
	"eval_runtime": 48.0495,
	"eval_samples_per_second": 832.475,
	"eval_steps_per_second": 52.03,
	"step": 248000
	},
	{
	"epoch": 5.39,
	"learning_rate": 3.6626666666666664e-07,
	"loss": 2.3902,
	"step": 256000
	},
	{
	"epoch": 5.39,
	"eval_loss": 2.255053997039795,
	"eval_runtime": 49.0256,
	"eval_samples_per_second": 815.901,
	"eval_steps_per_second": 50.994,
	"step": 256000
	},
	{
	"epoch": 5.56,
	"eval_loss": 2.278200626373291,
	"eval_runtime": 48.1284,
	"eval_samples_per_second": 831.11,
	"eval_steps_per_second": 51.944,
	"step": 264000
	},
	{
	"epoch": 5.73,
	"learning_rate": 3.6353333333333335e-07,
	"loss": 2.3906,
	"step": 272000
	},
	{
	"epoch": 5.73,
	"eval_loss": 2.2639424800872803,
	"eval_runtime": 48.2031,
	"eval_samples_per_second": 829.822,
	"eval_steps_per_second": 51.864,
	"step": 272000
	},
	{
	"epoch": 5.89,
	"eval_loss": 2.2584660053253174,
	"eval_runtime": 48.1979,
	"eval_samples_per_second": 829.911,
	"eval_steps_per_second": 51.869,
	"step": 280000
	},
	{
	"epoch": 6.06,
	"learning_rate": 3.608e-07,
	"loss": 2.3849,
	"step": 288000
	},
	{
	"epoch": 6.06,
	"eval_loss": 2.254004955291748,
	"eval_runtime": 48.3611,
	"eval_samples_per_second": 827.11,
	"eval_steps_per_second": 51.694,
	"step": 288000
	},
	{
	"epoch": 6.23,
	"eval_loss": 2.274897813796997,
	"eval_runtime": 48.7282,
	"eval_samples_per_second": 820.88,
	"eval_steps_per_second": 51.305,
	"step": 296000
	},
	{
	"epoch": 6.4,
	"learning_rate": 3.5806666666666666e-07,
	"loss": 2.3805,
	"step": 304000
	},
	{
	"epoch": 6.4,
	"eval_loss": 2.250277042388916,
	"eval_runtime": 48.3341,
	"eval_samples_per_second": 827.574,
	"eval_steps_per_second": 51.723,
	"step": 304000
	},
	{
	"epoch": 6.57,
	"eval_loss": 2.273930311203003,
	"eval_runtime": 47.7431,
	"eval_samples_per_second": 837.818,
	"eval_steps_per_second": 52.364,
	"step": 312000
	},
	{
	"epoch": 6.74,
	"learning_rate": 3.553333333333333e-07,
	"loss": 2.3873,
	"step": 320000
	},
	{
	"epoch": 6.74,
	"eval_loss": 2.254091739654541,
	"eval_runtime": 48.6038,
	"eval_samples_per_second": 822.98,
	"eval_steps_per_second": 51.436,
	"step": 320000
	},
	{
	"epoch": 6.91,
	"eval_loss": 2.2511613368988037,
	"eval_runtime": 48.0895,
	"eval_samples_per_second": 831.783,
	"eval_steps_per_second": 51.986,
	"step": 328000
	},
	{
	"epoch": 7.07,
	"learning_rate": 3.5259999999999997e-07,
	"loss": 2.3942,
	"step": 336000
	},
	{
	"epoch": 7.07,
	"eval_loss": 2.2594754695892334,
	"eval_runtime": 48.3413,
	"eval_samples_per_second": 827.45,
	"eval_steps_per_second": 51.716,
	"step": 336000
	},
	{
	"epoch": 7.24,
	"eval_loss": 2.260305166244507,
	"eval_runtime": 48.7128,
	"eval_samples_per_second": 821.14,
	"eval_steps_per_second": 51.321,
	"step": 344000
	},
	{
	"epoch": 7.41,
	"learning_rate": 3.498666666666667e-07,
	"loss": 2.386,
	"step": 352000
	},
	{
	"epoch": 7.41,
	"eval_loss": 2.257478713989258,
	"eval_runtime": 48.858,
	"eval_samples_per_second": 818.698,
	"eval_steps_per_second": 51.169,
	"step": 352000
	},
	{
	"epoch": 7.58,
	"eval_loss": 2.2788634300231934,
	"eval_runtime": 48.3058,
	"eval_samples_per_second": 828.059,
	"eval_steps_per_second": 51.754,
	"step": 360000
	},
	{
	"epoch": 7.75,
	"learning_rate": 3.4713333333333333e-07,
	"loss": 2.3806,
	"step": 368000
	},
	{
	"epoch": 7.75,
	"eval_loss": 2.265003204345703,
	"eval_runtime": 48.6794,
	"eval_samples_per_second": 821.703,
	"eval_steps_per_second": 51.356,
	"step": 368000
	},
	{
	"epoch": 7.92,
	"eval_loss": 2.2706291675567627,
	"eval_runtime": 48.2232,
	"eval_samples_per_second": 829.476,
	"eval_steps_per_second": 51.842,
	"step": 376000
	},
	{
	"epoch": 8.08,
	"learning_rate": 3.444e-07,
	"loss": 2.3883,
	"step": 384000
	},
	{
	"epoch": 8.08,
	"eval_loss": 2.2652194499969482,
	"eval_runtime": 48.2989,
	"eval_samples_per_second": 828.177,
	"eval_steps_per_second": 51.761,
	"step": 384000
	},
	{
	"epoch": 8.25,
	"eval_loss": 2.2540171146392822,
	"eval_runtime": 48.1211,
	"eval_samples_per_second": 831.236,
	"eval_steps_per_second": 51.952,
	"step": 392000
	},
	{
	"epoch": 8.42,
	"learning_rate": 3.416666666666667e-07,
	"loss": 2.3922,
	"step": 400000
	},
	{
	"epoch": 8.42,
	"eval_loss": 2.268253803253174,
	"eval_runtime": 48.5611,
	"eval_samples_per_second": 823.704,
	"eval_steps_per_second": 51.481,
	"step": 400000
	},
	{
	"epoch": 8.59,
	"eval_loss": 2.263794422149658,
	"eval_runtime": 48.7481,
	"eval_samples_per_second": 820.544,
	"eval_steps_per_second": 51.284,
	"step": 408000
	},
	{
	"epoch": 8.76,
	"learning_rate": 3.3893333333333335e-07,
	"loss": 2.3887,
	"step": 416000
	},
	{
	"epoch": 8.76,
	"eval_loss": 2.253530502319336,
	"eval_runtime": 48.7981,
	"eval_samples_per_second": 819.704,
	"eval_steps_per_second": 51.232,
	"step": 416000
	},
	{
	"epoch": 8.93,
	"eval_loss": 2.2529492378234863,
	"eval_runtime": 48.6536,
	"eval_samples_per_second": 822.139,
	"eval_steps_per_second": 51.384,
	"step": 424000
	},
	{
	"epoch": 9.09,
	"learning_rate": 3.3619999999999995e-07,
	"loss": 2.3818,
	"step": 432000
	},
	{
	"epoch": 9.09,
	"eval_loss": 2.248337507247925,
	"eval_runtime": 48.2543,
	"eval_samples_per_second": 828.942,
	"eval_steps_per_second": 51.809,
	"step": 432000
	},
	{
	"epoch": 9.26,
	"eval_loss": 2.2573952674865723,
	"eval_runtime": 48.2027,
	"eval_samples_per_second": 829.829,
	"eval_steps_per_second": 51.864,
	"step": 440000
	},
	{
	"epoch": 9.43,
	"learning_rate": 3.3346666666666666e-07,
	"loss": 2.387,
	"step": 448000
	},
	{
	"epoch": 9.43,
	"eval_loss": 2.2624008655548096,
	"eval_runtime": 48.2217,
	"eval_samples_per_second": 829.502,
	"eval_steps_per_second": 51.844,
	"step": 448000
	},
	{
	"epoch": 9.6,
	"eval_loss": 2.26644229888916,
	"eval_runtime": 48.04,
	"eval_samples_per_second": 832.64,
	"eval_steps_per_second": 52.04,
	"step": 456000
	},
	{
	"epoch": 9.77,
	"learning_rate": 3.307333333333333e-07,
	"loss": 2.3839,
	"step": 464000
	},
	{
	"epoch": 9.77,
	"eval_loss": 2.257237195968628,
	"eval_runtime": 48.887,
	"eval_samples_per_second": 818.214,
	"eval_steps_per_second": 51.138,
	"step": 464000
	},
	{
	"epoch": 9.94,
	"eval_loss": 2.252383232116699,
	"eval_runtime": 48.1755,
	"eval_samples_per_second": 830.298,
	"eval_steps_per_second": 51.894,
	"step": 472000
	},
	{
	"epoch": 10.11,
	"learning_rate": 3.28e-07,
	"loss": 2.3901,
	"step": 480000
	},
	{
	"epoch": 10.11,
	"eval_loss": 2.2532765865325928,
	"eval_runtime": 48.1778,
	"eval_samples_per_second": 830.259,
	"eval_steps_per_second": 51.891,
	"step": 480000
	},
	{
	"epoch": 10.27,
	"eval_loss": 2.250092029571533,
	"eval_runtime": 48.8687,
	"eval_samples_per_second": 818.52,
	"eval_steps_per_second": 51.157,
	"step": 488000
	},
	{
	"epoch": 10.44,
	"learning_rate": 3.252666666666667e-07,
	"loss": 2.382,
	"step": 496000
	},
	{
	"epoch": 10.44,
	"eval_loss": 2.266896963119507,
	"eval_runtime": 48.918,
	"eval_samples_per_second": 817.695,
	"eval_steps_per_second": 51.106,
	"step": 496000
	},
	{
	"epoch": 10.61,
	"eval_loss": 2.259631395339966,
	"eval_runtime": 48.6846,
	"eval_samples_per_second": 821.614,
	"eval_steps_per_second": 51.351,
	"step": 504000
	},
	{
	"epoch": 10.78,
	"learning_rate": 3.2253333333333334e-07,
	"loss": 2.3829,
	"step": 512000
	},
	{
	"epoch": 10.78,
	"eval_loss": 2.270488977432251,
	"eval_runtime": 49.0149,
	"eval_samples_per_second": 816.079,
	"eval_steps_per_second": 51.005,
	"step": 512000
	},
	{
	"epoch": 10.95,
	"eval_loss": 2.2553160190582275,
	"eval_runtime": 48.2406,
	"eval_samples_per_second": 829.177,
	"eval_steps_per_second": 51.824,
	"step": 520000
	},
	{
	"epoch": 11.12,
	"learning_rate": 3.198e-07,
	"loss": 2.3963,
	"step": 528000
	},
	{
	"epoch": 11.12,
	"eval_loss": 2.2741470336914062,
	"eval_runtime": 48.1623,
	"eval_samples_per_second": 830.524,
	"eval_steps_per_second": 51.908,
	"step": 528000
	},
	{
	"epoch": 11.28,
	"eval_loss": 2.266427993774414,
	"eval_runtime": 48.1335,
	"eval_samples_per_second": 831.022,
	"eval_steps_per_second": 51.939,
	"step": 536000
	},
	{
	"epoch": 11.45,
	"learning_rate": 3.1706666666666665e-07,
	"loss": 2.3843,
	"step": 544000
	},
	{
	"epoch": 11.45,
	"eval_loss": 2.2532401084899902,
	"eval_runtime": 48.2869,
	"eval_samples_per_second": 828.382,
	"eval_steps_per_second": 51.774,
	"step": 544000
	},
	{
	"epoch": 11.62,
	"eval_loss": 2.2719969749450684,
	"eval_runtime": 48.3879,
	"eval_samples_per_second": 826.653,
	"eval_steps_per_second": 51.666,
	"step": 552000
	},
	{
	"epoch": 11.79,
	"learning_rate": 3.1433333333333336e-07,
	"loss": 2.3853,
	"step": 560000
	},
	{
	"epoch": 11.79,
	"eval_loss": 2.2532143592834473,
	"eval_runtime": 48.6521,
	"eval_samples_per_second": 822.164,
	"eval_steps_per_second": 51.385,
	"step": 560000
	},
	{
	"epoch": 11.96,
	"eval_loss": 2.2699735164642334,
	"eval_runtime": 48.0759,
	"eval_samples_per_second": 832.017,
	"eval_steps_per_second": 52.001,
	"step": 568000
	},
	{
	"epoch": 12.13,
	"learning_rate": 3.116e-07,
	"loss": 2.3907,
	"step": 576000
	},
	{
	"epoch": 12.13,
	"eval_loss": 2.257100820541382,
	"eval_runtime": 48.264,
	"eval_samples_per_second": 828.776,
	"eval_steps_per_second": 51.798,
	"step": 576000
	},
	{
	"epoch": 12.29,
	"eval_loss": 2.252300500869751,
	"eval_runtime": 48.085,
	"eval_samples_per_second": 831.86,
	"eval_steps_per_second": 51.991,
	"step": 584000
	},
	{
	"epoch": 12.46,
	"learning_rate": 3.0886666666666667e-07,
	"loss": 2.3865,
	"step": 592000
	},
	{
	"epoch": 12.46,
	"eval_loss": 2.245786428451538,
	"eval_runtime": 48.9081,
	"eval_samples_per_second": 817.861,
	"eval_steps_per_second": 51.116,
	"step": 592000
	},
	{
	"epoch": 12.63,
	"eval_loss": 2.264732599258423,
	"eval_runtime": 48.1262,
	"eval_samples_per_second": 831.149,
	"eval_steps_per_second": 51.947,
	"step": 600000
	},
	{
	"epoch": 12.8,
	"learning_rate": 3.061333333333333e-07,
	"loss": 2.3827,
	"step": 608000
	},
	{
	"epoch": 12.8,
	"eval_loss": 2.2490034103393555,
	"eval_runtime": 48.1786,
	"eval_samples_per_second": 830.244,
	"eval_steps_per_second": 51.89,
	"step": 608000
	},
	{
	"epoch": 12.97,
	"eval_loss": 2.2623653411865234,
	"eval_runtime": 48.6642,
	"eval_samples_per_second": 821.959,
	"eval_steps_per_second": 51.372,
	"step": 616000
	},
	{
	"epoch": 13.14,
	"learning_rate": 3.034e-07,
	"loss": 2.3869,
	"step": 624000
	},
	{
	"epoch": 13.14,
	"eval_loss": 2.253758430480957,
	"eval_runtime": 48.2352,
	"eval_samples_per_second": 829.269,
	"eval_steps_per_second": 51.829,
	"step": 624000
	},
	{
	"epoch": 13.3,
	"eval_loss": 2.2357494831085205,
	"eval_runtime": 47.7426,
	"eval_samples_per_second": 837.826,
	"eval_steps_per_second": 52.364,
	"step": 632000
	},
	{
	"epoch": 13.47,
	"learning_rate": 3.0066666666666663e-07,
	"loss": 2.3958,
	"step": 640000
	},
	{
	"epoch": 13.47,
	"eval_loss": 2.2508862018585205,
	"eval_runtime": 48.884,
	"eval_samples_per_second": 818.263,
	"eval_steps_per_second": 51.141,
	"step": 640000
	},
	{
	"epoch": 13.64,
	"eval_loss": 2.2690088748931885,
	"eval_runtime": 48.5211,
	"eval_samples_per_second": 824.384,
	"eval_steps_per_second": 51.524,
	"step": 648000
	},
	{
	"epoch": 13.81,
	"learning_rate": 2.9793333333333334e-07,
	"loss": 2.3852,
	"step": 656000
	},
	{
	"epoch": 13.81,
	"eval_loss": 2.247575283050537,
	"eval_runtime": 48.4402,
	"eval_samples_per_second": 825.761,
	"eval_steps_per_second": 51.61,
	"step": 656000
	},
	{
	"epoch": 13.98,
	"eval_loss": 2.272088050842285,
	"eval_runtime": 48.8783,
	"eval_samples_per_second": 818.359,
	"eval_steps_per_second": 51.147,
	"step": 664000
	},
	{
	"epoch": 14.15,
	"learning_rate": 2.952e-07,
	"loss": 2.3889,
	"step": 672000
	},
	{
	"epoch": 14.15,
	"eval_loss": 2.253678560256958,
	"eval_runtime": 48.7246,
	"eval_samples_per_second": 820.94,
	"eval_steps_per_second": 51.309,
	"step": 672000
	},
	{
	"epoch": 14.32,
	"eval_loss": 2.2723231315612793,
	"eval_runtime": 48.1926,
	"eval_samples_per_second": 830.003,
	"eval_steps_per_second": 51.875,
	"step": 680000
	},
	{
	"epoch": 14.48,
	"learning_rate": 2.9246666666666665e-07,
	"loss": 2.3839,
	"step": 688000
	},
	{
	"epoch": 14.48,
	"eval_loss": 2.2664077281951904,
	"eval_runtime": 48.493,
	"eval_samples_per_second": 824.861,
	"eval_steps_per_second": 51.554,
	"step": 688000
	},
	{
	"epoch": 14.65,
	"eval_loss": 2.2725985050201416,
	"eval_runtime": 49.24,
	"eval_samples_per_second": 812.348,
	"eval_steps_per_second": 50.772,
	"step": 696000
	},
	{
	"epoch": 14.82,
	"learning_rate": 2.897333333333333e-07,
	"loss": 2.3884,
	"step": 704000
	},
	{
	"epoch": 14.82,
	"eval_loss": 2.265206813812256,
	"eval_runtime": 49.5431,
	"eval_samples_per_second": 807.377,
	"eval_steps_per_second": 50.461,
	"step": 704000
	},
	{
	"epoch": 14.99,
	"eval_loss": 2.2633461952209473,
	"eval_runtime": 48.6148,
	"eval_samples_per_second": 822.795,
	"eval_steps_per_second": 51.425,
	"step": 712000
	},
	{
	"epoch": 15.16,
	"learning_rate": 2.8699999999999996e-07,
	"loss": 2.3827,
	"step": 720000
	},
	{
	"epoch": 15.16,
	"eval_loss": 2.268095016479492,
	"eval_runtime": 49.156,
	"eval_samples_per_second": 813.737,
	"eval_steps_per_second": 50.859,
	"step": 720000
	},
	{
	"epoch": 15.33,
	"eval_loss": 2.2542901039123535,
	"eval_runtime": 48.9808,
	"eval_samples_per_second": 816.646,
	"eval_steps_per_second": 51.04,
	"step": 728000
	},
	{
	"epoch": 15.49,
	"learning_rate": 2.8426666666666667e-07,
	"loss": 2.3861,
	"step": 736000
	},
	{
	"epoch": 15.49,
	"eval_loss": 2.2634222507476807,
	"eval_runtime": 48.9041,
	"eval_samples_per_second": 817.927,
	"eval_steps_per_second": 51.12,
	"step": 736000
	},
	{
	"epoch": 15.66,
	"eval_loss": 2.2706964015960693,
	"eval_runtime": 49.2314,
	"eval_samples_per_second": 812.49,
	"eval_steps_per_second": 50.781,
	"step": 744000
	},
	{
	"epoch": 15.83,
	"learning_rate": 2.815333333333333e-07,
	"loss": 2.3812,
	"step": 752000
	},
	{
	"epoch": 15.83,
	"eval_loss": 2.2575085163116455,
	"eval_runtime": 48.6081,
	"eval_samples_per_second": 822.908,
	"eval_steps_per_second": 51.432,
	"step": 752000
	},
	{
	"epoch": 16.0,
	"eval_loss": 2.2549245357513428,
	"eval_runtime": 48.9973,
	"eval_samples_per_second": 816.371,
	"eval_steps_per_second": 51.023,
	"step": 760000
	},
	{
	"epoch": 16.17,
	"learning_rate": 2.7880000000000003e-07,
	"loss": 2.3862,
	"step": 768000
	},
	{
	"epoch": 16.17,
	"eval_loss": 2.244624614715576,
	"eval_runtime": 49.0122,
	"eval_samples_per_second": 816.123,
	"eval_steps_per_second": 51.008,
	"step": 768000
	},
	{
	"epoch": 16.34,
	"eval_loss": 2.261697769165039,
	"eval_runtime": 48.9467,
	"eval_samples_per_second": 817.216,
	"eval_steps_per_second": 51.076,
	"step": 776000
	},
	{
	"epoch": 16.5,
	"learning_rate": 2.7606666666666664e-07,
	"loss": 2.3859,
	"step": 784000
	},
	{
	"epoch": 16.5,
	"eval_loss": 2.250509023666382,
	"eval_runtime": 49.5476,
	"eval_samples_per_second": 807.304,
	"eval_steps_per_second": 50.457,
	"step": 784000
	},
	{
	"epoch": 16.67,
	"eval_loss": 2.271986722946167,
	"eval_runtime": 48.2956,
	"eval_samples_per_second": 828.232,
	"eval_steps_per_second": 51.765,
	"step": 792000
	},
	{
	"epoch": 16.84,
	"learning_rate": 2.733333333333333e-07,
	"loss": 2.3873,
	"step": 800000
	},
	{
	"epoch": 16.84,
	"eval_loss": 2.252095937728882,
	"eval_runtime": 48.4511,
	"eval_samples_per_second": 825.575,
	"eval_steps_per_second": 51.598,
	"step": 800000
	},
	{
	"epoch": 17.01,
	"eval_loss": 2.254298448562622,
	"eval_runtime": 49.0762,
	"eval_samples_per_second": 815.06,
	"eval_steps_per_second": 50.941,
	"step": 808000
	},
	{
	"epoch": 17.18,
	"learning_rate": 2.706e-07,
	"loss": 2.381,
	"step": 816000
	},
	{
	"epoch": 17.18,
	"eval_loss": 2.267543077468872,
	"eval_runtime": 48.6635,
	"eval_samples_per_second": 821.971,
	"eval_steps_per_second": 51.373,
	"step": 816000
	},
	{
	"epoch": 17.35,
	"eval_loss": 2.254502296447754,
	"eval_runtime": 49.6829,
	"eval_samples_per_second": 805.106,
	"eval_steps_per_second": 50.319,
	"step": 824000
	},
	{
	"epoch": 17.52,
	"learning_rate": 2.6786666666666666e-07,
	"loss": 2.3851,
	"step": 832000
	},
	{
	"epoch": 17.52,
	"eval_loss": 2.2488667964935303,
	"eval_runtime": 48.7936,
	"eval_samples_per_second": 819.78,
	"eval_steps_per_second": 51.236,
	"step": 832000
	},
	{
	"epoch": 17.68,
	"eval_loss": 2.2605700492858887,
	"eval_runtime": 49.2213,
	"eval_samples_per_second": 812.656,
	"eval_steps_per_second": 50.791,
	"step": 840000
	},
	{
	"epoch": 17.85,
	"learning_rate": 2.651333333333333e-07,
	"loss": 2.3878,
	"step": 848000
	},
	{
	"epoch": 17.85,
	"eval_loss": 2.2579894065856934,
	"eval_runtime": 49.0096,
	"eval_samples_per_second": 816.167,
	"eval_steps_per_second": 51.01,
	"step": 848000
	},
	{
	"epoch": 18.02,
	"eval_loss": 2.2604382038116455,
	"eval_runtime": 48.2778,
	"eval_samples_per_second": 828.538,
	"eval_steps_per_second": 51.784,
	"step": 856000
	},
	{
	"epoch": 18.19,
	"learning_rate": 2.624e-07,
	"loss": 2.3812,
	"step": 864000
	},
	{
	"epoch": 18.19,
	"eval_loss": 2.2630739212036133,
	"eval_runtime": 48.321,
	"eval_samples_per_second": 827.798,
	"eval_steps_per_second": 51.737,
	"step": 864000
	},
	{
	"epoch": 18.36,
	"eval_loss": 2.250539541244507,
	"eval_runtime": 48.9155,
	"eval_samples_per_second": 817.737,
	"eval_steps_per_second": 51.109,
	"step": 872000
	},
	{
	"epoch": 18.53,
	"learning_rate": 2.596666666666667e-07,
	"loss": 2.3849,
	"step": 880000
	},
	{
	"epoch": 18.53,
	"eval_loss": 2.2657594680786133,
	"eval_runtime": 48.513,
	"eval_samples_per_second": 824.521,
	"eval_steps_per_second": 51.533,
	"step": 880000
	},
	{
	"epoch": 18.69,
	"eval_loss": 2.2566869258880615,
	"eval_runtime": 49.2473,
	"eval_samples_per_second": 812.227,
	"eval_steps_per_second": 50.764,
	"step": 888000
	},
	{
	"epoch": 18.86,
	"learning_rate": 2.5693333333333333e-07,
	"loss": 2.3833,
	"step": 896000
	},
	{
	"epoch": 18.86,
	"eval_loss": 2.2533113956451416,
	"eval_runtime": 48.9908,
	"eval_samples_per_second": 816.479,
	"eval_steps_per_second": 51.03,
	"step": 896000
	},
	{
	"epoch": 19.03,
	"eval_loss": 2.2455687522888184,
	"eval_runtime": 49.5558,
	"eval_samples_per_second": 807.17,
	"eval_steps_per_second": 50.448,
	"step": 904000
	},
	{
	"epoch": 19.2,
	"learning_rate": 2.542e-07,
	"loss": 2.3847,
	"step": 912000
	},
	{
	"epoch": 19.2,
	"eval_loss": 2.253338098526001,
	"eval_runtime": 49.2167,
	"eval_samples_per_second": 812.733,
	"eval_steps_per_second": 50.796,
	"step": 912000
	},
	{
	"epoch": 19.37,
	"eval_loss": 2.257462739944458,
	"eval_runtime": 48.4436,
	"eval_samples_per_second": 825.703,
	"eval_steps_per_second": 51.606,
	"step": 920000
	},
	{
	"epoch": 19.54,
	"learning_rate": 2.5146666666666664e-07,
	"loss": 2.3869,
	"step": 928000
	},
	{
	"epoch": 19.54,
	"eval_loss": 2.2667601108551025,
	"eval_runtime": 49.3388,
	"eval_samples_per_second": 810.721,
	"eval_steps_per_second": 50.67,
	"step": 928000
	},
	{
	"epoch": 19.7,
	"eval_loss": 2.2598884105682373,
	"eval_runtime": 48.9927,
	"eval_samples_per_second": 816.449,
	"eval_steps_per_second": 51.028,
	"step": 936000
	},
	{
	"epoch": 19.87,
	"learning_rate": 2.4873333333333335e-07,
	"loss": 2.3867,
	"step": 944000
	},
	{
	"epoch": 19.87,
	"eval_loss": 2.2680182456970215,
	"eval_runtime": 48.4318,
	"eval_samples_per_second": 825.904,
	"eval_steps_per_second": 51.619,
	"step": 944000
	},
	{
	"epoch": 20.04,
	"eval_loss": 2.2669413089752197,
	"eval_runtime": 50.205,
	"eval_samples_per_second": 796.733,
	"eval_steps_per_second": 49.796,
	"step": 952000
	},
	{
	"epoch": 20.21,
	"learning_rate": 2.46e-07,
	"loss": 2.3942,
	"step": 960000
	},
	{
	"epoch": 20.21,
	"eval_loss": 2.2482852935791016,
	"eval_runtime": 48.9393,
	"eval_samples_per_second": 817.34,
	"eval_steps_per_second": 51.084,
	"step": 960000
	},
	{
	"epoch": 20.38,
	"eval_loss": 2.273371934890747,
	"eval_runtime": 48.5937,
	"eval_samples_per_second": 823.152,
	"eval_steps_per_second": 51.447,
	"step": 968000
	},
	{
	"epoch": 20.55,
	"learning_rate": 2.4326666666666666e-07,
	"loss": 2.3863,
	"step": 976000
	},
	{
	"epoch": 20.55,
	"eval_loss": 2.262270212173462,
	"eval_runtime": 48.5495,
	"eval_samples_per_second": 823.902,
	"eval_steps_per_second": 51.494,
	"step": 976000
	},
	{
	"epoch": 20.72,
	"eval_loss": 2.264986038208008,
	"eval_runtime": 48.8999,
	"eval_samples_per_second": 817.998,
	"eval_steps_per_second": 51.125,
	"step": 984000
	},
	{
	"epoch": 20.88,
	"learning_rate": 2.405333333333333e-07,
	"loss": 2.3924,
	"step": 992000
	},
	{
	"epoch": 20.88,
	"eval_loss": 2.2602696418762207,
	"eval_runtime": 49.2404,
	"eval_samples_per_second": 812.341,
	"eval_steps_per_second": 50.771,
	"step": 992000
	},
	{
	"epoch": 21.05,
	"eval_loss": 2.2708377838134766,
	"eval_runtime": 49.0675,
	"eval_samples_per_second": 815.204,
	"eval_steps_per_second": 50.95,
	"step": 1000000
	},
	{
	"epoch": 21.22,
	"learning_rate": 2.3779999999999997e-07,
	"loss": 2.3871,
	"step": 1008000
	},
	{
	"epoch": 21.22,
	"eval_loss": 2.2512402534484863,
	"eval_runtime": 48.7719,
	"eval_samples_per_second": 820.144,
	"eval_steps_per_second": 51.259,
	"step": 1008000
	},
	{
	"epoch": 21.39,
	"eval_loss": 2.2567834854125977,
	"eval_runtime": 49.1119,
	"eval_samples_per_second": 814.466,
	"eval_steps_per_second": 50.904,
	"step": 1016000
	},
	{
	"epoch": 21.56,
	"learning_rate": 2.3506666666666668e-07,
	"loss": 2.3827,
	"step": 1024000
	},
	{
	"epoch": 21.56,
	"eval_loss": 2.2676033973693848,
	"eval_runtime": 49.0505,
	"eval_samples_per_second": 815.486,
	"eval_steps_per_second": 50.968,
	"step": 1024000
	},
	{
	"epoch": 21.73,
	"eval_loss": 2.271024465560913,
	"eval_runtime": 49.4407,
	"eval_samples_per_second": 809.05,
	"eval_steps_per_second": 50.566,
	"step": 1032000
	},
	{
	"epoch": 21.89,
	"learning_rate": 2.3233333333333334e-07,
	"loss": 2.3799,
	"step": 1040000
	},
	{
	"epoch": 21.89,
	"eval_loss": 2.2804324626922607,
	"eval_runtime": 49.138,
	"eval_samples_per_second": 814.034,
	"eval_steps_per_second": 50.877,
	"step": 1040000
	},
	{
	"epoch": 22.06,
	"eval_loss": 2.2498600482940674,
	"eval_runtime": 48.6186,
	"eval_samples_per_second": 822.731,
	"eval_steps_per_second": 51.421,
	"step": 1048000
	},
	{
	"epoch": 22.23,
	"learning_rate": 2.2960000000000002e-07,
	"loss": 2.3863,
	"step": 1056000
	},
	{
	"epoch": 22.23,
	"eval_loss": 2.2556710243225098,
	"eval_runtime": 49.7999,
	"eval_samples_per_second": 803.214,
	"eval_steps_per_second": 50.201,
	"step": 1056000
	},
	{
	"epoch": 22.4,
	"eval_loss": 2.2603883743286133,
	"eval_runtime": 49.3365,
	"eval_samples_per_second": 810.759,
	"eval_steps_per_second": 50.672,
	"step": 1064000
	},
	{
	"epoch": 22.57,
	"learning_rate": 2.2686666666666667e-07,
	"loss": 2.3858,
	"step": 1072000
	},
	{
	"epoch": 22.57,
	"eval_loss": 2.2832398414611816,
	"eval_runtime": 48.6796,
	"eval_samples_per_second": 821.699,
	"eval_steps_per_second": 51.356,
	"step": 1072000
	},
	{
	"epoch": 22.74,
	"eval_loss": 2.244276285171509,
	"eval_runtime": 48.7816,
	"eval_samples_per_second": 819.982,
	"eval_steps_per_second": 51.249,
	"step": 1080000
	},
	{
	"epoch": 22.9,
	"learning_rate": 2.2413333333333333e-07,
	"loss": 2.3859,
	"step": 1088000
	},
	{
	"epoch": 22.9,
	"eval_loss": 2.260357141494751,
	"eval_runtime": 49.4857,
	"eval_samples_per_second": 808.315,
	"eval_steps_per_second": 50.52,
	"step": 1088000
	},
	{
	"epoch": 23.07,
	"eval_loss": 2.263144016265869,
	"eval_runtime": 48.7635,
	"eval_samples_per_second": 820.285,
	"eval_steps_per_second": 51.268,
	"step": 1096000
	},
	{
	"epoch": 23.24,
	"learning_rate": 2.214e-07,
	"loss": 2.3846,
	"step": 1104000
	},
	{
	"epoch": 23.24,
	"eval_loss": 2.2689881324768066,
	"eval_runtime": 48.7943,
	"eval_samples_per_second": 819.768,
	"eval_steps_per_second": 51.235,
	"step": 1104000
	},
	{
	"epoch": 23.41,
	"eval_loss": 2.25949764251709,
	"eval_runtime": 48.4368,
	"eval_samples_per_second": 825.819,
	"eval_steps_per_second": 51.614,
	"step": 1112000
	},
	{
	"epoch": 23.58,
	"learning_rate": 2.1866666666666667e-07,
	"loss": 2.3887,
	"step": 1120000
	},
	{
	"epoch": 23.58,
	"eval_loss": 2.2500855922698975,
	"eval_runtime": 48.8931,
	"eval_samples_per_second": 818.111,
	"eval_steps_per_second": 51.132,
	"step": 1120000
	},
	{
	"epoch": 23.75,
	"eval_loss": 2.2532594203948975,
	"eval_runtime": 48.868,
	"eval_samples_per_second": 818.532,
	"eval_steps_per_second": 51.158,
	"step": 1128000
	},
	{
	"epoch": 23.92,
	"learning_rate": 2.1593333333333332e-07,
	"loss": 2.3856,
	"step": 1136000
	},
	{
	"epoch": 23.92,
	"eval_loss": 2.252855062484741,
	"eval_runtime": 49.6155,
	"eval_samples_per_second": 806.199,
	"eval_steps_per_second": 50.387,
	"step": 1136000
	},
	{
	"epoch": 24.08,
	"eval_loss": 2.2455570697784424,
	"eval_runtime": 48.8925,
	"eval_samples_per_second": 818.121,
	"eval_steps_per_second": 51.133,
	"step": 1144000
	},
	{
	"epoch": 24.25,
	"learning_rate": 2.132e-07,
	"loss": 2.3856,
	"step": 1152000
	},
	{
	"epoch": 24.25,
	"eval_loss": 2.254368782043457,
	"eval_runtime": 49.1923,
	"eval_samples_per_second": 813.135,
	"eval_steps_per_second": 50.821,
	"step": 1152000
	},
	{
	"epoch": 24.42,
	"eval_loss": 2.25541090965271,
	"eval_runtime": 48.5868,
	"eval_samples_per_second": 823.268,
	"eval_steps_per_second": 51.454,
	"step": 1160000
	},
	{
	"epoch": 24.59,
	"learning_rate": 2.1046666666666666e-07,
	"loss": 2.3867,
	"step": 1168000
	},
	{
	"epoch": 24.59,
	"eval_loss": 2.2595579624176025,
	"eval_runtime": 49.0442,
	"eval_samples_per_second": 815.591,
	"eval_steps_per_second": 50.974,
	"step": 1168000
	},
	{
	"epoch": 24.76,
	"eval_loss": 2.252202033996582,
	"eval_runtime": 49.5166,
	"eval_samples_per_second": 807.81,
	"eval_steps_per_second": 50.488,
	"step": 1176000
	},
	{
	"epoch": 24.93,
	"learning_rate": 2.0773333333333334e-07,
	"loss": 2.3795,
	"step": 1184000
	},
	{
	"epoch": 24.93,
	"eval_loss": 2.249300241470337,
	"eval_runtime": 49.7952,
	"eval_samples_per_second": 803.29,
	"eval_steps_per_second": 50.206,
	"step": 1184000
	},
	{
	"epoch": 25.09,
	"eval_loss": 2.2608890533447266,
	"eval_runtime": 48.681,
	"eval_samples_per_second": 821.675,
	"eval_steps_per_second": 51.355,
	"step": 1192000
	},
	{
	"epoch": 25.26,
	"learning_rate": 2.05e-07,
	"loss": 2.3926,
	"step": 1200000
	},
	{
	"epoch": 25.26,
	"eval_loss": 2.2658445835113525,
	"eval_runtime": 48.9256,
	"eval_samples_per_second": 817.569,
	"eval_steps_per_second": 51.098,
	"step": 1200000
	},
	{
	"epoch": 25.43,
	"eval_loss": 2.2592995166778564,
	"eval_runtime": 48.8774,
	"eval_samples_per_second": 818.374,
	"eval_steps_per_second": 51.148,
	"step": 1208000
	},
	{
	"epoch": 25.6,
	"learning_rate": 2.0226666666666668e-07,
	"loss": 2.3887,
	"step": 1216000
	},
	{
	"epoch": 25.6,
	"eval_loss": 2.2703697681427,
	"eval_runtime": 48.9056,
	"eval_samples_per_second": 817.902,
	"eval_steps_per_second": 51.119,
	"step": 1216000
	},
	{
	"epoch": 25.77,
	"eval_loss": 2.263197183609009,
	"eval_runtime": 49.6098,
	"eval_samples_per_second": 806.292,
	"eval_steps_per_second": 50.393,
	"step": 1224000
	},
	{
	"epoch": 25.94,
	"learning_rate": 1.9953333333333333e-07,
	"loss": 2.3926,
	"step": 1232000
	},
	{
	"epoch": 25.94,
	"eval_loss": 2.2628068923950195,
	"eval_runtime": 49.6731,
	"eval_samples_per_second": 805.265,
	"eval_steps_per_second": 50.329,
	"step": 1232000
	},
	{
	"epoch": 26.1,
	"eval_loss": 2.2656562328338623,
	"eval_runtime": 49.8004,
	"eval_samples_per_second": 803.207,
	"eval_steps_per_second": 50.2,
	"step": 1240000
	},
	{
	"epoch": 26.27,
	"learning_rate": 1.968e-07,
	"loss": 2.3809,
	"step": 1248000
	},
	{
	"epoch": 26.27,
	"eval_loss": 2.2545762062072754,
	"eval_runtime": 49.3811,
	"eval_samples_per_second": 810.026,
	"eval_steps_per_second": 50.627,
	"step": 1248000
	},
	{
	"epoch": 26.44,
	"eval_loss": 2.259634017944336,
	"eval_runtime": 49.4215,
	"eval_samples_per_second": 809.365,
	"eval_steps_per_second": 50.585,
	"step": 1256000
	},
	{
	"epoch": 26.61,
	"learning_rate": 1.9406666666666667e-07,
	"loss": 2.3878,
	"step": 1264000
	},
	{
	"epoch": 26.61,
	"eval_loss": 2.254516124725342,
	"eval_runtime": 48.3,
	"eval_samples_per_second": 828.158,
	"eval_steps_per_second": 51.76,
	"step": 1264000
	},
	{
	"epoch": 26.78,
	"eval_loss": 2.2667646408081055,
	"eval_runtime": 49.742,
	"eval_samples_per_second": 804.149,
	"eval_steps_per_second": 50.259,
	"step": 1272000
	},
	{
	"epoch": 26.95,
	"learning_rate": 1.9133333333333333e-07,
	"loss": 2.3861,
	"step": 1280000
	},
	{
	"epoch": 26.95,
	"eval_loss": 2.2534382343292236,
	"eval_runtime": 48.5643,
	"eval_samples_per_second": 823.65,
	"eval_steps_per_second": 51.478,
	"step": 1280000
	},
	{
	"epoch": 27.12,
	"eval_loss": 2.261183738708496,
	"eval_runtime": 49.4288,
	"eval_samples_per_second": 809.246,
	"eval_steps_per_second": 50.578,
	"step": 1288000
	},
	{
	"epoch": 27.28,
	"learning_rate": 1.886e-07,
	"loss": 2.3815,
	"step": 1296000
	},
	{
	"epoch": 27.28,
	"eval_loss": 2.2441422939300537,
	"eval_runtime": 48.9537,
	"eval_samples_per_second": 817.099,
	"eval_steps_per_second": 51.069,
	"step": 1296000
	},
	{
	"epoch": 27.45,
	"eval_loss": 2.271397590637207,
	"eval_runtime": 49.5135,
	"eval_samples_per_second": 807.861,
	"eval_steps_per_second": 50.491,
	"step": 1304000
	},
	{
	"epoch": 27.62,
	"learning_rate": 1.8586666666666666e-07,
	"loss": 2.3861,
	"step": 1312000
	},
	{
	"epoch": 27.62,
	"eval_loss": 2.2604434490203857,
	"eval_runtime": 48.816,
	"eval_samples_per_second": 819.403,
	"eval_steps_per_second": 51.213,
	"step": 1312000
	},
	{
	"epoch": 27.79,
	"eval_loss": 2.2535157203674316,
	"eval_runtime": 49.1172,
	"eval_samples_per_second": 814.378,
	"eval_steps_per_second": 50.899,
	"step": 1320000
	},
	{
	"epoch": 27.96,
	"learning_rate": 1.8313333333333332e-07,
	"loss": 2.388,
	"step": 1328000
	},
	{
	"epoch": 27.96,
	"eval_loss": 2.2466070652008057,
	"eval_runtime": 48.6499,
	"eval_samples_per_second": 822.201,
	"eval_steps_per_second": 51.388,
	"step": 1328000
	},
	{
	"epoch": 28.13,
	"eval_loss": 2.258121967315674,
	"eval_runtime": 48.6067,
	"eval_samples_per_second": 822.932,
	"eval_steps_per_second": 51.433,
	"step": 1336000
	},
	{
	"epoch": 28.29,
	"learning_rate": 1.804e-07,
	"loss": 2.3864,
	"step": 1344000
	},
	{
	"epoch": 28.29,
	"eval_loss": 2.257232904434204,
	"eval_runtime": 49.3463,
	"eval_samples_per_second": 810.598,
	"eval_steps_per_second": 50.662,
	"step": 1344000
	},
	{
	"epoch": 28.46,
	"eval_loss": 2.238109827041626,
	"eval_runtime": 48.9872,
	"eval_samples_per_second": 816.539,
	"eval_steps_per_second": 51.034,
	"step": 1352000
	},
	{
	"epoch": 28.63,
	"learning_rate": 1.7766666666666666e-07,
	"loss": 2.39,
	"step": 1360000
	},
	{
	"epoch": 28.63,
	"eval_loss": 2.23980712890625,
	"eval_runtime": 49.3711,
	"eval_samples_per_second": 810.191,
	"eval_steps_per_second": 50.637,
	"step": 1360000
	},
	{
	"epoch": 28.8,
	"eval_loss": 2.269519805908203,
	"eval_runtime": 49.3307,
	"eval_samples_per_second": 810.853,
	"eval_steps_per_second": 50.678,
	"step": 1368000
	},
	{
	"epoch": 28.97,
	"learning_rate": 1.7493333333333334e-07,
	"loss": 2.39,
	"step": 1376000
	},
	{
	"epoch": 28.97,
	"eval_loss": 2.262801170349121,
	"eval_runtime": 49.0301,
	"eval_samples_per_second": 815.825,
	"eval_steps_per_second": 50.989,
	"step": 1376000
	},
	{
	"epoch": 29.14,
	"eval_loss": 2.2599363327026367,
	"eval_runtime": 49.1614,
	"eval_samples_per_second": 813.647,
	"eval_steps_per_second": 50.853,
	"step": 1384000
	},
	{
	"epoch": 29.3,
	"learning_rate": 1.722e-07,
	"loss": 2.3804,
	"step": 1392000
	},
	{
	"epoch": 29.3,
	"eval_loss": 2.262774705886841,
	"eval_runtime": 49.576,
	"eval_samples_per_second": 806.842,
	"eval_steps_per_second": 50.428,
	"step": 1392000
	},
	{
	"epoch": 29.47,
	"eval_loss": 2.2721939086914062,
	"eval_runtime": 48.6201,
	"eval_samples_per_second": 822.705,
	"eval_steps_per_second": 51.419,
	"step": 1400000
	},
	{
	"epoch": 29.64,
	"learning_rate": 1.6946666666666668e-07,
	"loss": 2.3858,
	"step": 1408000
	},
	{
	"epoch": 29.64,
	"eval_loss": 2.24898099899292,
	"eval_runtime": 49.0807,
	"eval_samples_per_second": 814.983,
	"eval_steps_per_second": 50.936,
	"step": 1408000
	},
	{
	"epoch": 29.81,
	"eval_loss": 2.262730360031128,
	"eval_runtime": 49.565,
	"eval_samples_per_second": 807.021,
	"eval_steps_per_second": 50.439,
	"step": 1416000
	},
	{
	"epoch": 29.98,
	"learning_rate": 1.6673333333333333e-07,
	"loss": 2.3804,
	"step": 1424000
	},
	{
	"epoch": 29.98,
	"eval_loss": 2.262303113937378,
	"eval_runtime": 48.6465,
	"eval_samples_per_second": 822.258,
	"eval_steps_per_second": 51.391,
	"step": 1424000
	},
	{
	"epoch": 30.15,
	"eval_loss": 2.252244472503662,
	"eval_runtime": 49.1968,
	"eval_samples_per_second": 813.061,
	"eval_steps_per_second": 50.816,
	"step": 1432000
	},
	{
	"epoch": 30.32,
	"learning_rate": 1.64e-07,
	"loss": 2.3834,
	"step": 1440000
	},
	{
	"epoch": 30.32,
	"eval_loss": 2.2633419036865234,
	"eval_runtime": 48.625,
	"eval_samples_per_second": 822.622,
	"eval_steps_per_second": 51.414,
	"step": 1440000
	},
	{
	"epoch": 30.48,
	"eval_loss": 2.255260467529297,
	"eval_runtime": 48.5565,
	"eval_samples_per_second": 823.782,
	"eval_steps_per_second": 51.486,
	"step": 1448000
	},
	{
	"epoch": 30.65,
	"learning_rate": 1.6126666666666667e-07,
	"loss": 2.3853,
	"step": 1456000
	},
	{
	"epoch": 30.65,
	"eval_loss": 2.239067554473877,
	"eval_runtime": 49.1758,
	"eval_samples_per_second": 813.408,
	"eval_steps_per_second": 50.838,
	"step": 1456000
	},
	{
	"epoch": 30.82,
	"eval_loss": 2.2615532875061035,
	"eval_runtime": 48.6338,
	"eval_samples_per_second": 822.473,
	"eval_steps_per_second": 51.405,
	"step": 1464000
	},
	{
	"epoch": 30.99,
	"learning_rate": 1.5853333333333332e-07,
	"loss": 2.3946,
	"step": 1472000
	},
	{
	"epoch": 30.99,
	"eval_loss": 2.2630956172943115,
	"eval_runtime": 48.6486,
	"eval_samples_per_second": 822.224,
	"eval_steps_per_second": 51.389,
	"step": 1472000
	},
	{
	"epoch": 31.16,
	"eval_loss": 2.2638938426971436,
	"eval_runtime": 48.6689,
	"eval_samples_per_second": 821.88,
	"eval_steps_per_second": 51.367,
	"step": 1480000
	},
	{
	"epoch": 31.33,
	"learning_rate": 1.558e-07,
	"loss": 2.385,
	"step": 1488000
	},
	{
	"epoch": 31.33,
	"eval_loss": 2.27362060546875,
	"eval_runtime": 49.1717,
	"eval_samples_per_second": 813.476,
	"eval_steps_per_second": 50.842,
	"step": 1488000
	},
	{
	"epoch": 31.49,
	"eval_loss": 2.2715282440185547,
	"eval_runtime": 48.6068,
	"eval_samples_per_second": 822.931,
	"eval_steps_per_second": 51.433,
	"step": 1496000
	},
	{
	"epoch": 31.66,
	"learning_rate": 1.5306666666666666e-07,
	"loss": 2.387,
	"step": 1504000
	},
	{
	"epoch": 31.66,
	"eval_loss": 2.255669116973877,
	"eval_runtime": 49.2692,
	"eval_samples_per_second": 811.866,
	"eval_steps_per_second": 50.742,
	"step": 1504000
	},
	{
	"epoch": 31.83,
	"eval_loss": 2.258305311203003,
	"eval_runtime": 49.3922,
	"eval_samples_per_second": 809.845,
	"eval_steps_per_second": 50.615,
	"step": 1512000
	},
	{
	"epoch": 32.0,
	"learning_rate": 1.5033333333333332e-07,
	"loss": 2.3831,
	"step": 1520000
	},
	{
	"epoch": 32.0,
	"eval_loss": 2.2543575763702393,
	"eval_runtime": 48.8562,
	"eval_samples_per_second": 818.73,
	"eval_steps_per_second": 51.171,
	"step": 1520000
	},
	{
	"epoch": 32.17,
	"eval_loss": 2.2756261825561523,
	"eval_runtime": 48.8463,
	"eval_samples_per_second": 818.895,
	"eval_steps_per_second": 51.181,
	"step": 1528000
	},
	{
	"epoch": 32.34,
	"learning_rate": 1.476e-07,
	"loss": 2.3835,
	"step": 1536000
	},
	{
	"epoch": 32.34,
	"eval_loss": 2.2793610095977783,
	"eval_runtime": 48.7275,
	"eval_samples_per_second": 820.891,
	"eval_steps_per_second": 51.306,
	"step": 1536000
	},
	{
	"epoch": 32.5,
	"eval_loss": 2.2648372650146484,
	"eval_runtime": 49.3109,
	"eval_samples_per_second": 811.179,
	"eval_steps_per_second": 50.699,
	"step": 1544000
	},
	{
	"epoch": 32.67,
	"learning_rate": 1.4486666666666665e-07,
	"loss": 2.3857,
	"step": 1552000
	},
	{
	"epoch": 32.67,
	"eval_loss": 2.2563135623931885,
	"eval_runtime": 49.7733,
	"eval_samples_per_second": 803.643,
	"eval_steps_per_second": 50.228,
	"step": 1552000
	},
	{
	"epoch": 32.84,
	"eval_loss": 2.2537479400634766,
	"eval_runtime": 49.2356,
	"eval_samples_per_second": 812.42,
	"eval_steps_per_second": 50.776,
	"step": 1560000
	},
	{
	"epoch": 33.01,
	"learning_rate": 1.4213333333333334e-07,
	"loss": 2.3856,
	"step": 1568000
	},
	{
	"epoch": 33.01,
	"eval_loss": 2.261024236679077,
	"eval_runtime": 49.2157,
	"eval_samples_per_second": 812.749,
	"eval_steps_per_second": 50.797,
	"step": 1568000
	},
	{
	"epoch": 33.18,
	"eval_loss": 2.264604330062866,
	"eval_runtime": 49.1631,
	"eval_samples_per_second": 813.618,
	"eval_steps_per_second": 50.851,
	"step": 1576000
	},
	{
	"epoch": 33.35,
	"learning_rate": 1.3940000000000002e-07,
	"loss": 2.3902,
	"step": 1584000
	},
	{
	"epoch": 33.35,
	"eval_loss": 2.2544610500335693,
	"eval_runtime": 48.8485,
	"eval_samples_per_second": 818.858,
	"eval_steps_per_second": 51.179,
	"step": 1584000
	},
	{
	"epoch": 33.52,
	"eval_loss": 2.271030902862549,
	"eval_runtime": 48.3697,
	"eval_samples_per_second": 826.964,
	"eval_steps_per_second": 51.685,
	"step": 1592000
	},
	{
	"epoch": 33.68,
	"learning_rate": 1.3666666666666665e-07,
	"loss": 2.3897,
	"step": 1600000
	},
	{
	"epoch": 33.68,
	"eval_loss": 2.2601163387298584,
	"eval_runtime": 48.8818,
	"eval_samples_per_second": 818.3,
	"eval_steps_per_second": 51.144,
	"step": 1600000
	},
	{
	"epoch": 33.85,
	"eval_loss": 2.2542924880981445,
	"eval_runtime": 49.0945,
	"eval_samples_per_second": 814.754,
	"eval_steps_per_second": 50.922,
	"step": 1608000
	},
	{
	"epoch": 34.02,
	"learning_rate": 1.3393333333333333e-07,
	"loss": 2.3866,
	"step": 1616000
	},
	{
	"epoch": 34.02,
	"eval_loss": 2.2525877952575684,
	"eval_runtime": 49.2321,
	"eval_samples_per_second": 812.478,
	"eval_steps_per_second": 50.78,
	"step": 1616000
	},
	{
	"epoch": 34.19,
	"eval_loss": 2.262938976287842,
	"eval_runtime": 49.3213,
	"eval_samples_per_second": 811.009,
	"eval_steps_per_second": 50.688,
	"step": 1624000
	},
	{
	"epoch": 34.36,
	"learning_rate": 1.312e-07,
	"loss": 2.3823,
	"step": 1632000
	},
	{
	"epoch": 34.36,
	"eval_loss": 2.2616801261901855,
	"eval_runtime": 48.9485,
	"eval_samples_per_second": 817.185,
	"eval_steps_per_second": 51.074,
	"step": 1632000
	},
	{
	"epoch": 34.53,
	"eval_loss": 2.2519824504852295,
	"eval_runtime": 48.6687,
	"eval_samples_per_second": 821.883,
	"eval_steps_per_second": 51.368,
	"step": 1640000
	},
	{
	"epoch": 34.69,
	"learning_rate": 1.2846666666666667e-07,
	"loss": 2.3874,
	"step": 1648000
	},
	{
	"epoch": 34.69,
	"eval_loss": 2.261162042617798,
	"eval_runtime": 48.7567,
	"eval_samples_per_second": 820.4,
	"eval_steps_per_second": 51.275,
	"step": 1648000
	},
	{
	"epoch": 34.86,
	"eval_loss": 2.2568650245666504,
	"eval_runtime": 48.8018,
	"eval_samples_per_second": 819.641,
	"eval_steps_per_second": 51.228,
	"step": 1656000
	},
	{
	"epoch": 35.03,
	"learning_rate": 1.2573333333333332e-07,
	"loss": 2.3895,
	"step": 1664000
	},
	{
	"epoch": 35.03,
	"eval_loss": 2.2633254528045654,
	"eval_runtime": 48.7101,
	"eval_samples_per_second": 821.185,
	"eval_steps_per_second": 51.324,
	"step": 1664000
	},
	{
	"epoch": 35.2,
	"eval_loss": 2.259277820587158,
	"eval_runtime": 49.2378,
	"eval_samples_per_second": 812.384,
	"eval_steps_per_second": 50.774,
	"step": 1672000
	},
	{
	"epoch": 35.37,
	"learning_rate": 1.23e-07,
	"loss": 2.3857,
	"step": 1680000
	},
	{
	"epoch": 35.37,
	"eval_loss": 2.2650630474090576,
	"eval_runtime": 48.8949,
	"eval_samples_per_second": 818.082,
	"eval_steps_per_second": 51.13,
	"step": 1680000
	},
	{
	"epoch": 35.54,
	"eval_loss": 2.256744623184204,
	"eval_runtime": 48.7371,
	"eval_samples_per_second": 820.73,
	"eval_steps_per_second": 51.296,
	"step": 1688000
	},
	{
	"epoch": 35.7,
	"learning_rate": 1.2026666666666666e-07,
	"loss": 2.3811,
	"step": 1696000
	},
	{
	"epoch": 35.7,
	"eval_loss": 2.253361701965332,
	"eval_runtime": 49.5532,
	"eval_samples_per_second": 807.214,
	"eval_steps_per_second": 50.451,
	"step": 1696000
	},
	{
	"epoch": 35.87,
	"eval_loss": 2.263338088989258,
	"eval_runtime": 49.1414,
	"eval_samples_per_second": 813.978,
	"eval_steps_per_second": 50.874,
	"step": 1704000
	},
	{
	"epoch": 36.04,
	"learning_rate": 1.1753333333333334e-07,
	"loss": 2.3944,
	"step": 1712000
	},
	{
	"epoch": 36.04,
	"eval_loss": 2.2504327297210693,
	"eval_runtime": 49.4998,
	"eval_samples_per_second": 808.084,
	"eval_steps_per_second": 50.505,
	"step": 1712000
	},
	{
	"epoch": 36.21,
	"eval_loss": 2.2518932819366455,
	"eval_runtime": 49.3816,
	"eval_samples_per_second": 810.018,
	"eval_steps_per_second": 50.626,
	"step": 1720000
	},
	{
	"epoch": 36.38,
	"learning_rate": 1.1480000000000001e-07,
	"loss": 2.3883,
	"step": 1728000
	},
	{
	"epoch": 36.38,
	"eval_loss": 2.2571768760681152,
	"eval_runtime": 49.5997,
	"eval_samples_per_second": 806.456,
	"eval_steps_per_second": 50.404,
	"step": 1728000
	},
	{
	"epoch": 36.55,
	"eval_loss": 2.2575507164001465,
	"eval_runtime": 49.3457,
	"eval_samples_per_second": 810.607,
	"eval_steps_per_second": 50.663,
	"step": 1736000
	},
	{
	"epoch": 36.72,
	"learning_rate": 1.1206666666666666e-07,
	"loss": 2.3859,
	"step": 1744000
	},
	{
	"epoch": 36.72,
	"eval_loss": 2.2719168663024902,
	"eval_runtime": 48.91,
	"eval_samples_per_second": 817.828,
	"eval_steps_per_second": 51.114,
	"step": 1744000
	},
	{
	"epoch": 36.88,
	"eval_loss": 2.2667555809020996,
	"eval_runtime": 48.8267,
	"eval_samples_per_second": 819.223,
	"eval_steps_per_second": 51.201,
	"step": 1752000
	},
	{
	"epoch": 37.05,
	"learning_rate": 1.0933333333333333e-07,
	"loss": 2.3914,
	"step": 1760000
	},
	{
	"epoch": 37.05,
	"eval_loss": 2.250850200653076,
	"eval_runtime": 48.8892,
	"eval_samples_per_second": 818.176,
	"eval_steps_per_second": 51.136,
	"step": 1760000
	},
	{
	"epoch": 37.22,
	"eval_loss": 2.2601399421691895,
	"eval_runtime": 48.8589,
	"eval_samples_per_second": 818.684,
	"eval_steps_per_second": 51.168,
	"step": 1768000
	},
	{
	"epoch": 37.39,
	"learning_rate": 1.066e-07,
	"loss": 2.3848,
	"step": 1776000
	},
	{
	"epoch": 37.39,
	"eval_loss": 2.2686824798583984,
	"eval_runtime": 48.9048,
	"eval_samples_per_second": 817.915,
	"eval_steps_per_second": 51.12,
	"step": 1776000
	},
	{
	"epoch": 37.56,
	"eval_loss": 2.2513012886047363,
	"eval_runtime": 48.7112,
	"eval_samples_per_second": 821.166,
	"eval_steps_per_second": 51.323,
	"step": 1784000
	},
	{
	"epoch": 37.73,
	"learning_rate": 1.0386666666666667e-07,
	"loss": 2.3903,
	"step": 1792000
	},
	{
	"epoch": 37.73,
	"eval_loss": 2.2519407272338867,
	"eval_runtime": 48.938,
	"eval_samples_per_second": 817.361,
	"eval_steps_per_second": 51.085,
	"step": 1792000
	},
	{
	"epoch": 37.89,
	"eval_loss": 2.259387731552124,
	"eval_runtime": 49.4041,
	"eval_samples_per_second": 809.65,
	"eval_steps_per_second": 50.603,
	"step": 1800000
	},
	{
	"epoch": 38.06,
	"learning_rate": 1.0113333333333334e-07,
	"loss": 2.3822,
	"step": 1808000
	},
	{
	"epoch": 38.06,
	"eval_loss": 2.256521701812744,
	"eval_runtime": 48.8635,
	"eval_samples_per_second": 818.606,
	"eval_steps_per_second": 51.163,
	"step": 1808000
	},
	{
	"epoch": 38.23,
	"eval_loss": 2.2812252044677734,
	"eval_runtime": 49.3349,
	"eval_samples_per_second": 810.785,
	"eval_steps_per_second": 50.674,
	"step": 1816000
	},
	{
	"epoch": 38.4,
	"learning_rate": 9.84e-08,
	"loss": 2.383,
	"step": 1824000
	},
	{
	"epoch": 38.4,
	"eval_loss": 2.2589097023010254,
	"eval_runtime": 48.8806,
	"eval_samples_per_second": 818.32,
	"eval_steps_per_second": 51.145,
	"step": 1824000
	},
	{
	"epoch": 38.57,
	"eval_loss": 2.2560157775878906,
	"eval_runtime": 48.961,
	"eval_samples_per_second": 816.977,
	"eval_steps_per_second": 51.061,
	"step": 1832000
	},
	{
	"epoch": 38.74,
	"learning_rate": 9.566666666666666e-08,
	"loss": 2.3868,
	"step": 1840000
	},
	{
	"epoch": 38.74,
	"eval_loss": 2.264800548553467,
	"eval_runtime": 49.3795,
	"eval_samples_per_second": 810.053,
	"eval_steps_per_second": 50.628,
	"step": 1840000
	},
	{
	"epoch": 38.9,
	"eval_loss": 2.2506866455078125,
	"eval_runtime": 48.8976,
	"eval_samples_per_second": 818.037,
	"eval_steps_per_second": 51.127,
	"step": 1848000
	},
	{
	"epoch": 39.07,
	"learning_rate": 9.293333333333333e-08,
	"loss": 2.3775,
	"step": 1856000
	},
	{
	"epoch": 39.07,
	"eval_loss": 2.2569808959960938,
	"eval_runtime": 48.9247,
	"eval_samples_per_second": 817.584,
	"eval_steps_per_second": 51.099,
	"step": 1856000
	},
	{
	"epoch": 39.24,
	"eval_loss": 2.2549405097961426,
	"eval_runtime": 49.5363,
	"eval_samples_per_second": 807.488,
	"eval_steps_per_second": 50.468,
	"step": 1864000
	},
	{
	"epoch": 39.41,
	"learning_rate": 9.02e-08,
	"loss": 2.3818,
	"step": 1872000
	},
	{
	"epoch": 39.41,
	"eval_loss": 2.2583167552948,
	"eval_runtime": 49.5006,
	"eval_samples_per_second": 808.071,
	"eval_steps_per_second": 50.504,
	"step": 1872000
	},
	{
	"epoch": 39.58,
	"eval_loss": 2.261044502258301,
	"eval_runtime": 49.628,
	"eval_samples_per_second": 805.997,
	"eval_steps_per_second": 50.375,
	"step": 1880000
	},
	{
	"epoch": 39.75,
	"learning_rate": 8.746666666666667e-08,
	"loss": 2.3887,
	"step": 1888000
	},
	{
	"epoch": 39.75,
	"eval_loss": 2.262882947921753,
	"eval_runtime": 49.6245,
	"eval_samples_per_second": 806.053,
	"eval_steps_per_second": 50.378,
	"step": 1888000
	},
	{
	"epoch": 39.91,
	"eval_loss": 2.273881435394287,
	"eval_runtime": 49.4491,
	"eval_samples_per_second": 808.913,
	"eval_steps_per_second": 50.557,
	"step": 1896000
	},
	{
	"epoch": 40.08,
	"learning_rate": 8.473333333333334e-08,
	"loss": 2.3893,
	"step": 1904000
	},
	{
	"epoch": 40.08,
	"eval_loss": 2.2657415866851807,
	"eval_runtime": 49.1269,
	"eval_samples_per_second": 814.217,
	"eval_steps_per_second": 50.889,
	"step": 1904000
	},
	{
	"epoch": 40.25,
	"eval_loss": 2.2507264614105225,
	"eval_runtime": 49.5404,
	"eval_samples_per_second": 807.422,
	"eval_steps_per_second": 50.464,
	"step": 1912000
	},
	{
	"epoch": 40.42,
	"learning_rate": 8.2e-08,
	"loss": 2.3826,
	"step": 1920000
	},
	{
	"epoch": 40.42,
	"eval_loss": 2.2505505084991455,
	"eval_runtime": 49.5643,
	"eval_samples_per_second": 807.033,
	"eval_steps_per_second": 50.44,
	"step": 1920000
	},
	{
	"epoch": 40.59,
	"eval_loss": 2.2630043029785156,
	"eval_runtime": 48.8805,
	"eval_samples_per_second": 818.322,
	"eval_steps_per_second": 51.145,
	"step": 1928000
	},
	{
	"epoch": 40.76,
	"learning_rate": 7.926666666666666e-08,
	"loss": 2.3842,
	"step": 1936000
	},
	{
	"epoch": 40.76,
	"eval_loss": 2.27164363861084,
	"eval_runtime": 49.401,
	"eval_samples_per_second": 809.701,
	"eval_steps_per_second": 50.606,
	"step": 1936000
	},
	{
	"epoch": 40.93,
	"eval_loss": 2.264181613922119,
	"eval_runtime": 49.4342,
	"eval_samples_per_second": 809.156,
	"eval_steps_per_second": 50.572,
	"step": 1944000
	},
	{
	"epoch": 41.09,
	"learning_rate": 7.653333333333333e-08,
	"loss": 2.3866,
	"step": 1952000
	},
	{
	"epoch": 41.09,
	"eval_loss": 2.245126485824585,
	"eval_runtime": 49.626,
	"eval_samples_per_second": 806.029,
	"eval_steps_per_second": 50.377,
	"step": 1952000
	},
	{
	"epoch": 41.26,
	"eval_loss": 2.2520625591278076,
	"eval_runtime": 49.5425,
	"eval_samples_per_second": 807.388,
	"eval_steps_per_second": 50.462,
	"step": 1960000
	},
	{
	"epoch": 41.43,
	"learning_rate": 7.38e-08,
	"loss": 2.3857,
	"step": 1968000
	},
	{
	"epoch": 41.43,
	"eval_loss": 2.2457118034362793,
	"eval_runtime": 48.9259,
	"eval_samples_per_second": 817.562,
	"eval_steps_per_second": 51.098,
	"step": 1968000
	},
	{
	"epoch": 41.6,
	"eval_loss": 2.2574808597564697,
	"eval_runtime": 49.7757,
	"eval_samples_per_second": 803.605,
	"eval_steps_per_second": 50.225,
	"step": 1976000
	},
	{
	"epoch": 41.77,
	"learning_rate": 7.106666666666667e-08,
	"loss": 2.3943,
	"step": 1984000
	},
	{
	"epoch": 41.77,
	"eval_loss": 2.265901565551758,
	"eval_runtime": 49.5814,
	"eval_samples_per_second": 806.755,
	"eval_steps_per_second": 50.422,
	"step": 1984000
	},
	{
	"epoch": 41.94,
	"eval_loss": 2.260754346847534,
	"eval_runtime": 48.9543,
	"eval_samples_per_second": 817.089,
	"eval_steps_per_second": 51.068,
	"step": 1992000
	},
	{
	"epoch": 42.1,
	"learning_rate": 6.833333333333332e-08,
	"loss": 2.387,
	"step": 2000000
	},
	{
	"epoch": 42.1,
	"eval_loss": 2.2687227725982666,
	"eval_runtime": 49.4379,
	"eval_samples_per_second": 809.096,
	"eval_steps_per_second": 50.569,
	"step": 2000000
	},
	{
	"epoch": 42.27,
	"eval_loss": 2.271784543991089,
	"eval_runtime": 49.2241,
	"eval_samples_per_second": 812.611,
	"eval_steps_per_second": 50.788,
	"step": 2008000
	},
	{
	"epoch": 42.44,
	"learning_rate": 6.56e-08,
	"loss": 2.387,
	"step": 2016000
	},
	{
	"epoch": 42.44,
	"eval_loss": 2.262915849685669,
	"eval_runtime": 49.9903,
	"eval_samples_per_second": 800.156,
	"eval_steps_per_second": 50.01,
	"step": 2016000
	},
	{
	"epoch": 42.61,
	"eval_loss": 2.2282731533050537,
	"eval_runtime": 50.2394,
	"eval_samples_per_second": 796.188,
	"eval_steps_per_second": 49.762,
	"step": 2024000
	},
	{
	"epoch": 42.78,
	"learning_rate": 6.286666666666666e-08,
	"loss": 2.3804,
	"step": 2032000
	},
	{
	"epoch": 42.78,
	"eval_loss": 2.2422289848327637,
	"eval_runtime": 49.3037,
	"eval_samples_per_second": 811.298,
	"eval_steps_per_second": 50.706,
	"step": 2032000
	},
	{
	"epoch": 42.95,
	"eval_loss": 2.243112802505493,
	"eval_runtime": 50.264,
	"eval_samples_per_second": 795.798,
	"eval_steps_per_second": 49.737,
	"step": 2040000
	},
	{
	"epoch": 43.11,
	"learning_rate": 6.013333333333333e-08,
	"loss": 2.3842,
	"step": 2048000
	},
	{
	"epoch": 43.11,
	"eval_loss": 2.268855094909668,
	"eval_runtime": 49.5735,
	"eval_samples_per_second": 806.883,
	"eval_steps_per_second": 50.43,
	"step": 2048000
	},
	{
	"epoch": 43.28,
	"eval_loss": 2.2586092948913574,
	"eval_runtime": 49.7496,
	"eval_samples_per_second": 804.027,
	"eval_steps_per_second": 50.252,
	"step": 2056000
	},
	{
	"epoch": 43.45,
	"learning_rate": 5.7400000000000004e-08,
	"loss": 2.3856,
	"step": 2064000
	},
	{
	"epoch": 43.45,
	"eval_loss": 2.259028434753418,
	"eval_runtime": 49.8461,
	"eval_samples_per_second": 802.47,
	"eval_steps_per_second": 50.154,
	"step": 2064000
	},
	{
	"epoch": 43.62,
	"eval_loss": 2.2602360248565674,
	"eval_runtime": 50.6446,
	"eval_samples_per_second": 789.817,
	"eval_steps_per_second": 49.364,
	"step": 2072000
	},
	{
	"epoch": 43.79,
	"learning_rate": 5.4666666666666666e-08,
	"loss": 2.3843,
	"step": 2080000
	},
	{
	"epoch": 43.79,
	"eval_loss": 2.255709648132324,
	"eval_runtime": 49.1117,
	"eval_samples_per_second": 814.469,
	"eval_steps_per_second": 50.904,
	"step": 2080000
	},
	{
	"epoch": 43.96,
	"eval_loss": 2.2776308059692383,
	"eval_runtime": 49.152,
	"eval_samples_per_second": 813.801,
	"eval_steps_per_second": 50.863,
	"step": 2088000
	},
	{
	"epoch": 44.13,
	"learning_rate": 5.1933333333333335e-08,
	"loss": 2.3891,
	"step": 2096000
	},
	{
	"epoch": 44.13,
	"eval_loss": 2.255366325378418,
	"eval_runtime": 49.1689,
	"eval_samples_per_second": 813.522,
	"eval_steps_per_second": 50.845,
	"step": 2096000
	},
	{
	"epoch": 44.29,
	"eval_loss": 2.2615368366241455,
	"eval_runtime": 49.9655,
	"eval_samples_per_second": 800.553,
	"eval_steps_per_second": 50.035,
	"step": 2104000
	},
	{
	"epoch": 44.46,
	"learning_rate": 4.92e-08,
	"loss": 2.3811,
	"step": 2112000
	},
	{
	"epoch": 44.46,
	"eval_loss": 2.259124517440796,
	"eval_runtime": 49.6149,
	"eval_samples_per_second": 806.21,
	"eval_steps_per_second": 50.388,
	"step": 2112000
	},
	{
	"epoch": 44.63,
	"eval_loss": 2.259974718093872,
	"eval_runtime": 48.8534,
	"eval_samples_per_second": 818.777,
	"eval_steps_per_second": 51.174,
	"step": 2120000
	},
	{
	"epoch": 44.8,
	"learning_rate": 4.6466666666666666e-08,
	"loss": 2.3874,
	"step": 2128000
	},
	{
	"epoch": 44.8,
	"eval_loss": 2.259488582611084,
	"eval_runtime": 49.484,
	"eval_samples_per_second": 808.342,
	"eval_steps_per_second": 50.521,
	"step": 2128000
	},
	{
	"epoch": 44.97,
	"eval_loss": 2.2761764526367188,
	"eval_runtime": 49.5444,
	"eval_samples_per_second": 807.357,
	"eval_steps_per_second": 50.46,
	"step": 2136000
	},
	{
	"epoch": 45.14,
	"learning_rate": 4.3733333333333335e-08,
	"loss": 2.3822,
	"step": 2144000
	},
	{
	"epoch": 45.14,
	"eval_loss": 2.2516047954559326,
	"eval_runtime": 49.0692,
	"eval_samples_per_second": 815.176,
	"eval_steps_per_second": 50.948,
	"step": 2144000
	},
	{
	"epoch": 45.3,
	"eval_loss": 2.2529869079589844,
	"eval_runtime": 49.0866,
	"eval_samples_per_second": 814.886,
	"eval_steps_per_second": 50.93,
	"step": 2152000
	},
	{
	"epoch": 45.47,
	"learning_rate": 4.1e-08,
	"loss": 2.3933,
	"step": 2160000
	},
	{
	"epoch": 45.47,
	"eval_loss": 2.265183210372925,
	"eval_runtime": 48.9694,
	"eval_samples_per_second": 816.837,
	"eval_steps_per_second": 51.052,
	"step": 2160000
	},
	{
	"epoch": 45.64,
	"eval_loss": 2.2480199337005615,
	"eval_runtime": 48.9374,
	"eval_samples_per_second": 817.371,
	"eval_steps_per_second": 51.086,
	"step": 2168000
	},
	{
	"epoch": 45.81,
	"learning_rate": 3.8266666666666665e-08,
	"loss": 2.3853,
	"step": 2176000
	},
	{
	"epoch": 45.81,
	"eval_loss": 2.2716729640960693,
	"eval_runtime": 49.0277,
	"eval_samples_per_second": 815.865,
	"eval_steps_per_second": 50.992,
	"step": 2176000
	},
	{
	"epoch": 45.98,
	"eval_loss": 2.2568676471710205,
	"eval_runtime": 49.4939,
	"eval_samples_per_second": 808.181,
	"eval_steps_per_second": 50.511,
	"step": 2184000
	},
	{
	"epoch": 46.15,
	"learning_rate": 3.5533333333333334e-08,
	"loss": 2.3917,
	"step": 2192000
	},
	{
	"epoch": 46.15,
	"eval_loss": 2.2564427852630615,
	"eval_runtime": 49.3075,
	"eval_samples_per_second": 811.235,
	"eval_steps_per_second": 50.702,
	"step": 2192000
	},
	{
	"epoch": 46.31,
	"eval_loss": 2.2512264251708984,
	"eval_runtime": 49.6159,
	"eval_samples_per_second": 806.193,
	"eval_steps_per_second": 50.387,
	"step": 2200000
	},
	{
	"epoch": 46.48,
	"learning_rate": 3.28e-08,
	"loss": 2.3859,
	"step": 2208000
	},
	{
	"epoch": 46.48,
	"eval_loss": 2.2611992359161377,
	"eval_runtime": 49.8507,
	"eval_samples_per_second": 802.396,
	"eval_steps_per_second": 50.15,
	"step": 2208000
	},
	{
	"epoch": 46.65,
	"eval_loss": 2.2609057426452637,
	"eval_runtime": 49.439,
	"eval_samples_per_second": 809.077,
	"eval_steps_per_second": 50.567,
	"step": 2216000
	},
	{
	"epoch": 46.82,
	"learning_rate": 3.0066666666666665e-08,
	"loss": 2.3879,
	"step": 2224000
	},
	{
	"epoch": 46.82,
	"eval_loss": 2.255183219909668,
	"eval_runtime": 50.0243,
	"eval_samples_per_second": 799.611,
	"eval_steps_per_second": 49.976,
	"step": 2224000
	},
	{
	"epoch": 46.99,
	"eval_loss": 2.2568256855010986,
	"eval_runtime": 48.9637,
	"eval_samples_per_second": 816.932,
	"eval_steps_per_second": 51.058,
	"step": 2232000
	},
	{
	"epoch": 47.16,
	"learning_rate": 2.7333333333333333e-08,
	"loss": 2.3823,
	"step": 2240000
	},
	{
	"epoch": 47.16,
	"eval_loss": 2.250671148300171,
	"eval_runtime": 49.1163,
	"eval_samples_per_second": 814.393,
	"eval_steps_per_second": 50.9,
	"step": 2240000
	},
	{
	"epoch": 47.33,
	"eval_loss": 2.2761969566345215,
	"eval_runtime": 49.444,
	"eval_samples_per_second": 808.995,
	"eval_steps_per_second": 50.562,
	"step": 2248000
	},
	{
	"epoch": 47.49,
	"learning_rate": 2.46e-08,
	"loss": 2.388,
	"step": 2256000
	},
	{
	"epoch": 47.49,
	"eval_loss": 2.252157211303711,
	"eval_runtime": 48.9857,
	"eval_samples_per_second": 816.565,
	"eval_steps_per_second": 51.035,
	"step": 2256000
	},
	{
	"epoch": 47.66,
	"eval_loss": 2.2531578540802,
	"eval_runtime": 48.9438,
	"eval_samples_per_second": 817.263,
	"eval_steps_per_second": 51.079,
	"step": 2264000
	},
	{
	"epoch": 47.83,
	"learning_rate": 2.1866666666666667e-08,
	"loss": 2.3773,
	"step": 2272000
	},
	{
	"epoch": 47.83,
	"eval_loss": 2.2489843368530273,
	"eval_runtime": 49.0407,
	"eval_samples_per_second": 815.65,
	"eval_steps_per_second": 50.978,
	"step": 2272000
	},
	{
	"epoch": 48.0,
	"eval_loss": 2.2648425102233887,
	"eval_runtime": 49.5178,
	"eval_samples_per_second": 807.791,
	"eval_steps_per_second": 50.487,
	"step": 2280000
	},
	{
	"epoch": 48.17,
	"learning_rate": 1.9133333333333333e-08,
	"loss": 2.3828,
	"step": 2288000
	},
	{
	"epoch": 48.17,
	"eval_loss": 2.25002384185791,
	"eval_runtime": 49.6812,
	"eval_samples_per_second": 805.134,
	"eval_steps_per_second": 50.321,
	"step": 2288000
	},
	{
	"epoch": 48.34,
	"eval_loss": 2.253399610519409,
	"eval_runtime": 49.4626,
	"eval_samples_per_second": 808.692,
	"eval_steps_per_second": 50.543,
	"step": 2296000
	},
	{
	"epoch": 48.5,
	"learning_rate": 1.64e-08,
	"loss": 2.3816,
	"step": 2304000
	},
	{
	"epoch": 48.5,
	"eval_loss": 2.251549482345581,
	"eval_runtime": 49.4033,
	"eval_samples_per_second": 809.663,
	"eval_steps_per_second": 50.604,
	"step": 2304000
	},
	{
	"epoch": 48.67,
	"eval_loss": 2.2701914310455322,
	"eval_runtime": 49.577,
	"eval_samples_per_second": 806.826,
	"eval_steps_per_second": 50.427,
	"step": 2312000
	},
	{
	"epoch": 48.84,
	"learning_rate": 1.3666666666666667e-08,
	"loss": 2.3784,
	"step": 2320000
	},
	{
	"epoch": 48.84,
	"eval_loss": 2.2583844661712646,
	"eval_runtime": 49.2469,
	"eval_samples_per_second": 812.233,
	"eval_steps_per_second": 50.765,
	"step": 2320000
	},
	{
	"epoch": 49.01,
	"eval_loss": 2.23818039894104,
	"eval_runtime": 48.9834,
	"eval_samples_per_second": 816.603,
	"eval_steps_per_second": 51.038,
	"step": 2328000
	},
	{
	"epoch": 49.18,
	"learning_rate": 1.0933333333333334e-08,
	"loss": 2.3863,
	"step": 2336000
	},
	{
	"epoch": 49.18,
	"eval_loss": 2.260406732559204,
	"eval_runtime": 49.569,
	"eval_samples_per_second": 806.956,
	"eval_steps_per_second": 50.435,
	"step": 2336000
	},
	{
	"epoch": 49.35,
	"eval_loss": 2.2607226371765137,
	"eval_runtime": 49.5423,
	"eval_samples_per_second": 807.39,
	"eval_steps_per_second": 50.462,
	"step": 2344000
	},
	{
	"epoch": 49.51,
	"learning_rate": 8.2e-09,
	"loss": 2.3863,
	"step": 2352000
	},
	{
	"epoch": 49.51,
	"eval_loss": 2.26461124420166,
	"eval_runtime": 48.9942,
	"eval_samples_per_second": 816.423,
	"eval_steps_per_second": 51.026,
	"step": 2352000
	},
	{
	"epoch": 49.68,
	"eval_loss": 2.2533907890319824,
	"eval_runtime": 49.998,
	"eval_samples_per_second": 800.033,
	"eval_steps_per_second": 50.002,
	"step": 2360000
	},
	{
	"epoch": 49.85,
	"learning_rate": 5.466666666666667e-09,
	"loss": 2.3873,
	"step": 2368000
	},
	{
	"epoch": 49.85,
	"eval_loss": 2.2741761207580566,
	"eval_runtime": 49.1748,
	"eval_samples_per_second": 813.425,
	"eval_steps_per_second": 50.839,
	"step": 2368000
	},
	{
	"epoch": 50.02,
	"eval_loss": 2.2686805725097656,
	"eval_runtime": 49.0988,
	"eval_samples_per_second": 814.684,
	"eval_steps_per_second": 50.918,
	"step": 2376000
	},
	{
	"epoch": 50.19,
	"learning_rate": 2.7333333333333334e-09,
	"loss": 2.39,
	"step": 2384000
	},
	{
	"epoch": 50.19,
	"eval_loss": 2.2580976486206055,
	"eval_runtime": 49.688,
	"eval_samples_per_second": 805.024,
	"eval_steps_per_second": 50.314,
	"step": 2384000
	},
	{
	"epoch": 50.36,
	"eval_loss": 2.2459537982940674,
	"eval_runtime": 49.7136,
	"eval_samples_per_second": 804.608,
	"eval_steps_per_second": 50.288,
	"step": 2392000
	},
	{
	"epoch": 50.53,
	"learning_rate": 0.0,
	"loss": 2.3937,
	"step": 2400000
	},
	{
	"epoch": 50.53,
	"eval_loss": 2.264155387878418,
	"eval_runtime": 49.6839,
	"eval_samples_per_second": 805.089,
	"eval_steps_per_second": 50.318,
	"step": 2400000
	},
	{
	"epoch": 50.53,
	"step": 2400000,
	"total_flos": 8.417954735470524e+17,
	"train_loss": 2.392315192057292,
	"train_runtime": 173434.012,
	"train_samples_per_second": 221.41,
	"train_steps_per_second": 13.838
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 51,
	"save_steps": 32000,
	"total_flos": 8.417954735470524e+17,
	"trial_name": null,
	"trial_params": null
	}