|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 25.0, |
|
"global_step": 94375, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0, |
|
"learning_rate": 5e-09, |
|
"loss": 10.521, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.13, |
|
"learning_rate": 2.5e-06, |
|
"loss": 9.5586, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.26, |
|
"learning_rate": 5e-06, |
|
"loss": 7.9673, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"learning_rate": 7.5e-06, |
|
"loss": 6.9267, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.53, |
|
"learning_rate": 1e-05, |
|
"loss": 6.6261, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.66, |
|
"learning_rate": 1.25e-05, |
|
"loss": 6.4609, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.79, |
|
"learning_rate": 1.5e-05, |
|
"loss": 6.348, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.93, |
|
"learning_rate": 1.75e-05, |
|
"loss": 6.2548, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 1.06, |
|
"learning_rate": 2e-05, |
|
"loss": 6.184, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 1.19, |
|
"learning_rate": 2.25e-05, |
|
"loss": 6.1235, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 1.32, |
|
"learning_rate": 2.5e-05, |
|
"loss": 6.0675, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 1.46, |
|
"learning_rate": 2.7500000000000004e-05, |
|
"loss": 6.0239, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 1.59, |
|
"learning_rate": 3e-05, |
|
"loss": 5.9851, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 1.72, |
|
"learning_rate": 3.2500000000000004e-05, |
|
"loss": 5.946, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"learning_rate": 3.5e-05, |
|
"loss": 5.9148, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"learning_rate": 3.7500000000000003e-05, |
|
"loss": 5.8876, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 2.12, |
|
"learning_rate": 3.9995000000000006e-05, |
|
"loss": 5.8606, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"learning_rate": 4.2495e-05, |
|
"loss": 5.8384, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 2.38, |
|
"learning_rate": 4.4995000000000005e-05, |
|
"loss": 5.8196, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 2.52, |
|
"learning_rate": 4.7495e-05, |
|
"loss": 5.7986, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 2.65, |
|
"learning_rate": 4.9995000000000005e-05, |
|
"loss": 5.784, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 2.78, |
|
"learning_rate": 4.998336666666667e-05, |
|
"loss": 5.7669, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 2.91, |
|
"learning_rate": 4.99667e-05, |
|
"loss": 5.7503, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 3.05, |
|
"learning_rate": 4.995006666666667e-05, |
|
"loss": 5.7376, |
|
"step": 11500 |
|
}, |
|
{ |
|
"epoch": 3.18, |
|
"learning_rate": 4.9933400000000005e-05, |
|
"loss": 5.7264, |
|
"step": 12000 |
|
}, |
|
{ |
|
"epoch": 3.31, |
|
"learning_rate": 4.9916733333333336e-05, |
|
"loss": 5.713, |
|
"step": 12500 |
|
}, |
|
{ |
|
"epoch": 3.44, |
|
"learning_rate": 4.990006666666667e-05, |
|
"loss": 5.7022, |
|
"step": 13000 |
|
}, |
|
{ |
|
"epoch": 3.58, |
|
"learning_rate": 4.9883400000000004e-05, |
|
"loss": 5.6969, |
|
"step": 13500 |
|
}, |
|
{ |
|
"epoch": 3.71, |
|
"learning_rate": 4.9866733333333335e-05, |
|
"loss": 5.6838, |
|
"step": 14000 |
|
}, |
|
{ |
|
"epoch": 3.84, |
|
"learning_rate": 4.9850066666666666e-05, |
|
"loss": 5.6765, |
|
"step": 14500 |
|
}, |
|
{ |
|
"epoch": 3.97, |
|
"learning_rate": 4.98334e-05, |
|
"loss": 5.6707, |
|
"step": 15000 |
|
}, |
|
{ |
|
"epoch": 4.11, |
|
"learning_rate": 4.981676666666667e-05, |
|
"loss": 5.6607, |
|
"step": 15500 |
|
}, |
|
{ |
|
"epoch": 4.24, |
|
"learning_rate": 4.9800100000000005e-05, |
|
"loss": 5.6535, |
|
"step": 16000 |
|
}, |
|
{ |
|
"epoch": 4.37, |
|
"learning_rate": 4.9783433333333335e-05, |
|
"loss": 5.6476, |
|
"step": 16500 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"learning_rate": 4.976676666666667e-05, |
|
"loss": 5.6409, |
|
"step": 17000 |
|
}, |
|
{ |
|
"epoch": 4.64, |
|
"learning_rate": 4.97501e-05, |
|
"loss": 5.6365, |
|
"step": 17500 |
|
}, |
|
{ |
|
"epoch": 4.77, |
|
"learning_rate": 4.973346666666667e-05, |
|
"loss": 5.6273, |
|
"step": 18000 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"learning_rate": 4.9716800000000005e-05, |
|
"loss": 5.6247, |
|
"step": 18500 |
|
}, |
|
{ |
|
"epoch": 5.03, |
|
"learning_rate": 4.970016666666667e-05, |
|
"loss": 5.6217, |
|
"step": 19000 |
|
}, |
|
{ |
|
"epoch": 5.17, |
|
"learning_rate": 4.9683500000000006e-05, |
|
"loss": 5.6159, |
|
"step": 19500 |
|
}, |
|
{ |
|
"epoch": 5.3, |
|
"learning_rate": 4.966683333333334e-05, |
|
"loss": 5.609, |
|
"step": 20000 |
|
}, |
|
{ |
|
"epoch": 5.43, |
|
"learning_rate": 4.965016666666667e-05, |
|
"loss": 5.6066, |
|
"step": 20500 |
|
}, |
|
{ |
|
"epoch": 5.56, |
|
"learning_rate": 4.9633500000000005e-05, |
|
"loss": 5.6022, |
|
"step": 21000 |
|
}, |
|
{ |
|
"epoch": 5.7, |
|
"learning_rate": 4.9616833333333336e-05, |
|
"loss": 5.596, |
|
"step": 21500 |
|
}, |
|
{ |
|
"epoch": 5.83, |
|
"learning_rate": 4.9600166666666666e-05, |
|
"loss": 5.5916, |
|
"step": 22000 |
|
}, |
|
{ |
|
"epoch": 5.96, |
|
"learning_rate": 4.9583500000000004e-05, |
|
"loss": 5.5868, |
|
"step": 22500 |
|
}, |
|
{ |
|
"epoch": 6.09, |
|
"learning_rate": 4.956686666666667e-05, |
|
"loss": 5.5814, |
|
"step": 23000 |
|
}, |
|
{ |
|
"epoch": 6.23, |
|
"learning_rate": 4.9550200000000005e-05, |
|
"loss": 5.5785, |
|
"step": 23500 |
|
}, |
|
{ |
|
"epoch": 6.36, |
|
"learning_rate": 4.9533533333333336e-05, |
|
"loss": 5.5769, |
|
"step": 24000 |
|
}, |
|
{ |
|
"epoch": 6.49, |
|
"learning_rate": 4.951686666666667e-05, |
|
"loss": 5.5725, |
|
"step": 24500 |
|
}, |
|
{ |
|
"epoch": 6.62, |
|
"learning_rate": 4.9500200000000004e-05, |
|
"loss": 5.572, |
|
"step": 25000 |
|
}, |
|
{ |
|
"epoch": 6.75, |
|
"learning_rate": 4.9483533333333335e-05, |
|
"loss": 5.5661, |
|
"step": 25500 |
|
}, |
|
{ |
|
"epoch": 6.89, |
|
"learning_rate": 4.9466866666666666e-05, |
|
"loss": 5.5659, |
|
"step": 26000 |
|
}, |
|
{ |
|
"epoch": 7.02, |
|
"learning_rate": 4.9450233333333336e-05, |
|
"loss": 5.5605, |
|
"step": 26500 |
|
}, |
|
{ |
|
"epoch": 7.15, |
|
"learning_rate": 4.943356666666667e-05, |
|
"loss": 5.5572, |
|
"step": 27000 |
|
}, |
|
{ |
|
"epoch": 7.28, |
|
"learning_rate": 4.9416900000000005e-05, |
|
"loss": 5.5525, |
|
"step": 27500 |
|
}, |
|
{ |
|
"epoch": 7.42, |
|
"learning_rate": 4.9400233333333335e-05, |
|
"loss": 5.5517, |
|
"step": 28000 |
|
}, |
|
{ |
|
"epoch": 7.55, |
|
"learning_rate": 4.938356666666667e-05, |
|
"loss": 5.5477, |
|
"step": 28500 |
|
}, |
|
{ |
|
"epoch": 7.68, |
|
"learning_rate": 4.93669e-05, |
|
"loss": 5.5431, |
|
"step": 29000 |
|
}, |
|
{ |
|
"epoch": 7.81, |
|
"learning_rate": 4.9350233333333334e-05, |
|
"loss": 5.5412, |
|
"step": 29500 |
|
}, |
|
{ |
|
"epoch": 7.95, |
|
"learning_rate": 4.933356666666667e-05, |
|
"loss": 5.538, |
|
"step": 30000 |
|
}, |
|
{ |
|
"epoch": 8.08, |
|
"learning_rate": 4.93169e-05, |
|
"loss": 5.5347, |
|
"step": 30500 |
|
}, |
|
{ |
|
"epoch": 8.21, |
|
"learning_rate": 4.930023333333333e-05, |
|
"loss": 5.5302, |
|
"step": 31000 |
|
}, |
|
{ |
|
"epoch": 8.34, |
|
"learning_rate": 4.928356666666667e-05, |
|
"loss": 5.5291, |
|
"step": 31500 |
|
}, |
|
{ |
|
"epoch": 8.48, |
|
"learning_rate": 4.926690000000001e-05, |
|
"loss": 5.5277, |
|
"step": 32000 |
|
}, |
|
{ |
|
"epoch": 8.61, |
|
"learning_rate": 4.9250266666666665e-05, |
|
"loss": 5.525, |
|
"step": 32500 |
|
}, |
|
{ |
|
"epoch": 8.74, |
|
"learning_rate": 4.92336e-05, |
|
"loss": 5.519, |
|
"step": 33000 |
|
}, |
|
{ |
|
"epoch": 8.87, |
|
"learning_rate": 4.921693333333334e-05, |
|
"loss": 5.5216, |
|
"step": 33500 |
|
}, |
|
{ |
|
"epoch": 9.01, |
|
"learning_rate": 4.920033333333334e-05, |
|
"loss": 5.5153, |
|
"step": 34000 |
|
}, |
|
{ |
|
"epoch": 9.14, |
|
"learning_rate": 4.918366666666667e-05, |
|
"loss": 5.513, |
|
"step": 34500 |
|
}, |
|
{ |
|
"epoch": 9.27, |
|
"learning_rate": 4.9167e-05, |
|
"loss": 5.5123, |
|
"step": 35000 |
|
}, |
|
{ |
|
"epoch": 9.4, |
|
"learning_rate": 4.9150333333333336e-05, |
|
"loss": 5.5077, |
|
"step": 35500 |
|
}, |
|
{ |
|
"epoch": 9.54, |
|
"learning_rate": 4.913366666666667e-05, |
|
"loss": 5.5034, |
|
"step": 36000 |
|
}, |
|
{ |
|
"epoch": 9.67, |
|
"learning_rate": 4.9117000000000004e-05, |
|
"loss": 5.5053, |
|
"step": 36500 |
|
}, |
|
{ |
|
"epoch": 9.8, |
|
"learning_rate": 4.9100333333333335e-05, |
|
"loss": 5.5026, |
|
"step": 37000 |
|
}, |
|
{ |
|
"epoch": 9.93, |
|
"learning_rate": 4.9083666666666666e-05, |
|
"loss": 5.4711, |
|
"step": 37500 |
|
}, |
|
{ |
|
"epoch": 10.07, |
|
"learning_rate": 4.9067033333333336e-05, |
|
"loss": 5.1945, |
|
"step": 38000 |
|
}, |
|
{ |
|
"epoch": 10.2, |
|
"learning_rate": 4.905036666666667e-05, |
|
"loss": 4.9767, |
|
"step": 38500 |
|
}, |
|
{ |
|
"epoch": 10.33, |
|
"learning_rate": 4.9033700000000005e-05, |
|
"loss": 4.7965, |
|
"step": 39000 |
|
}, |
|
{ |
|
"epoch": 10.46, |
|
"learning_rate": 4.9017033333333335e-05, |
|
"loss": 4.6281, |
|
"step": 39500 |
|
}, |
|
{ |
|
"epoch": 10.6, |
|
"learning_rate": 4.900036666666667e-05, |
|
"loss": 4.4679, |
|
"step": 40000 |
|
}, |
|
{ |
|
"epoch": 10.73, |
|
"learning_rate": 4.89837e-05, |
|
"loss": 4.3017, |
|
"step": 40500 |
|
}, |
|
{ |
|
"epoch": 10.86, |
|
"learning_rate": 4.8967033333333334e-05, |
|
"loss": 4.1427, |
|
"step": 41000 |
|
}, |
|
{ |
|
"epoch": 10.99, |
|
"learning_rate": 4.895036666666667e-05, |
|
"loss": 3.9857, |
|
"step": 41500 |
|
}, |
|
{ |
|
"epoch": 11.13, |
|
"learning_rate": 4.8933733333333336e-05, |
|
"loss": 3.8272, |
|
"step": 42000 |
|
}, |
|
{ |
|
"epoch": 11.26, |
|
"learning_rate": 4.8917066666666666e-05, |
|
"loss": 3.6712, |
|
"step": 42500 |
|
}, |
|
{ |
|
"epoch": 11.39, |
|
"learning_rate": 4.8900400000000004e-05, |
|
"loss": 3.4158, |
|
"step": 43000 |
|
}, |
|
{ |
|
"epoch": 11.52, |
|
"learning_rate": 4.8883733333333334e-05, |
|
"loss": 2.7896, |
|
"step": 43500 |
|
}, |
|
{ |
|
"epoch": 11.66, |
|
"learning_rate": 4.8867066666666665e-05, |
|
"loss": 2.3599, |
|
"step": 44000 |
|
}, |
|
{ |
|
"epoch": 11.79, |
|
"learning_rate": 4.88504e-05, |
|
"loss": 2.149, |
|
"step": 44500 |
|
}, |
|
{ |
|
"epoch": 11.92, |
|
"learning_rate": 4.883373333333334e-05, |
|
"loss": 2.0239, |
|
"step": 45000 |
|
}, |
|
{ |
|
"epoch": 12.05, |
|
"learning_rate": 4.8817100000000004e-05, |
|
"loss": 1.9323, |
|
"step": 45500 |
|
}, |
|
{ |
|
"epoch": 12.19, |
|
"learning_rate": 4.8800433333333335e-05, |
|
"loss": 1.8612, |
|
"step": 46000 |
|
}, |
|
{ |
|
"epoch": 12.32, |
|
"learning_rate": 4.878376666666667e-05, |
|
"loss": 1.8034, |
|
"step": 46500 |
|
}, |
|
{ |
|
"epoch": 12.45, |
|
"learning_rate": 4.87671e-05, |
|
"loss": 1.7511, |
|
"step": 47000 |
|
}, |
|
{ |
|
"epoch": 12.58, |
|
"learning_rate": 4.8750433333333333e-05, |
|
"loss": 1.7082, |
|
"step": 47500 |
|
}, |
|
{ |
|
"epoch": 12.72, |
|
"learning_rate": 4.873376666666667e-05, |
|
"loss": 1.6691, |
|
"step": 48000 |
|
}, |
|
{ |
|
"epoch": 12.85, |
|
"learning_rate": 4.87171e-05, |
|
"loss": 1.6354, |
|
"step": 48500 |
|
}, |
|
{ |
|
"epoch": 12.98, |
|
"learning_rate": 4.8700466666666666e-05, |
|
"loss": 1.6044, |
|
"step": 49000 |
|
}, |
|
{ |
|
"epoch": 13.11, |
|
"learning_rate": 4.86838e-05, |
|
"loss": 1.5762, |
|
"step": 49500 |
|
}, |
|
{ |
|
"epoch": 13.25, |
|
"learning_rate": 4.8667133333333334e-05, |
|
"loss": 1.552, |
|
"step": 50000 |
|
}, |
|
{ |
|
"epoch": 13.38, |
|
"learning_rate": 4.8650466666666664e-05, |
|
"loss": 1.5254, |
|
"step": 50500 |
|
}, |
|
{ |
|
"epoch": 13.51, |
|
"learning_rate": 4.86338e-05, |
|
"loss": 1.5016, |
|
"step": 51000 |
|
}, |
|
{ |
|
"epoch": 13.64, |
|
"learning_rate": 4.861713333333334e-05, |
|
"loss": 1.4854, |
|
"step": 51500 |
|
}, |
|
{ |
|
"epoch": 13.77, |
|
"learning_rate": 4.860046666666666e-05, |
|
"loss": 1.4639, |
|
"step": 52000 |
|
}, |
|
{ |
|
"epoch": 13.91, |
|
"learning_rate": 4.85838e-05, |
|
"loss": 1.4464, |
|
"step": 52500 |
|
}, |
|
{ |
|
"epoch": 14.04, |
|
"learning_rate": 4.856716666666667e-05, |
|
"loss": 1.428, |
|
"step": 53000 |
|
}, |
|
{ |
|
"epoch": 14.17, |
|
"learning_rate": 4.85505e-05, |
|
"loss": 1.4108, |
|
"step": 53500 |
|
}, |
|
{ |
|
"epoch": 14.3, |
|
"learning_rate": 4.853383333333333e-05, |
|
"loss": 1.394, |
|
"step": 54000 |
|
}, |
|
{ |
|
"epoch": 14.44, |
|
"learning_rate": 4.851716666666667e-05, |
|
"loss": 1.381, |
|
"step": 54500 |
|
}, |
|
{ |
|
"epoch": 14.57, |
|
"learning_rate": 4.85005e-05, |
|
"loss": 1.3665, |
|
"step": 55000 |
|
}, |
|
{ |
|
"epoch": 14.7, |
|
"learning_rate": 4.848383333333333e-05, |
|
"loss": 1.3524, |
|
"step": 55500 |
|
}, |
|
{ |
|
"epoch": 14.83, |
|
"learning_rate": 4.846716666666667e-05, |
|
"loss": 1.3421, |
|
"step": 56000 |
|
}, |
|
{ |
|
"epoch": 14.97, |
|
"learning_rate": 4.8450500000000006e-05, |
|
"loss": 1.3328, |
|
"step": 56500 |
|
}, |
|
{ |
|
"epoch": 15.1, |
|
"learning_rate": 4.8433866666666664e-05, |
|
"loss": 1.3186, |
|
"step": 57000 |
|
}, |
|
{ |
|
"epoch": 15.23, |
|
"learning_rate": 4.84172e-05, |
|
"loss": 1.3081, |
|
"step": 57500 |
|
}, |
|
{ |
|
"epoch": 15.36, |
|
"learning_rate": 4.840053333333334e-05, |
|
"loss": 1.2977, |
|
"step": 58000 |
|
}, |
|
{ |
|
"epoch": 15.5, |
|
"learning_rate": 4.838386666666667e-05, |
|
"loss": 1.2858, |
|
"step": 58500 |
|
}, |
|
{ |
|
"epoch": 15.63, |
|
"learning_rate": 4.83672e-05, |
|
"loss": 1.2789, |
|
"step": 59000 |
|
}, |
|
{ |
|
"epoch": 15.76, |
|
"learning_rate": 4.835053333333334e-05, |
|
"loss": 1.2705, |
|
"step": 59500 |
|
}, |
|
{ |
|
"epoch": 15.89, |
|
"learning_rate": 4.8333866666666675e-05, |
|
"loss": 1.2606, |
|
"step": 60000 |
|
}, |
|
{ |
|
"epoch": 16.03, |
|
"learning_rate": 4.831723333333333e-05, |
|
"loss": 1.2506, |
|
"step": 60500 |
|
}, |
|
{ |
|
"epoch": 16.16, |
|
"learning_rate": 4.830056666666667e-05, |
|
"loss": 1.2413, |
|
"step": 61000 |
|
}, |
|
{ |
|
"epoch": 16.29, |
|
"learning_rate": 4.828390000000001e-05, |
|
"loss": 1.234, |
|
"step": 61500 |
|
}, |
|
{ |
|
"epoch": 16.42, |
|
"learning_rate": 4.826723333333333e-05, |
|
"loss": 1.2269, |
|
"step": 62000 |
|
}, |
|
{ |
|
"epoch": 16.56, |
|
"learning_rate": 4.825056666666667e-05, |
|
"loss": 1.2201, |
|
"step": 62500 |
|
}, |
|
{ |
|
"epoch": 16.69, |
|
"learning_rate": 4.823393333333334e-05, |
|
"loss": 1.2118, |
|
"step": 63000 |
|
}, |
|
{ |
|
"epoch": 16.82, |
|
"learning_rate": 4.821726666666667e-05, |
|
"loss": 1.206, |
|
"step": 63500 |
|
}, |
|
{ |
|
"epoch": 16.95, |
|
"learning_rate": 4.82006e-05, |
|
"loss": 1.1987, |
|
"step": 64000 |
|
}, |
|
{ |
|
"epoch": 17.09, |
|
"learning_rate": 4.818396666666667e-05, |
|
"loss": 1.1924, |
|
"step": 64500 |
|
}, |
|
{ |
|
"epoch": 17.22, |
|
"learning_rate": 4.81673e-05, |
|
"loss": 1.1856, |
|
"step": 65000 |
|
}, |
|
{ |
|
"epoch": 17.35, |
|
"learning_rate": 4.815063333333333e-05, |
|
"loss": 1.1776, |
|
"step": 65500 |
|
}, |
|
{ |
|
"epoch": 17.48, |
|
"learning_rate": 4.813396666666667e-05, |
|
"loss": 1.1722, |
|
"step": 66000 |
|
}, |
|
{ |
|
"epoch": 17.62, |
|
"learning_rate": 4.8117333333333334e-05, |
|
"loss": 1.1657, |
|
"step": 66500 |
|
}, |
|
{ |
|
"epoch": 17.75, |
|
"learning_rate": 4.810066666666667e-05, |
|
"loss": 1.1609, |
|
"step": 67000 |
|
}, |
|
{ |
|
"epoch": 17.88, |
|
"learning_rate": 4.8084e-05, |
|
"loss": 1.1547, |
|
"step": 67500 |
|
}, |
|
{ |
|
"epoch": 18.01, |
|
"learning_rate": 4.806733333333333e-05, |
|
"loss": 1.1505, |
|
"step": 68000 |
|
}, |
|
{ |
|
"epoch": 18.15, |
|
"learning_rate": 4.805066666666667e-05, |
|
"loss": 1.1429, |
|
"step": 68500 |
|
}, |
|
{ |
|
"epoch": 18.28, |
|
"learning_rate": 4.8034033333333335e-05, |
|
"loss": 1.1364, |
|
"step": 69000 |
|
}, |
|
{ |
|
"epoch": 18.41, |
|
"learning_rate": 4.801736666666667e-05, |
|
"loss": 1.132, |
|
"step": 69500 |
|
}, |
|
{ |
|
"epoch": 18.54, |
|
"learning_rate": 4.80007e-05, |
|
"loss": 1.1247, |
|
"step": 70000 |
|
}, |
|
{ |
|
"epoch": 18.68, |
|
"learning_rate": 4.7984033333333333e-05, |
|
"loss": 1.1205, |
|
"step": 70500 |
|
}, |
|
{ |
|
"epoch": 18.81, |
|
"learning_rate": 4.796736666666667e-05, |
|
"loss": 1.1149, |
|
"step": 71000 |
|
}, |
|
{ |
|
"epoch": 18.94, |
|
"learning_rate": 4.79507e-05, |
|
"loss": 1.1095, |
|
"step": 71500 |
|
}, |
|
{ |
|
"epoch": 19.07, |
|
"learning_rate": 4.793403333333333e-05, |
|
"loss": 1.107, |
|
"step": 72000 |
|
}, |
|
{ |
|
"epoch": 19.21, |
|
"learning_rate": 4.79174e-05, |
|
"loss": 1.1018, |
|
"step": 72500 |
|
}, |
|
{ |
|
"epoch": 19.34, |
|
"learning_rate": 4.7900733333333334e-05, |
|
"loss": 1.0968, |
|
"step": 73000 |
|
}, |
|
{ |
|
"epoch": 19.47, |
|
"learning_rate": 4.788406666666667e-05, |
|
"loss": 1.0896, |
|
"step": 73500 |
|
}, |
|
{ |
|
"epoch": 19.6, |
|
"learning_rate": 4.78674e-05, |
|
"loss": 1.0893, |
|
"step": 74000 |
|
}, |
|
{ |
|
"epoch": 19.74, |
|
"learning_rate": 4.785073333333334e-05, |
|
"loss": 1.0843, |
|
"step": 74500 |
|
}, |
|
{ |
|
"epoch": 19.87, |
|
"learning_rate": 4.783406666666667e-05, |
|
"loss": 1.0809, |
|
"step": 75000 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"learning_rate": 4.7817433333333334e-05, |
|
"loss": 1.0753, |
|
"step": 75500 |
|
}, |
|
{ |
|
"epoch": 20.13, |
|
"learning_rate": 4.780076666666667e-05, |
|
"loss": 1.0712, |
|
"step": 76000 |
|
}, |
|
{ |
|
"epoch": 20.26, |
|
"learning_rate": 4.77841e-05, |
|
"loss": 1.0647, |
|
"step": 76500 |
|
}, |
|
{ |
|
"epoch": 20.4, |
|
"learning_rate": 4.776743333333333e-05, |
|
"loss": 1.0644, |
|
"step": 77000 |
|
}, |
|
{ |
|
"epoch": 20.53, |
|
"learning_rate": 4.775076666666667e-05, |
|
"loss": 1.0597, |
|
"step": 77500 |
|
}, |
|
{ |
|
"epoch": 20.66, |
|
"learning_rate": 4.7734133333333334e-05, |
|
"loss": 1.0567, |
|
"step": 78000 |
|
}, |
|
{ |
|
"epoch": 20.79, |
|
"learning_rate": 4.771746666666667e-05, |
|
"loss": 1.0532, |
|
"step": 78500 |
|
}, |
|
{ |
|
"epoch": 20.93, |
|
"learning_rate": 4.77008e-05, |
|
"loss": 1.0511, |
|
"step": 79000 |
|
}, |
|
{ |
|
"epoch": 21.06, |
|
"learning_rate": 4.768413333333333e-05, |
|
"loss": 1.0451, |
|
"step": 79500 |
|
}, |
|
{ |
|
"epoch": 21.19, |
|
"learning_rate": 4.7667500000000004e-05, |
|
"loss": 1.0436, |
|
"step": 80000 |
|
}, |
|
{ |
|
"epoch": 21.32, |
|
"learning_rate": 4.7650833333333335e-05, |
|
"loss": 1.0398, |
|
"step": 80500 |
|
}, |
|
{ |
|
"epoch": 21.46, |
|
"learning_rate": 4.7634166666666665e-05, |
|
"loss": 1.0375, |
|
"step": 81000 |
|
}, |
|
{ |
|
"epoch": 21.59, |
|
"learning_rate": 4.76175e-05, |
|
"loss": 1.0348, |
|
"step": 81500 |
|
}, |
|
{ |
|
"epoch": 21.72, |
|
"learning_rate": 4.7600833333333333e-05, |
|
"loss": 1.0292, |
|
"step": 82000 |
|
}, |
|
{ |
|
"epoch": 21.85, |
|
"learning_rate": 4.7584200000000004e-05, |
|
"loss": 1.0275, |
|
"step": 82500 |
|
}, |
|
{ |
|
"epoch": 21.99, |
|
"learning_rate": 4.7567533333333335e-05, |
|
"loss": 1.0226, |
|
"step": 83000 |
|
}, |
|
{ |
|
"epoch": 22.12, |
|
"learning_rate": 4.755086666666667e-05, |
|
"loss": 1.0204, |
|
"step": 83500 |
|
}, |
|
{ |
|
"epoch": 22.25, |
|
"learning_rate": 4.75342e-05, |
|
"loss": 1.0165, |
|
"step": 84000 |
|
}, |
|
{ |
|
"epoch": 22.38, |
|
"learning_rate": 4.7517533333333334e-05, |
|
"loss": 1.0138, |
|
"step": 84500 |
|
}, |
|
{ |
|
"epoch": 22.52, |
|
"learning_rate": 4.7500900000000005e-05, |
|
"loss": 1.0138, |
|
"step": 85000 |
|
}, |
|
{ |
|
"epoch": 22.65, |
|
"learning_rate": 4.7484233333333335e-05, |
|
"loss": 1.0097, |
|
"step": 85500 |
|
}, |
|
{ |
|
"epoch": 22.78, |
|
"learning_rate": 4.7467566666666666e-05, |
|
"loss": 1.0066, |
|
"step": 86000 |
|
}, |
|
{ |
|
"epoch": 22.91, |
|
"learning_rate": 4.74509e-05, |
|
"loss": 1.0057, |
|
"step": 86500 |
|
}, |
|
{ |
|
"epoch": 23.05, |
|
"learning_rate": 4.7434266666666674e-05, |
|
"loss": 1.0003, |
|
"step": 87000 |
|
}, |
|
{ |
|
"epoch": 23.18, |
|
"learning_rate": 4.74176e-05, |
|
"loss": 0.9995, |
|
"step": 87500 |
|
}, |
|
{ |
|
"epoch": 23.31, |
|
"learning_rate": 4.7400933333333336e-05, |
|
"loss": 0.997, |
|
"step": 88000 |
|
}, |
|
{ |
|
"epoch": 23.44, |
|
"learning_rate": 4.738426666666667e-05, |
|
"loss": 0.9945, |
|
"step": 88500 |
|
}, |
|
{ |
|
"epoch": 23.58, |
|
"learning_rate": 4.7367600000000004e-05, |
|
"loss": 0.9905, |
|
"step": 89000 |
|
}, |
|
{ |
|
"epoch": 23.71, |
|
"learning_rate": 4.735096666666667e-05, |
|
"loss": 0.9884, |
|
"step": 89500 |
|
}, |
|
{ |
|
"epoch": 23.84, |
|
"learning_rate": 4.7334300000000005e-05, |
|
"loss": 0.9881, |
|
"step": 90000 |
|
}, |
|
{ |
|
"epoch": 23.97, |
|
"learning_rate": 4.7317633333333336e-05, |
|
"loss": 0.9845, |
|
"step": 90500 |
|
}, |
|
{ |
|
"epoch": 24.11, |
|
"learning_rate": 4.7300966666666667e-05, |
|
"loss": 0.982, |
|
"step": 91000 |
|
}, |
|
{ |
|
"epoch": 24.24, |
|
"learning_rate": 4.7284300000000004e-05, |
|
"loss": 0.9799, |
|
"step": 91500 |
|
}, |
|
{ |
|
"epoch": 24.37, |
|
"learning_rate": 4.7267633333333335e-05, |
|
"loss": 0.9751, |
|
"step": 92000 |
|
}, |
|
{ |
|
"epoch": 24.5, |
|
"learning_rate": 4.7251e-05, |
|
"loss": 0.9743, |
|
"step": 92500 |
|
}, |
|
{ |
|
"epoch": 24.64, |
|
"learning_rate": 4.7234333333333336e-05, |
|
"loss": 0.9752, |
|
"step": 93000 |
|
}, |
|
{ |
|
"epoch": 24.77, |
|
"learning_rate": 4.7217666666666674e-05, |
|
"loss": 0.9711, |
|
"step": 93500 |
|
}, |
|
{ |
|
"epoch": 24.9, |
|
"learning_rate": 4.7201e-05, |
|
"loss": 0.971, |
|
"step": 94000 |
|
} |
|
], |
|
"max_steps": 1510000, |
|
"num_train_epochs": 400, |
|
"total_flos": 2.5430025926080463e+19, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|