qanastek's picture
Upload 43 files
1353f46
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 25.0,
"global_step": 94375,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0,
"learning_rate": 5e-09,
"loss": 10.521,
"step": 1
},
{
"epoch": 0.13,
"learning_rate": 2.5e-06,
"loss": 9.5586,
"step": 500
},
{
"epoch": 0.26,
"learning_rate": 5e-06,
"loss": 7.9673,
"step": 1000
},
{
"epoch": 0.4,
"learning_rate": 7.5e-06,
"loss": 6.9267,
"step": 1500
},
{
"epoch": 0.53,
"learning_rate": 1e-05,
"loss": 6.6261,
"step": 2000
},
{
"epoch": 0.66,
"learning_rate": 1.25e-05,
"loss": 6.4609,
"step": 2500
},
{
"epoch": 0.79,
"learning_rate": 1.5e-05,
"loss": 6.348,
"step": 3000
},
{
"epoch": 0.93,
"learning_rate": 1.75e-05,
"loss": 6.2548,
"step": 3500
},
{
"epoch": 1.06,
"learning_rate": 2e-05,
"loss": 6.184,
"step": 4000
},
{
"epoch": 1.19,
"learning_rate": 2.25e-05,
"loss": 6.1235,
"step": 4500
},
{
"epoch": 1.32,
"learning_rate": 2.5e-05,
"loss": 6.0675,
"step": 5000
},
{
"epoch": 1.46,
"learning_rate": 2.7500000000000004e-05,
"loss": 6.0239,
"step": 5500
},
{
"epoch": 1.59,
"learning_rate": 3e-05,
"loss": 5.9851,
"step": 6000
},
{
"epoch": 1.72,
"learning_rate": 3.2500000000000004e-05,
"loss": 5.946,
"step": 6500
},
{
"epoch": 1.85,
"learning_rate": 3.5e-05,
"loss": 5.9148,
"step": 7000
},
{
"epoch": 1.99,
"learning_rate": 3.7500000000000003e-05,
"loss": 5.8876,
"step": 7500
},
{
"epoch": 2.12,
"learning_rate": 3.9995000000000006e-05,
"loss": 5.8606,
"step": 8000
},
{
"epoch": 2.25,
"learning_rate": 4.2495e-05,
"loss": 5.8384,
"step": 8500
},
{
"epoch": 2.38,
"learning_rate": 4.4995000000000005e-05,
"loss": 5.8196,
"step": 9000
},
{
"epoch": 2.52,
"learning_rate": 4.7495e-05,
"loss": 5.7986,
"step": 9500
},
{
"epoch": 2.65,
"learning_rate": 4.9995000000000005e-05,
"loss": 5.784,
"step": 10000
},
{
"epoch": 2.78,
"learning_rate": 4.998336666666667e-05,
"loss": 5.7669,
"step": 10500
},
{
"epoch": 2.91,
"learning_rate": 4.99667e-05,
"loss": 5.7503,
"step": 11000
},
{
"epoch": 3.05,
"learning_rate": 4.995006666666667e-05,
"loss": 5.7376,
"step": 11500
},
{
"epoch": 3.18,
"learning_rate": 4.9933400000000005e-05,
"loss": 5.7264,
"step": 12000
},
{
"epoch": 3.31,
"learning_rate": 4.9916733333333336e-05,
"loss": 5.713,
"step": 12500
},
{
"epoch": 3.44,
"learning_rate": 4.990006666666667e-05,
"loss": 5.7022,
"step": 13000
},
{
"epoch": 3.58,
"learning_rate": 4.9883400000000004e-05,
"loss": 5.6969,
"step": 13500
},
{
"epoch": 3.71,
"learning_rate": 4.9866733333333335e-05,
"loss": 5.6838,
"step": 14000
},
{
"epoch": 3.84,
"learning_rate": 4.9850066666666666e-05,
"loss": 5.6765,
"step": 14500
},
{
"epoch": 3.97,
"learning_rate": 4.98334e-05,
"loss": 5.6707,
"step": 15000
},
{
"epoch": 4.11,
"learning_rate": 4.981676666666667e-05,
"loss": 5.6607,
"step": 15500
},
{
"epoch": 4.24,
"learning_rate": 4.9800100000000005e-05,
"loss": 5.6535,
"step": 16000
},
{
"epoch": 4.37,
"learning_rate": 4.9783433333333335e-05,
"loss": 5.6476,
"step": 16500
},
{
"epoch": 4.5,
"learning_rate": 4.976676666666667e-05,
"loss": 5.6409,
"step": 17000
},
{
"epoch": 4.64,
"learning_rate": 4.97501e-05,
"loss": 5.6365,
"step": 17500
},
{
"epoch": 4.77,
"learning_rate": 4.973346666666667e-05,
"loss": 5.6273,
"step": 18000
},
{
"epoch": 4.9,
"learning_rate": 4.9716800000000005e-05,
"loss": 5.6247,
"step": 18500
},
{
"epoch": 5.03,
"learning_rate": 4.970016666666667e-05,
"loss": 5.6217,
"step": 19000
},
{
"epoch": 5.17,
"learning_rate": 4.9683500000000006e-05,
"loss": 5.6159,
"step": 19500
},
{
"epoch": 5.3,
"learning_rate": 4.966683333333334e-05,
"loss": 5.609,
"step": 20000
},
{
"epoch": 5.43,
"learning_rate": 4.965016666666667e-05,
"loss": 5.6066,
"step": 20500
},
{
"epoch": 5.56,
"learning_rate": 4.9633500000000005e-05,
"loss": 5.6022,
"step": 21000
},
{
"epoch": 5.7,
"learning_rate": 4.9616833333333336e-05,
"loss": 5.596,
"step": 21500
},
{
"epoch": 5.83,
"learning_rate": 4.9600166666666666e-05,
"loss": 5.5916,
"step": 22000
},
{
"epoch": 5.96,
"learning_rate": 4.9583500000000004e-05,
"loss": 5.5868,
"step": 22500
},
{
"epoch": 6.09,
"learning_rate": 4.956686666666667e-05,
"loss": 5.5814,
"step": 23000
},
{
"epoch": 6.23,
"learning_rate": 4.9550200000000005e-05,
"loss": 5.5785,
"step": 23500
},
{
"epoch": 6.36,
"learning_rate": 4.9533533333333336e-05,
"loss": 5.5769,
"step": 24000
},
{
"epoch": 6.49,
"learning_rate": 4.951686666666667e-05,
"loss": 5.5725,
"step": 24500
},
{
"epoch": 6.62,
"learning_rate": 4.9500200000000004e-05,
"loss": 5.572,
"step": 25000
},
{
"epoch": 6.75,
"learning_rate": 4.9483533333333335e-05,
"loss": 5.5661,
"step": 25500
},
{
"epoch": 6.89,
"learning_rate": 4.9466866666666666e-05,
"loss": 5.5659,
"step": 26000
},
{
"epoch": 7.02,
"learning_rate": 4.9450233333333336e-05,
"loss": 5.5605,
"step": 26500
},
{
"epoch": 7.15,
"learning_rate": 4.943356666666667e-05,
"loss": 5.5572,
"step": 27000
},
{
"epoch": 7.28,
"learning_rate": 4.9416900000000005e-05,
"loss": 5.5525,
"step": 27500
},
{
"epoch": 7.42,
"learning_rate": 4.9400233333333335e-05,
"loss": 5.5517,
"step": 28000
},
{
"epoch": 7.55,
"learning_rate": 4.938356666666667e-05,
"loss": 5.5477,
"step": 28500
},
{
"epoch": 7.68,
"learning_rate": 4.93669e-05,
"loss": 5.5431,
"step": 29000
},
{
"epoch": 7.81,
"learning_rate": 4.9350233333333334e-05,
"loss": 5.5412,
"step": 29500
},
{
"epoch": 7.95,
"learning_rate": 4.933356666666667e-05,
"loss": 5.538,
"step": 30000
},
{
"epoch": 8.08,
"learning_rate": 4.93169e-05,
"loss": 5.5347,
"step": 30500
},
{
"epoch": 8.21,
"learning_rate": 4.930023333333333e-05,
"loss": 5.5302,
"step": 31000
},
{
"epoch": 8.34,
"learning_rate": 4.928356666666667e-05,
"loss": 5.5291,
"step": 31500
},
{
"epoch": 8.48,
"learning_rate": 4.926690000000001e-05,
"loss": 5.5277,
"step": 32000
},
{
"epoch": 8.61,
"learning_rate": 4.9250266666666665e-05,
"loss": 5.525,
"step": 32500
},
{
"epoch": 8.74,
"learning_rate": 4.92336e-05,
"loss": 5.519,
"step": 33000
},
{
"epoch": 8.87,
"learning_rate": 4.921693333333334e-05,
"loss": 5.5216,
"step": 33500
},
{
"epoch": 9.01,
"learning_rate": 4.920033333333334e-05,
"loss": 5.5153,
"step": 34000
},
{
"epoch": 9.14,
"learning_rate": 4.918366666666667e-05,
"loss": 5.513,
"step": 34500
},
{
"epoch": 9.27,
"learning_rate": 4.9167e-05,
"loss": 5.5123,
"step": 35000
},
{
"epoch": 9.4,
"learning_rate": 4.9150333333333336e-05,
"loss": 5.5077,
"step": 35500
},
{
"epoch": 9.54,
"learning_rate": 4.913366666666667e-05,
"loss": 5.5034,
"step": 36000
},
{
"epoch": 9.67,
"learning_rate": 4.9117000000000004e-05,
"loss": 5.5053,
"step": 36500
},
{
"epoch": 9.8,
"learning_rate": 4.9100333333333335e-05,
"loss": 5.5026,
"step": 37000
},
{
"epoch": 9.93,
"learning_rate": 4.9083666666666666e-05,
"loss": 5.4711,
"step": 37500
},
{
"epoch": 10.07,
"learning_rate": 4.9067033333333336e-05,
"loss": 5.1945,
"step": 38000
},
{
"epoch": 10.2,
"learning_rate": 4.905036666666667e-05,
"loss": 4.9767,
"step": 38500
},
{
"epoch": 10.33,
"learning_rate": 4.9033700000000005e-05,
"loss": 4.7965,
"step": 39000
},
{
"epoch": 10.46,
"learning_rate": 4.9017033333333335e-05,
"loss": 4.6281,
"step": 39500
},
{
"epoch": 10.6,
"learning_rate": 4.900036666666667e-05,
"loss": 4.4679,
"step": 40000
},
{
"epoch": 10.73,
"learning_rate": 4.89837e-05,
"loss": 4.3017,
"step": 40500
},
{
"epoch": 10.86,
"learning_rate": 4.8967033333333334e-05,
"loss": 4.1427,
"step": 41000
},
{
"epoch": 10.99,
"learning_rate": 4.895036666666667e-05,
"loss": 3.9857,
"step": 41500
},
{
"epoch": 11.13,
"learning_rate": 4.8933733333333336e-05,
"loss": 3.8272,
"step": 42000
},
{
"epoch": 11.26,
"learning_rate": 4.8917066666666666e-05,
"loss": 3.6712,
"step": 42500
},
{
"epoch": 11.39,
"learning_rate": 4.8900400000000004e-05,
"loss": 3.4158,
"step": 43000
},
{
"epoch": 11.52,
"learning_rate": 4.8883733333333334e-05,
"loss": 2.7896,
"step": 43500
},
{
"epoch": 11.66,
"learning_rate": 4.8867066666666665e-05,
"loss": 2.3599,
"step": 44000
},
{
"epoch": 11.79,
"learning_rate": 4.88504e-05,
"loss": 2.149,
"step": 44500
},
{
"epoch": 11.92,
"learning_rate": 4.883373333333334e-05,
"loss": 2.0239,
"step": 45000
},
{
"epoch": 12.05,
"learning_rate": 4.8817100000000004e-05,
"loss": 1.9323,
"step": 45500
},
{
"epoch": 12.19,
"learning_rate": 4.8800433333333335e-05,
"loss": 1.8612,
"step": 46000
},
{
"epoch": 12.32,
"learning_rate": 4.878376666666667e-05,
"loss": 1.8034,
"step": 46500
},
{
"epoch": 12.45,
"learning_rate": 4.87671e-05,
"loss": 1.7511,
"step": 47000
},
{
"epoch": 12.58,
"learning_rate": 4.8750433333333333e-05,
"loss": 1.7082,
"step": 47500
},
{
"epoch": 12.72,
"learning_rate": 4.873376666666667e-05,
"loss": 1.6691,
"step": 48000
},
{
"epoch": 12.85,
"learning_rate": 4.87171e-05,
"loss": 1.6354,
"step": 48500
},
{
"epoch": 12.98,
"learning_rate": 4.8700466666666666e-05,
"loss": 1.6044,
"step": 49000
},
{
"epoch": 13.11,
"learning_rate": 4.86838e-05,
"loss": 1.5762,
"step": 49500
},
{
"epoch": 13.25,
"learning_rate": 4.8667133333333334e-05,
"loss": 1.552,
"step": 50000
},
{
"epoch": 13.38,
"learning_rate": 4.8650466666666664e-05,
"loss": 1.5254,
"step": 50500
},
{
"epoch": 13.51,
"learning_rate": 4.86338e-05,
"loss": 1.5016,
"step": 51000
},
{
"epoch": 13.64,
"learning_rate": 4.861713333333334e-05,
"loss": 1.4854,
"step": 51500
},
{
"epoch": 13.77,
"learning_rate": 4.860046666666666e-05,
"loss": 1.4639,
"step": 52000
},
{
"epoch": 13.91,
"learning_rate": 4.85838e-05,
"loss": 1.4464,
"step": 52500
},
{
"epoch": 14.04,
"learning_rate": 4.856716666666667e-05,
"loss": 1.428,
"step": 53000
},
{
"epoch": 14.17,
"learning_rate": 4.85505e-05,
"loss": 1.4108,
"step": 53500
},
{
"epoch": 14.3,
"learning_rate": 4.853383333333333e-05,
"loss": 1.394,
"step": 54000
},
{
"epoch": 14.44,
"learning_rate": 4.851716666666667e-05,
"loss": 1.381,
"step": 54500
},
{
"epoch": 14.57,
"learning_rate": 4.85005e-05,
"loss": 1.3665,
"step": 55000
},
{
"epoch": 14.7,
"learning_rate": 4.848383333333333e-05,
"loss": 1.3524,
"step": 55500
},
{
"epoch": 14.83,
"learning_rate": 4.846716666666667e-05,
"loss": 1.3421,
"step": 56000
},
{
"epoch": 14.97,
"learning_rate": 4.8450500000000006e-05,
"loss": 1.3328,
"step": 56500
},
{
"epoch": 15.1,
"learning_rate": 4.8433866666666664e-05,
"loss": 1.3186,
"step": 57000
},
{
"epoch": 15.23,
"learning_rate": 4.84172e-05,
"loss": 1.3081,
"step": 57500
},
{
"epoch": 15.36,
"learning_rate": 4.840053333333334e-05,
"loss": 1.2977,
"step": 58000
},
{
"epoch": 15.5,
"learning_rate": 4.838386666666667e-05,
"loss": 1.2858,
"step": 58500
},
{
"epoch": 15.63,
"learning_rate": 4.83672e-05,
"loss": 1.2789,
"step": 59000
},
{
"epoch": 15.76,
"learning_rate": 4.835053333333334e-05,
"loss": 1.2705,
"step": 59500
},
{
"epoch": 15.89,
"learning_rate": 4.8333866666666675e-05,
"loss": 1.2606,
"step": 60000
},
{
"epoch": 16.03,
"learning_rate": 4.831723333333333e-05,
"loss": 1.2506,
"step": 60500
},
{
"epoch": 16.16,
"learning_rate": 4.830056666666667e-05,
"loss": 1.2413,
"step": 61000
},
{
"epoch": 16.29,
"learning_rate": 4.828390000000001e-05,
"loss": 1.234,
"step": 61500
},
{
"epoch": 16.42,
"learning_rate": 4.826723333333333e-05,
"loss": 1.2269,
"step": 62000
},
{
"epoch": 16.56,
"learning_rate": 4.825056666666667e-05,
"loss": 1.2201,
"step": 62500
},
{
"epoch": 16.69,
"learning_rate": 4.823393333333334e-05,
"loss": 1.2118,
"step": 63000
},
{
"epoch": 16.82,
"learning_rate": 4.821726666666667e-05,
"loss": 1.206,
"step": 63500
},
{
"epoch": 16.95,
"learning_rate": 4.82006e-05,
"loss": 1.1987,
"step": 64000
},
{
"epoch": 17.09,
"learning_rate": 4.818396666666667e-05,
"loss": 1.1924,
"step": 64500
},
{
"epoch": 17.22,
"learning_rate": 4.81673e-05,
"loss": 1.1856,
"step": 65000
},
{
"epoch": 17.35,
"learning_rate": 4.815063333333333e-05,
"loss": 1.1776,
"step": 65500
},
{
"epoch": 17.48,
"learning_rate": 4.813396666666667e-05,
"loss": 1.1722,
"step": 66000
},
{
"epoch": 17.62,
"learning_rate": 4.8117333333333334e-05,
"loss": 1.1657,
"step": 66500
},
{
"epoch": 17.75,
"learning_rate": 4.810066666666667e-05,
"loss": 1.1609,
"step": 67000
},
{
"epoch": 17.88,
"learning_rate": 4.8084e-05,
"loss": 1.1547,
"step": 67500
},
{
"epoch": 18.01,
"learning_rate": 4.806733333333333e-05,
"loss": 1.1505,
"step": 68000
},
{
"epoch": 18.15,
"learning_rate": 4.805066666666667e-05,
"loss": 1.1429,
"step": 68500
},
{
"epoch": 18.28,
"learning_rate": 4.8034033333333335e-05,
"loss": 1.1364,
"step": 69000
},
{
"epoch": 18.41,
"learning_rate": 4.801736666666667e-05,
"loss": 1.132,
"step": 69500
},
{
"epoch": 18.54,
"learning_rate": 4.80007e-05,
"loss": 1.1247,
"step": 70000
},
{
"epoch": 18.68,
"learning_rate": 4.7984033333333333e-05,
"loss": 1.1205,
"step": 70500
},
{
"epoch": 18.81,
"learning_rate": 4.796736666666667e-05,
"loss": 1.1149,
"step": 71000
},
{
"epoch": 18.94,
"learning_rate": 4.79507e-05,
"loss": 1.1095,
"step": 71500
},
{
"epoch": 19.07,
"learning_rate": 4.793403333333333e-05,
"loss": 1.107,
"step": 72000
},
{
"epoch": 19.21,
"learning_rate": 4.79174e-05,
"loss": 1.1018,
"step": 72500
},
{
"epoch": 19.34,
"learning_rate": 4.7900733333333334e-05,
"loss": 1.0968,
"step": 73000
},
{
"epoch": 19.47,
"learning_rate": 4.788406666666667e-05,
"loss": 1.0896,
"step": 73500
},
{
"epoch": 19.6,
"learning_rate": 4.78674e-05,
"loss": 1.0893,
"step": 74000
},
{
"epoch": 19.74,
"learning_rate": 4.785073333333334e-05,
"loss": 1.0843,
"step": 74500
},
{
"epoch": 19.87,
"learning_rate": 4.783406666666667e-05,
"loss": 1.0809,
"step": 75000
},
{
"epoch": 20.0,
"learning_rate": 4.7817433333333334e-05,
"loss": 1.0753,
"step": 75500
},
{
"epoch": 20.13,
"learning_rate": 4.780076666666667e-05,
"loss": 1.0712,
"step": 76000
},
{
"epoch": 20.26,
"learning_rate": 4.77841e-05,
"loss": 1.0647,
"step": 76500
},
{
"epoch": 20.4,
"learning_rate": 4.776743333333333e-05,
"loss": 1.0644,
"step": 77000
},
{
"epoch": 20.53,
"learning_rate": 4.775076666666667e-05,
"loss": 1.0597,
"step": 77500
},
{
"epoch": 20.66,
"learning_rate": 4.7734133333333334e-05,
"loss": 1.0567,
"step": 78000
},
{
"epoch": 20.79,
"learning_rate": 4.771746666666667e-05,
"loss": 1.0532,
"step": 78500
},
{
"epoch": 20.93,
"learning_rate": 4.77008e-05,
"loss": 1.0511,
"step": 79000
},
{
"epoch": 21.06,
"learning_rate": 4.768413333333333e-05,
"loss": 1.0451,
"step": 79500
},
{
"epoch": 21.19,
"learning_rate": 4.7667500000000004e-05,
"loss": 1.0436,
"step": 80000
},
{
"epoch": 21.32,
"learning_rate": 4.7650833333333335e-05,
"loss": 1.0398,
"step": 80500
},
{
"epoch": 21.46,
"learning_rate": 4.7634166666666665e-05,
"loss": 1.0375,
"step": 81000
},
{
"epoch": 21.59,
"learning_rate": 4.76175e-05,
"loss": 1.0348,
"step": 81500
},
{
"epoch": 21.72,
"learning_rate": 4.7600833333333333e-05,
"loss": 1.0292,
"step": 82000
},
{
"epoch": 21.85,
"learning_rate": 4.7584200000000004e-05,
"loss": 1.0275,
"step": 82500
},
{
"epoch": 21.99,
"learning_rate": 4.7567533333333335e-05,
"loss": 1.0226,
"step": 83000
},
{
"epoch": 22.12,
"learning_rate": 4.755086666666667e-05,
"loss": 1.0204,
"step": 83500
},
{
"epoch": 22.25,
"learning_rate": 4.75342e-05,
"loss": 1.0165,
"step": 84000
},
{
"epoch": 22.38,
"learning_rate": 4.7517533333333334e-05,
"loss": 1.0138,
"step": 84500
},
{
"epoch": 22.52,
"learning_rate": 4.7500900000000005e-05,
"loss": 1.0138,
"step": 85000
},
{
"epoch": 22.65,
"learning_rate": 4.7484233333333335e-05,
"loss": 1.0097,
"step": 85500
},
{
"epoch": 22.78,
"learning_rate": 4.7467566666666666e-05,
"loss": 1.0066,
"step": 86000
},
{
"epoch": 22.91,
"learning_rate": 4.74509e-05,
"loss": 1.0057,
"step": 86500
},
{
"epoch": 23.05,
"learning_rate": 4.7434266666666674e-05,
"loss": 1.0003,
"step": 87000
},
{
"epoch": 23.18,
"learning_rate": 4.74176e-05,
"loss": 0.9995,
"step": 87500
},
{
"epoch": 23.31,
"learning_rate": 4.7400933333333336e-05,
"loss": 0.997,
"step": 88000
},
{
"epoch": 23.44,
"learning_rate": 4.738426666666667e-05,
"loss": 0.9945,
"step": 88500
},
{
"epoch": 23.58,
"learning_rate": 4.7367600000000004e-05,
"loss": 0.9905,
"step": 89000
},
{
"epoch": 23.71,
"learning_rate": 4.735096666666667e-05,
"loss": 0.9884,
"step": 89500
},
{
"epoch": 23.84,
"learning_rate": 4.7334300000000005e-05,
"loss": 0.9881,
"step": 90000
},
{
"epoch": 23.97,
"learning_rate": 4.7317633333333336e-05,
"loss": 0.9845,
"step": 90500
},
{
"epoch": 24.11,
"learning_rate": 4.7300966666666667e-05,
"loss": 0.982,
"step": 91000
},
{
"epoch": 24.24,
"learning_rate": 4.7284300000000004e-05,
"loss": 0.9799,
"step": 91500
},
{
"epoch": 24.37,
"learning_rate": 4.7267633333333335e-05,
"loss": 0.9751,
"step": 92000
},
{
"epoch": 24.5,
"learning_rate": 4.7251e-05,
"loss": 0.9743,
"step": 92500
},
{
"epoch": 24.64,
"learning_rate": 4.7234333333333336e-05,
"loss": 0.9752,
"step": 93000
},
{
"epoch": 24.77,
"learning_rate": 4.7217666666666674e-05,
"loss": 0.9711,
"step": 93500
},
{
"epoch": 24.9,
"learning_rate": 4.7201e-05,
"loss": 0.971,
"step": 94000
}
],
"max_steps": 1510000,
"num_train_epochs": 400,
"total_flos": 2.5430025926080463e+19,
"trial_name": null,
"trial_params": null
}