{ "best_metric": 3.4927473068237305, "best_model_checkpoint": "./t5_results/checkpoint-240", "epoch": 10.0, "eval_steps": 10, "global_step": 240, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.4166666666666667, "grad_norm": 4.180671691894531, "learning_rate": 4.791666666666667e-05, "loss": 13.5335, "step": 10 }, { "epoch": 0.4166666666666667, "eval_loss": 12.280205726623535, "eval_runtime": 1.2978, "eval_samples_per_second": 72.43, "eval_steps_per_second": 9.246, "step": 10 }, { "epoch": 0.8333333333333334, "grad_norm": 11.416261672973633, "learning_rate": 4.5833333333333334e-05, "loss": 13.0051, "step": 20 }, { "epoch": 0.8333333333333334, "eval_loss": 11.992618560791016, "eval_runtime": 1.3054, "eval_samples_per_second": 72.007, "eval_steps_per_second": 9.192, "step": 20 }, { "epoch": 1.25, "grad_norm": 7.12255334854126, "learning_rate": 4.375e-05, "loss": 13.0075, "step": 30 }, { "epoch": 1.25, "eval_loss": 11.633206367492676, "eval_runtime": 1.3082, "eval_samples_per_second": 71.854, "eval_steps_per_second": 9.173, "step": 30 }, { "epoch": 1.6666666666666665, "grad_norm": 5.280740737915039, "learning_rate": 4.166666666666667e-05, "loss": 12.7053, "step": 40 }, { "epoch": 1.6666666666666665, "eval_loss": 11.25529670715332, "eval_runtime": 1.3167, "eval_samples_per_second": 71.388, "eval_steps_per_second": 9.113, "step": 40 }, { "epoch": 2.0833333333333335, "grad_norm": 5.615389347076416, "learning_rate": 3.958333333333333e-05, "loss": 12.1773, "step": 50 }, { "epoch": 2.0833333333333335, "eval_loss": 10.842594146728516, "eval_runtime": 1.3185, "eval_samples_per_second": 71.294, "eval_steps_per_second": 9.101, "step": 50 }, { "epoch": 2.5, "grad_norm": 36.10953140258789, "learning_rate": 3.7500000000000003e-05, "loss": 11.8608, "step": 60 }, { "epoch": 2.5, "eval_loss": 10.333914756774902, "eval_runtime": 1.338, "eval_samples_per_second": 70.255, "eval_steps_per_second": 8.969, "step": 60 }, { "epoch": 2.9166666666666665, "grad_norm": 8.418374061584473, "learning_rate": 3.541666666666667e-05, "loss": 11.2171, "step": 70 }, { "epoch": 2.9166666666666665, "eval_loss": 9.800804138183594, "eval_runtime": 1.3499, "eval_samples_per_second": 69.633, "eval_steps_per_second": 8.889, "step": 70 }, { "epoch": 3.3333333333333335, "grad_norm": 8.61495304107666, "learning_rate": 3.3333333333333335e-05, "loss": 10.5085, "step": 80 }, { "epoch": 3.3333333333333335, "eval_loss": 9.242547988891602, "eval_runtime": 1.3565, "eval_samples_per_second": 69.296, "eval_steps_per_second": 8.846, "step": 80 }, { "epoch": 3.75, "grad_norm": 7.519232273101807, "learning_rate": 3.125e-05, "loss": 10.1637, "step": 90 }, { "epoch": 3.75, "eval_loss": 8.636436462402344, "eval_runtime": 1.3612, "eval_samples_per_second": 69.058, "eval_steps_per_second": 8.816, "step": 90 }, { "epoch": 4.166666666666667, "grad_norm": 10.284256935119629, "learning_rate": 2.916666666666667e-05, "loss": 9.7226, "step": 100 }, { "epoch": 4.166666666666667, "eval_loss": 8.018331527709961, "eval_runtime": 1.3602, "eval_samples_per_second": 69.108, "eval_steps_per_second": 8.822, "step": 100 }, { "epoch": 4.583333333333333, "grad_norm": 7.5008134841918945, "learning_rate": 2.7083333333333332e-05, "loss": 9.0988, "step": 110 }, { "epoch": 4.583333333333333, "eval_loss": 7.414350986480713, "eval_runtime": 1.3731, "eval_samples_per_second": 68.46, "eval_steps_per_second": 8.74, "step": 110 }, { "epoch": 5.0, "grad_norm": 10.984970092773438, "learning_rate": 2.5e-05, "loss": 8.7064, "step": 120 }, { "epoch": 5.0, "eval_loss": 6.861669540405273, "eval_runtime": 1.3837, "eval_samples_per_second": 67.936, "eval_steps_per_second": 8.673, "step": 120 }, { "epoch": 5.416666666666667, "grad_norm": 8.105978012084961, "learning_rate": 2.2916666666666667e-05, "loss": 8.5764, "step": 130 }, { "epoch": 5.416666666666667, "eval_loss": 6.367142200469971, "eval_runtime": 1.3972, "eval_samples_per_second": 67.277, "eval_steps_per_second": 8.589, "step": 130 }, { "epoch": 5.833333333333333, "grad_norm": 9.731804847717285, "learning_rate": 2.0833333333333336e-05, "loss": 8.4291, "step": 140 }, { "epoch": 5.833333333333333, "eval_loss": 5.8955078125, "eval_runtime": 1.4022, "eval_samples_per_second": 67.039, "eval_steps_per_second": 8.558, "step": 140 }, { "epoch": 6.25, "grad_norm": 8.439648628234863, "learning_rate": 1.8750000000000002e-05, "loss": 7.7128, "step": 150 }, { "epoch": 6.25, "eval_loss": 5.4399542808532715, "eval_runtime": 1.3981, "eval_samples_per_second": 67.233, "eval_steps_per_second": 8.583, "step": 150 }, { "epoch": 6.666666666666667, "grad_norm": 7.697989463806152, "learning_rate": 1.6666666666666667e-05, "loss": 6.8541, "step": 160 }, { "epoch": 6.666666666666667, "eval_loss": 5.01707124710083, "eval_runtime": 1.3855, "eval_samples_per_second": 67.848, "eval_steps_per_second": 8.661, "step": 160 }, { "epoch": 7.083333333333333, "grad_norm": 14.079822540283203, "learning_rate": 1.4583333333333335e-05, "loss": 6.8971, "step": 170 }, { "epoch": 7.083333333333333, "eval_loss": 4.64639949798584, "eval_runtime": 1.3765, "eval_samples_per_second": 68.288, "eval_steps_per_second": 8.718, "step": 170 }, { "epoch": 7.5, "grad_norm": 16.84592056274414, "learning_rate": 1.25e-05, "loss": 6.5732, "step": 180 }, { "epoch": 7.5, "eval_loss": 4.350213050842285, "eval_runtime": 1.3799, "eval_samples_per_second": 68.121, "eval_steps_per_second": 8.696, "step": 180 }, { "epoch": 7.916666666666667, "grad_norm": 8.53886890411377, "learning_rate": 1.0416666666666668e-05, "loss": 6.5318, "step": 190 }, { "epoch": 7.916666666666667, "eval_loss": 4.098930358886719, "eval_runtime": 1.3671, "eval_samples_per_second": 68.757, "eval_steps_per_second": 8.778, "step": 190 }, { "epoch": 8.333333333333334, "grad_norm": 7.351534843444824, "learning_rate": 8.333333333333334e-06, "loss": 6.7929, "step": 200 }, { "epoch": 8.333333333333334, "eval_loss": 3.885509729385376, "eval_runtime": 1.3711, "eval_samples_per_second": 68.557, "eval_steps_per_second": 8.752, "step": 200 }, { "epoch": 8.75, "grad_norm": 8.079407691955566, "learning_rate": 6.25e-06, "loss": 6.3892, "step": 210 }, { "epoch": 8.75, "eval_loss": 3.7110435962677, "eval_runtime": 1.3615, "eval_samples_per_second": 69.044, "eval_steps_per_second": 8.814, "step": 210 }, { "epoch": 9.166666666666666, "grad_norm": 8.994165420532227, "learning_rate": 4.166666666666667e-06, "loss": 6.1025, "step": 220 }, { "epoch": 9.166666666666666, "eval_loss": 3.5919313430786133, "eval_runtime": 1.3585, "eval_samples_per_second": 69.195, "eval_steps_per_second": 8.833, "step": 220 }, { "epoch": 9.583333333333334, "grad_norm": 11.827195167541504, "learning_rate": 2.0833333333333334e-06, "loss": 5.9831, "step": 230 }, { "epoch": 9.583333333333334, "eval_loss": 3.5193352699279785, "eval_runtime": 1.3598, "eval_samples_per_second": 69.126, "eval_steps_per_second": 8.825, "step": 230 }, { "epoch": 10.0, "grad_norm": 12.673799514770508, "learning_rate": 0.0, "loss": 5.634, "step": 240 }, { "epoch": 10.0, "eval_loss": 3.4927473068237305, "eval_runtime": 1.3596, "eval_samples_per_second": 69.137, "eval_steps_per_second": 8.826, "step": 240 } ], "logging_steps": 10, "max_steps": 240, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 510211915776000.0, "train_batch_size": 16, "trial_name": null, "trial_params": null }