|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 0.4166666666666667, |
|
"eval_steps": 5, |
|
"global_step": 50, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.008333333333333333, |
|
"grad_norm": 2.3885583877563477, |
|
"learning_rate": 0.001, |
|
"loss": 5.2644, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.016666666666666666, |
|
"grad_norm": 3.1313512325286865, |
|
"learning_rate": 0.001, |
|
"loss": 4.4436, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.025, |
|
"grad_norm": NaN, |
|
"learning_rate": 0.001, |
|
"loss": 4.1142, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 2.553321123123169, |
|
"learning_rate": 0.001, |
|
"loss": 3.8086, |
|
"step": 4 |
|
}, |
|
{ |
|
"epoch": 0.041666666666666664, |
|
"grad_norm": 2.8816118240356445, |
|
"learning_rate": 0.001, |
|
"loss": 3.4878, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.041666666666666664, |
|
"eval_runtime": 3.5452, |
|
"eval_samples_per_second": 33.849, |
|
"eval_steps_per_second": 8.462, |
|
"step": 5 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": NaN, |
|
"learning_rate": 0.001, |
|
"loss": 3.0569, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 0.058333333333333334, |
|
"grad_norm": 2.565500020980835, |
|
"learning_rate": 0.001, |
|
"loss": 2.9872, |
|
"step": 7 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 2.421236753463745, |
|
"learning_rate": 0.001, |
|
"loss": 2.2461, |
|
"step": 8 |
|
}, |
|
{ |
|
"epoch": 0.075, |
|
"grad_norm": 2.8918418884277344, |
|
"learning_rate": 0.001, |
|
"loss": 1.7755, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"grad_norm": 3.7322306632995605, |
|
"learning_rate": 0.001, |
|
"loss": 1.4434, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.08333333333333333, |
|
"eval_runtime": 3.5538, |
|
"eval_samples_per_second": 33.766, |
|
"eval_steps_per_second": 8.442, |
|
"step": 10 |
|
}, |
|
{ |
|
"epoch": 0.09166666666666666, |
|
"grad_norm": 3.7344257831573486, |
|
"learning_rate": 0.001, |
|
"loss": 1.3937, |
|
"step": 11 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 5.106380939483643, |
|
"learning_rate": 0.001, |
|
"loss": 1.3341, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 0.10833333333333334, |
|
"grad_norm": 2.572021245956421, |
|
"learning_rate": 0.001, |
|
"loss": 0.9658, |
|
"step": 13 |
|
}, |
|
{ |
|
"epoch": 0.11666666666666667, |
|
"grad_norm": 4.370708465576172, |
|
"learning_rate": 0.001, |
|
"loss": 1.1247, |
|
"step": 14 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"grad_norm": 2.2091898918151855, |
|
"learning_rate": 0.001, |
|
"loss": 0.8327, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"eval_runtime": 3.5597, |
|
"eval_samples_per_second": 33.711, |
|
"eval_steps_per_second": 8.428, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 5.971612930297852, |
|
"learning_rate": 0.001, |
|
"loss": 0.7193, |
|
"step": 16 |
|
}, |
|
{ |
|
"epoch": 0.14166666666666666, |
|
"grad_norm": 2.8852627277374268, |
|
"learning_rate": 0.001, |
|
"loss": 0.6945, |
|
"step": 17 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 2.9274704456329346, |
|
"learning_rate": 0.001, |
|
"loss": 0.7308, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 0.15833333333333333, |
|
"grad_norm": 1.9048141241073608, |
|
"learning_rate": 0.001, |
|
"loss": 0.6461, |
|
"step": 19 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"grad_norm": 1.8781129121780396, |
|
"learning_rate": 0.001, |
|
"loss": 0.6144, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.16666666666666666, |
|
"eval_runtime": 3.5692, |
|
"eval_samples_per_second": 33.621, |
|
"eval_steps_per_second": 8.405, |
|
"step": 20 |
|
}, |
|
{ |
|
"epoch": 0.175, |
|
"grad_norm": 2.35707950592041, |
|
"learning_rate": 0.001, |
|
"loss": 0.8558, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 0.18333333333333332, |
|
"grad_norm": 2.049520254135132, |
|
"learning_rate": 0.001, |
|
"loss": 0.6385, |
|
"step": 22 |
|
}, |
|
{ |
|
"epoch": 0.19166666666666668, |
|
"grad_norm": 2.3720197677612305, |
|
"learning_rate": 0.001, |
|
"loss": 0.9522, |
|
"step": 23 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 1.980618953704834, |
|
"learning_rate": 0.001, |
|
"loss": 0.8766, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 0.20833333333333334, |
|
"grad_norm": 1.5879499912261963, |
|
"learning_rate": 0.001, |
|
"loss": 0.729, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.20833333333333334, |
|
"eval_runtime": 3.5755, |
|
"eval_samples_per_second": 33.562, |
|
"eval_steps_per_second": 8.391, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.21666666666666667, |
|
"grad_norm": 1.6505706310272217, |
|
"learning_rate": 0.001, |
|
"loss": 0.6637, |
|
"step": 26 |
|
}, |
|
{ |
|
"epoch": 0.225, |
|
"grad_norm": 1.4267758131027222, |
|
"learning_rate": 0.001, |
|
"loss": 0.9298, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 0.23333333333333334, |
|
"grad_norm": 1.1863181591033936, |
|
"learning_rate": 0.001, |
|
"loss": 0.5314, |
|
"step": 28 |
|
}, |
|
{ |
|
"epoch": 0.24166666666666667, |
|
"grad_norm": 1.2047488689422607, |
|
"learning_rate": 0.001, |
|
"loss": 0.4791, |
|
"step": 29 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"grad_norm": 1.4940290451049805, |
|
"learning_rate": 0.001, |
|
"loss": 0.6757, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"eval_runtime": 3.5813, |
|
"eval_samples_per_second": 33.507, |
|
"eval_steps_per_second": 8.377, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 0.25833333333333336, |
|
"grad_norm": 1.8670457601547241, |
|
"learning_rate": 0.001, |
|
"loss": 0.9796, |
|
"step": 31 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 1.746319055557251, |
|
"learning_rate": 0.001, |
|
"loss": 0.73, |
|
"step": 32 |
|
}, |
|
{ |
|
"epoch": 0.275, |
|
"grad_norm": 1.3656867742538452, |
|
"learning_rate": 0.001, |
|
"loss": 0.6216, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 0.2833333333333333, |
|
"grad_norm": 1.6293808221817017, |
|
"learning_rate": 0.001, |
|
"loss": 0.7004, |
|
"step": 34 |
|
}, |
|
{ |
|
"epoch": 0.2916666666666667, |
|
"grad_norm": 1.2870112657546997, |
|
"learning_rate": 0.001, |
|
"loss": 0.5613, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.2916666666666667, |
|
"eval_runtime": 3.588, |
|
"eval_samples_per_second": 33.445, |
|
"eval_steps_per_second": 8.361, |
|
"step": 35 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"grad_norm": 1.688391089439392, |
|
"learning_rate": 0.001, |
|
"loss": 1.0115, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 0.30833333333333335, |
|
"grad_norm": 1.2139495611190796, |
|
"learning_rate": 0.001, |
|
"loss": 0.5916, |
|
"step": 37 |
|
}, |
|
{ |
|
"epoch": 0.31666666666666665, |
|
"grad_norm": 1.4497591257095337, |
|
"learning_rate": 0.001, |
|
"loss": 0.6898, |
|
"step": 38 |
|
}, |
|
{ |
|
"epoch": 0.325, |
|
"grad_norm": 1.30401611328125, |
|
"learning_rate": 0.001, |
|
"loss": 0.52, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 1.073735237121582, |
|
"learning_rate": 0.001, |
|
"loss": 0.6473, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"eval_runtime": 3.5897, |
|
"eval_samples_per_second": 33.429, |
|
"eval_steps_per_second": 8.357, |
|
"step": 40 |
|
}, |
|
{ |
|
"epoch": 0.3416666666666667, |
|
"grad_norm": 1.5980756282806396, |
|
"learning_rate": 0.001, |
|
"loss": 0.8344, |
|
"step": 41 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"grad_norm": 1.258363127708435, |
|
"learning_rate": 0.001, |
|
"loss": 0.6081, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 0.35833333333333334, |
|
"grad_norm": 1.024636149406433, |
|
"learning_rate": 0.001, |
|
"loss": 0.6289, |
|
"step": 43 |
|
}, |
|
{ |
|
"epoch": 0.36666666666666664, |
|
"grad_norm": 1.5615390539169312, |
|
"learning_rate": 0.001, |
|
"loss": 0.7437, |
|
"step": 44 |
|
}, |
|
{ |
|
"epoch": 0.375, |
|
"grad_norm": 0.8973283767700195, |
|
"learning_rate": 0.001, |
|
"loss": 0.4438, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.375, |
|
"eval_runtime": 3.5911, |
|
"eval_samples_per_second": 33.416, |
|
"eval_steps_per_second": 8.354, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 0.38333333333333336, |
|
"grad_norm": 1.1488583087921143, |
|
"learning_rate": 0.001, |
|
"loss": 0.5021, |
|
"step": 46 |
|
}, |
|
{ |
|
"epoch": 0.39166666666666666, |
|
"grad_norm": 1.375650405883789, |
|
"learning_rate": 0.001, |
|
"loss": 0.6016, |
|
"step": 47 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 1.5815932750701904, |
|
"learning_rate": 0.001, |
|
"loss": 0.6879, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 0.4083333333333333, |
|
"grad_norm": 1.1033896207809448, |
|
"learning_rate": 0.001, |
|
"loss": 0.3819, |
|
"step": 49 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"grad_norm": 1.599068522453308, |
|
"learning_rate": 0.001, |
|
"loss": 0.8746, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.4166666666666667, |
|
"eval_runtime": 3.595, |
|
"eval_samples_per_second": 33.38, |
|
"eval_steps_per_second": 8.345, |
|
"step": 50 |
|
} |
|
], |
|
"logging_steps": 1, |
|
"max_steps": 1200, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 10, |
|
"save_steps": 10, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": false |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 555193368576000.0, |
|
"train_batch_size": 4, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|