netuid1-wikipedia-search / checkpoint-570 /trainer_state.json

Upload folder using huggingface_hub

787e443 verified 12 months ago

3.93 kB

	{
	"best_metric": 0.51416015625,
	"best_model_checkpoint": "autotrain-jvq6k-yf3ca/checkpoint-570",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 570,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.19,
	"grad_norm": 8.074106342959622,
	"learning_rate": 4.210526315789474e-05,
	"loss": 4.7837,
	"step": 37
	},
	{
	"epoch": 0.39,
	"grad_norm": 2.5780648325169624,
	"learning_rate": 0.0001394736842105263,
	"loss": 1.6204,
	"step": 74
	},
	{
	"epoch": 0.58,
	"grad_norm": 2.533813969716365,
	"learning_rate": 0.00023684210526315788,
	"loss": 0.8889,
	"step": 111
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.3405358212713185,
	"learning_rate": 0.00033421052631578944,
	"loss": 0.8323,
	"step": 148
	},
	{
	"epoch": 0.97,
	"grad_norm": 1.6021401005483846,
	"learning_rate": 0.0004315789473684211,
	"loss": 0.7663,
	"step": 185
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 9.6497,
	"eval_loss": 0.5634765625,
	"eval_rouge1": 84.8501,
	"eval_rouge2": 72.9759,
	"eval_rougeL": 83.9381,
	"eval_rougeLsum": 83.9882,
	"eval_runtime": 59.9525,
	"eval_samples_per_second": 25.27,
	"eval_steps_per_second": 0.4,
	"step": 190
	},
	{
	"epoch": 1.17,
	"grad_norm": 2.014072063970188,
	"learning_rate": 0.0004967836257309941,
	"loss": 0.6051,
	"step": 222
	},
	{
	"epoch": 1.36,
	"grad_norm": 2.5322811119510225,
	"learning_rate": 0.0004868421052631579,
	"loss": 0.6124,
	"step": 259
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.684844161543083,
	"learning_rate": 0.00047690058479532164,
	"loss": 0.5759,
	"step": 296
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.830769701886568,
	"learning_rate": 0.00046637426900584796,
	"loss": 0.6172,
	"step": 333
	},
	{
	"epoch": 1.95,
	"grad_norm": 1.482259801017781,
	"learning_rate": 0.00045584795321637427,
	"loss": 0.5658,
	"step": 370
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 9.709,
	"eval_loss": 0.52587890625,
	"eval_rouge1": 86.3194,
	"eval_rouge2": 74.6858,
	"eval_rougeL": 85.4633,
	"eval_rougeLsum": 85.4901,
	"eval_runtime": 58.3784,
	"eval_samples_per_second": 25.951,
	"eval_steps_per_second": 0.411,
	"step": 380
	},
	{
	"epoch": 2.14,
	"grad_norm": 1.4815030414040293,
	"learning_rate": 0.0004450292397660819,
	"loss": 0.4243,
	"step": 407
	},
	{
	"epoch": 2.34,
	"grad_norm": 1.4036378645480725,
	"learning_rate": 0.0004342105263157895,
	"loss": 0.3784,
	"step": 444
	},
	{
	"epoch": 2.53,
	"grad_norm": 1.5836309025847368,
	"learning_rate": 0.0004233918128654971,
	"loss": 0.3789,
	"step": 481
	},
	{
	"epoch": 2.73,
	"grad_norm": 1.6685671897157268,
	"learning_rate": 0.0004125730994152047,
	"loss": 0.4048,
	"step": 518
	},
	{
	"epoch": 2.92,
	"grad_norm": 1.9497904549926495,
	"learning_rate": 0.0004017543859649123,
	"loss": 0.3807,
	"step": 555
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 9.8561,
	"eval_loss": 0.51416015625,
	"eval_rouge1": 87.4319,
	"eval_rouge2": 76.4229,
	"eval_rougeL": 86.4987,
	"eval_rougeLsum": 86.5222,
	"eval_runtime": 59.8804,
	"eval_samples_per_second": 25.3,
	"eval_steps_per_second": 0.401,
	"step": 570
	}
	],
	"logging_steps": 37,
	"max_steps": 1900,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 438831341568.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}