mms-1b-bigcgen-female-20hrs-model / trainer_state.json

End of training

08137cc verified 15 days ago

11.3 kB

	{
	"best_metric": Infinity,
	"best_model_checkpoint": null,
	"epoch": 1.8811136192626035,
	"eval_steps": 100,
	"global_step": 2500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07524454477050414,
	"grad_norm": 8.513701438903809,
	"learning_rate": 0.000285,
	"loss": 13.9528,
	"step": 100
	},
	{
	"epoch": 0.07524454477050414,
	"eval_loss": Infinity,
	"eval_runtime": 30.8079,
	"eval_samples_per_second": 15.418,
	"eval_steps_per_second": 3.863,
	"eval_wer": 1.043132803632236,
	"step": 100
	},
	{
	"epoch": 0.1504890895410083,
	"grad_norm": 6.828241348266602,
	"learning_rate": 0.00028812499999999997,
	"loss": 6.1846,
	"step": 200
	},
	{
	"epoch": 0.1504890895410083,
	"eval_loss": Infinity,
	"eval_runtime": 30.7299,
	"eval_samples_per_second": 15.457,
	"eval_steps_per_second": 3.872,
	"eval_wer": 1.0029511918274687,
	"step": 200
	},
	{
	"epoch": 0.22573363431151242,
	"grad_norm": 7.705227851867676,
	"learning_rate": 0.00027562499999999994,
	"loss": 5.4651,
	"step": 300
	},
	{
	"epoch": 0.22573363431151242,
	"eval_loss": Infinity,
	"eval_runtime": 30.7705,
	"eval_samples_per_second": 15.437,
	"eval_steps_per_second": 3.867,
	"eval_wer": 1.0385925085130534,
	"step": 300
	},
	{
	"epoch": 0.3009781790820166,
	"grad_norm": 6.132575988769531,
	"learning_rate": 0.00026312499999999996,
	"loss": 4.4356,
	"step": 400
	},
	{
	"epoch": 0.3009781790820166,
	"eval_loss": Infinity,
	"eval_runtime": 30.8056,
	"eval_samples_per_second": 15.419,
	"eval_steps_per_second": 3.863,
	"eval_wer": 0.8830874006810443,
	"step": 400
	},
	{
	"epoch": 0.3762227238525207,
	"grad_norm": 3.9721577167510986,
	"learning_rate": 0.000250625,
	"loss": 2.2016,
	"step": 500
	},
	{
	"epoch": 0.3762227238525207,
	"eval_loss": Infinity,
	"eval_runtime": 30.8903,
	"eval_samples_per_second": 15.377,
	"eval_steps_per_second": 3.852,
	"eval_wer": 0.6217934165720772,
	"step": 500
	},
	{
	"epoch": 0.45146726862302483,
	"grad_norm": 4.83721923828125,
	"learning_rate": 0.00023812499999999997,
	"loss": 1.8013,
	"step": 600
	},
	{
	"epoch": 0.45146726862302483,
	"eval_loss": Infinity,
	"eval_runtime": 30.8946,
	"eval_samples_per_second": 15.375,
	"eval_steps_per_second": 3.852,
	"eval_wer": 0.5745743473325766,
	"step": 600
	},
	{
	"epoch": 0.526711813393529,
	"grad_norm": 5.4762725830078125,
	"learning_rate": 0.00022562499999999997,
	"loss": 1.7499,
	"step": 700
	},
	{
	"epoch": 0.526711813393529,
	"eval_loss": Infinity,
	"eval_runtime": 30.6173,
	"eval_samples_per_second": 15.514,
	"eval_steps_per_second": 3.887,
	"eval_wer": 0.5793416572077185,
	"step": 700
	},
	{
	"epoch": 0.6019563581640331,
	"grad_norm": 5.545216083526611,
	"learning_rate": 0.000213125,
	"loss": 1.6979,
	"step": 800
	},
	{
	"epoch": 0.6019563581640331,
	"eval_loss": Infinity,
	"eval_runtime": 30.6746,
	"eval_samples_per_second": 15.485,
	"eval_steps_per_second": 3.879,
	"eval_wer": 0.5500567536889898,
	"step": 800
	},
	{
	"epoch": 0.6772009029345373,
	"grad_norm": 6.604818344116211,
	"learning_rate": 0.00020062499999999996,
	"loss": 1.5567,
	"step": 900
	},
	{
	"epoch": 0.6772009029345373,
	"eval_loss": Infinity,
	"eval_runtime": 31.0923,
	"eval_samples_per_second": 15.277,
	"eval_steps_per_second": 3.827,
	"eval_wer": 0.5439273552780931,
	"step": 900
	},
	{
	"epoch": 0.7524454477050414,
	"grad_norm": 5.870357036590576,
	"learning_rate": 0.00018824999999999997,
	"loss": 1.6301,
	"step": 1000
	},
	{
	"epoch": 0.7524454477050414,
	"eval_loss": Infinity,
	"eval_runtime": 30.7668,
	"eval_samples_per_second": 15.439,
	"eval_steps_per_second": 3.868,
	"eval_wer": 0.535527809307605,
	"step": 1000
	},
	{
	"epoch": 0.8276899924755455,
	"grad_norm": 20.379985809326172,
	"learning_rate": 0.00017575,
	"loss": 1.6362,
	"step": 1100
	},
	{
	"epoch": 0.8276899924755455,
	"eval_loss": Infinity,
	"eval_runtime": 30.7224,
	"eval_samples_per_second": 15.461,
	"eval_steps_per_second": 3.873,
	"eval_wer": 0.5366628830874007,
	"step": 1100
	},
	{
	"epoch": 0.9029345372460497,
	"grad_norm": 7.096904277801514,
	"learning_rate": 0.00016324999999999998,
	"loss": 1.5247,
	"step": 1200
	},
	{
	"epoch": 0.9029345372460497,
	"eval_loss": Infinity,
	"eval_runtime": 30.6145,
	"eval_samples_per_second": 15.516,
	"eval_steps_per_second": 3.887,
	"eval_wer": 0.5325766174801362,
	"step": 1200
	},
	{
	"epoch": 0.9781790820165538,
	"grad_norm": 6.06346321105957,
	"learning_rate": 0.00015074999999999998,
	"loss": 1.4012,
	"step": 1300
	},
	{
	"epoch": 0.9781790820165538,
	"eval_loss": Infinity,
	"eval_runtime": 30.9705,
	"eval_samples_per_second": 15.337,
	"eval_steps_per_second": 3.842,
	"eval_wer": 0.5346197502837684,
	"step": 1300
	},
	{
	"epoch": 1.053423626787058,
	"grad_norm": 5.044532775878906,
	"learning_rate": 0.00013824999999999997,
	"loss": 1.6397,
	"step": 1400
	},
	{
	"epoch": 1.053423626787058,
	"eval_loss": Infinity,
	"eval_runtime": 30.897,
	"eval_samples_per_second": 15.374,
	"eval_steps_per_second": 3.852,
	"eval_wer": 0.5300794551645857,
	"step": 1400
	},
	{
	"epoch": 1.1286681715575622,
	"grad_norm": 4.185507297515869,
	"learning_rate": 0.00012575,
	"loss": 1.5258,
	"step": 1500
	},
	{
	"epoch": 1.1286681715575622,
	"eval_loss": Infinity,
	"eval_runtime": 30.6085,
	"eval_samples_per_second": 15.519,
	"eval_steps_per_second": 3.888,
	"eval_wer": 0.5284903518728717,
	"step": 1500
	},
	{
	"epoch": 1.2039127163280663,
	"grad_norm": 2.0165092945098877,
	"learning_rate": 0.00011324999999999999,
	"loss": 1.4144,
	"step": 1600
	},
	{
	"epoch": 1.2039127163280663,
	"eval_loss": Infinity,
	"eval_runtime": 30.8112,
	"eval_samples_per_second": 15.416,
	"eval_steps_per_second": 3.862,
	"eval_wer": 0.5244040862656073,
	"step": 1600
	},
	{
	"epoch": 1.2791572610985704,
	"grad_norm": 6.2198486328125,
	"learning_rate": 0.00010074999999999998,
	"loss": 1.4363,
	"step": 1700
	},
	{
	"epoch": 1.2791572610985704,
	"eval_loss": Infinity,
	"eval_runtime": 31.0265,
	"eval_samples_per_second": 15.31,
	"eval_steps_per_second": 3.835,
	"eval_wer": 0.5144154370034052,
	"step": 1700
	},
	{
	"epoch": 1.3544018058690745,
	"grad_norm": 6.625217437744141,
	"learning_rate": 8.837499999999998e-05,
	"loss": 1.3733,
	"step": 1800
	},
	{
	"epoch": 1.3544018058690745,
	"eval_loss": Infinity,
	"eval_runtime": 31.0253,
	"eval_samples_per_second": 15.31,
	"eval_steps_per_second": 3.836,
	"eval_wer": 0.5357548240635641,
	"step": 1800
	},
	{
	"epoch": 1.4296463506395787,
	"grad_norm": 3.523829460144043,
	"learning_rate": 7.5875e-05,
	"loss": 1.4592,
	"step": 1900
	},
	{
	"epoch": 1.4296463506395787,
	"eval_loss": Infinity,
	"eval_runtime": 30.9124,
	"eval_samples_per_second": 15.366,
	"eval_steps_per_second": 3.85,
	"eval_wer": 0.5598183881952327,
	"step": 1900
	},
	{
	"epoch": 1.5048908954100828,
	"grad_norm": 8.395014762878418,
	"learning_rate": 6.3375e-05,
	"loss": 1.3499,
	"step": 2000
	},
	{
	"epoch": 1.5048908954100828,
	"eval_loss": Infinity,
	"eval_runtime": 30.7712,
	"eval_samples_per_second": 15.437,
	"eval_steps_per_second": 3.867,
	"eval_wer": 0.5191827468785472,
	"step": 2000
	},
	{
	"epoch": 1.580135440180587,
	"grad_norm": 2.0930612087249756,
	"learning_rate": 5.0874999999999997e-05,
	"loss": 1.4039,
	"step": 2100
	},
	{
	"epoch": 1.580135440180587,
	"eval_loss": Infinity,
	"eval_runtime": 31.265,
	"eval_samples_per_second": 15.193,
	"eval_steps_per_second": 3.806,
	"eval_wer": 0.5228149829738933,
	"step": 2100
	},
	{
	"epoch": 1.655379984951091,
	"grad_norm": 1.5763949155807495,
	"learning_rate": 3.8375e-05,
	"loss": 1.4057,
	"step": 2200
	},
	{
	"epoch": 1.655379984951091,
	"eval_loss": Infinity,
	"eval_runtime": 30.8864,
	"eval_samples_per_second": 15.379,
	"eval_steps_per_second": 3.853,
	"eval_wer": 0.52894438138479,
	"step": 2200
	},
	{
	"epoch": 1.7306245297215952,
	"grad_norm": 2.9080910682678223,
	"learning_rate": 2.5874999999999995e-05,
	"loss": 1.4961,
	"step": 2300
	},
	{
	"epoch": 1.7306245297215952,
	"eval_loss": Infinity,
	"eval_runtime": 31.0242,
	"eval_samples_per_second": 15.311,
	"eval_steps_per_second": 3.836,
	"eval_wer": 0.5323496027241771,
	"step": 2300
	},
	{
	"epoch": 1.8058690744920993,
	"grad_norm": 3.506730079650879,
	"learning_rate": 1.3375e-05,
	"loss": 1.3975,
	"step": 2400
	},
	{
	"epoch": 1.8058690744920993,
	"eval_loss": Infinity,
	"eval_runtime": 30.8502,
	"eval_samples_per_second": 15.397,
	"eval_steps_per_second": 3.857,
	"eval_wer": 0.5119182746878547,
	"step": 2400
	},
	{
	"epoch": 1.8811136192626035,
	"grad_norm": 12.351927757263184,
	"learning_rate": 8.75e-07,
	"loss": 1.4725,
	"step": 2500
	},
	{
	"epoch": 1.8811136192626035,
	"eval_loss": Infinity,
	"eval_runtime": 31.0235,
	"eval_samples_per_second": 15.311,
	"eval_steps_per_second": 3.836,
	"eval_wer": 0.5259931895573212,
	"step": 2500
	},
	{
	"epoch": 1.8811136192626035,
	"step": 2500,
	"total_flos": 1.2622443564523827e+19,
	"train_loss": 2.5044897521972658,
	"train_runtime": 3534.0194,
	"train_samples_per_second": 5.659,
	"train_steps_per_second": 0.707
	}
	],
	"logging_steps": 100,
	"max_steps": 2500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 400,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2622443564523827e+19,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}