Training in progress, step 75, checkpoint

3c8bba3 verified 26 days ago

14.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.31729243786356426,
	"eval_steps": 25,
	"global_step": 75,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004230565838180857,
	"grad_norm": 5.8103156089782715,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.9107,
	"step": 1
	},
	{
	"epoch": 0.004230565838180857,
	"eval_loss": 1.4842164516448975,
	"eval_runtime": 22.7015,
	"eval_samples_per_second": 8.766,
	"eval_steps_per_second": 4.405,
	"step": 1
	},
	{
	"epoch": 0.008461131676361713,
	"grad_norm": 9.743329048156738,
	"learning_rate": 6.666666666666667e-05,
	"loss": 1.3577,
	"step": 2
	},
	{
	"epoch": 0.01269169751454257,
	"grad_norm": 7.520903587341309,
	"learning_rate": 0.0001,
	"loss": 1.0173,
	"step": 3
	},
	{
	"epoch": 0.016922263352723427,
	"grad_norm": 3.6215078830718994,
	"learning_rate": 9.99524110790929e-05,
	"loss": 0.4168,
	"step": 4
	},
	{
	"epoch": 0.021152829190904283,
	"grad_norm": 0.892546534538269,
	"learning_rate": 9.980973490458728e-05,
	"loss": 0.1434,
	"step": 5
	},
	{
	"epoch": 0.02538339502908514,
	"grad_norm": 1.1964820623397827,
	"learning_rate": 9.957224306869053e-05,
	"loss": 0.2214,
	"step": 6
	},
	{
	"epoch": 0.029613960867265997,
	"grad_norm": 1.6945499181747437,
	"learning_rate": 9.924038765061042e-05,
	"loss": 0.2125,
	"step": 7
	},
	{
	"epoch": 0.033844526705446853,
	"grad_norm": 0.8636919260025024,
	"learning_rate": 9.881480035599667e-05,
	"loss": 0.1462,
	"step": 8
	},
	{
	"epoch": 0.03807509254362771,
	"grad_norm": 0.6063279509544373,
	"learning_rate": 9.829629131445342e-05,
	"loss": 0.1616,
	"step": 9
	},
	{
	"epoch": 0.04230565838180857,
	"grad_norm": 0.16028481721878052,
	"learning_rate": 9.768584753741134e-05,
	"loss": 0.1363,
	"step": 10
	},
	{
	"epoch": 0.046536224219989424,
	"grad_norm": 0.20494475960731506,
	"learning_rate": 9.698463103929542e-05,
	"loss": 0.1488,
	"step": 11
	},
	{
	"epoch": 0.05076679005817028,
	"grad_norm": 0.642350971698761,
	"learning_rate": 9.619397662556435e-05,
	"loss": 0.1523,
	"step": 12
	},
	{
	"epoch": 0.05499735589635114,
	"grad_norm": 1.9442977905273438,
	"learning_rate": 9.53153893518325e-05,
	"loss": 0.1667,
	"step": 13
	},
	{
	"epoch": 0.059227921734531994,
	"grad_norm": 0.6603432297706604,
	"learning_rate": 9.435054165891109e-05,
	"loss": 0.1418,
	"step": 14
	},
	{
	"epoch": 0.06345848757271286,
	"grad_norm": 9.015190124511719,
	"learning_rate": 9.330127018922194e-05,
	"loss": 0.2035,
	"step": 15
	},
	{
	"epoch": 0.06768905341089371,
	"grad_norm": 0.3438994884490967,
	"learning_rate": 9.21695722906443e-05,
	"loss": 0.1295,
	"step": 16
	},
	{
	"epoch": 0.07191961924907457,
	"grad_norm": 0.527033269405365,
	"learning_rate": 9.09576022144496e-05,
	"loss": 0.1756,
	"step": 17
	},
	{
	"epoch": 0.07615018508725542,
	"grad_norm": 0.20277735590934753,
	"learning_rate": 8.966766701456177e-05,
	"loss": 0.1264,
	"step": 18
	},
	{
	"epoch": 0.08038075092543628,
	"grad_norm": 0.2575612962245941,
	"learning_rate": 8.83022221559489e-05,
	"loss": 0.1473,
	"step": 19
	},
	{
	"epoch": 0.08461131676361713,
	"grad_norm": 0.5664454102516174,
	"learning_rate": 8.68638668405062e-05,
	"loss": 0.1472,
	"step": 20
	},
	{
	"epoch": 0.088841882601798,
	"grad_norm": 2.2762813568115234,
	"learning_rate": 8.535533905932738e-05,
	"loss": 0.1818,
	"step": 21
	},
	{
	"epoch": 0.09307244843997885,
	"grad_norm": 0.33865222334861755,
	"learning_rate": 8.377951038078302e-05,
	"loss": 0.1691,
	"step": 22
	},
	{
	"epoch": 0.09730301427815971,
	"grad_norm": 0.20331673324108124,
	"learning_rate": 8.213938048432697e-05,
	"loss": 0.1298,
	"step": 23
	},
	{
	"epoch": 0.10153358011634056,
	"grad_norm": 0.307666540145874,
	"learning_rate": 8.043807145043604e-05,
	"loss": 0.1255,
	"step": 24
	},
	{
	"epoch": 0.10576414595452142,
	"grad_norm": 0.5439885258674622,
	"learning_rate": 7.86788218175523e-05,
	"loss": 0.1441,
	"step": 25
	},
	{
	"epoch": 0.10576414595452142,
	"eval_loss": 0.16374452412128448,
	"eval_runtime": 22.2386,
	"eval_samples_per_second": 8.948,
	"eval_steps_per_second": 4.497,
	"step": 25
	},
	{
	"epoch": 0.10999471179270227,
	"grad_norm": 0.2562794089317322,
	"learning_rate": 7.68649804173412e-05,
	"loss": 0.1286,
	"step": 26
	},
	{
	"epoch": 0.11422527763088314,
	"grad_norm": 1.385337471961975,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.1934,
	"step": 27
	},
	{
	"epoch": 0.11845584346906399,
	"grad_norm": 0.28447943925857544,
	"learning_rate": 7.308743066175172e-05,
	"loss": 0.1475,
	"step": 28
	},
	{
	"epoch": 0.12268640930724485,
	"grad_norm": 0.4681300222873688,
	"learning_rate": 7.113091308703498e-05,
	"loss": 0.1723,
	"step": 29
	},
	{
	"epoch": 0.12691697514542571,
	"grad_norm": 0.33006489276885986,
	"learning_rate": 6.91341716182545e-05,
	"loss": 0.1467,
	"step": 30
	},
	{
	"epoch": 0.13114754098360656,
	"grad_norm": 1.173805832862854,
	"learning_rate": 6.710100716628344e-05,
	"loss": 0.1347,
	"step": 31
	},
	{
	"epoch": 0.13537810682178741,
	"grad_norm": 0.3175932466983795,
	"learning_rate": 6.503528997521366e-05,
	"loss": 0.154,
	"step": 32
	},
	{
	"epoch": 0.13960867265996826,
	"grad_norm": 0.19901403784751892,
	"learning_rate": 6.294095225512603e-05,
	"loss": 0.1594,
	"step": 33
	},
	{
	"epoch": 0.14383923849814914,
	"grad_norm": 1.1052857637405396,
	"learning_rate": 6.0821980696905146e-05,
	"loss": 0.2117,
	"step": 34
	},
	{
	"epoch": 0.14806980433633,
	"grad_norm": 0.11121287196874619,
	"learning_rate": 5.868240888334653e-05,
	"loss": 0.1437,
	"step": 35
	},
	{
	"epoch": 0.15230037017451084,
	"grad_norm": 0.18161903321743011,
	"learning_rate": 5.6526309611002594e-05,
	"loss": 0.1203,
	"step": 36
	},
	{
	"epoch": 0.1565309360126917,
	"grad_norm": 0.1642102152109146,
	"learning_rate": 5.435778713738292e-05,
	"loss": 0.1832,
	"step": 37
	},
	{
	"epoch": 0.16076150185087257,
	"grad_norm": 0.2714860439300537,
	"learning_rate": 5.218096936826681e-05,
	"loss": 0.1728,
	"step": 38
	},
	{
	"epoch": 0.16499206768905342,
	"grad_norm": 0.3132612109184265,
	"learning_rate": 5e-05,
	"loss": 0.149,
	"step": 39
	},
	{
	"epoch": 0.16922263352723427,
	"grad_norm": 0.17970287799835205,
	"learning_rate": 4.781903063173321e-05,
	"loss": 0.1759,
	"step": 40
	},
	{
	"epoch": 0.17345319936541512,
	"grad_norm": 0.2791941463947296,
	"learning_rate": 4.564221286261709e-05,
	"loss": 0.1519,
	"step": 41
	},
	{
	"epoch": 0.177683765203596,
	"grad_norm": 0.38692009449005127,
	"learning_rate": 4.347369038899744e-05,
	"loss": 0.1627,
	"step": 42
	},
	{
	"epoch": 0.18191433104177684,
	"grad_norm": 0.1635783314704895,
	"learning_rate": 4.131759111665349e-05,
	"loss": 0.1533,
	"step": 43
	},
	{
	"epoch": 0.1861448968799577,
	"grad_norm": 0.23903019726276398,
	"learning_rate": 3.917801930309486e-05,
	"loss": 0.1517,
	"step": 44
	},
	{
	"epoch": 0.19037546271813854,
	"grad_norm": 0.551013708114624,
	"learning_rate": 3.705904774487396e-05,
	"loss": 0.1954,
	"step": 45
	},
	{
	"epoch": 0.19460602855631942,
	"grad_norm": 0.722944438457489,
	"learning_rate": 3.4964710024786354e-05,
	"loss": 0.1574,
	"step": 46
	},
	{
	"epoch": 0.19883659439450027,
	"grad_norm": 0.6895685791969299,
	"learning_rate": 3.289899283371657e-05,
	"loss": 0.1543,
	"step": 47
	},
	{
	"epoch": 0.20306716023268112,
	"grad_norm": 4.492163181304932,
	"learning_rate": 3.086582838174551e-05,
	"loss": 0.252,
	"step": 48
	},
	{
	"epoch": 0.20729772607086197,
	"grad_norm": 0.8367879986763,
	"learning_rate": 2.886908691296504e-05,
	"loss": 0.1803,
	"step": 49
	},
	{
	"epoch": 0.21152829190904285,
	"grad_norm": 0.26023951172828674,
	"learning_rate": 2.6912569338248315e-05,
	"loss": 0.1944,
	"step": 50
	},
	{
	"epoch": 0.21152829190904285,
	"eval_loss": 0.162020742893219,
	"eval_runtime": 22.2041,
	"eval_samples_per_second": 8.962,
	"eval_steps_per_second": 4.504,
	"step": 50
	},
	{
	"epoch": 0.2157588577472237,
	"grad_norm": 0.1405401974916458,
	"learning_rate": 2.500000000000001e-05,
	"loss": 0.1114,
	"step": 51
	},
	{
	"epoch": 0.21998942358540455,
	"grad_norm": 0.10868234187364578,
	"learning_rate": 2.3135019582658802e-05,
	"loss": 0.1065,
	"step": 52
	},
	{
	"epoch": 0.2242199894235854,
	"grad_norm": 0.11740752309560776,
	"learning_rate": 2.132117818244771e-05,
	"loss": 0.143,
	"step": 53
	},
	{
	"epoch": 0.22845055526176627,
	"grad_norm": 0.16673767566680908,
	"learning_rate": 1.9561928549563968e-05,
	"loss": 0.1385,
	"step": 54
	},
	{
	"epoch": 0.23268112109994712,
	"grad_norm": 0.1313553750514984,
	"learning_rate": 1.7860619515673033e-05,
	"loss": 0.1416,
	"step": 55
	},
	{
	"epoch": 0.23691168693812797,
	"grad_norm": 0.22419168055057526,
	"learning_rate": 1.622048961921699e-05,
	"loss": 0.1657,
	"step": 56
	},
	{
	"epoch": 0.24114225277630882,
	"grad_norm": 0.12620574235916138,
	"learning_rate": 1.4644660940672627e-05,
	"loss": 0.1182,
	"step": 57
	},
	{
	"epoch": 0.2453728186144897,
	"grad_norm": 0.0984712690114975,
	"learning_rate": 1.3136133159493802e-05,
	"loss": 0.122,
	"step": 58
	},
	{
	"epoch": 0.24960338445267055,
	"grad_norm": 0.12404455244541168,
	"learning_rate": 1.1697777844051105e-05,
	"loss": 0.1278,
	"step": 59
	},
	{
	"epoch": 0.25383395029085143,
	"grad_norm": 0.1908160299062729,
	"learning_rate": 1.0332332985438248e-05,
	"loss": 0.1428,
	"step": 60
	},
	{
	"epoch": 0.25806451612903225,
	"grad_norm": 0.17151938378810883,
	"learning_rate": 9.042397785550405e-06,
	"loss": 0.1438,
	"step": 61
	},
	{
	"epoch": 0.26229508196721313,
	"grad_norm": 0.14736545085906982,
	"learning_rate": 7.830427709355725e-06,
	"loss": 0.141,
	"step": 62
	},
	{
	"epoch": 0.26652564780539395,
	"grad_norm": 0.0722377598285675,
	"learning_rate": 6.698729810778065e-06,
	"loss": 0.1283,
	"step": 63
	},
	{
	"epoch": 0.27075621364357483,
	"grad_norm": 0.14723365008831024,
	"learning_rate": 5.649458341088915e-06,
	"loss": 0.1441,
	"step": 64
	},
	{
	"epoch": 0.2749867794817557,
	"grad_norm": 0.2239135503768921,
	"learning_rate": 4.684610648167503e-06,
	"loss": 0.1696,
	"step": 65
	},
	{
	"epoch": 0.2792173453199365,
	"grad_norm": 0.12539656460285187,
	"learning_rate": 3.8060233744356633e-06,
	"loss": 0.1273,
	"step": 66
	},
	{
	"epoch": 0.2834479111581174,
	"grad_norm": 0.14846888184547424,
	"learning_rate": 3.0153689607045845e-06,
	"loss": 0.1552,
	"step": 67
	},
	{
	"epoch": 0.2876784769962983,
	"grad_norm": 0.1942921280860901,
	"learning_rate": 2.314152462588659e-06,
	"loss": 0.1507,
	"step": 68
	},
	{
	"epoch": 0.2919090428344791,
	"grad_norm": 1.0786352157592773,
	"learning_rate": 1.70370868554659e-06,
	"loss": 0.1681,
	"step": 69
	},
	{
	"epoch": 0.29613960867266,
	"grad_norm": 0.1428898423910141,
	"learning_rate": 1.1851996440033319e-06,
	"loss": 0.1282,
	"step": 70
	},
	{
	"epoch": 0.3003701745108408,
	"grad_norm": 0.17222754657268524,
	"learning_rate": 7.596123493895991e-07,
	"loss": 0.1281,
	"step": 71
	},
	{
	"epoch": 0.3046007403490217,
	"grad_norm": 0.12844932079315186,
	"learning_rate": 4.277569313094809e-07,
	"loss": 0.1478,
	"step": 72
	},
	{
	"epoch": 0.30883130618720256,
	"grad_norm": 0.1278412789106369,
	"learning_rate": 1.9026509541272275e-07,
	"loss": 0.1369,
	"step": 73
	},
	{
	"epoch": 0.3130618720253834,
	"grad_norm": 0.23847945034503937,
	"learning_rate": 4.7588920907110094e-08,
	"loss": 0.1768,
	"step": 74
	},
	{
	"epoch": 0.31729243786356426,
	"grad_norm": 0.1610560566186905,
	"learning_rate": 0.0,
	"loss": 0.1589,
	"step": 75
	},
	{
	"epoch": 0.31729243786356426,
	"eval_loss": 0.15878306329250336,
	"eval_runtime": 22.1981,
	"eval_samples_per_second": 8.965,
	"eval_steps_per_second": 4.505,
	"step": 75
	}
	],
	"logging_steps": 1,
	"max_steps": 75,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.119015678246912e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}