Training in progress, step 133, checkpoint

e5cad10 verified 2 days ago

25.1 kB

	{
	"best_metric": 1.3449122905731201,
	"best_model_checkpoint": "miner_id_24/checkpoint-100",
	"epoch": 1.1450094161958568,
	"eval_steps": 25,
	"global_step": 133,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008609093354856066,
	"grad_norm": 0.6988075971603394,
	"learning_rate": 2e-05,
	"loss": 1.7571,
	"step": 1
	},
	{
	"epoch": 0.008609093354856066,
	"eval_loss": 3.2656900882720947,
	"eval_runtime": 1.2466,
	"eval_samples_per_second": 40.11,
	"eval_steps_per_second": 10.429,
	"step": 1
	},
	{
	"epoch": 0.017218186709712133,
	"grad_norm": 0.7088323831558228,
	"learning_rate": 4e-05,
	"loss": 2.0087,
	"step": 2
	},
	{
	"epoch": 0.0258272800645682,
	"grad_norm": 1.009822130203247,
	"learning_rate": 6e-05,
	"loss": 2.4702,
	"step": 3
	},
	{
	"epoch": 0.034436373419424265,
	"grad_norm": 0.9133837819099426,
	"learning_rate": 8e-05,
	"loss": 2.5742,
	"step": 4
	},
	{
	"epoch": 0.04304546677428033,
	"grad_norm": 1.0774202346801758,
	"learning_rate": 0.0001,
	"loss": 2.4651,
	"step": 5
	},
	{
	"epoch": 0.0516545601291364,
	"grad_norm": 1.940169095993042,
	"learning_rate": 9.99864468413292e-05,
	"loss": 2.7402,
	"step": 6
	},
	{
	"epoch": 0.060263653483992465,
	"grad_norm": 2.5114591121673584,
	"learning_rate": 9.994579552923277e-05,
	"loss": 2.36,
	"step": 7
	},
	{
	"epoch": 0.06887274683884853,
	"grad_norm": 2.1416642665863037,
	"learning_rate": 9.987807055054106e-05,
	"loss": 2.1412,
	"step": 8
	},
	{
	"epoch": 0.0774818401937046,
	"grad_norm": 2.493290424346924,
	"learning_rate": 9.978331270024886e-05,
	"loss": 2.134,
	"step": 9
	},
	{
	"epoch": 0.08609093354856066,
	"grad_norm": 2.5377631187438965,
	"learning_rate": 9.966157905694196e-05,
	"loss": 2.2798,
	"step": 10
	},
	{
	"epoch": 0.09470002690341674,
	"grad_norm": 5.070113658905029,
	"learning_rate": 9.951294294841516e-05,
	"loss": 2.0949,
	"step": 11
	},
	{
	"epoch": 0.1033091202582728,
	"grad_norm": 8.32091999053955,
	"learning_rate": 9.933749390750235e-05,
	"loss": 2.669,
	"step": 12
	},
	{
	"epoch": 0.11191821361312887,
	"grad_norm": 10.361486434936523,
	"learning_rate": 9.913533761814537e-05,
	"loss": 2.7766,
	"step": 13
	},
	{
	"epoch": 0.12052730696798493,
	"grad_norm": 5.311871528625488,
	"learning_rate": 9.890659585173379e-05,
	"loss": 1.494,
	"step": 14
	},
	{
	"epoch": 0.129136400322841,
	"grad_norm": 4.676233291625977,
	"learning_rate": 9.865140639375449e-05,
	"loss": 1.5863,
	"step": 15
	},
	{
	"epoch": 0.13774549367769706,
	"grad_norm": 3.6029069423675537,
	"learning_rate": 9.83699229607948e-05,
	"loss": 1.7019,
	"step": 16
	},
	{
	"epoch": 0.14635458703255314,
	"grad_norm": 1.6760152578353882,
	"learning_rate": 9.80623151079494e-05,
	"loss": 1.6638,
	"step": 17
	},
	{
	"epoch": 0.1549636803874092,
	"grad_norm": 1.4253727197647095,
	"learning_rate": 9.772876812668666e-05,
	"loss": 1.7801,
	"step": 18
	},
	{
	"epoch": 0.16357277374226525,
	"grad_norm": 1.3295799493789673,
	"learning_rate": 9.736948293323593e-05,
	"loss": 1.7038,
	"step": 19
	},
	{
	"epoch": 0.17218186709712133,
	"grad_norm": 0.7724640965461731,
	"learning_rate": 9.698467594756325e-05,
	"loss": 1.7746,
	"step": 20
	},
	{
	"epoch": 0.1807909604519774,
	"grad_norm": 0.8214246034622192,
	"learning_rate": 9.657457896300791e-05,
	"loss": 1.5971,
	"step": 21
	},
	{
	"epoch": 0.18940005380683347,
	"grad_norm": 1.1587809324264526,
	"learning_rate": 9.613943900665889e-05,
	"loss": 1.7559,
	"step": 22
	},
	{
	"epoch": 0.19800914716168955,
	"grad_norm": 1.8553802967071533,
	"learning_rate": 9.567951819055496e-05,
	"loss": 1.7612,
	"step": 23
	},
	{
	"epoch": 0.2066182405165456,
	"grad_norm": 2.004556655883789,
	"learning_rate": 9.519509355379818e-05,
	"loss": 1.5969,
	"step": 24
	},
	{
	"epoch": 0.21522733387140167,
	"grad_norm": 5.224137783050537,
	"learning_rate": 9.468645689567598e-05,
	"loss": 2.0711,
	"step": 25
	},
	{
	"epoch": 0.21522733387140167,
	"eval_loss": 1.508137822151184,
	"eval_runtime": 1.2723,
	"eval_samples_per_second": 39.3,
	"eval_steps_per_second": 10.218,
	"step": 25
	},
	{
	"epoch": 0.22383642722625774,
	"grad_norm": 1.341894268989563,
	"learning_rate": 9.415391459989203e-05,
	"loss": 1.2867,
	"step": 26
	},
	{
	"epoch": 0.2324455205811138,
	"grad_norm": 2.224653720855713,
	"learning_rate": 9.359778745001225e-05,
	"loss": 1.2927,
	"step": 27
	},
	{
	"epoch": 0.24105461393596986,
	"grad_norm": 1.4196522235870361,
	"learning_rate": 9.301841043623682e-05,
	"loss": 1.3711,
	"step": 28
	},
	{
	"epoch": 0.24966370729082593,
	"grad_norm": 1.2161178588867188,
	"learning_rate": 9.241613255361455e-05,
	"loss": 1.4576,
	"step": 29
	},
	{
	"epoch": 0.258272800645682,
	"grad_norm": 0.8192944526672363,
	"learning_rate": 9.179131659182127e-05,
	"loss": 1.6426,
	"step": 30
	},
	{
	"epoch": 0.2668818940005381,
	"grad_norm": 0.6419580578804016,
	"learning_rate": 9.114433891662902e-05,
	"loss": 1.7142,
	"step": 31
	},
	{
	"epoch": 0.2754909873553941,
	"grad_norm": 0.41701650619506836,
	"learning_rate": 9.047558924319729e-05,
	"loss": 1.6853,
	"step": 32
	},
	{
	"epoch": 0.2841000807102502,
	"grad_norm": 0.4797891080379486,
	"learning_rate": 8.978547040132317e-05,
	"loss": 1.6622,
	"step": 33
	},
	{
	"epoch": 0.29270917406510627,
	"grad_norm": 0.737724781036377,
	"learning_rate": 8.907439809279181e-05,
	"loss": 1.6734,
	"step": 34
	},
	{
	"epoch": 0.3013182674199623,
	"grad_norm": 1.0522786378860474,
	"learning_rate": 8.834280064097317e-05,
	"loss": 1.6301,
	"step": 35
	},
	{
	"epoch": 0.3099273607748184,
	"grad_norm": 1.4976811408996582,
	"learning_rate": 8.759111873281603e-05,
	"loss": 1.6521,
	"step": 36
	},
	{
	"epoch": 0.31853645412967446,
	"grad_norm": 3.2661497592926025,
	"learning_rate": 8.681980515339464e-05,
	"loss": 1.5304,
	"step": 37
	},
	{
	"epoch": 0.3271455474845305,
	"grad_norm": 2.8426661491394043,
	"learning_rate": 8.602932451316802e-05,
	"loss": 1.437,
	"step": 38
	},
	{
	"epoch": 0.3357546408393866,
	"grad_norm": 0.49562180042266846,
	"learning_rate": 8.522015296811584e-05,
	"loss": 1.2391,
	"step": 39
	},
	{
	"epoch": 0.34436373419424265,
	"grad_norm": 0.5359828472137451,
	"learning_rate": 8.439277793291995e-05,
	"loss": 1.2585,
	"step": 40
	},
	{
	"epoch": 0.35297282754909876,
	"grad_norm": 0.8592618107795715,
	"learning_rate": 8.354769778736406e-05,
	"loss": 1.3682,
	"step": 41
	},
	{
	"epoch": 0.3615819209039548,
	"grad_norm": 0.8251994848251343,
	"learning_rate": 8.268542157612821e-05,
	"loss": 1.548,
	"step": 42
	},
	{
	"epoch": 0.37019101425881085,
	"grad_norm": 0.9783174991607666,
	"learning_rate": 8.180646870215952e-05,
	"loss": 1.7041,
	"step": 43
	},
	{
	"epoch": 0.37880010761366695,
	"grad_norm": 0.894888699054718,
	"learning_rate": 8.091136861380305e-05,
	"loss": 1.8391,
	"step": 44
	},
	{
	"epoch": 0.387409200968523,
	"grad_norm": 0.5933730006217957,
	"learning_rate": 8.000066048588211e-05,
	"loss": 1.6974,
	"step": 45
	},
	{
	"epoch": 0.3960182943233791,
	"grad_norm": 0.7440256476402283,
	"learning_rate": 7.907489289491939e-05,
	"loss": 1.6231,
	"step": 46
	},
	{
	"epoch": 0.40462738767823514,
	"grad_norm": 0.7255629897117615,
	"learning_rate": 7.813462348869497e-05,
	"loss": 1.6172,
	"step": 47
	},
	{
	"epoch": 0.4132364810330912,
	"grad_norm": 1.1230436563491821,
	"learning_rate": 7.71804186503403e-05,
	"loss": 1.5745,
	"step": 48
	},
	{
	"epoch": 0.4218455743879473,
	"grad_norm": 1.6526938676834106,
	"learning_rate": 7.62128531571699e-05,
	"loss": 1.2586,
	"step": 49
	},
	{
	"epoch": 0.43045466774280333,
	"grad_norm": 5.730405330657959,
	"learning_rate": 7.523250983445731e-05,
	"loss": 1.7199,
	"step": 50
	},
	{
	"epoch": 0.43045466774280333,
	"eval_loss": 1.389930248260498,
	"eval_runtime": 1.2729,
	"eval_samples_per_second": 39.28,
	"eval_steps_per_second": 10.213,
	"step": 50
	},
	{
	"epoch": 0.4390637610976594,
	"grad_norm": 0.4678877890110016,
	"learning_rate": 7.42399792043627e-05,
	"loss": 1.2294,
	"step": 51
	},
	{
	"epoch": 0.4476728544525155,
	"grad_norm": 0.5002795457839966,
	"learning_rate": 7.323585913022454e-05,
	"loss": 1.2342,
	"step": 52
	},
	{
	"epoch": 0.4562819478073715,
	"grad_norm": 0.3534197509288788,
	"learning_rate": 7.222075445642904e-05,
	"loss": 1.2975,
	"step": 53
	},
	{
	"epoch": 0.4648910411622276,
	"grad_norm": 0.6102612018585205,
	"learning_rate": 7.119527664407447e-05,
	"loss": 1.4773,
	"step": 54
	},
	{
	"epoch": 0.47350013451708367,
	"grad_norm": 0.5064122080802917,
	"learning_rate": 7.01600434026499e-05,
	"loss": 1.5257,
	"step": 55
	},
	{
	"epoch": 0.4821092278719397,
	"grad_norm": 0.6477398872375488,
	"learning_rate": 6.911567831795013e-05,
	"loss": 1.7135,
	"step": 56
	},
	{
	"epoch": 0.4907183212267958,
	"grad_norm": 1.0539360046386719,
	"learning_rate": 6.80628104764508e-05,
	"loss": 1.8241,
	"step": 57
	},
	{
	"epoch": 0.49932741458165186,
	"grad_norm": 0.7702855467796326,
	"learning_rate": 6.700207408637044e-05,
	"loss": 1.7362,
	"step": 58
	},
	{
	"epoch": 0.5079365079365079,
	"grad_norm": 0.6455403566360474,
	"learning_rate": 6.593410809564689e-05,
	"loss": 1.5381,
	"step": 59
	},
	{
	"epoch": 0.516545601291364,
	"grad_norm": 0.6673574447631836,
	"learning_rate": 6.485955580705913e-05,
	"loss": 1.4796,
	"step": 60
	},
	{
	"epoch": 0.5251546946462201,
	"grad_norm": 0.8242542743682861,
	"learning_rate": 6.377906449072578e-05,
	"loss": 1.6654,
	"step": 61
	},
	{
	"epoch": 0.5337637880010762,
	"grad_norm": 1.4092378616333008,
	"learning_rate": 6.269328499421356e-05,
	"loss": 1.2351,
	"step": 62
	},
	{
	"epoch": 0.5423728813559322,
	"grad_norm": 2.419718027114868,
	"learning_rate": 6.160287135049127e-05,
	"loss": 1.4315,
	"step": 63
	},
	{
	"epoch": 0.5509819747107882,
	"grad_norm": 0.38671913743019104,
	"learning_rate": 6.050848038396473e-05,
	"loss": 1.2274,
	"step": 64
	},
	{
	"epoch": 0.5595910680656443,
	"grad_norm": 0.5623155832290649,
	"learning_rate": 5.941077131483025e-05,
	"loss": 1.3062,
	"step": 65
	},
	{
	"epoch": 0.5682001614205004,
	"grad_norm": 0.6458035111427307,
	"learning_rate": 5.831040536198504e-05,
	"loss": 1.4318,
	"step": 66
	},
	{
	"epoch": 0.5768092547753565,
	"grad_norm": 0.6504884958267212,
	"learning_rate": 5.720804534473382e-05,
	"loss": 1.3897,
	"step": 67
	},
	{
	"epoch": 0.5854183481302125,
	"grad_norm": 0.4223068356513977,
	"learning_rate": 5.610435528353106e-05,
	"loss": 1.5331,
	"step": 68
	},
	{
	"epoch": 0.5940274414850686,
	"grad_norm": 0.5046920776367188,
	"learning_rate": 5.500000000000001e-05,
	"loss": 1.6225,
	"step": 69
	},
	{
	"epoch": 0.6026365348399246,
	"grad_norm": 0.41651174426078796,
	"learning_rate": 5.389564471646895e-05,
	"loss": 1.7376,
	"step": 70
	},
	{
	"epoch": 0.6112456281947808,
	"grad_norm": 0.32924169301986694,
	"learning_rate": 5.27919546552662e-05,
	"loss": 1.5401,
	"step": 71
	},
	{
	"epoch": 0.6198547215496368,
	"grad_norm": 0.4280257821083069,
	"learning_rate": 5.168959463801497e-05,
	"loss": 1.5662,
	"step": 72
	},
	{
	"epoch": 0.6284638149044929,
	"grad_norm": 0.6656383275985718,
	"learning_rate": 5.058922868516978e-05,
	"loss": 1.4713,
	"step": 73
	},
	{
	"epoch": 0.6370729082593489,
	"grad_norm": 0.8646160960197449,
	"learning_rate": 4.9491519616035276e-05,
	"loss": 1.2566,
	"step": 74
	},
	{
	"epoch": 0.645682001614205,
	"grad_norm": 2.5206289291381836,
	"learning_rate": 4.839712864950873e-05,
	"loss": 1.7236,
	"step": 75
	},
	{
	"epoch": 0.645682001614205,
	"eval_loss": 1.349289894104004,
	"eval_runtime": 1.2727,
	"eval_samples_per_second": 39.288,
	"eval_steps_per_second": 10.215,
	"step": 75
	},
	{
	"epoch": 0.654291094969061,
	"grad_norm": 0.4360639750957489,
	"learning_rate": 4.730671500578645e-05,
	"loss": 1.1383,
	"step": 76
	},
	{
	"epoch": 0.6629001883239172,
	"grad_norm": 0.8731722235679626,
	"learning_rate": 4.6220935509274235e-05,
	"loss": 1.4032,
	"step": 77
	},
	{
	"epoch": 0.6715092816787732,
	"grad_norm": 0.7142120003700256,
	"learning_rate": 4.5140444192940864e-05,
	"loss": 1.1904,
	"step": 78
	},
	{
	"epoch": 0.6801183750336293,
	"grad_norm": 0.594018280506134,
	"learning_rate": 4.406589190435313e-05,
	"loss": 1.3872,
	"step": 79
	},
	{
	"epoch": 0.6887274683884853,
	"grad_norm": 0.6022002696990967,
	"learning_rate": 4.2997925913629577e-05,
	"loss": 1.5956,
	"step": 80
	},
	{
	"epoch": 0.6973365617433414,
	"grad_norm": 0.5471949577331543,
	"learning_rate": 4.19371895235492e-05,
	"loss": 1.6525,
	"step": 81
	},
	{
	"epoch": 0.7059456550981975,
	"grad_norm": 0.3283829391002655,
	"learning_rate": 4.0884321682049884e-05,
	"loss": 1.772,
	"step": 82
	},
	{
	"epoch": 0.7145547484530536,
	"grad_norm": 0.34206530451774597,
	"learning_rate": 3.98399565973501e-05,
	"loss": 1.6938,
	"step": 83
	},
	{
	"epoch": 0.7231638418079096,
	"grad_norm": 0.35002151131629944,
	"learning_rate": 3.880472335592553e-05,
	"loss": 1.418,
	"step": 84
	},
	{
	"epoch": 0.7317729351627656,
	"grad_norm": 0.7404176592826843,
	"learning_rate": 3.777924554357096e-05,
	"loss": 1.5774,
	"step": 85
	},
	{
	"epoch": 0.7403820285176217,
	"grad_norm": 0.8380143046379089,
	"learning_rate": 3.676414086977546e-05,
	"loss": 1.3188,
	"step": 86
	},
	{
	"epoch": 0.7489911218724778,
	"grad_norm": 2.1834990978240967,
	"learning_rate": 3.576002079563732e-05,
	"loss": 1.4621,
	"step": 87
	},
	{
	"epoch": 0.7576002152273339,
	"grad_norm": 2.3319005966186523,
	"learning_rate": 3.4767490165542704e-05,
	"loss": 1.5594,
	"step": 88
	},
	{
	"epoch": 0.7662093085821899,
	"grad_norm": 0.3592979311943054,
	"learning_rate": 3.378714684283011e-05,
	"loss": 1.1,
	"step": 89
	},
	{
	"epoch": 0.774818401937046,
	"grad_norm": 0.49761757254600525,
	"learning_rate": 3.281958134965972e-05,
	"loss": 1.3531,
	"step": 90
	},
	{
	"epoch": 0.783427495291902,
	"grad_norm": 0.3277381658554077,
	"learning_rate": 3.186537651130503e-05,
	"loss": 1.3467,
	"step": 91
	},
	{
	"epoch": 0.7920365886467582,
	"grad_norm": 0.3256728947162628,
	"learning_rate": 3.0925107105080636e-05,
	"loss": 1.5374,
	"step": 92
	},
	{
	"epoch": 0.8006456820016142,
	"grad_norm": 0.35263001918792725,
	"learning_rate": 2.9999339514117912e-05,
	"loss": 1.5367,
	"step": 93
	},
	{
	"epoch": 0.8092547753564703,
	"grad_norm": 0.3698779344558716,
	"learning_rate": 2.9088631386196964e-05,
	"loss": 1.7344,
	"step": 94
	},
	{
	"epoch": 0.8178638687113263,
	"grad_norm": 0.445311576128006,
	"learning_rate": 2.8193531297840503e-05,
	"loss": 1.7141,
	"step": 95
	},
	{
	"epoch": 0.8264729620661824,
	"grad_norm": 0.4353031814098358,
	"learning_rate": 2.73145784238718e-05,
	"loss": 1.5168,
	"step": 96
	},
	{
	"epoch": 0.8350820554210385,
	"grad_norm": 0.6268022060394287,
	"learning_rate": 2.645230221263596e-05,
	"loss": 1.4016,
	"step": 97
	},
	{
	"epoch": 0.8436911487758946,
	"grad_norm": 0.5284622311592102,
	"learning_rate": 2.560722206708006e-05,
	"loss": 1.5741,
	"step": 98
	},
	{
	"epoch": 0.8523002421307506,
	"grad_norm": 0.7828362584114075,
	"learning_rate": 2.4779847031884175e-05,
	"loss": 1.243,
	"step": 99
	},
	{
	"epoch": 0.8609093354856067,
	"grad_norm": 3.621532678604126,
	"learning_rate": 2.397067548683199e-05,
	"loss": 1.5976,
	"step": 100
	},
	{
	"epoch": 0.8609093354856067,
	"eval_loss": 1.3449122905731201,
	"eval_runtime": 1.2724,
	"eval_samples_per_second": 39.295,
	"eval_steps_per_second": 10.217,
	"step": 100
	},
	{
	"epoch": 0.8695184288404627,
	"grad_norm": 0.3012229800224304,
	"learning_rate": 2.3180194846605367e-05,
	"loss": 1.176,
	"step": 101
	},
	{
	"epoch": 0.8781275221953188,
	"grad_norm": 0.4754287004470825,
	"learning_rate": 2.2408881267183997e-05,
	"loss": 1.1958,
	"step": 102
	},
	{
	"epoch": 0.8867366155501749,
	"grad_norm": 0.43265655636787415,
	"learning_rate": 2.165719935902685e-05,
	"loss": 1.3262,
	"step": 103
	},
	{
	"epoch": 0.895345708905031,
	"grad_norm": 0.5260616540908813,
	"learning_rate": 2.09256019072082e-05,
	"loss": 1.3721,
	"step": 104
	},
	{
	"epoch": 0.903954802259887,
	"grad_norm": 0.5602609515190125,
	"learning_rate": 2.0214529598676836e-05,
	"loss": 1.401,
	"step": 105
	},
	{
	"epoch": 0.912563895614743,
	"grad_norm": 0.29336562752723694,
	"learning_rate": 1.952441075680272e-05,
	"loss": 1.6924,
	"step": 106
	},
	{
	"epoch": 0.9211729889695991,
	"grad_norm": 0.9488304853439331,
	"learning_rate": 1.8855661083370986e-05,
	"loss": 1.8012,
	"step": 107
	},
	{
	"epoch": 0.9297820823244553,
	"grad_norm": 0.3932758867740631,
	"learning_rate": 1.820868340817874e-05,
	"loss": 1.6428,
	"step": 108
	},
	{
	"epoch": 0.9383911756793113,
	"grad_norm": 0.3379191756248474,
	"learning_rate": 1.758386744638546e-05,
	"loss": 1.3678,
	"step": 109
	},
	{
	"epoch": 0.9470002690341673,
	"grad_norm": 0.5376018285751343,
	"learning_rate": 1.698158956376318e-05,
	"loss": 1.6057,
	"step": 110
	},
	{
	"epoch": 0.9556093623890234,
	"grad_norm": 0.6705049872398376,
	"learning_rate": 1.6402212549987762e-05,
	"loss": 1.5497,
	"step": 111
	},
	{
	"epoch": 0.9642184557438794,
	"grad_norm": 1.5708343982696533,
	"learning_rate": 1.584608540010799e-05,
	"loss": 1.4589,
	"step": 112
	},
	{
	"epoch": 0.9728275490987356,
	"grad_norm": 2.8929443359375,
	"learning_rate": 1.531354310432403e-05,
	"loss": 1.5784,
	"step": 113
	},
	{
	"epoch": 0.9814366424535916,
	"grad_norm": 0.3657113313674927,
	"learning_rate": 1.4804906446201816e-05,
	"loss": 1.3912,
	"step": 114
	},
	{
	"epoch": 0.9900457358084477,
	"grad_norm": 0.3794941306114197,
	"learning_rate": 1.4320481809445051e-05,
	"loss": 1.5847,
	"step": 115
	},
	{
	"epoch": 0.9986548291633037,
	"grad_norm": 0.7362991571426392,
	"learning_rate": 1.386056099334112e-05,
	"loss": 1.399,
	"step": 116
	},
	{
	"epoch": 1.0072639225181599,
	"grad_norm": 0.8029009103775024,
	"learning_rate": 1.3425421036992098e-05,
	"loss": 1.2215,
	"step": 117
	},
	{
	"epoch": 1.0158730158730158,
	"grad_norm": 0.5080808997154236,
	"learning_rate": 1.3015324052436753e-05,
	"loss": 1.2015,
	"step": 118
	},
	{
	"epoch": 1.024482109227872,
	"grad_norm": 0.44496291875839233,
	"learning_rate": 1.2630517066764069e-05,
	"loss": 1.2138,
	"step": 119
	},
	{
	"epoch": 1.033091202582728,
	"grad_norm": 0.4348479211330414,
	"learning_rate": 1.227123187331335e-05,
	"loss": 1.2767,
	"step": 120
	},
	{
	"epoch": 1.041700295937584,
	"grad_norm": 0.37992164492607117,
	"learning_rate": 1.1937684892050604e-05,
	"loss": 1.5242,
	"step": 121
	},
	{
	"epoch": 1.0503093892924402,
	"grad_norm": 0.32971861958503723,
	"learning_rate": 1.1630077039205209e-05,
	"loss": 1.5498,
	"step": 122
	},
	{
	"epoch": 1.0589184826472962,
	"grad_norm": 0.5224172472953796,
	"learning_rate": 1.1348593606245522e-05,
	"loss": 1.6984,
	"step": 123
	},
	{
	"epoch": 1.0675275760021523,
	"grad_norm": 0.43070971965789795,
	"learning_rate": 1.109340414826622e-05,
	"loss": 1.5932,
	"step": 124
	},
	{
	"epoch": 1.0761366693570082,
	"grad_norm": 0.4774491786956787,
	"learning_rate": 1.0864662381854632e-05,
	"loss": 1.4308,
	"step": 125
	},
	{
	"epoch": 1.0761366693570082,
	"eval_loss": 1.3410676717758179,
	"eval_runtime": 1.2741,
	"eval_samples_per_second": 39.242,
	"eval_steps_per_second": 10.203,
	"step": 125
	},
	{
	"epoch": 1.0847457627118644,
	"grad_norm": 0.5184400677680969,
	"learning_rate": 1.0662506092497646e-05,
	"loss": 1.4641,
	"step": 126
	},
	{
	"epoch": 1.0933548560667206,
	"grad_norm": 0.5525245666503906,
	"learning_rate": 1.0487057051584856e-05,
	"loss": 1.5545,
	"step": 127
	},
	{
	"epoch": 1.1019639494215765,
	"grad_norm": 1.609927773475647,
	"learning_rate": 1.0338420943058053e-05,
	"loss": 1.3439,
	"step": 128
	},
	{
	"epoch": 1.1105730427764327,
	"grad_norm": 2.2938551902770996,
	"learning_rate": 1.0216687299751144e-05,
	"loss": 1.4817,
	"step": 129
	},
	{
	"epoch": 1.1191821361312886,
	"grad_norm": 0.45292142033576965,
	"learning_rate": 1.0121929449458941e-05,
	"loss": 1.1242,
	"step": 130
	},
	{
	"epoch": 1.1277912294861447,
	"grad_norm": 0.4423352777957916,
	"learning_rate": 1.0054204470767243e-05,
	"loss": 1.1672,
	"step": 131
	},
	{
	"epoch": 1.136400322841001,
	"grad_norm": 0.33851832151412964,
	"learning_rate": 1.0013553158670811e-05,
	"loss": 1.2433,
	"step": 132
	},
	{
	"epoch": 1.1450094161958568,
	"grad_norm": 0.3434777855873108,
	"learning_rate": 1e-05,
	"loss": 1.4094,
	"step": 133
	}
	],
	"logging_steps": 1,
	"max_steps": 133,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.8256510115053568e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}