Training in progress, step 119, checkpoint

7c46c45 verified 22 days ago

21.9 kB

	{
	"best_metric": 0.32027119398117065,
	"best_model_checkpoint": "miner_id_24/checkpoint-100",
	"epoch": 2.9937106918238996,
	"eval_steps": 50,
	"global_step": 119,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.025157232704402517,
	"grad_norm": 10.445202827453613,
	"learning_rate": 1e-05,
	"loss": 1.8113,
	"step": 1
	},
	{
	"epoch": 0.025157232704402517,
	"eval_loss": 2.903780698776245,
	"eval_runtime": 1.3578,
	"eval_samples_per_second": 49.344,
	"eval_steps_per_second": 12.52,
	"step": 1
	},
	{
	"epoch": 0.050314465408805034,
	"grad_norm": 18.712600708007812,
	"learning_rate": 2e-05,
	"loss": 2.412,
	"step": 2
	},
	{
	"epoch": 0.07547169811320754,
	"grad_norm": 13.591891288757324,
	"learning_rate": 3e-05,
	"loss": 2.6184,
	"step": 3
	},
	{
	"epoch": 0.10062893081761007,
	"grad_norm": 6.334252834320068,
	"learning_rate": 4e-05,
	"loss": 2.2968,
	"step": 4
	},
	{
	"epoch": 0.12578616352201258,
	"grad_norm": 8.629500389099121,
	"learning_rate": 5e-05,
	"loss": 2.6715,
	"step": 5
	},
	{
	"epoch": 0.1509433962264151,
	"grad_norm": 6.428257465362549,
	"learning_rate": 6e-05,
	"loss": 2.3585,
	"step": 6
	},
	{
	"epoch": 0.1761006289308176,
	"grad_norm": 6.464021682739258,
	"learning_rate": 7e-05,
	"loss": 2.2552,
	"step": 7
	},
	{
	"epoch": 0.20125786163522014,
	"grad_norm": 14.248180389404297,
	"learning_rate": 8e-05,
	"loss": 3.8528,
	"step": 8
	},
	{
	"epoch": 0.22641509433962265,
	"grad_norm": 15.20981216430664,
	"learning_rate": 9e-05,
	"loss": 3.4106,
	"step": 9
	},
	{
	"epoch": 0.25157232704402516,
	"grad_norm": 5.780796051025391,
	"learning_rate": 0.0001,
	"loss": 1.1669,
	"step": 10
	},
	{
	"epoch": 0.27672955974842767,
	"grad_norm": 5.746275424957275,
	"learning_rate": 9.997923381619256e-05,
	"loss": 1.1579,
	"step": 11
	},
	{
	"epoch": 0.3018867924528302,
	"grad_norm": 2.8907012939453125,
	"learning_rate": 9.991695251414583e-05,
	"loss": 1.0849,
	"step": 12
	},
	{
	"epoch": 0.3270440251572327,
	"grad_norm": 1.9942095279693604,
	"learning_rate": 9.981320782765846e-05,
	"loss": 1.0375,
	"step": 13
	},
	{
	"epoch": 0.3522012578616352,
	"grad_norm": 2.2817931175231934,
	"learning_rate": 9.966808593197959e-05,
	"loss": 0.9995,
	"step": 14
	},
	{
	"epoch": 0.37735849056603776,
	"grad_norm": 2.029221773147583,
	"learning_rate": 9.948170737222762e-05,
	"loss": 0.8702,
	"step": 15
	},
	{
	"epoch": 0.4025157232704403,
	"grad_norm": 2.2605092525482178,
	"learning_rate": 9.925422696325975e-05,
	"loss": 0.8997,
	"step": 16
	},
	{
	"epoch": 0.4276729559748428,
	"grad_norm": 6.524753093719482,
	"learning_rate": 9.898583366107538e-05,
	"loss": 1.0832,
	"step": 17
	},
	{
	"epoch": 0.4528301886792453,
	"grad_norm": 4.861238479614258,
	"learning_rate": 9.867675040586034e-05,
	"loss": 1.2063,
	"step": 18
	},
	{
	"epoch": 0.4779874213836478,
	"grad_norm": 1.9360491037368774,
	"learning_rate": 9.83272339368022e-05,
	"loss": 0.8503,
	"step": 19
	},
	{
	"epoch": 0.5031446540880503,
	"grad_norm": 1.9203150272369385,
	"learning_rate": 9.793757457883062e-05,
	"loss": 0.8055,
	"step": 20
	},
	{
	"epoch": 0.5283018867924528,
	"grad_norm": 1.335469126701355,
	"learning_rate": 9.750809600145954e-05,
	"loss": 0.8518,
	"step": 21
	},
	{
	"epoch": 0.5534591194968553,
	"grad_norm": 1.137628197669983,
	"learning_rate": 9.703915494993215e-05,
	"loss": 0.7453,
	"step": 22
	},
	{
	"epoch": 0.5786163522012578,
	"grad_norm": 1.0536383390426636,
	"learning_rate": 9.653114094889127e-05,
	"loss": 0.7192,
	"step": 23
	},
	{
	"epoch": 0.6037735849056604,
	"grad_norm": 1.5118601322174072,
	"learning_rate": 9.598447597882181e-05,
	"loss": 0.7093,
	"step": 24
	},
	{
	"epoch": 0.6289308176100629,
	"grad_norm": 1.6779704093933105,
	"learning_rate": 9.539961412553375e-05,
	"loss": 0.7177,
	"step": 25
	},
	{
	"epoch": 0.6540880503144654,
	"grad_norm": 2.0891356468200684,
	"learning_rate": 9.477704120297697e-05,
	"loss": 0.8265,
	"step": 26
	},
	{
	"epoch": 0.6792452830188679,
	"grad_norm": 3.018578052520752,
	"learning_rate": 9.411727434970121e-05,
	"loss": 1.1182,
	"step": 27
	},
	{
	"epoch": 0.7044025157232704,
	"grad_norm": 1.017041563987732,
	"learning_rate": 9.34208615992963e-05,
	"loss": 0.6662,
	"step": 28
	},
	{
	"epoch": 0.7295597484276729,
	"grad_norm": 1.0053677558898926,
	"learning_rate": 9.268838142516943e-05,
	"loss": 0.5747,
	"step": 29
	},
	{
	"epoch": 0.7547169811320755,
	"grad_norm": 1.353121280670166,
	"learning_rate": 9.192044226003789e-05,
	"loss": 0.6665,
	"step": 30
	},
	{
	"epoch": 0.779874213836478,
	"grad_norm": 1.0210703611373901,
	"learning_rate": 9.111768199053588e-05,
	"loss": 0.5584,
	"step": 31
	},
	{
	"epoch": 0.8050314465408805,
	"grad_norm": 0.9525967836380005,
	"learning_rate": 9.028076742735583e-05,
	"loss": 0.5162,
	"step": 32
	},
	{
	"epoch": 0.8301886792452831,
	"grad_norm": 1.384174108505249,
	"learning_rate": 8.941039375136371e-05,
	"loss": 0.6165,
	"step": 33
	},
	{
	"epoch": 0.8553459119496856,
	"grad_norm": 1.3128784894943237,
	"learning_rate": 8.850728393614902e-05,
	"loss": 0.6381,
	"step": 34
	},
	{
	"epoch": 0.8805031446540881,
	"grad_norm": 2.184060573577881,
	"learning_rate": 8.75721881474886e-05,
	"loss": 0.6739,
	"step": 35
	},
	{
	"epoch": 0.9056603773584906,
	"grad_norm": 3.2247838973999023,
	"learning_rate": 8.660588312022344e-05,
	"loss": 1.0203,
	"step": 36
	},
	{
	"epoch": 0.9308176100628931,
	"grad_norm": 1.1204508543014526,
	"learning_rate": 8.560917151306593e-05,
	"loss": 0.6185,
	"step": 37
	},
	{
	"epoch": 0.9559748427672956,
	"grad_norm": 1.065934658050537,
	"learning_rate": 8.458288124187359e-05,
	"loss": 0.4873,
	"step": 38
	},
	{
	"epoch": 0.9811320754716981,
	"grad_norm": 1.583658218383789,
	"learning_rate": 8.352786479194288e-05,
	"loss": 0.4867,
	"step": 39
	},
	{
	"epoch": 1.0062893081761006,
	"grad_norm": 2.8070600032806396,
	"learning_rate": 8.244499850989452e-05,
	"loss": 0.8313,
	"step": 40
	},
	{
	"epoch": 1.0314465408805031,
	"grad_norm": 0.8271421194076538,
	"learning_rate": 8.133518187573862e-05,
	"loss": 0.4702,
	"step": 41
	},
	{
	"epoch": 1.0566037735849056,
	"grad_norm": 0.8070173263549805,
	"learning_rate": 8.019933675572389e-05,
	"loss": 0.4361,
	"step": 42
	},
	{
	"epoch": 1.0817610062893082,
	"grad_norm": 2.6176536083221436,
	"learning_rate": 7.903840663659186e-05,
	"loss": 0.4341,
	"step": 43
	},
	{
	"epoch": 1.1069182389937107,
	"grad_norm": 0.9174895286560059,
	"learning_rate": 7.785335584187219e-05,
	"loss": 0.3583,
	"step": 44
	},
	{
	"epoch": 1.1320754716981132,
	"grad_norm": 0.8380503058433533,
	"learning_rate": 7.664516873086987e-05,
	"loss": 0.3898,
	"step": 45
	},
	{
	"epoch": 1.1572327044025157,
	"grad_norm": 0.9413546919822693,
	"learning_rate": 7.541484888100974e-05,
	"loss": 0.4148,
	"step": 46
	},
	{
	"epoch": 1.1823899371069182,
	"grad_norm": 1.0667158365249634,
	"learning_rate": 7.416341825421754e-05,
	"loss": 0.4358,
	"step": 47
	},
	{
	"epoch": 1.2075471698113207,
	"grad_norm": 1.6355628967285156,
	"learning_rate": 7.289191634803003e-05,
	"loss": 0.535,
	"step": 48
	},
	{
	"epoch": 1.2327044025157232,
	"grad_norm": 2.1079909801483154,
	"learning_rate": 7.160139933213898e-05,
	"loss": 0.5971,
	"step": 49
	},
	{
	"epoch": 1.2578616352201257,
	"grad_norm": 0.9688711166381836,
	"learning_rate": 7.029293917108678e-05,
	"loss": 0.3642,
	"step": 50
	},
	{
	"epoch": 1.2578616352201257,
	"eval_loss": 0.40250465273857117,
	"eval_runtime": 1.357,
	"eval_samples_per_second": 49.373,
	"eval_steps_per_second": 12.527,
	"step": 50
	},
	{
	"epoch": 1.2830188679245282,
	"grad_norm": 0.8682835102081299,
	"learning_rate": 6.896762273384178e-05,
	"loss": 0.3127,
	"step": 51
	},
	{
	"epoch": 1.3081761006289307,
	"grad_norm": 0.8948720693588257,
	"learning_rate": 6.762655089099353e-05,
	"loss": 0.3749,
	"step": 52
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.8554229736328125,
	"learning_rate": 6.627083760031754e-05,
	"loss": 0.3637,
	"step": 53
	},
	{
	"epoch": 1.3584905660377358,
	"grad_norm": 0.9757639765739441,
	"learning_rate": 6.490160898146918e-05,
	"loss": 0.2847,
	"step": 54
	},
	{
	"epoch": 1.3836477987421385,
	"grad_norm": 1.135493516921997,
	"learning_rate": 6.35200023805754e-05,
	"loss": 0.3686,
	"step": 55
	},
	{
	"epoch": 1.408805031446541,
	"grad_norm": 1.8949108123779297,
	"learning_rate": 6.212716542550112e-05,
	"loss": 0.3382,
	"step": 56
	},
	{
	"epoch": 1.4339622641509435,
	"grad_norm": 1.7161883115768433,
	"learning_rate": 6.0724255072575275e-05,
	"loss": 0.4808,
	"step": 57
	},
	{
	"epoch": 1.459119496855346,
	"grad_norm": 1.8359076976776123,
	"learning_rate": 5.931243664556803e-05,
	"loss": 0.5259,
	"step": 58
	},
	{
	"epoch": 1.4842767295597485,
	"grad_norm": 0.7648423314094543,
	"learning_rate": 5.78928828677177e-05,
	"loss": 0.3778,
	"step": 59
	},
	{
	"epoch": 1.509433962264151,
	"grad_norm": 0.8067821860313416,
	"learning_rate": 5.646677288761132e-05,
	"loss": 0.3448,
	"step": 60
	},
	{
	"epoch": 1.5345911949685536,
	"grad_norm": 0.7813786864280701,
	"learning_rate": 5.503529129972792e-05,
	"loss": 0.339,
	"step": 61
	},
	{
	"epoch": 1.559748427672956,
	"grad_norm": 0.7792041897773743,
	"learning_rate": 5.359962716045835e-05,
	"loss": 0.2644,
	"step": 62
	},
	{
	"epoch": 1.5849056603773586,
	"grad_norm": 0.9082090258598328,
	"learning_rate": 5.21609730004187e-05,
	"loss": 0.2565,
	"step": 63
	},
	{
	"epoch": 1.610062893081761,
	"grad_norm": 0.9733455777168274,
	"learning_rate": 5.072052383387786e-05,
	"loss": 0.3213,
	"step": 64
	},
	{
	"epoch": 1.6352201257861636,
	"grad_norm": 0.960435152053833,
	"learning_rate": 4.927947616612215e-05,
	"loss": 0.3019,
	"step": 65
	},
	{
	"epoch": 1.6603773584905661,
	"grad_norm": 1.6576495170593262,
	"learning_rate": 4.7839026999581296e-05,
	"loss": 0.4513,
	"step": 66
	},
	{
	"epoch": 1.6855345911949686,
	"grad_norm": 1.8107895851135254,
	"learning_rate": 4.640037283954165e-05,
	"loss": 0.4877,
	"step": 67
	},
	{
	"epoch": 1.7106918238993711,
	"grad_norm": 0.639157772064209,
	"learning_rate": 4.496470870027209e-05,
	"loss": 0.2969,
	"step": 68
	},
	{
	"epoch": 1.7358490566037736,
	"grad_norm": 0.8809495568275452,
	"learning_rate": 4.3533227112388694e-05,
	"loss": 0.3093,
	"step": 69
	},
	{
	"epoch": 1.7610062893081762,
	"grad_norm": 0.8104914426803589,
	"learning_rate": 4.21071171322823e-05,
	"loss": 0.3098,
	"step": 70
	},
	{
	"epoch": 1.7861635220125787,
	"grad_norm": 0.8440978527069092,
	"learning_rate": 4.0687563354431984e-05,
	"loss": 0.2953,
	"step": 71
	},
	{
	"epoch": 1.8113207547169812,
	"grad_norm": 0.8337366580963135,
	"learning_rate": 3.927574492742473e-05,
	"loss": 0.2859,
	"step": 72
	},
	{
	"epoch": 1.8364779874213837,
	"grad_norm": 0.8279858231544495,
	"learning_rate": 3.78728345744989e-05,
	"loss": 0.2481,
	"step": 73
	},
	{
	"epoch": 1.8616352201257862,
	"grad_norm": 0.9654554724693298,
	"learning_rate": 3.6479997619424605e-05,
	"loss": 0.2819,
	"step": 74
	},
	{
	"epoch": 1.8867924528301887,
	"grad_norm": 1.6905914545059204,
	"learning_rate": 3.5098391018530816e-05,
	"loss": 0.5995,
	"step": 75
	},
	{
	"epoch": 1.9119496855345912,
	"grad_norm": 1.8605477809906006,
	"learning_rate": 3.3729162399682456e-05,
	"loss": 0.4759,
	"step": 76
	},
	{
	"epoch": 1.9371069182389937,
	"grad_norm": 0.7602652907371521,
	"learning_rate": 3.237344910900648e-05,
	"loss": 0.3107,
	"step": 77
	},
	{
	"epoch": 1.9622641509433962,
	"grad_norm": 0.8071399331092834,
	"learning_rate": 3.103237726615822e-05,
	"loss": 0.2663,
	"step": 78
	},
	{
	"epoch": 1.9874213836477987,
	"grad_norm": 1.6272022724151611,
	"learning_rate": 2.9707060828913225e-05,
	"loss": 0.409,
	"step": 79
	},
	{
	"epoch": 2.0125786163522013,
	"grad_norm": 1.3061223030090332,
	"learning_rate": 2.839860066786103e-05,
	"loss": 0.4409,
	"step": 80
	},
	{
	"epoch": 2.0377358490566038,
	"grad_norm": 0.5977674126625061,
	"learning_rate": 2.710808365197e-05,
	"loss": 0.2442,
	"step": 81
	},
	{
	"epoch": 2.0628930817610063,
	"grad_norm": 0.6834774017333984,
	"learning_rate": 2.5836581745782475e-05,
	"loss": 0.2757,
	"step": 82
	},
	{
	"epoch": 2.088050314465409,
	"grad_norm": 0.7066735625267029,
	"learning_rate": 2.4585151118990286e-05,
	"loss": 0.2006,
	"step": 83
	},
	{
	"epoch": 2.1132075471698113,
	"grad_norm": 0.6501676440238953,
	"learning_rate": 2.3354831269130133e-05,
	"loss": 0.2125,
	"step": 84
	},
	{
	"epoch": 2.138364779874214,
	"grad_norm": 0.6182856559753418,
	"learning_rate": 2.2146644158127827e-05,
	"loss": 0.1671,
	"step": 85
	},
	{
	"epoch": 2.1635220125786163,
	"grad_norm": 0.8084297180175781,
	"learning_rate": 2.0961593363408156e-05,
	"loss": 0.2286,
	"step": 86
	},
	{
	"epoch": 2.188679245283019,
	"grad_norm": 0.7915740609169006,
	"learning_rate": 1.980066324427613e-05,
	"loss": 0.186,
	"step": 87
	},
	{
	"epoch": 2.2138364779874213,
	"grad_norm": 1.525448203086853,
	"learning_rate": 1.8664818124261374e-05,
	"loss": 0.3382,
	"step": 88
	},
	{
	"epoch": 2.238993710691824,
	"grad_norm": 1.2538678646087646,
	"learning_rate": 1.7555001490105488e-05,
	"loss": 0.3341,
	"step": 89
	},
	{
	"epoch": 2.2641509433962264,
	"grad_norm": 0.5898963212966919,
	"learning_rate": 1.6472135208057126e-05,
	"loss": 0.1937,
	"step": 90
	},
	{
	"epoch": 2.289308176100629,
	"grad_norm": 0.7369837760925293,
	"learning_rate": 1.541711875812641e-05,
	"loss": 0.2273,
	"step": 91
	},
	{
	"epoch": 2.3144654088050314,
	"grad_norm": 0.7151015996932983,
	"learning_rate": 1.439082848693406e-05,
	"loss": 0.2349,
	"step": 92
	},
	{
	"epoch": 2.339622641509434,
	"grad_norm": 0.6623278260231018,
	"learning_rate": 1.339411687977657e-05,
	"loss": 0.1702,
	"step": 93
	},
	{
	"epoch": 2.3647798742138364,
	"grad_norm": 0.731364369392395,
	"learning_rate": 1.2427811852511395e-05,
	"loss": 0.2054,
	"step": 94
	},
	{
	"epoch": 2.389937106918239,
	"grad_norm": 1.0562483072280884,
	"learning_rate": 1.1492716063850973e-05,
	"loss": 0.2254,
	"step": 95
	},
	{
	"epoch": 2.4150943396226414,
	"grad_norm": 1.070011854171753,
	"learning_rate": 1.0589606248636292e-05,
	"loss": 0.2412,
	"step": 96
	},
	{
	"epoch": 2.440251572327044,
	"grad_norm": 1.4945615530014038,
	"learning_rate": 9.719232572644187e-06,
	"loss": 0.297,
	"step": 97
	},
	{
	"epoch": 2.4654088050314464,
	"grad_norm": 1.1410236358642578,
	"learning_rate": 8.882318009464125e-06,
	"loss": 0.3131,
	"step": 98
	},
	{
	"epoch": 2.490566037735849,
	"grad_norm": 0.6251071095466614,
	"learning_rate": 8.079557739962128e-06,
	"loss": 0.2219,
	"step": 99
	},
	{
	"epoch": 2.5157232704402515,
	"grad_norm": 0.7983537912368774,
	"learning_rate": 7.31161857483057e-06,
	"loss": 0.2371,
	"step": 100
	},
	{
	"epoch": 2.5157232704402515,
	"eval_loss": 0.32027119398117065,
	"eval_runtime": 1.3603,
	"eval_samples_per_second": 49.255,
	"eval_steps_per_second": 12.498,
	"step": 100
	},
	{
	"epoch": 2.540880503144654,
	"grad_norm": 0.7304105758666992,
	"learning_rate": 6.579138400703716e-06,
	"loss": 0.2125,
	"step": 101
	},
	{
	"epoch": 2.5660377358490565,
	"grad_norm": 0.6842655539512634,
	"learning_rate": 5.882725650298787e-06,
	"loss": 0.176,
	"step": 102
	},
	{
	"epoch": 2.591194968553459,
	"grad_norm": 0.8605983853340149,
	"learning_rate": 5.222958797023036e-06,
	"loss": 0.2162,
	"step": 103
	},
	{
	"epoch": 2.6163522012578615,
	"grad_norm": 0.7604213356971741,
	"learning_rate": 4.600385874466256e-06,
	"loss": 0.1974,
	"step": 104
	},
	{
	"epoch": 2.641509433962264,
	"grad_norm": 1.07295560836792,
	"learning_rate": 4.015524021178196e-06,
	"loss": 0.2702,
	"step": 105
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 1.6208587884902954,
	"learning_rate": 3.4688590511087304e-06,
	"loss": 0.3159,
	"step": 106
	},
	{
	"epoch": 2.691823899371069,
	"grad_norm": 1.2537561655044556,
	"learning_rate": 2.9608450500678565e-06,
	"loss": 0.3131,
	"step": 107
	},
	{
	"epoch": 2.7169811320754715,
	"grad_norm": 0.7774904370307922,
	"learning_rate": 2.4919039985404626e-06,
	"loss": 0.2692,
	"step": 108
	},
	{
	"epoch": 2.742138364779874,
	"grad_norm": 0.7653168439865112,
	"learning_rate": 2.0624254211693894e-06,
	"loss": 0.2267,
	"step": 109
	},
	{
	"epoch": 2.767295597484277,
	"grad_norm": 0.7065545320510864,
	"learning_rate": 1.6727660631977893e-06,
	"loss": 0.2014,
	"step": 110
	},
	{
	"epoch": 2.7924528301886795,
	"grad_norm": 0.7866085767745972,
	"learning_rate": 1.3232495941396639e-06,
	"loss": 0.1873,
	"step": 111
	},
	{
	"epoch": 2.817610062893082,
	"grad_norm": 0.7286617159843445,
	"learning_rate": 1.014166338924627e-06,
	"loss": 0.165,
	"step": 112
	},
	{
	"epoch": 2.8427672955974845,
	"grad_norm": 0.9083012938499451,
	"learning_rate": 7.457730367402549e-07,
	"loss": 0.23,
	"step": 113
	},
	{
	"epoch": 2.867924528301887,
	"grad_norm": 0.7802666425704956,
	"learning_rate": 5.18292627772382e-07,
	"loss": 0.1645,
	"step": 114
	},
	{
	"epoch": 2.8930817610062896,
	"grad_norm": 1.510367512702942,
	"learning_rate": 3.3191406802041693e-07,
	"loss": 0.3319,
	"step": 115
	},
	{
	"epoch": 2.918238993710692,
	"grad_norm": 1.282609462738037,
	"learning_rate": 1.8679217234154334e-07,
	"loss": 0.3489,
	"step": 116
	},
	{
	"epoch": 2.9433962264150946,
	"grad_norm": 0.7282307744026184,
	"learning_rate": 8.304748585417078e-08,
	"loss": 0.234,
	"step": 117
	},
	{
	"epoch": 2.968553459119497,
	"grad_norm": 3.293064832687378,
	"learning_rate": 2.076618380744133e-08,
	"loss": 0.1896,
	"step": 118
	},
	{
	"epoch": 2.9937106918238996,
	"grad_norm": 1.658855676651001,
	"learning_rate": 0.0,
	"loss": 0.3107,
	"step": 119
	}
	],
	"logging_steps": 1,
	"max_steps": 119,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.531779857403085e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}