Magnum-v4-SE-70B-LoRA / checkpoint-256 /trainer_state.json

Training in progress, step 256, checkpoint

8e6aa4a verified about 2 months ago

42.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5,
	"eval_steps": 500,
	"global_step": 256,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001953125,
	"grad_norm": 2.2842363876082494,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.7076,
	"step": 1
	},
	{
	"epoch": 0.00390625,
	"grad_norm": 2.317015212334916,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.6296,
	"step": 2
	},
	{
	"epoch": 0.005859375,
	"grad_norm": 2.0835939653262883,
	"learning_rate": 3e-06,
	"loss": 1.5593,
	"step": 3
	},
	{
	"epoch": 0.0078125,
	"grad_norm": 2.1357657121975797,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.6713,
	"step": 4
	},
	{
	"epoch": 0.009765625,
	"grad_norm": 2.0362735997756847,
	"learning_rate": 5e-06,
	"loss": 1.5327,
	"step": 5
	},
	{
	"epoch": 0.01171875,
	"grad_norm": 2.1597413317388523,
	"learning_rate": 6e-06,
	"loss": 1.6435,
	"step": 6
	},
	{
	"epoch": 0.013671875,
	"grad_norm": 2.1354234831872616,
	"learning_rate": 7e-06,
	"loss": 1.539,
	"step": 7
	},
	{
	"epoch": 0.015625,
	"grad_norm": 2.0222980997885682,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.491,
	"step": 8
	},
	{
	"epoch": 0.017578125,
	"grad_norm": 1.8336578914749888,
	"learning_rate": 9e-06,
	"loss": 1.567,
	"step": 9
	},
	{
	"epoch": 0.01953125,
	"grad_norm": 1.7535364548043673,
	"learning_rate": 1e-05,
	"loss": 1.5181,
	"step": 10
	},
	{
	"epoch": 0.021484375,
	"grad_norm": 1.348232072077207,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 1.4633,
	"step": 11
	},
	{
	"epoch": 0.0234375,
	"grad_norm": 1.079057032053978,
	"learning_rate": 1.2e-05,
	"loss": 1.36,
	"step": 12
	},
	{
	"epoch": 0.025390625,
	"grad_norm": 0.7143765277543237,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 1.3195,
	"step": 13
	},
	{
	"epoch": 0.02734375,
	"grad_norm": 0.8120880164824964,
	"learning_rate": 1.4e-05,
	"loss": 1.3469,
	"step": 14
	},
	{
	"epoch": 0.029296875,
	"grad_norm": 0.6746494578904082,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 1.3626,
	"step": 15
	},
	{
	"epoch": 0.03125,
	"grad_norm": 0.9663545707089416,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 1.2772,
	"step": 16
	},
	{
	"epoch": 0.033203125,
	"grad_norm": 0.961439588523319,
	"learning_rate": 1.7e-05,
	"loss": 1.2911,
	"step": 17
	},
	{
	"epoch": 0.03515625,
	"grad_norm": 1.1738444068957379,
	"learning_rate": 1.8e-05,
	"loss": 1.3346,
	"step": 18
	},
	{
	"epoch": 0.037109375,
	"grad_norm": 1.2332387671295317,
	"learning_rate": 1.9e-05,
	"loss": 1.3761,
	"step": 19
	},
	{
	"epoch": 0.0390625,
	"grad_norm": 1.268714744941341,
	"learning_rate": 2e-05,
	"loss": 1.3042,
	"step": 20
	},
	{
	"epoch": 0.041015625,
	"grad_norm": 1.078415802927275,
	"learning_rate": 2.1000000000000002e-05,
	"loss": 1.2102,
	"step": 21
	},
	{
	"epoch": 0.04296875,
	"grad_norm": 1.330999136602917,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 1.2755,
	"step": 22
	},
	{
	"epoch": 0.044921875,
	"grad_norm": 0.7130882289363479,
	"learning_rate": 2.3e-05,
	"loss": 1.1706,
	"step": 23
	},
	{
	"epoch": 0.046875,
	"grad_norm": 0.5729960230193528,
	"learning_rate": 2.4e-05,
	"loss": 1.3215,
	"step": 24
	},
	{
	"epoch": 0.048828125,
	"grad_norm": 0.6125271472968751,
	"learning_rate": 2.5e-05,
	"loss": 1.3213,
	"step": 25
	},
	{
	"epoch": 0.05078125,
	"grad_norm": 0.6108864130655043,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 1.2865,
	"step": 26
	},
	{
	"epoch": 0.052734375,
	"grad_norm": 0.6479528408256864,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 1.3383,
	"step": 27
	},
	{
	"epoch": 0.0546875,
	"grad_norm": 0.8412108818700305,
	"learning_rate": 2.8e-05,
	"loss": 1.2763,
	"step": 28
	},
	{
	"epoch": 0.056640625,
	"grad_norm": 0.8629612077288169,
	"learning_rate": 2.9e-05,
	"loss": 1.3045,
	"step": 29
	},
	{
	"epoch": 0.05859375,
	"grad_norm": 0.7600858737745863,
	"learning_rate": 3.0000000000000004e-05,
	"loss": 1.2352,
	"step": 30
	},
	{
	"epoch": 0.060546875,
	"grad_norm": 0.7130629485255873,
	"learning_rate": 3.1e-05,
	"loss": 1.2299,
	"step": 31
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.5912964724458128,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 1.2234,
	"step": 32
	},
	{
	"epoch": 0.064453125,
	"grad_norm": 0.5368820032381596,
	"learning_rate": 3.3e-05,
	"loss": 1.1934,
	"step": 33
	},
	{
	"epoch": 0.06640625,
	"grad_norm": 0.5570421986755116,
	"learning_rate": 3.4e-05,
	"loss": 1.2581,
	"step": 34
	},
	{
	"epoch": 0.068359375,
	"grad_norm": 0.46598864760360764,
	"learning_rate": 3.5000000000000004e-05,
	"loss": 1.2535,
	"step": 35
	},
	{
	"epoch": 0.0703125,
	"grad_norm": 0.6392299897042107,
	"learning_rate": 3.6e-05,
	"loss": 1.2331,
	"step": 36
	},
	{
	"epoch": 0.072265625,
	"grad_norm": 0.49983937474417145,
	"learning_rate": 3.7000000000000005e-05,
	"loss": 1.2432,
	"step": 37
	},
	{
	"epoch": 0.07421875,
	"grad_norm": 0.652858138736506,
	"learning_rate": 3.8e-05,
	"loss": 1.2759,
	"step": 38
	},
	{
	"epoch": 0.076171875,
	"grad_norm": 0.5926189930170476,
	"learning_rate": 3.9e-05,
	"loss": 1.3016,
	"step": 39
	},
	{
	"epoch": 0.078125,
	"grad_norm": 0.6646763351870284,
	"learning_rate": 4e-05,
	"loss": 1.344,
	"step": 40
	},
	{
	"epoch": 0.080078125,
	"grad_norm": 0.6228429864196855,
	"learning_rate": 3.99998980683206e-05,
	"loss": 1.2794,
	"step": 41
	},
	{
	"epoch": 0.08203125,
	"grad_norm": 0.5633101870154669,
	"learning_rate": 3.9999592274321385e-05,
	"loss": 1.2931,
	"step": 42
	},
	{
	"epoch": 0.083984375,
	"grad_norm": 0.6866774046182069,
	"learning_rate": 3.999908262111937e-05,
	"loss": 1.2647,
	"step": 43
	},
	{
	"epoch": 0.0859375,
	"grad_norm": 0.5312790576505163,
	"learning_rate": 3.9998369113909555e-05,
	"loss": 1.2255,
	"step": 44
	},
	{
	"epoch": 0.087890625,
	"grad_norm": 0.5694229658922494,
	"learning_rate": 3.999745175996481e-05,
	"loss": 1.3104,
	"step": 45
	},
	{
	"epoch": 0.08984375,
	"grad_norm": 0.5068013674566277,
	"learning_rate": 3.999633056863589e-05,
	"loss": 1.1771,
	"step": 46
	},
	{
	"epoch": 0.091796875,
	"grad_norm": 0.5428027277075501,
	"learning_rate": 3.999500555135129e-05,
	"loss": 1.3508,
	"step": 47
	},
	{
	"epoch": 0.09375,
	"grad_norm": 0.4792441915562371,
	"learning_rate": 3.999347672161713e-05,
	"loss": 1.1144,
	"step": 48
	},
	{
	"epoch": 0.095703125,
	"grad_norm": 0.5033945174929487,
	"learning_rate": 3.999174409501703e-05,
	"loss": 1.1474,
	"step": 49
	},
	{
	"epoch": 0.09765625,
	"grad_norm": 0.5609150975698594,
	"learning_rate": 3.9989807689211946e-05,
	"loss": 1.2558,
	"step": 50
	},
	{
	"epoch": 0.099609375,
	"grad_norm": 0.5558707293914855,
	"learning_rate": 3.998766752393998e-05,
	"loss": 1.1411,
	"step": 51
	},
	{
	"epoch": 0.1015625,
	"grad_norm": 0.4429585853749615,
	"learning_rate": 3.99853236210162e-05,
	"loss": 1.1715,
	"step": 52
	},
	{
	"epoch": 0.103515625,
	"grad_norm": 0.5064052852591816,
	"learning_rate": 3.998277600433241e-05,
	"loss": 1.2018,
	"step": 53
	},
	{
	"epoch": 0.10546875,
	"grad_norm": 0.526020419983389,
	"learning_rate": 3.998002469985688e-05,
	"loss": 1.1164,
	"step": 54
	},
	{
	"epoch": 0.107421875,
	"grad_norm": 0.504222879676158,
	"learning_rate": 3.997706973563413e-05,
	"loss": 1.191,
	"step": 55
	},
	{
	"epoch": 0.109375,
	"grad_norm": 0.5614145336635687,
	"learning_rate": 3.9973911141784605e-05,
	"loss": 1.3011,
	"step": 56
	},
	{
	"epoch": 0.111328125,
	"grad_norm": 0.4391770801146478,
	"learning_rate": 3.997054895050437e-05,
	"loss": 1.2535,
	"step": 57
	},
	{
	"epoch": 0.11328125,
	"grad_norm": 0.5583307267784473,
	"learning_rate": 3.996698319606482e-05,
	"loss": 1.153,
	"step": 58
	},
	{
	"epoch": 0.115234375,
	"grad_norm": 0.4576133947689655,
	"learning_rate": 3.996321391481229e-05,
	"loss": 1.1564,
	"step": 59
	},
	{
	"epoch": 0.1171875,
	"grad_norm": 0.41970646962377184,
	"learning_rate": 3.995924114516769e-05,
	"loss": 1.1935,
	"step": 60
	},
	{
	"epoch": 0.119140625,
	"grad_norm": 0.44805324266797203,
	"learning_rate": 3.995506492762613e-05,
	"loss": 1.1339,
	"step": 61
	},
	{
	"epoch": 0.12109375,
	"grad_norm": 0.5208068893189155,
	"learning_rate": 3.9950685304756494e-05,
	"loss": 1.2092,
	"step": 62
	},
	{
	"epoch": 0.123046875,
	"grad_norm": 0.44195618774115664,
	"learning_rate": 3.994610232120101e-05,
	"loss": 1.1292,
	"step": 63
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.4514887790554273,
	"learning_rate": 3.994131602367481e-05,
	"loss": 1.1658,
	"step": 64
	},
	{
	"epoch": 0.126953125,
	"grad_norm": 0.5908686231033371,
	"learning_rate": 3.9936326460965423e-05,
	"loss": 1.2076,
	"step": 65
	},
	{
	"epoch": 0.12890625,
	"grad_norm": 0.46799815417666174,
	"learning_rate": 3.99311336839323e-05,
	"loss": 1.1889,
	"step": 66
	},
	{
	"epoch": 0.130859375,
	"grad_norm": 0.45939729407525115,
	"learning_rate": 3.992573774550629e-05,
	"loss": 1.1704,
	"step": 67
	},
	{
	"epoch": 0.1328125,
	"grad_norm": 0.4142175477343616,
	"learning_rate": 3.9920138700689095e-05,
	"loss": 1.1848,
	"step": 68
	},
	{
	"epoch": 0.134765625,
	"grad_norm": 0.37685838553537837,
	"learning_rate": 3.991433660655273e-05,
	"loss": 1.1041,
	"step": 69
	},
	{
	"epoch": 0.13671875,
	"grad_norm": 0.39832807246827023,
	"learning_rate": 3.99083315222389e-05,
	"loss": 1.2002,
	"step": 70
	},
	{
	"epoch": 0.138671875,
	"grad_norm": 0.43218323629933336,
	"learning_rate": 3.990212350895845e-05,
	"loss": 1.1487,
	"step": 71
	},
	{
	"epoch": 0.140625,
	"grad_norm": 0.43302460007599547,
	"learning_rate": 3.98957126299907e-05,
	"loss": 1.1638,
	"step": 72
	},
	{
	"epoch": 0.142578125,
	"grad_norm": 0.41150363252077565,
	"learning_rate": 3.988909895068281e-05,
	"loss": 1.1353,
	"step": 73
	},
	{
	"epoch": 0.14453125,
	"grad_norm": 0.4362254605938381,
	"learning_rate": 3.988228253844913e-05,
	"loss": 1.2202,
	"step": 74
	},
	{
	"epoch": 0.146484375,
	"grad_norm": 0.4696684841153936,
	"learning_rate": 3.987526346277049e-05,
	"loss": 1.1722,
	"step": 75
	},
	{
	"epoch": 0.1484375,
	"grad_norm": 0.42274900639715757,
	"learning_rate": 3.9868041795193505e-05,
	"loss": 1.179,
	"step": 76
	},
	{
	"epoch": 0.150390625,
	"grad_norm": 0.47381294364503707,
	"learning_rate": 3.9860617609329856e-05,
	"loss": 1.1978,
	"step": 77
	},
	{
	"epoch": 0.15234375,
	"grad_norm": 0.448192967722078,
	"learning_rate": 3.9852990980855505e-05,
	"loss": 1.2042,
	"step": 78
	},
	{
	"epoch": 0.154296875,
	"grad_norm": 0.388483486919693,
	"learning_rate": 3.984516198750997e-05,
	"loss": 1.148,
	"step": 79
	},
	{
	"epoch": 0.15625,
	"grad_norm": 0.4057112657252388,
	"learning_rate": 3.9837130709095475e-05,
	"loss": 1.1267,
	"step": 80
	},
	{
	"epoch": 0.158203125,
	"grad_norm": 0.5111257616377479,
	"learning_rate": 3.982889722747621e-05,
	"loss": 1.1992,
	"step": 81
	},
	{
	"epoch": 0.16015625,
	"grad_norm": 0.42800919524357695,
	"learning_rate": 3.9820461626577426e-05,
	"loss": 1.2214,
	"step": 82
	},
	{
	"epoch": 0.162109375,
	"grad_norm": 0.6604320971658805,
	"learning_rate": 3.981182399238462e-05,
	"loss": 1.1046,
	"step": 83
	},
	{
	"epoch": 0.1640625,
	"grad_norm": 0.4650529995861808,
	"learning_rate": 3.980298441294265e-05,
	"loss": 1.1485,
	"step": 84
	},
	{
	"epoch": 0.166015625,
	"grad_norm": 0.8247014006092652,
	"learning_rate": 3.9793942978354835e-05,
	"loss": 1.2345,
	"step": 85
	},
	{
	"epoch": 0.16796875,
	"grad_norm": 0.5111463246016623,
	"learning_rate": 3.978469978078203e-05,
	"loss": 1.1406,
	"step": 86
	},
	{
	"epoch": 0.169921875,
	"grad_norm": 0.3980549366997817,
	"learning_rate": 3.977525491444171e-05,
	"loss": 1.138,
	"step": 87
	},
	{
	"epoch": 0.171875,
	"grad_norm": 0.4500013345653544,
	"learning_rate": 3.976560847560697e-05,
	"loss": 1.1803,
	"step": 88
	},
	{
	"epoch": 0.173828125,
	"grad_norm": 0.6144879263096161,
	"learning_rate": 3.975576056260559e-05,
	"loss": 1.376,
	"step": 89
	},
	{
	"epoch": 0.17578125,
	"grad_norm": 0.45250166677505255,
	"learning_rate": 3.974571127581901e-05,
	"loss": 1.2616,
	"step": 90
	},
	{
	"epoch": 0.177734375,
	"grad_norm": 0.7260361194779941,
	"learning_rate": 3.973546071768128e-05,
	"loss": 1.207,
	"step": 91
	},
	{
	"epoch": 0.1796875,
	"grad_norm": 0.40590569325939646,
	"learning_rate": 3.972500899267807e-05,
	"loss": 1.1857,
	"step": 92
	},
	{
	"epoch": 0.181640625,
	"grad_norm": 0.7059204956983739,
	"learning_rate": 3.971435620734557e-05,
	"loss": 1.1629,
	"step": 93
	},
	{
	"epoch": 0.18359375,
	"grad_norm": 0.4166494769492577,
	"learning_rate": 3.97035024702694e-05,
	"loss": 1.2105,
	"step": 94
	},
	{
	"epoch": 0.185546875,
	"grad_norm": 0.4708428232528331,
	"learning_rate": 3.969244789208354e-05,
	"loss": 1.2074,
	"step": 95
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.46187395897944283,
	"learning_rate": 3.9681192585469146e-05,
	"loss": 1.2411,
	"step": 96
	},
	{
	"epoch": 0.189453125,
	"grad_norm": 0.40887786827875044,
	"learning_rate": 3.9669736665153455e-05,
	"loss": 1.181,
	"step": 97
	},
	{
	"epoch": 0.19140625,
	"grad_norm": 0.5783677933870661,
	"learning_rate": 3.96580802479086e-05,
	"loss": 1.2412,
	"step": 98
	},
	{
	"epoch": 0.193359375,
	"grad_norm": 0.46098155681455955,
	"learning_rate": 3.9646223452550374e-05,
	"loss": 1.0478,
	"step": 99
	},
	{
	"epoch": 0.1953125,
	"grad_norm": 0.4421189367731534,
	"learning_rate": 3.9634166399937104e-05,
	"loss": 1.1528,
	"step": 100
	},
	{
	"epoch": 0.197265625,
	"grad_norm": 0.44208897843282735,
	"learning_rate": 3.962190921296834e-05,
	"loss": 1.1294,
	"step": 101
	},
	{
	"epoch": 0.19921875,
	"grad_norm": 0.41115810620405063,
	"learning_rate": 3.9609452016583654e-05,
	"loss": 1.0787,
	"step": 102
	},
	{
	"epoch": 0.201171875,
	"grad_norm": 0.4592703963732682,
	"learning_rate": 3.959679493776134e-05,
	"loss": 1.2084,
	"step": 103
	},
	{
	"epoch": 0.203125,
	"grad_norm": 0.46514364761525706,
	"learning_rate": 3.9583938105517127e-05,
	"loss": 1.169,
	"step": 104
	},
	{
	"epoch": 0.205078125,
	"grad_norm": 0.5044144386089332,
	"learning_rate": 3.957088165090287e-05,
	"loss": 1.121,
	"step": 105
	},
	{
	"epoch": 0.20703125,
	"grad_norm": 0.4160320267546915,
	"learning_rate": 3.9557625707005185e-05,
	"loss": 1.1133,
	"step": 106
	},
	{
	"epoch": 0.208984375,
	"grad_norm": 0.46611013560363507,
	"learning_rate": 3.954417040894416e-05,
	"loss": 1.0846,
	"step": 107
	},
	{
	"epoch": 0.2109375,
	"grad_norm": 0.494489354902747,
	"learning_rate": 3.953051589387189e-05,
	"loss": 1.1762,
	"step": 108
	},
	{
	"epoch": 0.212890625,
	"grad_norm": 0.4226200871032249,
	"learning_rate": 3.951666230097115e-05,
	"loss": 1.0346,
	"step": 109
	},
	{
	"epoch": 0.21484375,
	"grad_norm": 0.4032354878018358,
	"learning_rate": 3.9502609771453934e-05,
	"loss": 1.1223,
	"step": 110
	},
	{
	"epoch": 0.216796875,
	"grad_norm": 0.4148468151686513,
	"learning_rate": 3.948835844856004e-05,
	"loss": 1.1581,
	"step": 111
	},
	{
	"epoch": 0.21875,
	"grad_norm": 0.4655201875464092,
	"learning_rate": 3.947390847755559e-05,
	"loss": 1.141,
	"step": 112
	},
	{
	"epoch": 0.220703125,
	"grad_norm": 0.44131202754652804,
	"learning_rate": 3.945926000573156e-05,
	"loss": 1.228,
	"step": 113
	},
	{
	"epoch": 0.22265625,
	"grad_norm": 0.4878464713519324,
	"learning_rate": 3.94444131824023e-05,
	"loss": 1.2023,
	"step": 114
	},
	{
	"epoch": 0.224609375,
	"grad_norm": 0.4433704308856408,
	"learning_rate": 3.942936815890396e-05,
	"loss": 1.2479,
	"step": 115
	},
	{
	"epoch": 0.2265625,
	"grad_norm": 0.4848454824446459,
	"learning_rate": 3.941412508859299e-05,
	"loss": 1.1269,
	"step": 116
	},
	{
	"epoch": 0.228515625,
	"grad_norm": 0.419630467357436,
	"learning_rate": 3.939868412684458e-05,
	"loss": 1.1806,
	"step": 117
	},
	{
	"epoch": 0.23046875,
	"grad_norm": 0.39683375502836515,
	"learning_rate": 3.938304543105104e-05,
	"loss": 1.1054,
	"step": 118
	},
	{
	"epoch": 0.232421875,
	"grad_norm": 0.4832371787668091,
	"learning_rate": 3.936720916062022e-05,
	"loss": 1.1174,
	"step": 119
	},
	{
	"epoch": 0.234375,
	"grad_norm": 0.5986867637436046,
	"learning_rate": 3.935117547697387e-05,
	"loss": 1.1791,
	"step": 120
	},
	{
	"epoch": 0.236328125,
	"grad_norm": 0.4150490343483682,
	"learning_rate": 3.933494454354605e-05,
	"loss": 1.2129,
	"step": 121
	},
	{
	"epoch": 0.23828125,
	"grad_norm": 0.4215588087170942,
	"learning_rate": 3.931851652578137e-05,
	"loss": 1.1414,
	"step": 122
	},
	{
	"epoch": 0.240234375,
	"grad_norm": 0.42515318009071157,
	"learning_rate": 3.9301891591133377e-05,
	"loss": 1.0854,
	"step": 123
	},
	{
	"epoch": 0.2421875,
	"grad_norm": 0.4488701042494301,
	"learning_rate": 3.928506990906282e-05,
	"loss": 1.0725,
	"step": 124
	},
	{
	"epoch": 0.244140625,
	"grad_norm": 0.41531581194897543,
	"learning_rate": 3.9268051651035944e-05,
	"loss": 1.0746,
	"step": 125
	},
	{
	"epoch": 0.24609375,
	"grad_norm": 0.46204021714125687,
	"learning_rate": 3.9250836990522685e-05,
	"loss": 1.2164,
	"step": 126
	},
	{
	"epoch": 0.248046875,
	"grad_norm": 0.6677384727690392,
	"learning_rate": 3.923342610299499e-05,
	"loss": 1.1834,
	"step": 127
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.4961785465516465,
	"learning_rate": 3.9215819165924956e-05,
	"loss": 1.2178,
	"step": 128
	},
	{
	"epoch": 0.251953125,
	"grad_norm": 0.4651476735438144,
	"learning_rate": 3.919801635878305e-05,
	"loss": 1.1005,
	"step": 129
	},
	{
	"epoch": 0.25390625,
	"grad_norm": 0.49434332973849215,
	"learning_rate": 3.918001786303627e-05,
	"loss": 1.1922,
	"step": 130
	},
	{
	"epoch": 0.255859375,
	"grad_norm": 0.45671514667179935,
	"learning_rate": 3.9161823862146297e-05,
	"loss": 1.0617,
	"step": 131
	},
	{
	"epoch": 0.2578125,
	"grad_norm": 0.49674226929417115,
	"learning_rate": 3.9143434541567654e-05,
	"loss": 1.2203,
	"step": 132
	},
	{
	"epoch": 0.259765625,
	"grad_norm": 0.5208683235687923,
	"learning_rate": 3.912485008874577e-05,
	"loss": 1.1587,
	"step": 133
	},
	{
	"epoch": 0.26171875,
	"grad_norm": 0.517022288962491,
	"learning_rate": 3.9106070693115087e-05,
	"loss": 1.1427,
	"step": 134
	},
	{
	"epoch": 0.263671875,
	"grad_norm": 0.38942661826422087,
	"learning_rate": 3.908709654609715e-05,
	"loss": 1.0629,
	"step": 135
	},
	{
	"epoch": 0.265625,
	"grad_norm": 0.4564236281556844,
	"learning_rate": 3.9067927841098614e-05,
	"loss": 1.0919,
	"step": 136
	},
	{
	"epoch": 0.267578125,
	"grad_norm": 0.4929559987928741,
	"learning_rate": 3.9048564773509314e-05,
	"loss": 1.1502,
	"step": 137
	},
	{
	"epoch": 0.26953125,
	"grad_norm": 0.48513251932309925,
	"learning_rate": 3.902900754070025e-05,
	"loss": 1.1158,
	"step": 138
	},
	{
	"epoch": 0.271484375,
	"grad_norm": 0.5349569441078609,
	"learning_rate": 3.900925634202158e-05,
	"loss": 1.1279,
	"step": 139
	},
	{
	"epoch": 0.2734375,
	"grad_norm": 0.47177459620840684,
	"learning_rate": 3.898931137880059e-05,
	"loss": 1.1595,
	"step": 140
	},
	{
	"epoch": 0.275390625,
	"grad_norm": 0.4904546697998669,
	"learning_rate": 3.896917285433964e-05,
	"loss": 1.2615,
	"step": 141
	},
	{
	"epoch": 0.27734375,
	"grad_norm": 0.5768180408665089,
	"learning_rate": 3.894884097391409e-05,
	"loss": 1.1688,
	"step": 142
	},
	{
	"epoch": 0.279296875,
	"grad_norm": 0.4362108519904031,
	"learning_rate": 3.892831594477021e-05,
	"loss": 1.0983,
	"step": 143
	},
	{
	"epoch": 0.28125,
	"grad_norm": 0.4570710320413065,
	"learning_rate": 3.890759797612307e-05,
	"loss": 1.3706,
	"step": 144
	},
	{
	"epoch": 0.283203125,
	"grad_norm": 0.4465318663671251,
	"learning_rate": 3.888668727915441e-05,
	"loss": 1.1377,
	"step": 145
	},
	{
	"epoch": 0.28515625,
	"grad_norm": 0.5047852656660148,
	"learning_rate": 3.886558406701046e-05,
	"loss": 1.0747,
	"step": 146
	},
	{
	"epoch": 0.287109375,
	"grad_norm": 0.4412295789497703,
	"learning_rate": 3.884428855479983e-05,
	"loss": 1.1261,
	"step": 147
	},
	{
	"epoch": 0.2890625,
	"grad_norm": 0.4476476539228374,
	"learning_rate": 3.8822800959591236e-05,
	"loss": 1.1769,
	"step": 148
	},
	{
	"epoch": 0.291015625,
	"grad_norm": 0.45924117326794117,
	"learning_rate": 3.880112150041134e-05,
	"loss": 1.1564,
	"step": 149
	},
	{
	"epoch": 0.29296875,
	"grad_norm": 0.43931168833110684,
	"learning_rate": 3.877925039824253e-05,
	"loss": 1.1682,
	"step": 150
	},
	{
	"epoch": 0.294921875,
	"grad_norm": 0.5438637955362605,
	"learning_rate": 3.8757187876020603e-05,
	"loss": 1.1448,
	"step": 151
	},
	{
	"epoch": 0.296875,
	"grad_norm": 0.42928963297461137,
	"learning_rate": 3.873493415863256e-05,
	"loss": 1.2078,
	"step": 152
	},
	{
	"epoch": 0.298828125,
	"grad_norm": 0.4381709802123583,
	"learning_rate": 3.8712489472914286e-05,
	"loss": 1.0604,
	"step": 153
	},
	{
	"epoch": 0.30078125,
	"grad_norm": 0.4988490117613772,
	"learning_rate": 3.8689854047648224e-05,
	"loss": 1.1424,
	"step": 154
	},
	{
	"epoch": 0.302734375,
	"grad_norm": 0.4257038437137218,
	"learning_rate": 3.866702811356107e-05,
	"loss": 1.0955,
	"step": 155
	},
	{
	"epoch": 0.3046875,
	"grad_norm": 0.4893472968930594,
	"learning_rate": 3.86440119033214e-05,
	"loss": 1.1854,
	"step": 156
	},
	{
	"epoch": 0.306640625,
	"grad_norm": 0.5731240348991923,
	"learning_rate": 3.862080565153731e-05,
	"loss": 1.2505,
	"step": 157
	},
	{
	"epoch": 0.30859375,
	"grad_norm": 0.4594995644663965,
	"learning_rate": 3.8597409594754025e-05,
	"loss": 1.1047,
	"step": 158
	},
	{
	"epoch": 0.310546875,
	"grad_norm": 0.3898970756217597,
	"learning_rate": 3.857382397145148e-05,
	"loss": 1.1728,
	"step": 159
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.5165759238716673,
	"learning_rate": 3.85500490220419e-05,
	"loss": 1.1232,
	"step": 160
	},
	{
	"epoch": 0.314453125,
	"grad_norm": 0.42169317869735606,
	"learning_rate": 3.852608498886732e-05,
	"loss": 1.1087,
	"step": 161
	},
	{
	"epoch": 0.31640625,
	"grad_norm": 0.4831766592421198,
	"learning_rate": 3.850193211619718e-05,
	"loss": 1.0902,
	"step": 162
	},
	{
	"epoch": 0.318359375,
	"grad_norm": 0.5168422003190449,
	"learning_rate": 3.8477590650225735e-05,
	"loss": 1.1979,
	"step": 163
	},
	{
	"epoch": 0.3203125,
	"grad_norm": 0.44267326014624,
	"learning_rate": 3.845306083906967e-05,
	"loss": 1.1311,
	"step": 164
	},
	{
	"epoch": 0.322265625,
	"grad_norm": 0.42634229457641887,
	"learning_rate": 3.842834293276545e-05,
	"loss": 1.1729,
	"step": 165
	},
	{
	"epoch": 0.32421875,
	"grad_norm": 0.40628491116146026,
	"learning_rate": 3.8403437183266834e-05,
	"loss": 1.0984,
	"step": 166
	},
	{
	"epoch": 0.326171875,
	"grad_norm": 0.4159045672550255,
	"learning_rate": 3.8378343844442344e-05,
	"loss": 1.1731,
	"step": 167
	},
	{
	"epoch": 0.328125,
	"grad_norm": 0.5968785135150301,
	"learning_rate": 3.8353063172072564e-05,
	"loss": 1.0247,
	"step": 168
	},
	{
	"epoch": 0.330078125,
	"grad_norm": 0.4649591605790638,
	"learning_rate": 3.8327595423847645e-05,
	"loss": 1.139,
	"step": 169
	},
	{
	"epoch": 0.33203125,
	"grad_norm": 0.48079030109724175,
	"learning_rate": 3.830194085936463e-05,
	"loss": 1.1268,
	"step": 170
	},
	{
	"epoch": 0.333984375,
	"grad_norm": 0.46348618416181137,
	"learning_rate": 3.8276099740124794e-05,
	"loss": 1.2004,
	"step": 171
	},
	{
	"epoch": 0.3359375,
	"grad_norm": 0.4832617358199499,
	"learning_rate": 3.8250072329531004e-05,
	"loss": 1.0743,
	"step": 172
	},
	{
	"epoch": 0.337890625,
	"grad_norm": 0.4420229534375586,
	"learning_rate": 3.822385889288503e-05,
	"loss": 1.141,
	"step": 173
	},
	{
	"epoch": 0.33984375,
	"grad_norm": 0.39752191495545935,
	"learning_rate": 3.819745969738484e-05,
	"loss": 1.0972,
	"step": 174
	},
	{
	"epoch": 0.341796875,
	"grad_norm": 0.4411421700040708,
	"learning_rate": 3.817087501212185e-05,
	"loss": 1.0233,
	"step": 175
	},
	{
	"epoch": 0.34375,
	"grad_norm": 0.4017237336736879,
	"learning_rate": 3.8144105108078246e-05,
	"loss": 1.1563,
	"step": 176
	},
	{
	"epoch": 0.345703125,
	"grad_norm": 0.686922962042273,
	"learning_rate": 3.8117150258124134e-05,
	"loss": 1.147,
	"step": 177
	},
	{
	"epoch": 0.34765625,
	"grad_norm": 0.4294357539370898,
	"learning_rate": 3.8090010737014836e-05,
	"loss": 1.1116,
	"step": 178
	},
	{
	"epoch": 0.349609375,
	"grad_norm": 0.41962832297995667,
	"learning_rate": 3.806268682138805e-05,
	"loss": 1.0827,
	"step": 179
	},
	{
	"epoch": 0.3515625,
	"grad_norm": 0.4413195950046206,
	"learning_rate": 3.803517878976103e-05,
	"loss": 1.0814,
	"step": 180
	},
	{
	"epoch": 0.353515625,
	"grad_norm": 0.45365068157119814,
	"learning_rate": 3.8007486922527774e-05,
	"loss": 1.0599,
	"step": 181
	},
	{
	"epoch": 0.35546875,
	"grad_norm": 0.5286445380979327,
	"learning_rate": 3.7979611501956124e-05,
	"loss": 1.2251,
	"step": 182
	},
	{
	"epoch": 0.357421875,
	"grad_norm": 0.38599209970455534,
	"learning_rate": 3.795155281218493e-05,
	"loss": 1.1676,
	"step": 183
	},
	{
	"epoch": 0.359375,
	"grad_norm": 0.44025531979392435,
	"learning_rate": 3.7923311139221114e-05,
	"loss": 1.0514,
	"step": 184
	},
	{
	"epoch": 0.361328125,
	"grad_norm": 0.42167205583593925,
	"learning_rate": 3.789488677093681e-05,
	"loss": 1.1002,
	"step": 185
	},
	{
	"epoch": 0.36328125,
	"grad_norm": 0.4466402130651366,
	"learning_rate": 3.786627999706638e-05,
	"loss": 1.1013,
	"step": 186
	},
	{
	"epoch": 0.365234375,
	"grad_norm": 0.496760952886551,
	"learning_rate": 3.783749110920345e-05,
	"loss": 1.1465,
	"step": 187
	},
	{
	"epoch": 0.3671875,
	"grad_norm": 0.4367613213432748,
	"learning_rate": 3.780852040079802e-05,
	"loss": 1.0657,
	"step": 188
	},
	{
	"epoch": 0.369140625,
	"grad_norm": 0.41447069424638583,
	"learning_rate": 3.777936816715336e-05,
	"loss": 1.116,
	"step": 189
	},
	{
	"epoch": 0.37109375,
	"grad_norm": 0.4361134375016492,
	"learning_rate": 3.7750034705423095e-05,
	"loss": 1.2767,
	"step": 190
	},
	{
	"epoch": 0.373046875,
	"grad_norm": 0.4066150259484398,
	"learning_rate": 3.772052031460812e-05,
	"loss": 1.0785,
	"step": 191
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.40407841923262816,
	"learning_rate": 3.769082529555359e-05,
	"loss": 1.1644,
	"step": 192
	},
	{
	"epoch": 0.376953125,
	"grad_norm": 0.44561296429853814,
	"learning_rate": 3.766094995094581e-05,
	"loss": 1.0663,
	"step": 193
	},
	{
	"epoch": 0.37890625,
	"grad_norm": 0.5352430776738828,
	"learning_rate": 3.7630894585309195e-05,
	"loss": 1.0209,
	"step": 194
	},
	{
	"epoch": 0.380859375,
	"grad_norm": 0.43636357529723163,
	"learning_rate": 3.7600659505003125e-05,
	"loss": 1.0621,
	"step": 195
	},
	{
	"epoch": 0.3828125,
	"grad_norm": 0.4264879021475797,
	"learning_rate": 3.757024501821885e-05,
	"loss": 1.1336,
	"step": 196
	},
	{
	"epoch": 0.384765625,
	"grad_norm": 0.3873402520476977,
	"learning_rate": 3.753965143497635e-05,
	"loss": 1.1378,
	"step": 197
	},
	{
	"epoch": 0.38671875,
	"grad_norm": 0.40092066811193233,
	"learning_rate": 3.750887906712115e-05,
	"loss": 1.0685,
	"step": 198
	},
	{
	"epoch": 0.388671875,
	"grad_norm": 0.43572366333630774,
	"learning_rate": 3.747792822832117e-05,
	"loss": 1.1723,
	"step": 199
	},
	{
	"epoch": 0.390625,
	"grad_norm": 0.37730662296410905,
	"learning_rate": 3.744679923406351e-05,
	"loss": 1.0823,
	"step": 200
	},
	{
	"epoch": 0.392578125,
	"grad_norm": 0.4578098403628755,
	"learning_rate": 3.741549240165122e-05,
	"loss": 1.1354,
	"step": 201
	},
	{
	"epoch": 0.39453125,
	"grad_norm": 0.4402925550279655,
	"learning_rate": 3.738400805020011e-05,
	"loss": 1.0921,
	"step": 202
	},
	{
	"epoch": 0.396484375,
	"grad_norm": 0.3814506298253285,
	"learning_rate": 3.7352346500635466e-05,
	"loss": 1.0813,
	"step": 203
	},
	{
	"epoch": 0.3984375,
	"grad_norm": 0.5352313284178145,
	"learning_rate": 3.732050807568878e-05,
	"loss": 1.2286,
	"step": 204
	},
	{
	"epoch": 0.400390625,
	"grad_norm": 0.4394941726895711,
	"learning_rate": 3.728849309989445e-05,
	"loss": 1.1362,
	"step": 205
	},
	{
	"epoch": 0.40234375,
	"grad_norm": 0.40009193940161264,
	"learning_rate": 3.7256301899586524e-05,
	"loss": 1.014,
	"step": 206
	},
	{
	"epoch": 0.404296875,
	"grad_norm": 0.4093033957375515,
	"learning_rate": 3.7223934802895294e-05,
	"loss": 1.0731,
	"step": 207
	},
	{
	"epoch": 0.40625,
	"grad_norm": 0.47801078784248796,
	"learning_rate": 3.719139213974403e-05,
	"loss": 1.2081,
	"step": 208
	},
	{
	"epoch": 0.408203125,
	"grad_norm": 0.5965083454407833,
	"learning_rate": 3.715867424184554e-05,
	"loss": 1.1495,
	"step": 209
	},
	{
	"epoch": 0.41015625,
	"grad_norm": 0.43672026913516004,
	"learning_rate": 3.712578144269887e-05,
	"loss": 1.1201,
	"step": 210
	},
	{
	"epoch": 0.412109375,
	"grad_norm": 0.5253144641112631,
	"learning_rate": 3.7092714077585836e-05,
	"loss": 1.2268,
	"step": 211
	},
	{
	"epoch": 0.4140625,
	"grad_norm": 0.4738073414405108,
	"learning_rate": 3.705947248356765e-05,
	"loss": 1.1188,
	"step": 212
	},
	{
	"epoch": 0.416015625,
	"grad_norm": 0.4477140058126639,
	"learning_rate": 3.7026056999481464e-05,
	"loss": 1.0571,
	"step": 213
	},
	{
	"epoch": 0.41796875,
	"grad_norm": 0.4471574730565842,
	"learning_rate": 3.699246796593692e-05,
	"loss": 1.0847,
	"step": 214
	},
	{
	"epoch": 0.419921875,
	"grad_norm": 0.41405988952981876,
	"learning_rate": 3.6958705725312655e-05,
	"loss": 1.1401,
	"step": 215
	},
	{
	"epoch": 0.421875,
	"grad_norm": 0.49370245896699827,
	"learning_rate": 3.692477062175289e-05,
	"loss": 1.0703,
	"step": 216
	},
	{
	"epoch": 0.423828125,
	"grad_norm": 0.4406399072344879,
	"learning_rate": 3.689066300116381e-05,
	"loss": 1.1793,
	"step": 217
	},
	{
	"epoch": 0.42578125,
	"grad_norm": 0.43483619180179833,
	"learning_rate": 3.6856383211210134e-05,
	"loss": 1.1305,
	"step": 218
	},
	{
	"epoch": 0.427734375,
	"grad_norm": 0.43256055966703133,
	"learning_rate": 3.682193160131152e-05,
	"loss": 1.0943,
	"step": 219
	},
	{
	"epoch": 0.4296875,
	"grad_norm": 0.5598257236379292,
	"learning_rate": 3.678730852263901e-05,
	"loss": 1.2309,
	"step": 220
	},
	{
	"epoch": 0.431640625,
	"grad_norm": 0.39045352547405415,
	"learning_rate": 3.675251432811144e-05,
	"loss": 1.0047,
	"step": 221
	},
	{
	"epoch": 0.43359375,
	"grad_norm": 0.44912102512870905,
	"learning_rate": 3.671754937239191e-05,
	"loss": 1.1087,
	"step": 222
	},
	{
	"epoch": 0.435546875,
	"grad_norm": 0.4174420596478436,
	"learning_rate": 3.668241401188407e-05,
	"loss": 1.0313,
	"step": 223
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.36458359932139156,
	"learning_rate": 3.6647108604728546e-05,
	"loss": 0.9782,
	"step": 224
	},
	{
	"epoch": 0.439453125,
	"grad_norm": 0.4419635662052487,
	"learning_rate": 3.661163351079929e-05,
	"loss": 1.1076,
	"step": 225
	},
	{
	"epoch": 0.44140625,
	"grad_norm": 0.4537093691655119,
	"learning_rate": 3.6575989091699895e-05,
	"loss": 1.1265,
	"step": 226
	},
	{
	"epoch": 0.443359375,
	"grad_norm": 0.4515222234083662,
	"learning_rate": 3.65401757107599e-05,
	"loss": 1.124,
	"step": 227
	},
	{
	"epoch": 0.4453125,
	"grad_norm": 0.4509933735945529,
	"learning_rate": 3.650419373303112e-05,
	"loss": 1.2212,
	"step": 228
	},
	{
	"epoch": 0.447265625,
	"grad_norm": 0.39315970041656184,
	"learning_rate": 3.646804352528389e-05,
	"loss": 1.1003,
	"step": 229
	},
	{
	"epoch": 0.44921875,
	"grad_norm": 0.583897939706095,
	"learning_rate": 3.643172545600336e-05,
	"loss": 1.0984,
	"step": 230
	},
	{
	"epoch": 0.451171875,
	"grad_norm": 0.5164803615434137,
	"learning_rate": 3.63952398953857e-05,
	"loss": 1.0738,
	"step": 231
	},
	{
	"epoch": 0.453125,
	"grad_norm": 0.4070265753872102,
	"learning_rate": 3.6358587215334355e-05,
	"loss": 1.034,
	"step": 232
	},
	{
	"epoch": 0.455078125,
	"grad_norm": 0.4101472350679783,
	"learning_rate": 3.632176778945626e-05,
	"loss": 1.1234,
	"step": 233
	},
	{
	"epoch": 0.45703125,
	"grad_norm": 0.410956088362877,
	"learning_rate": 3.628478199305799e-05,
	"loss": 1.1062,
	"step": 234
	},
	{
	"epoch": 0.458984375,
	"grad_norm": 0.42181972355385416,
	"learning_rate": 3.624763020314199e-05,
	"loss": 1.1848,
	"step": 235
	},
	{
	"epoch": 0.4609375,
	"grad_norm": 0.4069735981570203,
	"learning_rate": 3.62103127984027e-05,
	"loss": 1.1203,
	"step": 236
	},
	{
	"epoch": 0.462890625,
	"grad_norm": 0.4142934678480609,
	"learning_rate": 3.617283015922268e-05,
	"loss": 1.1044,
	"step": 237
	},
	{
	"epoch": 0.46484375,
	"grad_norm": 0.4697374307040272,
	"learning_rate": 3.6135182667668764e-05,
	"loss": 1.1947,
	"step": 238
	},
	{
	"epoch": 0.466796875,
	"grad_norm": 0.3985058819632944,
	"learning_rate": 3.6097370707488175e-05,
	"loss": 1.0906,
	"step": 239
	},
	{
	"epoch": 0.46875,
	"grad_norm": 0.40215610602620183,
	"learning_rate": 3.6059394664104554e-05,
	"loss": 1.1607,
	"step": 240
	},
	{
	"epoch": 0.470703125,
	"grad_norm": 0.3985665062059567,
	"learning_rate": 3.60212549246141e-05,
	"loss": 1.0787,
	"step": 241
	},
	{
	"epoch": 0.47265625,
	"grad_norm": 0.43711415007382576,
	"learning_rate": 3.598295187778158e-05,
	"loss": 1.1554,
	"step": 242
	},
	{
	"epoch": 0.474609375,
	"grad_norm": 0.4382023321095773,
	"learning_rate": 3.5944485914036384e-05,
	"loss": 1.0126,
	"step": 243
	},
	{
	"epoch": 0.4765625,
	"grad_norm": 0.37488265505774904,
	"learning_rate": 3.590585742546853e-05,
	"loss": 1.1054,
	"step": 244
	},
	{
	"epoch": 0.478515625,
	"grad_norm": 0.40930451172856447,
	"learning_rate": 3.586706680582471e-05,
	"loss": 1.0321,
	"step": 245
	},
	{
	"epoch": 0.48046875,
	"grad_norm": 0.5059310227059168,
	"learning_rate": 3.5828114450504205e-05,
	"loss": 1.1239,
	"step": 246
	},
	{
	"epoch": 0.482421875,
	"grad_norm": 0.45898297435796365,
	"learning_rate": 3.5789000756554927e-05,
	"loss": 1.0467,
	"step": 247
	},
	{
	"epoch": 0.484375,
	"grad_norm": 0.42551550838444063,
	"learning_rate": 3.5749726122669316e-05,
	"loss": 1.051,
	"step": 248
	},
	{
	"epoch": 0.486328125,
	"grad_norm": 0.4451344613451106,
	"learning_rate": 3.5710290949180325e-05,
	"loss": 1.1036,
	"step": 249
	},
	{
	"epoch": 0.48828125,
	"grad_norm": 0.43151805025113255,
	"learning_rate": 3.5670695638057285e-05,
	"loss": 1.1906,
	"step": 250
	},
	{
	"epoch": 0.490234375,
	"grad_norm": 0.492114391902568,
	"learning_rate": 3.563094059290186e-05,
	"loss": 1.1629,
	"step": 251
	},
	{
	"epoch": 0.4921875,
	"grad_norm": 0.4144331093915329,
	"learning_rate": 3.5591026218943905e-05,
	"loss": 1.1485,
	"step": 252
	},
	{
	"epoch": 0.494140625,
	"grad_norm": 0.4201461662795515,
	"learning_rate": 3.5550952923037337e-05,
	"loss": 1.1451,
	"step": 253
	},
	{
	"epoch": 0.49609375,
	"grad_norm": 0.41132936789582963,
	"learning_rate": 3.551072111365598e-05,
	"loss": 1.1216,
	"step": 254
	},
	{
	"epoch": 0.498046875,
	"grad_norm": 0.40892606177310264,
	"learning_rate": 3.547033120088943e-05,
	"loss": 1.0282,
	"step": 255
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.39721649148962185,
	"learning_rate": 3.5429783596438864e-05,
	"loss": 1.113,
	"step": 256
	}
	],
	"logging_steps": 1,
	"max_steps": 1024,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 256,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 531064116215808.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}