Upload folder using huggingface_hub

91b235b verified 11 days ago

52.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9975062344139651,
	"eval_steps": 500,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0033250207813798837,
	"grad_norm": 1.1512730121612549,
	"learning_rate": 2e-05,
	"loss": 2.3647,
	"step": 1
	},
	{
	"epoch": 0.006650041562759767,
	"grad_norm": 1.1141036748886108,
	"learning_rate": 4e-05,
	"loss": 2.2794,
	"step": 2
	},
	{
	"epoch": 0.00997506234413965,
	"grad_norm": 0.9610893726348877,
	"learning_rate": 6e-05,
	"loss": 2.2596,
	"step": 3
	},
	{
	"epoch": 0.013300083125519535,
	"grad_norm": 1.1339858770370483,
	"learning_rate": 8e-05,
	"loss": 2.3787,
	"step": 4
	},
	{
	"epoch": 0.01662510390689942,
	"grad_norm": 0.8878076672554016,
	"learning_rate": 0.0001,
	"loss": 2.3961,
	"step": 5
	},
	{
	"epoch": 0.0199501246882793,
	"grad_norm": 0.829910397529602,
	"learning_rate": 0.00012,
	"loss": 2.1948,
	"step": 6
	},
	{
	"epoch": 0.023275145469659187,
	"grad_norm": 0.9420105814933777,
	"learning_rate": 0.00014,
	"loss": 2.4329,
	"step": 7
	},
	{
	"epoch": 0.02660016625103907,
	"grad_norm": 0.8519226908683777,
	"learning_rate": 0.00016,
	"loss": 2.3078,
	"step": 8
	},
	{
	"epoch": 0.029925187032418952,
	"grad_norm": 0.7587653994560242,
	"learning_rate": 0.00018,
	"loss": 1.9353,
	"step": 9
	},
	{
	"epoch": 0.03325020781379884,
	"grad_norm": 0.9927352666854858,
	"learning_rate": 0.0002,
	"loss": 1.9429,
	"step": 10
	},
	{
	"epoch": 0.03657522859517872,
	"grad_norm": 0.9643892049789429,
	"learning_rate": 0.00019999413227831132,
	"loss": 2.0925,
	"step": 11
	},
	{
	"epoch": 0.0399002493765586,
	"grad_norm": 0.941749632358551,
	"learning_rate": 0.00019997652980184843,
	"loss": 1.8099,
	"step": 12
	},
	{
	"epoch": 0.043225270157938485,
	"grad_norm": 0.5177962779998779,
	"learning_rate": 0.00019994719463633997,
	"loss": 1.6693,
	"step": 13
	},
	{
	"epoch": 0.046550290939318374,
	"grad_norm": 0.56168133020401,
	"learning_rate": 0.0001999061302243977,
	"loss": 1.9593,
	"step": 14
	},
	{
	"epoch": 0.04987531172069826,
	"grad_norm": 0.5392152070999146,
	"learning_rate": 0.00019985334138511237,
	"loss": 1.6836,
	"step": 15
	},
	{
	"epoch": 0.05320033250207814,
	"grad_norm": 0.5796711444854736,
	"learning_rate": 0.00019978883431348845,
	"loss": 1.7744,
	"step": 16
	},
	{
	"epoch": 0.05652535328345802,
	"grad_norm": 0.5629785060882568,
	"learning_rate": 0.0001997126165797167,
	"loss": 2.0442,
	"step": 17
	},
	{
	"epoch": 0.059850374064837904,
	"grad_norm": 0.48991289734840393,
	"learning_rate": 0.00019962469712828614,
	"loss": 1.679,
	"step": 18
	},
	{
	"epoch": 0.06317539484621779,
	"grad_norm": 0.47867172956466675,
	"learning_rate": 0.0001995250862769342,
	"loss": 1.6641,
	"step": 19
	},
	{
	"epoch": 0.06650041562759768,
	"grad_norm": 0.49752330780029297,
	"learning_rate": 0.00019941379571543596,
	"loss": 1.5331,
	"step": 20
	},
	{
	"epoch": 0.06982543640897755,
	"grad_norm": 0.49927300214767456,
	"learning_rate": 0.00019929083850423225,
	"loss": 1.5704,
	"step": 21
	},
	{
	"epoch": 0.07315045719035744,
	"grad_norm": 0.5634847283363342,
	"learning_rate": 0.00019915622907289694,
	"loss": 1.9051,
	"step": 22
	},
	{
	"epoch": 0.07647547797173733,
	"grad_norm": 0.5214512944221497,
	"learning_rate": 0.00019900998321844367,
	"loss": 1.756,
	"step": 23
	},
	{
	"epoch": 0.0798004987531172,
	"grad_norm": 0.46316221356391907,
	"learning_rate": 0.00019885211810347184,
	"loss": 1.6153,
	"step": 24
	},
	{
	"epoch": 0.0831255195344971,
	"grad_norm": 0.45869576930999756,
	"learning_rate": 0.00019868265225415265,
	"loss": 1.8899,
	"step": 25
	},
	{
	"epoch": 0.08645054031587697,
	"grad_norm": 0.4824669063091278,
	"learning_rate": 0.00019850160555805486,
	"loss": 1.8861,
	"step": 26
	},
	{
	"epoch": 0.08977556109725686,
	"grad_norm": 0.509224534034729,
	"learning_rate": 0.000198308999261811,
	"loss": 1.8507,
	"step": 27
	},
	{
	"epoch": 0.09310058187863675,
	"grad_norm": 0.4441746771335602,
	"learning_rate": 0.00019810485596862392,
	"loss": 1.7326,
	"step": 28
	},
	{
	"epoch": 0.09642560266001662,
	"grad_norm": 0.4595758318901062,
	"learning_rate": 0.00019788919963561422,
	"loss": 1.8283,
	"step": 29
	},
	{
	"epoch": 0.09975062344139651,
	"grad_norm": 0.5222824215888977,
	"learning_rate": 0.00019766205557100868,
	"loss": 1.5678,
	"step": 30
	},
	{
	"epoch": 0.10307564422277639,
	"grad_norm": 0.43890196084976196,
	"learning_rate": 0.00019742345043117045,
	"loss": 1.5899,
	"step": 31
	},
	{
	"epoch": 0.10640066500415628,
	"grad_norm": 0.4542831778526306,
	"learning_rate": 0.00019717341221747056,
	"loss": 1.6733,
	"step": 32
	},
	{
	"epoch": 0.10972568578553615,
	"grad_norm": 0.43134549260139465,
	"learning_rate": 0.00019691197027300205,
	"loss": 1.7386,
	"step": 33
	},
	{
	"epoch": 0.11305070656691604,
	"grad_norm": 0.44071701169013977,
	"learning_rate": 0.00019663915527913625,
	"loss": 1.7685,
	"step": 34
	},
	{
	"epoch": 0.11637572734829593,
	"grad_norm": 0.4880881607532501,
	"learning_rate": 0.0001963549992519223,
	"loss": 1.8461,
	"step": 35
	},
	{
	"epoch": 0.11970074812967581,
	"grad_norm": 0.40884578227996826,
	"learning_rate": 0.00019605953553832988,
	"loss": 1.5538,
	"step": 36
	},
	{
	"epoch": 0.1230257689110557,
	"grad_norm": 0.39413318037986755,
	"learning_rate": 0.00019575279881233577,
	"loss": 1.4222,
	"step": 37
	},
	{
	"epoch": 0.12635078969243557,
	"grad_norm": 0.44478997588157654,
	"learning_rate": 0.00019543482507085482,
	"loss": 1.7247,
	"step": 38
	},
	{
	"epoch": 0.12967581047381546,
	"grad_norm": 0.4295913875102997,
	"learning_rate": 0.00019510565162951537,
	"loss": 1.5788,
	"step": 39
	},
	{
	"epoch": 0.13300083125519535,
	"grad_norm": 0.47360050678253174,
	"learning_rate": 0.00019476531711828027,
	"loss": 1.7429,
	"step": 40
	},
	{
	"epoch": 0.13632585203657524,
	"grad_norm": 0.483909547328949,
	"learning_rate": 0.00019441386147691335,
	"loss": 1.6674,
	"step": 41
	},
	{
	"epoch": 0.1396508728179551,
	"grad_norm": 0.47071558237075806,
	"learning_rate": 0.0001940513259502924,
	"loss": 1.8229,
	"step": 42
	},
	{
	"epoch": 0.142975893599335,
	"grad_norm": 0.43929168581962585,
	"learning_rate": 0.0001936777530835689,
	"loss": 1.6562,
	"step": 43
	},
	{
	"epoch": 0.14630091438071488,
	"grad_norm": 0.4329998791217804,
	"learning_rate": 0.0001932931867171751,
	"loss": 1.5274,
	"step": 44
	},
	{
	"epoch": 0.14962593516209477,
	"grad_norm": 0.44375908374786377,
	"learning_rate": 0.00019289767198167916,
	"loss": 1.7084,
	"step": 45
	},
	{
	"epoch": 0.15295095594347466,
	"grad_norm": 0.48119276762008667,
	"learning_rate": 0.0001924912552924889,
	"loss": 1.7645,
	"step": 46
	},
	{
	"epoch": 0.15627597672485452,
	"grad_norm": 0.4040566384792328,
	"learning_rate": 0.00019207398434440478,
	"loss": 1.5925,
	"step": 47
	},
	{
	"epoch": 0.1596009975062344,
	"grad_norm": 0.4708506464958191,
	"learning_rate": 0.00019164590810602262,
	"loss": 1.8461,
	"step": 48
	},
	{
	"epoch": 0.1629260182876143,
	"grad_norm": 0.431772381067276,
	"learning_rate": 0.000191207076813987,
	"loss": 1.5356,
	"step": 49
	},
	{
	"epoch": 0.1662510390689942,
	"grad_norm": 0.4952054023742676,
	"learning_rate": 0.00019075754196709572,
	"loss": 1.8034,
	"step": 50
	},
	{
	"epoch": 0.16957605985037408,
	"grad_norm": 0.43522897362709045,
	"learning_rate": 0.00019029735632025618,
	"loss": 1.6717,
	"step": 51
	},
	{
	"epoch": 0.17290108063175394,
	"grad_norm": 0.46861544251441956,
	"learning_rate": 0.00018982657387829445,
	"loss": 1.766,
	"step": 52
	},
	{
	"epoch": 0.17622610141313383,
	"grad_norm": 0.44363775849342346,
	"learning_rate": 0.00018934524988961738,
	"loss": 1.5169,
	"step": 53
	},
	{
	"epoch": 0.17955112219451372,
	"grad_norm": 0.41366782784461975,
	"learning_rate": 0.00018885344083972914,
	"loss": 1.6495,
	"step": 54
	},
	{
	"epoch": 0.1828761429758936,
	"grad_norm": 0.4273390769958496,
	"learning_rate": 0.0001883512044446023,
	"loss": 1.5952,
	"step": 55
	},
	{
	"epoch": 0.1862011637572735,
	"grad_norm": 0.4389772117137909,
	"learning_rate": 0.00018783859964390464,
	"loss": 1.7003,
	"step": 56
	},
	{
	"epoch": 0.18952618453865336,
	"grad_norm": 0.480125367641449,
	"learning_rate": 0.0001873156865940823,
	"loss": 1.6503,
	"step": 57
	},
	{
	"epoch": 0.19285120532003325,
	"grad_norm": 0.48973348736763,
	"learning_rate": 0.00018678252666130013,
	"loss": 1.737,
	"step": 58
	},
	{
	"epoch": 0.19617622610141314,
	"grad_norm": 0.4558335840702057,
	"learning_rate": 0.0001862391824142402,
	"loss": 1.571,
	"step": 59
	},
	{
	"epoch": 0.19950124688279303,
	"grad_norm": 0.45777326822280884,
	"learning_rate": 0.00018568571761675893,
	"loss": 1.6462,
	"step": 60
	},
	{
	"epoch": 0.2028262676641729,
	"grad_norm": 0.4185212254524231,
	"learning_rate": 0.00018512219722040425,
	"loss": 1.5729,
	"step": 61
	},
	{
	"epoch": 0.20615128844555278,
	"grad_norm": 0.4137243330478668,
	"learning_rate": 0.0001845486873567932,
	"loss": 1.675,
	"step": 62
	},
	{
	"epoch": 0.20947630922693267,
	"grad_norm": 0.42468297481536865,
	"learning_rate": 0.00018396525532985108,
	"loss": 1.4519,
	"step": 63
	},
	{
	"epoch": 0.21280133000831256,
	"grad_norm": 0.46751776337623596,
	"learning_rate": 0.00018337196960791302,
	"loss": 1.7264,
	"step": 64
	},
	{
	"epoch": 0.21612635078969245,
	"grad_norm": 0.47722429037094116,
	"learning_rate": 0.00018276889981568906,
	"loss": 1.5392,
	"step": 65
	},
	{
	"epoch": 0.2194513715710723,
	"grad_norm": 0.4753107726573944,
	"learning_rate": 0.00018215611672609317,
	"loss": 1.5328,
	"step": 66
	},
	{
	"epoch": 0.2227763923524522,
	"grad_norm": 0.4401816129684448,
	"learning_rate": 0.00018153369225193782,
	"loss": 1.4793,
	"step": 67
	},
	{
	"epoch": 0.22610141313383209,
	"grad_norm": 0.4473712146282196,
	"learning_rate": 0.00018090169943749476,
	"loss": 1.5596,
	"step": 68
	},
	{
	"epoch": 0.22942643391521197,
	"grad_norm": 0.45505204796791077,
	"learning_rate": 0.00018026021244992287,
	"loss": 1.7437,
	"step": 69
	},
	{
	"epoch": 0.23275145469659186,
	"grad_norm": 0.44190192222595215,
	"learning_rate": 0.00017960930657056438,
	"loss": 1.7401,
	"step": 70
	},
	{
	"epoch": 0.23607647547797173,
	"grad_norm": 0.501592218875885,
	"learning_rate": 0.0001789490581861102,
	"loss": 1.7464,
	"step": 71
	},
	{
	"epoch": 0.23940149625935161,
	"grad_norm": 0.43836328387260437,
	"learning_rate": 0.00017827954477963557,
	"loss": 1.7451,
	"step": 72
	},
	{
	"epoch": 0.2427265170407315,
	"grad_norm": 0.611949622631073,
	"learning_rate": 0.0001776008449215073,
	"loss": 1.6921,
	"step": 73
	},
	{
	"epoch": 0.2460515378221114,
	"grad_norm": 0.46015432476997375,
	"learning_rate": 0.0001769130382601629,
	"loss": 1.7985,
	"step": 74
	},
	{
	"epoch": 0.24937655860349128,
	"grad_norm": 0.44316309690475464,
	"learning_rate": 0.00017621620551276366,
	"loss": 1.7806,
	"step": 75
	},
	{
	"epoch": 0.25270157938487114,
	"grad_norm": 0.4749353229999542,
	"learning_rate": 0.00017551042845572208,
	"loss": 1.7349,
	"step": 76
	},
	{
	"epoch": 0.25602660016625106,
	"grad_norm": 0.4712280333042145,
	"learning_rate": 0.00017479578991510506,
	"loss": 1.4129,
	"step": 77
	},
	{
	"epoch": 0.2593516209476309,
	"grad_norm": 0.44466859102249146,
	"learning_rate": 0.00017407237375691392,
	"loss": 1.6819,
	"step": 78
	},
	{
	"epoch": 0.2626766417290108,
	"grad_norm": 0.42531418800354004,
	"learning_rate": 0.00017334026487724225,
	"loss": 1.6154,
	"step": 79
	},
	{
	"epoch": 0.2660016625103907,
	"grad_norm": 0.4512370228767395,
	"learning_rate": 0.0001725995491923131,
	"loss": 1.6736,
	"step": 80
	},
	{
	"epoch": 0.26932668329177056,
	"grad_norm": 0.4131537079811096,
	"learning_rate": 0.00017185031362839626,
	"loss": 1.5468,
	"step": 81
	},
	{
	"epoch": 0.2726517040731505,
	"grad_norm": 0.47616103291511536,
	"learning_rate": 0.00017109264611160708,
	"loss": 1.523,
	"step": 82
	},
	{
	"epoch": 0.27597672485453034,
	"grad_norm": 0.4459686279296875,
	"learning_rate": 0.000170326635557588,
	"loss": 1.8612,
	"step": 83
	},
	{
	"epoch": 0.2793017456359102,
	"grad_norm": 0.4500899612903595,
	"learning_rate": 0.00016955237186107387,
	"loss": 1.643,
	"step": 84
	},
	{
	"epoch": 0.2826267664172901,
	"grad_norm": 0.44385287165641785,
	"learning_rate": 0.00016876994588534234,
	"loss": 1.3833,
	"step": 85
	},
	{
	"epoch": 0.28595178719867,
	"grad_norm": 0.4063577950000763,
	"learning_rate": 0.0001679794494515508,
	"loss": 1.3494,
	"step": 86
	},
	{
	"epoch": 0.2892768079800499,
	"grad_norm": 0.43013447523117065,
	"learning_rate": 0.00016718097532796063,
	"loss": 1.5205,
	"step": 87
	},
	{
	"epoch": 0.29260182876142976,
	"grad_norm": 0.46770158410072327,
	"learning_rate": 0.00016637461721905045,
	"loss": 1.6897,
	"step": 88
	},
	{
	"epoch": 0.2959268495428096,
	"grad_norm": 0.4841039478778839,
	"learning_rate": 0.00016556046975451963,
	"loss": 1.5793,
	"step": 89
	},
	{
	"epoch": 0.29925187032418954,
	"grad_norm": 0.48426705598831177,
	"learning_rate": 0.00016473862847818277,
	"loss": 1.6988,
	"step": 90
	},
	{
	"epoch": 0.3025768911055694,
	"grad_norm": 0.5768110752105713,
	"learning_rate": 0.0001639091898367576,
	"loss": 1.7846,
	"step": 91
	},
	{
	"epoch": 0.3059019118869493,
	"grad_norm": 0.446196049451828,
	"learning_rate": 0.00016307225116854622,
	"loss": 1.7882,
	"step": 92
	},
	{
	"epoch": 0.3092269326683292,
	"grad_norm": 0.4034564793109894,
	"learning_rate": 0.00016222791069201207,
	"loss": 1.6616,
	"step": 93
	},
	{
	"epoch": 0.31255195344970904,
	"grad_norm": 0.424376517534256,
	"learning_rate": 0.00016137626749425377,
	"loss": 1.5353,
	"step": 94
	},
	{
	"epoch": 0.31587697423108896,
	"grad_norm": 0.45510077476501465,
	"learning_rate": 0.00016051742151937655,
	"loss": 1.7947,
	"step": 95
	},
	{
	"epoch": 0.3192019950124688,
	"grad_norm": 0.4815070331096649,
	"learning_rate": 0.00015965147355676343,
	"loss": 1.581,
	"step": 96
	},
	{
	"epoch": 0.32252701579384874,
	"grad_norm": 0.4505084156990051,
	"learning_rate": 0.00015877852522924732,
	"loss": 1.6186,
	"step": 97
	},
	{
	"epoch": 0.3258520365752286,
	"grad_norm": 0.4437141418457031,
	"learning_rate": 0.0001578986789811849,
	"loss": 1.6509,
	"step": 98
	},
	{
	"epoch": 0.32917705735660846,
	"grad_norm": 0.4133874475955963,
	"learning_rate": 0.00015701203806643433,
	"loss": 1.7992,
	"step": 99
	},
	{
	"epoch": 0.3325020781379884,
	"grad_norm": 0.4500593841075897,
	"learning_rate": 0.00015611870653623825,
	"loss": 1.6654,
	"step": 100
	},
	{
	"epoch": 0.33582709891936824,
	"grad_norm": 0.4359726309776306,
	"learning_rate": 0.00015521878922701246,
	"loss": 1.6461,
	"step": 101
	},
	{
	"epoch": 0.33915211970074816,
	"grad_norm": 0.40108025074005127,
	"learning_rate": 0.00015431239174804328,
	"loss": 1.5237,
	"step": 102
	},
	{
	"epoch": 0.342477140482128,
	"grad_norm": 0.43869125843048096,
	"learning_rate": 0.00015339962046909364,
	"loss": 1.6909,
	"step": 103
	},
	{
	"epoch": 0.3458021612635079,
	"grad_norm": 0.42006051540374756,
	"learning_rate": 0.00015248058250792008,
	"loss": 1.5046,
	"step": 104
	},
	{
	"epoch": 0.3491271820448878,
	"grad_norm": 0.38756394386291504,
	"learning_rate": 0.00015155538571770218,
	"loss": 1.3747,
	"step": 105
	},
	{
	"epoch": 0.35245220282626766,
	"grad_norm": 0.47784286737442017,
	"learning_rate": 0.0001506241386743854,
	"loss": 1.673,
	"step": 106
	},
	{
	"epoch": 0.3557772236076476,
	"grad_norm": 0.4587322175502777,
	"learning_rate": 0.00014968695066393923,
	"loss": 1.7987,
	"step": 107
	},
	{
	"epoch": 0.35910224438902744,
	"grad_norm": 0.42091092467308044,
	"learning_rate": 0.00014874393166953192,
	"loss": 1.5309,
	"step": 108
	},
	{
	"epoch": 0.3624272651704073,
	"grad_norm": 0.47224530577659607,
	"learning_rate": 0.00014779519235862365,
	"loss": 1.7268,
	"step": 109
	},
	{
	"epoch": 0.3657522859517872,
	"grad_norm": 0.44596192240715027,
	"learning_rate": 0.00014684084406997903,
	"loss": 1.7108,
	"step": 110
	},
	{
	"epoch": 0.3690773067331671,
	"grad_norm": 0.4590005874633789,
	"learning_rate": 0.0001458809988006011,
	"loss": 1.638,
	"step": 111
	},
	{
	"epoch": 0.372402327514547,
	"grad_norm": 0.43627721071243286,
	"learning_rate": 0.00014491576919258792,
	"loss": 1.6721,
	"step": 112
	},
	{
	"epoch": 0.37572734829592686,
	"grad_norm": 0.41456034779548645,
	"learning_rate": 0.00014394526851991364,
	"loss": 1.6863,
	"step": 113
	},
	{
	"epoch": 0.3790523690773067,
	"grad_norm": 0.4247894883155823,
	"learning_rate": 0.0001429696106751352,
	"loss": 1.5659,
	"step": 114
	},
	{
	"epoch": 0.38237738985868663,
	"grad_norm": 0.4657272696495056,
	"learning_rate": 0.00014198891015602646,
	"loss": 1.4086,
	"step": 115
	},
	{
	"epoch": 0.3857024106400665,
	"grad_norm": 0.4860394597053528,
	"learning_rate": 0.0001410032820521416,
	"loss": 1.4603,
	"step": 116
	},
	{
	"epoch": 0.38902743142144636,
	"grad_norm": 0.41849544644355774,
	"learning_rate": 0.00014001284203130868,
	"loss": 1.3991,
	"step": 117
	},
	{
	"epoch": 0.3923524522028263,
	"grad_norm": 0.4544629752635956,
	"learning_rate": 0.00013901770632605547,
	"loss": 1.8028,
	"step": 118
	},
	{
	"epoch": 0.39567747298420614,
	"grad_norm": 0.5051787495613098,
	"learning_rate": 0.0001380179917199692,
	"loss": 1.8854,
	"step": 119
	},
	{
	"epoch": 0.39900249376558605,
	"grad_norm": 0.41150030493736267,
	"learning_rate": 0.00013701381553399145,
	"loss": 1.6686,
	"step": 120
	},
	{
	"epoch": 0.4023275145469659,
	"grad_norm": 0.4593510925769806,
	"learning_rate": 0.0001360052956126499,
	"loss": 1.5844,
	"step": 121
	},
	{
	"epoch": 0.4056525353283458,
	"grad_norm": 0.42087090015411377,
	"learning_rate": 0.00013499255031022885,
	"loss": 1.4865,
	"step": 122
	},
	{
	"epoch": 0.4089775561097257,
	"grad_norm": 0.4708739221096039,
	"learning_rate": 0.00013397569847687984,
	"loss": 1.7089,
	"step": 123
	},
	{
	"epoch": 0.41230257689110555,
	"grad_norm": 0.4878352880477905,
	"learning_rate": 0.00013295485944467405,
	"loss": 1.8006,
	"step": 124
	},
	{
	"epoch": 0.41562759767248547,
	"grad_norm": 0.43254002928733826,
	"learning_rate": 0.000131930153013598,
	"loss": 1.6949,
	"step": 125
	},
	{
	"epoch": 0.41895261845386533,
	"grad_norm": 0.47519850730895996,
	"learning_rate": 0.00013090169943749476,
	"loss": 1.7601,
	"step": 126
	},
	{
	"epoch": 0.4222776392352452,
	"grad_norm": 0.4135800898075104,
	"learning_rate": 0.00012986961940995138,
	"loss": 1.5955,
	"step": 127
	},
	{
	"epoch": 0.4256026600166251,
	"grad_norm": 0.46267929673194885,
	"learning_rate": 0.0001288340340501351,
	"loss": 1.8398,
	"step": 128
	},
	{
	"epoch": 0.428927680798005,
	"grad_norm": 0.43891721963882446,
	"learning_rate": 0.00012779506488857945,
	"loss": 1.4741,
	"step": 129
	},
	{
	"epoch": 0.4322527015793849,
	"grad_norm": 0.4456429183483124,
	"learning_rate": 0.00012675283385292212,
	"loss": 1.7454,
	"step": 130
	},
	{
	"epoch": 0.43557772236076475,
	"grad_norm": 0.4604743719100952,
	"learning_rate": 0.00012570746325359607,
	"loss": 1.8192,
	"step": 131
	},
	{
	"epoch": 0.4389027431421446,
	"grad_norm": 0.46728062629699707,
	"learning_rate": 0.00012465907576947622,
	"loss": 1.7551,
	"step": 132
	},
	{
	"epoch": 0.44222776392352453,
	"grad_norm": 0.436298668384552,
	"learning_rate": 0.000123607794433482,
	"loss": 1.6592,
	"step": 133
	},
	{
	"epoch": 0.4455527847049044,
	"grad_norm": 0.39828214049339294,
	"learning_rate": 0.00012255374261813944,
	"loss": 1.4603,
	"step": 134
	},
	{
	"epoch": 0.4488778054862843,
	"grad_norm": 0.4469813406467438,
	"learning_rate": 0.00012149704402110243,
	"loss": 1.6449,
	"step": 135
	},
	{
	"epoch": 0.45220282626766417,
	"grad_norm": 0.4820503294467926,
	"learning_rate": 0.0001204378226506365,
	"loss": 1.8473,
	"step": 136
	},
	{
	"epoch": 0.45552784704904403,
	"grad_norm": 0.49072131514549255,
	"learning_rate": 0.00011937620281106585,
	"loss": 1.6843,
	"step": 137
	},
	{
	"epoch": 0.45885286783042395,
	"grad_norm": 0.48773854970932007,
	"learning_rate": 0.00011831230908818563,
	"loss": 1.625,
	"step": 138
	},
	{
	"epoch": 0.4621778886118038,
	"grad_norm": 0.4438723623752594,
	"learning_rate": 0.00011724626633464127,
	"loss": 1.7558,
	"step": 139
	},
	{
	"epoch": 0.46550290939318373,
	"grad_norm": 0.4389275014400482,
	"learning_rate": 0.0001161781996552765,
	"loss": 1.4621,
	"step": 140
	},
	{
	"epoch": 0.4688279301745636,
	"grad_norm": 0.4611305296421051,
	"learning_rate": 0.00011510823439245169,
	"loss": 1.59,
	"step": 141
	},
	{
	"epoch": 0.47215295095594345,
	"grad_norm": 0.43601059913635254,
	"learning_rate": 0.00011403649611133444,
	"loss": 1.7462,
	"step": 142
	},
	{
	"epoch": 0.47547797173732337,
	"grad_norm": 0.41201236844062805,
	"learning_rate": 0.00011296311058516389,
	"loss": 1.5341,
	"step": 143
	},
	{
	"epoch": 0.47880299251870323,
	"grad_norm": 0.46523982286453247,
	"learning_rate": 0.00011188820378049065,
	"loss": 1.6327,
	"step": 144
	},
	{
	"epoch": 0.48212801330008315,
	"grad_norm": 0.42490893602371216,
	"learning_rate": 0.00011081190184239419,
	"loss": 1.6178,
	"step": 145
	},
	{
	"epoch": 0.485453034081463,
	"grad_norm": 0.42238375544548035,
	"learning_rate": 0.00010973433107967902,
	"loss": 1.534,
	"step": 146
	},
	{
	"epoch": 0.48877805486284287,
	"grad_norm": 0.48569226264953613,
	"learning_rate": 0.00010865561795005177,
	"loss": 1.5332,
	"step": 147
	},
	{
	"epoch": 0.4921030756442228,
	"grad_norm": 0.4933275878429413,
	"learning_rate": 0.00010757588904528106,
	"loss": 1.5928,
	"step": 148
	},
	{
	"epoch": 0.49542809642560265,
	"grad_norm": 0.4781058728694916,
	"learning_rate": 0.00010649527107634108,
	"loss": 1.6578,
	"step": 149
	},
	{
	"epoch": 0.49875311720698257,
	"grad_norm": 0.4651820659637451,
	"learning_rate": 0.00010541389085854176,
	"loss": 1.6884,
	"step": 150
	},
	{
	"epoch": 0.5020781379883624,
	"grad_norm": 0.4429711103439331,
	"learning_rate": 0.00010433187529664623,
	"loss": 1.6723,
	"step": 151
	},
	{
	"epoch": 0.5054031587697423,
	"grad_norm": 0.4521614611148834,
	"learning_rate": 0.00010324935136997806,
	"loss": 1.6269,
	"step": 152
	},
	{
	"epoch": 0.5087281795511222,
	"grad_norm": 0.4930736720561981,
	"learning_rate": 0.00010216644611751975,
	"loss": 1.7933,
	"step": 153
	},
	{
	"epoch": 0.5120532003325021,
	"grad_norm": 0.4855606257915497,
	"learning_rate": 0.000101083286623004,
	"loss": 1.6702,
	"step": 154
	},
	{
	"epoch": 0.515378221113882,
	"grad_norm": 0.4960128366947174,
	"learning_rate": 0.0001,
	"loss": 1.7428,
	"step": 155
	},
	{
	"epoch": 0.5187032418952618,
	"grad_norm": 0.42107459902763367,
	"learning_rate": 9.891671337699602e-05,
	"loss": 1.6235,
	"step": 156
	},
	{
	"epoch": 0.5220282626766417,
	"grad_norm": 0.4479861855506897,
	"learning_rate": 9.783355388248027e-05,
	"loss": 1.5158,
	"step": 157
	},
	{
	"epoch": 0.5253532834580216,
	"grad_norm": 0.4954458177089691,
	"learning_rate": 9.675064863002196e-05,
	"loss": 1.6743,
	"step": 158
	},
	{
	"epoch": 0.5286783042394015,
	"grad_norm": 0.5591014623641968,
	"learning_rate": 9.56681247033538e-05,
	"loss": 1.9691,
	"step": 159
	},
	{
	"epoch": 0.5320033250207814,
	"grad_norm": 0.46626871824264526,
	"learning_rate": 9.458610914145826e-05,
	"loss": 1.5621,
	"step": 160
	},
	{
	"epoch": 0.5353283458021613,
	"grad_norm": 0.4377134144306183,
	"learning_rate": 9.350472892365892e-05,
	"loss": 1.5524,
	"step": 161
	},
	{
	"epoch": 0.5386533665835411,
	"grad_norm": 0.3984418511390686,
	"learning_rate": 9.242411095471897e-05,
	"loss": 1.6454,
	"step": 162
	},
	{
	"epoch": 0.541978387364921,
	"grad_norm": 0.42802637815475464,
	"learning_rate": 9.134438204994824e-05,
	"loss": 1.4036,
	"step": 163
	},
	{
	"epoch": 0.545303408146301,
	"grad_norm": 0.4567003846168518,
	"learning_rate": 9.026566892032105e-05,
	"loss": 1.6606,
	"step": 164
	},
	{
	"epoch": 0.5486284289276808,
	"grad_norm": 0.45452797412872314,
	"learning_rate": 8.918809815760585e-05,
	"loss": 1.8219,
	"step": 165
	},
	{
	"epoch": 0.5519534497090607,
	"grad_norm": 0.4367886781692505,
	"learning_rate": 8.811179621950936e-05,
	"loss": 1.5962,
	"step": 166
	},
	{
	"epoch": 0.5552784704904405,
	"grad_norm": 0.4670146703720093,
	"learning_rate": 8.703688941483616e-05,
	"loss": 1.6382,
	"step": 167
	},
	{
	"epoch": 0.5586034912718204,
	"grad_norm": 0.5069778561592102,
	"learning_rate": 8.596350388866558e-05,
	"loss": 1.7067,
	"step": 168
	},
	{
	"epoch": 0.5619285120532004,
	"grad_norm": 0.4080033302307129,
	"learning_rate": 8.489176560754834e-05,
	"loss": 1.4192,
	"step": 169
	},
	{
	"epoch": 0.5652535328345802,
	"grad_norm": 0.491526335477829,
	"learning_rate": 8.382180034472353e-05,
	"loss": 1.8687,
	"step": 170
	},
	{
	"epoch": 0.5685785536159601,
	"grad_norm": 0.5429246425628662,
	"learning_rate": 8.275373366535877e-05,
	"loss": 1.776,
	"step": 171
	},
	{
	"epoch": 0.57190357439734,
	"grad_norm": 0.4131667912006378,
	"learning_rate": 8.168769091181438e-05,
	"loss": 1.3345,
	"step": 172
	},
	{
	"epoch": 0.5752285951787198,
	"grad_norm": 0.5055519342422485,
	"learning_rate": 8.062379718893417e-05,
	"loss": 1.7716,
	"step": 173
	},
	{
	"epoch": 0.5785536159600998,
	"grad_norm": 0.4675292670726776,
	"learning_rate": 7.956217734936353e-05,
	"loss": 1.5941,
	"step": 174
	},
	{
	"epoch": 0.5818786367414797,
	"grad_norm": 0.5096448659896851,
	"learning_rate": 7.85029559788976e-05,
	"loss": 1.9376,
	"step": 175
	},
	{
	"epoch": 0.5852036575228595,
	"grad_norm": 0.4687637686729431,
	"learning_rate": 7.744625738186059e-05,
	"loss": 1.7242,
	"step": 176
	},
	{
	"epoch": 0.5885286783042394,
	"grad_norm": 0.437148779630661,
	"learning_rate": 7.639220556651799e-05,
	"loss": 1.4993,
	"step": 177
	},
	{
	"epoch": 0.5918536990856192,
	"grad_norm": 0.44125625491142273,
	"learning_rate": 7.534092423052381e-05,
	"loss": 1.5076,
	"step": 178
	},
	{
	"epoch": 0.5951787198669992,
	"grad_norm": 0.4794883131980896,
	"learning_rate": 7.42925367464039e-05,
	"loss": 1.6401,
	"step": 179
	},
	{
	"epoch": 0.5985037406483791,
	"grad_norm": 0.42347967624664307,
	"learning_rate": 7.324716614707793e-05,
	"loss": 1.444,
	"step": 180
	},
	{
	"epoch": 0.6018287614297589,
	"grad_norm": 0.4843563437461853,
	"learning_rate": 7.220493511142059e-05,
	"loss": 1.7117,
	"step": 181
	},
	{
	"epoch": 0.6051537822111388,
	"grad_norm": 0.48885542154312134,
	"learning_rate": 7.116596594986494e-05,
	"loss": 1.6799,
	"step": 182
	},
	{
	"epoch": 0.6084788029925187,
	"grad_norm": 0.48835498094558716,
	"learning_rate": 7.013038059004866e-05,
	"loss": 1.7308,
	"step": 183
	},
	{
	"epoch": 0.6118038237738986,
	"grad_norm": 0.38506001234054565,
	"learning_rate": 6.909830056250527e-05,
	"loss": 1.5766,
	"step": 184
	},
	{
	"epoch": 0.6151288445552785,
	"grad_norm": 0.5520392656326294,
	"learning_rate": 6.806984698640202e-05,
	"loss": 1.5418,
	"step": 185
	},
	{
	"epoch": 0.6184538653366584,
	"grad_norm": 0.4401935935020447,
	"learning_rate": 6.704514055532597e-05,
	"loss": 1.7715,
	"step": 186
	},
	{
	"epoch": 0.6217788861180382,
	"grad_norm": 0.4164566695690155,
	"learning_rate": 6.602430152312017e-05,
	"loss": 1.4711,
	"step": 187
	},
	{
	"epoch": 0.6251039068994181,
	"grad_norm": 0.4750818610191345,
	"learning_rate": 6.500744968977116e-05,
	"loss": 1.374,
	"step": 188
	},
	{
	"epoch": 0.628428927680798,
	"grad_norm": 0.5478043556213379,
	"learning_rate": 6.399470438735014e-05,
	"loss": 1.7294,
	"step": 189
	},
	{
	"epoch": 0.6317539484621779,
	"grad_norm": 0.4560893476009369,
	"learning_rate": 6.298618446600856e-05,
	"loss": 1.8216,
	"step": 190
	},
	{
	"epoch": 0.6350789692435578,
	"grad_norm": 0.49942511320114136,
	"learning_rate": 6.19820082800308e-05,
	"loss": 1.6108,
	"step": 191
	},
	{
	"epoch": 0.6384039900249376,
	"grad_norm": 0.3901759088039398,
	"learning_rate": 6.0982293673944544e-05,
	"loss": 1.4635,
	"step": 192
	},
	{
	"epoch": 0.6417290108063175,
	"grad_norm": 0.45033466815948486,
	"learning_rate": 5.9987157968691344e-05,
	"loss": 1.5153,
	"step": 193
	},
	{
	"epoch": 0.6450540315876975,
	"grad_norm": 0.44514134526252747,
	"learning_rate": 5.899671794785839e-05,
	"loss": 1.6015,
	"step": 194
	},
	{
	"epoch": 0.6483790523690773,
	"grad_norm": 0.42773956060409546,
	"learning_rate": 5.801108984397354e-05,
	"loss": 1.6624,
	"step": 195
	},
	{
	"epoch": 0.6517040731504572,
	"grad_norm": 0.42323529720306396,
	"learning_rate": 5.703038932486484e-05,
	"loss": 1.642,
	"step": 196
	},
	{
	"epoch": 0.6550290939318371,
	"grad_norm": 0.4852340519428253,
	"learning_rate": 5.605473148008638e-05,
	"loss": 1.5533,
	"step": 197
	},
	{
	"epoch": 0.6583541147132169,
	"grad_norm": 0.46353092789649963,
	"learning_rate": 5.5084230807412126e-05,
	"loss": 1.5137,
	"step": 198
	},
	{
	"epoch": 0.6616791354945969,
	"grad_norm": 0.5486162304878235,
	"learning_rate": 5.411900119939895e-05,
	"loss": 1.5682,
	"step": 199
	},
	{
	"epoch": 0.6650041562759768,
	"grad_norm": 0.4136289656162262,
	"learning_rate": 5.3159155930021e-05,
	"loss": 1.5902,
	"step": 200
	},
	{
	"epoch": 0.6683291770573566,
	"grad_norm": 0.457292765378952,
	"learning_rate": 5.2204807641376354e-05,
	"loss": 1.6669,
	"step": 201
	},
	{
	"epoch": 0.6716541978387365,
	"grad_norm": 0.4368407726287842,
	"learning_rate": 5.12560683304681e-05,
	"loss": 1.7747,
	"step": 202
	},
	{
	"epoch": 0.6749792186201163,
	"grad_norm": 0.4596605598926544,
	"learning_rate": 5.03130493360608e-05,
	"loss": 1.5868,
	"step": 203
	},
	{
	"epoch": 0.6783042394014963,
	"grad_norm": 0.437491238117218,
	"learning_rate": 4.9375861325614606e-05,
	"loss": 1.7614,
	"step": 204
	},
	{
	"epoch": 0.6816292601828762,
	"grad_norm": 0.47249388694763184,
	"learning_rate": 4.844461428229782e-05,
	"loss": 1.582,
	"step": 205
	},
	{
	"epoch": 0.684954280964256,
	"grad_norm": 0.44100067019462585,
	"learning_rate": 4.751941749207995e-05,
	"loss": 1.6814,
	"step": 206
	},
	{
	"epoch": 0.6882793017456359,
	"grad_norm": 0.5000886917114258,
	"learning_rate": 4.660037953090639e-05,
	"loss": 1.6634,
	"step": 207
	},
	{
	"epoch": 0.6916043225270158,
	"grad_norm": 0.4667086899280548,
	"learning_rate": 4.5687608251956714e-05,
	"loss": 1.7767,
	"step": 208
	},
	{
	"epoch": 0.6949293433083957,
	"grad_norm": 0.4677750766277313,
	"learning_rate": 4.4781210772987514e-05,
	"loss": 1.785,
	"step": 209
	},
	{
	"epoch": 0.6982543640897756,
	"grad_norm": 0.40729814767837524,
	"learning_rate": 4.388129346376178e-05,
	"loss": 1.5742,
	"step": 210
	},
	{
	"epoch": 0.7015793848711555,
	"grad_norm": 0.4622965157032013,
	"learning_rate": 4.298796193356566e-05,
	"loss": 1.755,
	"step": 211
	},
	{
	"epoch": 0.7049044056525353,
	"grad_norm": 0.42128920555114746,
	"learning_rate": 4.210132101881516e-05,
	"loss": 1.359,
	"step": 212
	},
	{
	"epoch": 0.7082294264339152,
	"grad_norm": 0.4670293927192688,
	"learning_rate": 4.12214747707527e-05,
	"loss": 1.8743,
	"step": 213
	},
	{
	"epoch": 0.7115544472152951,
	"grad_norm": 0.474398136138916,
	"learning_rate": 4.034852644323661e-05,
	"loss": 1.6977,
	"step": 214
	},
	{
	"epoch": 0.714879467996675,
	"grad_norm": 0.5026089549064636,
	"learning_rate": 3.948257848062351e-05,
	"loss": 1.566,
	"step": 215
	},
	{
	"epoch": 0.7182044887780549,
	"grad_norm": 0.40603697299957275,
	"learning_rate": 3.862373250574626e-05,
	"loss": 1.3894,
	"step": 216
	},
	{
	"epoch": 0.7215295095594347,
	"grad_norm": 0.4771779179573059,
	"learning_rate": 3.7772089307987936e-05,
	"loss": 1.6296,
	"step": 217
	},
	{
	"epoch": 0.7248545303408146,
	"grad_norm": 0.44347891211509705,
	"learning_rate": 3.6927748831453836e-05,
	"loss": 1.6663,
	"step": 218
	},
	{
	"epoch": 0.7281795511221946,
	"grad_norm": 0.435149610042572,
	"learning_rate": 3.609081016324243e-05,
	"loss": 1.6662,
	"step": 219
	},
	{
	"epoch": 0.7315045719035744,
	"grad_norm": 0.453782856464386,
	"learning_rate": 3.5261371521817244e-05,
	"loss": 1.7286,
	"step": 220
	},
	{
	"epoch": 0.7348295926849543,
	"grad_norm": 0.42496827244758606,
	"learning_rate": 3.44395302454804e-05,
	"loss": 1.7376,
	"step": 221
	},
	{
	"epoch": 0.7381546134663342,
	"grad_norm": 0.45447835326194763,
	"learning_rate": 3.3625382780949574e-05,
	"loss": 1.5055,
	"step": 222
	},
	{
	"epoch": 0.741479634247714,
	"grad_norm": 0.5035948157310486,
	"learning_rate": 3.28190246720394e-05,
	"loss": 1.866,
	"step": 223
	},
	{
	"epoch": 0.744804655029094,
	"grad_norm": 0.47680604457855225,
	"learning_rate": 3.202055054844921e-05,
	"loss": 1.9692,
	"step": 224
	},
	{
	"epoch": 0.7481296758104738,
	"grad_norm": 0.45373663306236267,
	"learning_rate": 3.123005411465766e-05,
	"loss": 1.6879,
	"step": 225
	},
	{
	"epoch": 0.7514546965918537,
	"grad_norm": 0.49925628304481506,
	"learning_rate": 3.0447628138926156e-05,
	"loss": 1.5313,
	"step": 226
	},
	{
	"epoch": 0.7547797173732336,
	"grad_norm": 0.4820810556411743,
	"learning_rate": 2.9673364442412e-05,
	"loss": 1.6259,
	"step": 227
	},
	{
	"epoch": 0.7581047381546134,
	"grad_norm": 0.5111257433891296,
	"learning_rate": 2.890735388839295e-05,
	"loss": 1.6068,
	"step": 228
	},
	{
	"epoch": 0.7614297589359933,
	"grad_norm": 0.3893967568874359,
	"learning_rate": 2.8149686371603767e-05,
	"loss": 1.5461,
	"step": 229
	},
	{
	"epoch": 0.7647547797173733,
	"grad_norm": 0.42585450410842896,
	"learning_rate": 2.7400450807686938e-05,
	"loss": 1.4092,
	"step": 230
	},
	{
	"epoch": 0.7680798004987531,
	"grad_norm": 0.5068459510803223,
	"learning_rate": 2.665973512275778e-05,
	"loss": 1.8426,
	"step": 231
	},
	{
	"epoch": 0.771404821280133,
	"grad_norm": 0.44372087717056274,
	"learning_rate": 2.59276262430861e-05,
	"loss": 1.5669,
	"step": 232
	},
	{
	"epoch": 0.7747298420615129,
	"grad_norm": 0.4483433663845062,
	"learning_rate": 2.520421008489494e-05,
	"loss": 1.508,
	"step": 233
	},
	{
	"epoch": 0.7780548628428927,
	"grad_norm": 0.4225240647792816,
	"learning_rate": 2.4489571544277945e-05,
	"loss": 1.4963,
	"step": 234
	},
	{
	"epoch": 0.7813798836242727,
	"grad_norm": 0.4540765583515167,
	"learning_rate": 2.3783794487236365e-05,
	"loss": 1.7699,
	"step": 235
	},
	{
	"epoch": 0.7847049044056525,
	"grad_norm": 0.5303469896316528,
	"learning_rate": 2.308696173983711e-05,
	"loss": 1.7887,
	"step": 236
	},
	{
	"epoch": 0.7880299251870324,
	"grad_norm": 0.4368319809436798,
	"learning_rate": 2.2399155078492694e-05,
	"loss": 1.6762,
	"step": 237
	},
	{
	"epoch": 0.7913549459684123,
	"grad_norm": 0.41934987902641296,
	"learning_rate": 2.1720455220364444e-05,
	"loss": 1.6372,
	"step": 238
	},
	{
	"epoch": 0.7946799667497921,
	"grad_norm": 0.4291558861732483,
	"learning_rate": 2.1050941813889836e-05,
	"loss": 1.6668,
	"step": 239
	},
	{
	"epoch": 0.7980049875311721,
	"grad_norm": 0.414044052362442,
	"learning_rate": 2.0390693429435627e-05,
	"loss": 1.6885,
	"step": 240
	},
	{
	"epoch": 0.801330008312552,
	"grad_norm": 0.4342755377292633,
	"learning_rate": 1.9739787550077116e-05,
	"loss": 1.5082,
	"step": 241
	},
	{
	"epoch": 0.8046550290939318,
	"grad_norm": 0.45343807339668274,
	"learning_rate": 1.9098300562505266e-05,
	"loss": 1.5635,
	"step": 242
	},
	{
	"epoch": 0.8079800498753117,
	"grad_norm": 0.4498422145843506,
	"learning_rate": 1.8466307748062205e-05,
	"loss": 1.6047,
	"step": 243
	},
	{
	"epoch": 0.8113050706566916,
	"grad_norm": 0.4087926149368286,
	"learning_rate": 1.784388327390687e-05,
	"loss": 1.3402,
	"step": 244
	},
	{
	"epoch": 0.8146300914380715,
	"grad_norm": 0.42908143997192383,
	"learning_rate": 1.7231100184310956e-05,
	"loss": 1.5664,
	"step": 245
	},
	{
	"epoch": 0.8179551122194514,
	"grad_norm": 0.4820065200328827,
	"learning_rate": 1.6628030392087e-05,
	"loss": 1.7218,
	"step": 246
	},
	{
	"epoch": 0.8212801330008312,
	"grad_norm": 0.4803646206855774,
	"learning_rate": 1.6034744670148972e-05,
	"loss": 1.837,
	"step": 247
	},
	{
	"epoch": 0.8246051537822111,
	"grad_norm": 0.4350035786628723,
	"learning_rate": 1.5451312643206827e-05,
	"loss": 1.5924,
	"step": 248
	},
	{
	"epoch": 0.827930174563591,
	"grad_norm": 0.49933725595474243,
	"learning_rate": 1.4877802779595762e-05,
	"loss": 1.6023,
	"step": 249
	},
	{
	"epoch": 0.8312551953449709,
	"grad_norm": 0.44506213068962097,
	"learning_rate": 1.4314282383241096e-05,
	"loss": 1.4533,
	"step": 250
	},
	{
	"epoch": 0.8345802161263508,
	"grad_norm": 0.46771377325057983,
	"learning_rate": 1.376081758575981e-05,
	"loss": 1.7391,
	"step": 251
	},
	{
	"epoch": 0.8379052369077307,
	"grad_norm": 0.44328737258911133,
	"learning_rate": 1.3217473338699859e-05,
	"loss": 1.6868,
	"step": 252
	},
	{
	"epoch": 0.8412302576891105,
	"grad_norm": 0.4481683373451233,
	"learning_rate": 1.2684313405917703e-05,
	"loss": 1.4394,
	"step": 253
	},
	{
	"epoch": 0.8445552784704904,
	"grad_norm": 0.452848881483078,
	"learning_rate": 1.2161400356095375e-05,
	"loss": 1.6657,
	"step": 254
	},
	{
	"epoch": 0.8478802992518704,
	"grad_norm": 0.42388778924942017,
	"learning_rate": 1.1648795555397719e-05,
	"loss": 1.459,
	"step": 255
	},
	{
	"epoch": 0.8512053200332502,
	"grad_norm": 0.43063634634017944,
	"learning_rate": 1.1146559160270875e-05,
	"loss": 1.6652,
	"step": 256
	},
	{
	"epoch": 0.8545303408146301,
	"grad_norm": 0.40587228536605835,
	"learning_rate": 1.0654750110382628e-05,
	"loss": 1.5131,
	"step": 257
	},
	{
	"epoch": 0.85785536159601,
	"grad_norm": 0.4573078751564026,
	"learning_rate": 1.0173426121705576e-05,
	"loss": 1.6047,
	"step": 258
	},
	{
	"epoch": 0.8611803823773898,
	"grad_norm": 0.4255686104297638,
	"learning_rate": 9.702643679743817e-06,
	"loss": 1.493,
	"step": 259
	},
	{
	"epoch": 0.8645054031587698,
	"grad_norm": 0.48064589500427246,
	"learning_rate": 9.242458032904311e-06,
	"loss": 1.6691,
	"step": 260
	},
	{
	"epoch": 0.8678304239401496,
	"grad_norm": 0.4468303620815277,
	"learning_rate": 8.792923186013024e-06,
	"loss": 1.5707,
	"step": 261
	},
	{
	"epoch": 0.8711554447215295,
	"grad_norm": 0.4417254328727722,
	"learning_rate": 8.354091893977401e-06,
	"loss": 1.5591,
	"step": 262
	},
	{
	"epoch": 0.8744804655029094,
	"grad_norm": 0.42065221071243286,
	"learning_rate": 7.926015655595254e-06,
	"loss": 1.5657,
	"step": 263
	},
	{
	"epoch": 0.8778054862842892,
	"grad_norm": 0.3902848958969116,
	"learning_rate": 7.508744707511117e-06,
	"loss": 1.5445,
	"step": 264
	},
	{
	"epoch": 0.8811305070656692,
	"grad_norm": 0.41993579268455505,
	"learning_rate": 7.102328018320858e-06,
	"loss": 1.4065,
	"step": 265
	},
	{
	"epoch": 0.8844555278470491,
	"grad_norm": 0.4170606732368469,
	"learning_rate": 6.70681328282492e-06,
	"loss": 1.5117,
	"step": 266
	},
	{
	"epoch": 0.8877805486284289,
	"grad_norm": 0.513680636882782,
	"learning_rate": 6.322246916431107e-06,
	"loss": 1.9662,
	"step": 267
	},
	{
	"epoch": 0.8911055694098088,
	"grad_norm": 0.43288302421569824,
	"learning_rate": 5.948674049707603e-06,
	"loss": 1.6208,
	"step": 268
	},
	{
	"epoch": 0.8944305901911886,
	"grad_norm": 0.38253968954086304,
	"learning_rate": 5.58613852308667e-06,
	"loss": 1.5302,
	"step": 269
	},
	{
	"epoch": 0.8977556109725686,
	"grad_norm": 0.4266990125179291,
	"learning_rate": 5.2346828817197655e-06,
	"loss": 1.6815,
	"step": 270
	},
	{
	"epoch": 0.9010806317539485,
	"grad_norm": 0.561107873916626,
	"learning_rate": 4.8943483704846475e-06,
	"loss": 1.6608,
	"step": 271
	},
	{
	"epoch": 0.9044056525353283,
	"grad_norm": 0.41741943359375,
	"learning_rate": 4.565174929145188e-06,
	"loss": 1.2898,
	"step": 272
	},
	{
	"epoch": 0.9077306733167082,
	"grad_norm": 0.39722350239753723,
	"learning_rate": 4.247201187664218e-06,
	"loss": 1.585,
	"step": 273
	},
	{
	"epoch": 0.9110556940980881,
	"grad_norm": 0.41877254843711853,
	"learning_rate": 3.940464461670135e-06,
	"loss": 1.605,
	"step": 274
	},
	{
	"epoch": 0.914380714879468,
	"grad_norm": 0.5125119090080261,
	"learning_rate": 3.6450007480777093e-06,
	"loss": 1.5922,
	"step": 275
	},
	{
	"epoch": 0.9177057356608479,
	"grad_norm": 0.43189626932144165,
	"learning_rate": 3.360844720863765e-06,
	"loss": 1.559,
	"step": 276
	},
	{
	"epoch": 0.9210307564422278,
	"grad_norm": 0.44040048122406006,
	"learning_rate": 3.0880297269979653e-06,
	"loss": 1.67,
	"step": 277
	},
	{
	"epoch": 0.9243557772236076,
	"grad_norm": 0.5034830570220947,
	"learning_rate": 2.826587782529444e-06,
	"loss": 1.9225,
	"step": 278
	},
	{
	"epoch": 0.9276807980049875,
	"grad_norm": 0.4373987019062042,
	"learning_rate": 2.576549568829578e-06,
	"loss": 1.7428,
	"step": 279
	},
	{
	"epoch": 0.9310058187863675,
	"grad_norm": 0.45258763432502747,
	"learning_rate": 2.3379444289913342e-06,
	"loss": 1.5951,
	"step": 280
	},
	{
	"epoch": 0.9343308395677473,
	"grad_norm": 0.4411347210407257,
	"learning_rate": 2.110800364385812e-06,
	"loss": 1.5906,
	"step": 281
	},
	{
	"epoch": 0.9376558603491272,
	"grad_norm": 0.4530499577522278,
	"learning_rate": 1.8951440313760837e-06,
	"loss": 1.4591,
	"step": 282
	},
	{
	"epoch": 0.940980881130507,
	"grad_norm": 0.484295129776001,
	"learning_rate": 1.6910007381890081e-06,
	"loss": 1.6808,
	"step": 283
	},
	{
	"epoch": 0.9443059019118869,
	"grad_norm": 0.43871116638183594,
	"learning_rate": 1.4983944419451613e-06,
	"loss": 1.5378,
	"step": 284
	},
	{
	"epoch": 0.9476309226932669,
	"grad_norm": 0.4450673460960388,
	"learning_rate": 1.317347745847386e-06,
	"loss": 1.6353,
	"step": 285
	},
	{
	"epoch": 0.9509559434746467,
	"grad_norm": 0.4276074171066284,
	"learning_rate": 1.1478818965281911e-06,
	"loss": 1.5403,
	"step": 286
	},
	{
	"epoch": 0.9542809642560266,
	"grad_norm": 0.46902570128440857,
	"learning_rate": 9.900167815563465e-07,
	"loss": 1.5077,
	"step": 287
	},
	{
	"epoch": 0.9576059850374065,
	"grad_norm": 0.42395344376564026,
	"learning_rate": 8.437709271030603e-07,
	"loss": 1.4276,
	"step": 288
	},
	{
	"epoch": 0.9609310058187863,
	"grad_norm": 0.45644354820251465,
	"learning_rate": 7.091614957677517e-07,
	"loss": 1.6846,
	"step": 289
	},
	{
	"epoch": 0.9642560266001663,
	"grad_norm": 0.5007442831993103,
	"learning_rate": 5.862042845640403e-07,
	"loss": 1.8228,
	"step": 290
	},
	{
	"epoch": 0.9675810473815462,
	"grad_norm": 0.4374752640724182,
	"learning_rate": 4.7491372306580627e-07,
	"loss": 1.6439,
	"step": 291
	},
	{
	"epoch": 0.970906068162926,
	"grad_norm": 0.42748919129371643,
	"learning_rate": 3.7530287171387843e-07,
	"loss": 1.5968,
	"step": 292
	},
	{
	"epoch": 0.9742310889443059,
	"grad_norm": 0.3897336721420288,
	"learning_rate": 2.873834202833159e-07,
	"loss": 1.5657,
	"step": 293
	},
	{
	"epoch": 0.9775561097256857,
	"grad_norm": 0.5000090599060059,
	"learning_rate": 2.1116568651156076e-07,
	"loss": 1.6331,
	"step": 294
	},
	{
	"epoch": 0.9808811305070657,
	"grad_norm": 0.4116688668727875,
	"learning_rate": 1.4665861488761813e-07,
	"loss": 1.349,
	"step": 295
	},
	{
	"epoch": 0.9842061512884456,
	"grad_norm": 0.45309168100357056,
	"learning_rate": 9.386977560232879e-08,
	"loss": 1.5287,
	"step": 296
	},
	{
	"epoch": 0.9875311720698254,
	"grad_norm": 0.4364264905452728,
	"learning_rate": 5.2805363660046734e-08,
	"loss": 1.5738,
	"step": 297
	},
	{
	"epoch": 0.9908561928512053,
	"grad_norm": 0.4273874759674072,
	"learning_rate": 2.347019815158724e-08,
	"loss": 1.585,
	"step": 298
	},
	{
	"epoch": 0.9941812136325852,
	"grad_norm": 0.42349839210510254,
	"learning_rate": 5.867721688690431e-09,
	"loss": 1.6562,
	"step": 299
	},
	{
	"epoch": 0.9975062344139651,
	"grad_norm": 0.46075183153152466,
	"learning_rate": 0.0,
	"loss": 1.592,
	"step": 300
	},
	{
	"epoch": 0.9975062344139651,
	"eval_loss": 1.6082537174224854,
	"eval_runtime": 15.2561,
	"eval_samples_per_second": 33.233,
	"eval_steps_per_second": 4.195,
	"step": 300
	}
	],
	"logging_steps": 1,
	"max_steps": 300,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1990397395992576.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}