openhermes-phi-1_5-sft-qlora / trainer_state.json

Upload 15 files

7d7e60e verified 6 months ago

53.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9993739889922224,
	"eval_steps": 500,
	"global_step": 1559,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006410352719642222,
	"grad_norm": 0.10498046875,
	"learning_rate": 1.282051282051282e-06,
	"loss": 1.8493,
	"step": 1
	},
	{
	"epoch": 0.003205176359821111,
	"grad_norm": 0.1103515625,
	"learning_rate": 6.41025641025641e-06,
	"loss": 1.8865,
	"step": 5
	},
	{
	"epoch": 0.006410352719642222,
	"grad_norm": 0.1005859375,
	"learning_rate": 1.282051282051282e-05,
	"loss": 1.8383,
	"step": 10
	},
	{
	"epoch": 0.009615529079463333,
	"grad_norm": 0.10693359375,
	"learning_rate": 1.923076923076923e-05,
	"loss": 1.8385,
	"step": 15
	},
	{
	"epoch": 0.012820705439284444,
	"grad_norm": 0.1103515625,
	"learning_rate": 2.564102564102564e-05,
	"loss": 1.8346,
	"step": 20
	},
	{
	"epoch": 0.016025881799105555,
	"grad_norm": 0.1298828125,
	"learning_rate": 3.205128205128206e-05,
	"loss": 1.8127,
	"step": 25
	},
	{
	"epoch": 0.019231058158926666,
	"grad_norm": 0.1435546875,
	"learning_rate": 3.846153846153846e-05,
	"loss": 1.7981,
	"step": 30
	},
	{
	"epoch": 0.022436234518747777,
	"grad_norm": 0.1494140625,
	"learning_rate": 4.4871794871794874e-05,
	"loss": 1.7907,
	"step": 35
	},
	{
	"epoch": 0.025641410878568888,
	"grad_norm": 0.1416015625,
	"learning_rate": 5.128205128205128e-05,
	"loss": 1.7468,
	"step": 40
	},
	{
	"epoch": 0.02884658723839,
	"grad_norm": 0.1328125,
	"learning_rate": 5.769230769230769e-05,
	"loss": 1.7105,
	"step": 45
	},
	{
	"epoch": 0.03205176359821111,
	"grad_norm": 0.126953125,
	"learning_rate": 6.410256410256412e-05,
	"loss": 1.6887,
	"step": 50
	},
	{
	"epoch": 0.035256939958032224,
	"grad_norm": 0.107421875,
	"learning_rate": 7.051282051282052e-05,
	"loss": 1.6757,
	"step": 55
	},
	{
	"epoch": 0.03846211631785333,
	"grad_norm": 0.10009765625,
	"learning_rate": 7.692307692307693e-05,
	"loss": 1.6736,
	"step": 60
	},
	{
	"epoch": 0.041667292677674446,
	"grad_norm": 0.078125,
	"learning_rate": 8.333333333333334e-05,
	"loss": 1.6252,
	"step": 65
	},
	{
	"epoch": 0.04487246903749555,
	"grad_norm": 0.06201171875,
	"learning_rate": 8.974358974358975e-05,
	"loss": 1.5655,
	"step": 70
	},
	{
	"epoch": 0.04807764539731667,
	"grad_norm": 0.049072265625,
	"learning_rate": 9.615384615384617e-05,
	"loss": 1.5646,
	"step": 75
	},
	{
	"epoch": 0.051282821757137775,
	"grad_norm": 0.04345703125,
	"learning_rate": 0.00010256410256410256,
	"loss": 1.5861,
	"step": 80
	},
	{
	"epoch": 0.05448799811695889,
	"grad_norm": 0.039794921875,
	"learning_rate": 0.00010897435897435896,
	"loss": 1.5379,
	"step": 85
	},
	{
	"epoch": 0.05769317447678,
	"grad_norm": 0.0400390625,
	"learning_rate": 0.00011538461538461538,
	"loss": 1.5557,
	"step": 90
	},
	{
	"epoch": 0.06089835083660111,
	"grad_norm": 0.037841796875,
	"learning_rate": 0.00012179487179487179,
	"loss": 1.5102,
	"step": 95
	},
	{
	"epoch": 0.06410352719642222,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00012820512820512823,
	"loss": 1.5048,
	"step": 100
	},
	{
	"epoch": 0.06730870355624333,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.00013461538461538464,
	"loss": 1.5127,
	"step": 105
	},
	{
	"epoch": 0.07051387991606445,
	"grad_norm": 0.03173828125,
	"learning_rate": 0.00014102564102564104,
	"loss": 1.5161,
	"step": 110
	},
	{
	"epoch": 0.07371905627588556,
	"grad_norm": 0.0301513671875,
	"learning_rate": 0.00014743589743589745,
	"loss": 1.4948,
	"step": 115
	},
	{
	"epoch": 0.07692423263570666,
	"grad_norm": 0.03125,
	"learning_rate": 0.00015384615384615385,
	"loss": 1.4584,
	"step": 120
	},
	{
	"epoch": 0.08012940899552777,
	"grad_norm": 0.029052734375,
	"learning_rate": 0.00016025641025641028,
	"loss": 1.4704,
	"step": 125
	},
	{
	"epoch": 0.08333458535534889,
	"grad_norm": 0.0279541015625,
	"learning_rate": 0.0001666666666666667,
	"loss": 1.4411,
	"step": 130
	},
	{
	"epoch": 0.08653976171517,
	"grad_norm": 0.0263671875,
	"learning_rate": 0.0001730769230769231,
	"loss": 1.4723,
	"step": 135
	},
	{
	"epoch": 0.0897449380749911,
	"grad_norm": 0.02685546875,
	"learning_rate": 0.0001794871794871795,
	"loss": 1.4505,
	"step": 140
	},
	{
	"epoch": 0.09295011443481223,
	"grad_norm": 0.0291748046875,
	"learning_rate": 0.0001858974358974359,
	"loss": 1.4367,
	"step": 145
	},
	{
	"epoch": 0.09615529079463334,
	"grad_norm": 0.0262451171875,
	"learning_rate": 0.00019230769230769233,
	"loss": 1.4291,
	"step": 150
	},
	{
	"epoch": 0.09936046715445444,
	"grad_norm": 0.0390625,
	"learning_rate": 0.00019871794871794874,
	"loss": 1.4075,
	"step": 155
	},
	{
	"epoch": 0.10256564351427555,
	"grad_norm": 0.03857421875,
	"learning_rate": 0.00019999598882613538,
	"loss": 1.4203,
	"step": 160
	},
	{
	"epoch": 0.10577081987409667,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.00019997969398381457,
	"loss": 1.4188,
	"step": 165
	},
	{
	"epoch": 0.10897599623391778,
	"grad_norm": 0.025146484375,
	"learning_rate": 0.00019995086681563726,
	"loss": 1.4512,
	"step": 170
	},
	{
	"epoch": 0.11218117259373889,
	"grad_norm": 0.025146484375,
	"learning_rate": 0.0001999095109350519,
	"loss": 1.417,
	"step": 175
	},
	{
	"epoch": 0.11538634895356,
	"grad_norm": 0.02734375,
	"learning_rate": 0.0001998556315259648,
	"loss": 1.4309,
	"step": 180
	},
	{
	"epoch": 0.11859152531338112,
	"grad_norm": 0.0255126953125,
	"learning_rate": 0.00019978923534209054,
	"loss": 1.4201,
	"step": 185
	},
	{
	"epoch": 0.12179670167320222,
	"grad_norm": 0.0286865234375,
	"learning_rate": 0.00019971033070610518,
	"loss": 1.4187,
	"step": 190
	},
	{
	"epoch": 0.12500187803302334,
	"grad_norm": 0.030517578125,
	"learning_rate": 0.0001996189275086033,
	"loss": 1.4153,
	"step": 195
	},
	{
	"epoch": 0.12820705439284444,
	"grad_norm": 0.0272216796875,
	"learning_rate": 0.00019951503720685784,
	"loss": 1.4279,
	"step": 200
	},
	{
	"epoch": 0.13141223075266556,
	"grad_norm": 0.0267333984375,
	"learning_rate": 0.0001993986728233844,
	"loss": 1.4052,
	"step": 205
	},
	{
	"epoch": 0.13461740711248665,
	"grad_norm": 0.0264892578125,
	"learning_rate": 0.0001992698489443085,
	"loss": 1.3943,
	"step": 210
	},
	{
	"epoch": 0.13782258347230777,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.0001991285817175375,
	"loss": 1.3931,
	"step": 215
	},
	{
	"epoch": 0.1410277598321289,
	"grad_norm": 0.0291748046875,
	"learning_rate": 0.0001989748888507363,
	"loss": 1.3931,
	"step": 220
	},
	{
	"epoch": 0.14423293619195,
	"grad_norm": 0.03125,
	"learning_rate": 0.00019880878960910772,
	"loss": 1.3899,
	"step": 225
	},
	{
	"epoch": 0.1474381125517711,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.0001986303048129778,
	"loss": 1.4305,
	"step": 230
	},
	{
	"epoch": 0.15064328891159223,
	"grad_norm": 0.033203125,
	"learning_rate": 0.0001984394568351858,
	"loss": 1.4028,
	"step": 235
	},
	{
	"epoch": 0.15384846527141333,
	"grad_norm": 0.03369140625,
	"learning_rate": 0.00019823626959827997,
	"loss": 1.3758,
	"step": 240
	},
	{
	"epoch": 0.15705364163123445,
	"grad_norm": 0.041015625,
	"learning_rate": 0.0001980207685715186,
	"loss": 1.407,
	"step": 245
	},
	{
	"epoch": 0.16025881799105554,
	"grad_norm": 0.034912109375,
	"learning_rate": 0.00019779298076767795,
	"loss": 1.3923,
	"step": 250
	},
	{
	"epoch": 0.16346399435087666,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.00019755293473966572,
	"loss": 1.3967,
	"step": 255
	},
	{
	"epoch": 0.16666917071069778,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.00019730066057694235,
	"loss": 1.4007,
	"step": 260
	},
	{
	"epoch": 0.16987434707051888,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.00019703618990174918,
	"loss": 1.3978,
	"step": 265
	},
	{
	"epoch": 0.17307952343034,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.00019675955586514468,
	"loss": 1.3744,
	"step": 270
	},
	{
	"epoch": 0.17628469979016112,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.00019647079314284897,
	"loss": 1.3929,
	"step": 275
	},
	{
	"epoch": 0.1794898761499822,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.0001961699379308974,
	"loss": 1.4031,
	"step": 280
	},
	{
	"epoch": 0.18269505250980334,
	"grad_norm": 0.04052734375,
	"learning_rate": 0.0001958570279411032,
	"loss": 1.3813,
	"step": 285
	},
	{
	"epoch": 0.18590022886962446,
	"grad_norm": 0.052734375,
	"learning_rate": 0.00019553210239633056,
	"loss": 1.3956,
	"step": 290
	},
	{
	"epoch": 0.18910540522944555,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.00019519520202557797,
	"loss": 1.3988,
	"step": 295
	},
	{
	"epoch": 0.19231058158926667,
	"grad_norm": 0.037109375,
	"learning_rate": 0.00019484636905887296,
	"loss": 1.3925,
	"step": 300
	},
	{
	"epoch": 0.19551575794908777,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.00019448564722197853,
	"loss": 1.376,
	"step": 305
	},
	{
	"epoch": 0.1987209343089089,
	"grad_norm": 0.04052734375,
	"learning_rate": 0.00019411308173091228,
	"loss": 1.3974,
	"step": 310
	},
	{
	"epoch": 0.20192611066873,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.0001937287192862787,
	"loss": 1.3765,
	"step": 315
	},
	{
	"epoch": 0.2051312870285511,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00019333260806741502,
	"loss": 1.3769,
	"step": 320
	},
	{
	"epoch": 0.20833646338837222,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.00019292479772635237,
	"loss": 1.3792,
	"step": 325
	},
	{
	"epoch": 0.21154163974819334,
	"grad_norm": 0.048583984375,
	"learning_rate": 0.00019250533938159166,
	"loss": 1.3968,
	"step": 330
	},
	{
	"epoch": 0.21474681610801444,
	"grad_norm": 0.040283203125,
	"learning_rate": 0.00019207428561169608,
	"loss": 1.38,
	"step": 335
	},
	{
	"epoch": 0.21795199246783556,
	"grad_norm": 0.043701171875,
	"learning_rate": 0.0001916316904487005,
	"loss": 1.3737,
	"step": 340
	},
	{
	"epoch": 0.22115716882765665,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.00019117760937133844,
	"loss": 1.4065,
	"step": 345
	},
	{
	"epoch": 0.22436234518747777,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.00019071209929808806,
	"loss": 1.4012,
	"step": 350
	},
	{
	"epoch": 0.2275675215472989,
	"grad_norm": 0.041748046875,
	"learning_rate": 0.00019023521858003742,
	"loss": 1.3941,
	"step": 355
	},
	{
	"epoch": 0.23077269790712,
	"grad_norm": 0.037841796875,
	"learning_rate": 0.00018974702699357029,
	"loss": 1.4072,
	"step": 360
	},
	{
	"epoch": 0.2339778742669411,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.00018924758573287315,
	"loss": 1.3531,
	"step": 365
	},
	{
	"epoch": 0.23718305062676223,
	"grad_norm": 0.03662109375,
	"learning_rate": 0.00018873695740226468,
	"loss": 1.3682,
	"step": 370
	},
	{
	"epoch": 0.24038822698658333,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.0001882152060083484,
	"loss": 1.3796,
	"step": 375
	},
	{
	"epoch": 0.24359340334640445,
	"grad_norm": 0.041015625,
	"learning_rate": 0.00018768239695198945,
	"loss": 1.3835,
	"step": 380
	},
	{
	"epoch": 0.24679857970622554,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.0001871385970201168,
	"loss": 1.3678,
	"step": 385
	},
	{
	"epoch": 0.2500037560660467,
	"grad_norm": 0.04345703125,
	"learning_rate": 0.00018658387437735135,
	"loss": 1.3778,
	"step": 390
	},
	{
	"epoch": 0.2532089324258678,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.00018601829855746185,
	"loss": 1.3811,
	"step": 395
	},
	{
	"epoch": 0.2564141087856889,
	"grad_norm": 0.057373046875,
	"learning_rate": 0.00018544194045464886,
	"loss": 1.3851,
	"step": 400
	},
	{
	"epoch": 0.25961928514551,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0001848548723146581,
	"loss": 1.3865,
	"step": 405
	},
	{
	"epoch": 0.2628244615053311,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.00018425716772572473,
	"loss": 1.3638,
	"step": 410
	},
	{
	"epoch": 0.2660296378651522,
	"grad_norm": 0.04443359375,
	"learning_rate": 0.00018364890160934904,
	"loss": 1.3918,
	"step": 415
	},
	{
	"epoch": 0.2692348142249733,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.00018303015021090525,
	"loss": 1.3794,
	"step": 420
	},
	{
	"epoch": 0.27243999058479446,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.00018240099109008412,
	"loss": 1.3836,
	"step": 425
	},
	{
	"epoch": 0.27564516694461555,
	"grad_norm": 0.05419921875,
	"learning_rate": 0.000181761503111171,
	"loss": 1.3676,
	"step": 430
	},
	{
	"epoch": 0.27885034330443664,
	"grad_norm": 0.04443359375,
	"learning_rate": 0.0001811117664331604,
	"loss": 1.3513,
	"step": 435
	},
	{
	"epoch": 0.2820555196642578,
	"grad_norm": 0.047607421875,
	"learning_rate": 0.00018045186249970784,
	"loss": 1.3602,
	"step": 440
	},
	{
	"epoch": 0.2852606960240789,
	"grad_norm": 0.043212890625,
	"learning_rate": 0.00017978187402892148,
	"loss": 1.3468,
	"step": 445
	},
	{
	"epoch": 0.2884658723839,
	"grad_norm": 0.05078125,
	"learning_rate": 0.00017910188500299304,
	"loss": 1.3651,
	"step": 450
	},
	{
	"epoch": 0.29167104874372113,
	"grad_norm": 0.04296875,
	"learning_rate": 0.00017841198065767107,
	"loss": 1.3763,
	"step": 455
	},
	{
	"epoch": 0.2948762251035422,
	"grad_norm": 0.044921875,
	"learning_rate": 0.00017771224747157652,
	"loss": 1.3597,
	"step": 460
	},
	{
	"epoch": 0.2980814014633633,
	"grad_norm": 0.0654296875,
	"learning_rate": 0.00017700277315536305,
	"loss": 1.3558,
	"step": 465
	},
	{
	"epoch": 0.30128657782318446,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.00017628364664072218,
	"loss": 1.3534,
	"step": 470
	},
	{
	"epoch": 0.30449175418300556,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.00017555495806923635,
	"loss": 1.3525,
	"step": 475
	},
	{
	"epoch": 0.30769693054282665,
	"grad_norm": 0.044189453125,
	"learning_rate": 0.00017481679878107926,
	"loss": 1.3715,
	"step": 480
	},
	{
	"epoch": 0.3109021069026478,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.00017406926130356692,
	"loss": 1.3689,
	"step": 485
	},
	{
	"epoch": 0.3141072832624689,
	"grad_norm": 0.095703125,
	"learning_rate": 0.00017331243933955918,
	"loss": 1.3686,
	"step": 490
	},
	{
	"epoch": 0.31731245962229,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00017254642775571438,
	"loss": 1.3784,
	"step": 495
	},
	{
	"epoch": 0.3205176359821111,
	"grad_norm": 0.07373046875,
	"learning_rate": 0.00017177132257059787,
	"loss": 1.3488,
	"step": 500
	},
	{
	"epoch": 0.32372281234193223,
	"grad_norm": 0.0439453125,
	"learning_rate": 0.00017098722094264617,
	"loss": 1.3789,
	"step": 505
	},
	{
	"epoch": 0.3269279887017533,
	"grad_norm": 0.052490234375,
	"learning_rate": 0.00017019422115798833,
	"loss": 1.3414,
	"step": 510
	},
	{
	"epoch": 0.3301331650615744,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0001693924226181259,
	"loss": 1.3667,
	"step": 515
	},
	{
	"epoch": 0.33333834142139557,
	"grad_norm": 0.05322265625,
	"learning_rate": 0.00016858192582747304,
	"loss": 1.3749,
	"step": 520
	},
	{
	"epoch": 0.33654351778121666,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.00016776283238075851,
	"loss": 1.3929,
	"step": 525
	},
	{
	"epoch": 0.33974869414103775,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.00016693524495029068,
	"loss": 1.3527,
	"step": 530
	},
	{
	"epoch": 0.3429538705008589,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00016609926727308806,
	"loss": 1.3577,
	"step": 535
	},
	{
	"epoch": 0.34615904686068,
	"grad_norm": 0.07861328125,
	"learning_rate": 0.00016525500413787554,
	"loss": 1.3639,
	"step": 540
	},
	{
	"epoch": 0.3493642232205011,
	"grad_norm": 0.0595703125,
	"learning_rate": 0.00016440256137194965,
	"loss": 1.3608,
	"step": 545
	},
	{
	"epoch": 0.35256939958032224,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.0001635420458279131,
	"loss": 1.3324,
	"step": 550
	},
	{
	"epoch": 0.35577457594014333,
	"grad_norm": 0.062255859375,
	"learning_rate": 0.0001626735653702809,
	"loss": 1.3283,
	"step": 555
	},
	{
	"epoch": 0.3589797522999644,
	"grad_norm": 0.04931640625,
	"learning_rate": 0.00016179722886195967,
	"loss": 1.3287,
	"step": 560
	},
	{
	"epoch": 0.3621849286597856,
	"grad_norm": 0.0703125,
	"learning_rate": 0.00016091314615060195,
	"loss": 1.3799,
	"step": 565
	},
	{
	"epoch": 0.36539010501960667,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.00016002142805483685,
	"loss": 1.3399,
	"step": 570
	},
	{
	"epoch": 0.36859528137942776,
	"grad_norm": 0.05908203125,
	"learning_rate": 0.00015912218635037896,
	"loss": 1.3698,
	"step": 575
	},
	{
	"epoch": 0.3718004577392489,
	"grad_norm": 0.05078125,
	"learning_rate": 0.0001582155337560177,
	"loss": 1.3378,
	"step": 580
	},
	{
	"epoch": 0.37500563409907,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.00015730158391948784,
	"loss": 1.337,
	"step": 585
	},
	{
	"epoch": 0.3782108104588911,
	"grad_norm": 0.0498046875,
	"learning_rate": 0.0001563804514032242,
	"loss": 1.3527,
	"step": 590
	},
	{
	"epoch": 0.3814159868187122,
	"grad_norm": 0.052734375,
	"learning_rate": 0.0001554522516700011,
	"loss": 1.3583,
	"step": 595
	},
	{
	"epoch": 0.38462116317853334,
	"grad_norm": 0.06201171875,
	"learning_rate": 0.00015451710106845955,
	"loss": 1.3421,
	"step": 600
	},
	{
	"epoch": 0.38782633953835444,
	"grad_norm": 0.050537109375,
	"learning_rate": 0.0001535751168185228,
	"loss": 1.3577,
	"step": 605
	},
	{
	"epoch": 0.39103151589817553,
	"grad_norm": 0.05517578125,
	"learning_rate": 0.00015262641699670328,
	"loss": 1.3706,
	"step": 610
	},
	{
	"epoch": 0.3942366922579967,
	"grad_norm": 0.054931640625,
	"learning_rate": 0.0001516711205213016,
	"loss": 1.3439,
	"step": 615
	},
	{
	"epoch": 0.3974418686178178,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.00015070934713750042,
	"loss": 1.3353,
	"step": 620
	},
	{
	"epoch": 0.40064704497763887,
	"grad_norm": 0.048583984375,
	"learning_rate": 0.00014974121740235456,
	"loss": 1.3489,
	"step": 625
	},
	{
	"epoch": 0.40385222133746,
	"grad_norm": 0.057373046875,
	"learning_rate": 0.00014876685266967924,
	"loss": 1.3481,
	"step": 630
	},
	{
	"epoch": 0.4070573976972811,
	"grad_norm": 0.053466796875,
	"learning_rate": 0.00014778637507483866,
	"loss": 1.3533,
	"step": 635
	},
	{
	"epoch": 0.4102625740571022,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.0001467999075194363,
	"loss": 1.3522,
	"step": 640
	},
	{
	"epoch": 0.41346775041692335,
	"grad_norm": 0.06689453125,
	"learning_rate": 0.00014580757365590963,
	"loss": 1.3712,
	"step": 645
	},
	{
	"epoch": 0.41667292677674445,
	"grad_norm": 0.053955078125,
	"learning_rate": 0.00014480949787203014,
	"loss": 1.3606,
	"step": 650
	},
	{
	"epoch": 0.41987810313656554,
	"grad_norm": 0.046875,
	"learning_rate": 0.0001438058052753118,
	"loss": 1.3488,
	"step": 655
	},
	{
	"epoch": 0.4230832794963867,
	"grad_norm": 0.058837890625,
	"learning_rate": 0.00014279662167732867,
	"loss": 1.342,
	"step": 660
	},
	{
	"epoch": 0.4262884558562078,
	"grad_norm": 0.07080078125,
	"learning_rate": 0.00014178207357794486,
	"loss": 1.3712,
	"step": 665
	},
	{
	"epoch": 0.4294936322160289,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00014076228814945778,
	"loss": 1.3227,
	"step": 670
	},
	{
	"epoch": 0.43269880857585,
	"grad_norm": 0.06982421875,
	"learning_rate": 0.00013973739322065728,
	"loss": 1.3201,
	"step": 675
	},
	{
	"epoch": 0.4359039849356711,
	"grad_norm": 0.05029296875,
	"learning_rate": 0.00013870751726080256,
	"loss": 1.3406,
	"step": 680
	},
	{
	"epoch": 0.4391091612954922,
	"grad_norm": 0.06201171875,
	"learning_rate": 0.00013767278936351854,
	"loss": 1.3636,
	"step": 685
	},
	{
	"epoch": 0.4423143376553133,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.0001366333392306143,
	"loss": 1.3576,
	"step": 690
	},
	{
	"epoch": 0.44551951401513445,
	"grad_norm": 0.06005859375,
	"learning_rate": 0.00013558929715582515,
	"loss": 1.3517,
	"step": 695
	},
	{
	"epoch": 0.44872469037495555,
	"grad_norm": 0.05126953125,
	"learning_rate": 0.00013454079400848027,
	"loss": 1.3376,
	"step": 700
	},
	{
	"epoch": 0.45192986673477664,
	"grad_norm": 0.059326171875,
	"learning_rate": 0.00013348796121709862,
	"loss": 1.3633,
	"step": 705
	},
	{
	"epoch": 0.4551350430945978,
	"grad_norm": 0.05078125,
	"learning_rate": 0.00013243093075291444,
	"loss": 1.3217,
	"step": 710
	},
	{
	"epoch": 0.4583402194544189,
	"grad_norm": 0.056884765625,
	"learning_rate": 0.00013136983511333482,
	"loss": 1.3265,
	"step": 715
	},
	{
	"epoch": 0.46154539581424,
	"grad_norm": 0.05859375,
	"learning_rate": 0.00013030480730533145,
	"loss": 1.3451,
	"step": 720
	},
	{
	"epoch": 0.4647505721740611,
	"grad_norm": 0.054443359375,
	"learning_rate": 0.00012923598082876812,
	"loss": 1.376,
	"step": 725
	},
	{
	"epoch": 0.4679557485338822,
	"grad_norm": 0.058349609375,
	"learning_rate": 0.0001281634896596669,
	"loss": 1.3524,
	"step": 730
	},
	{
	"epoch": 0.4711609248937033,
	"grad_norm": 0.0634765625,
	"learning_rate": 0.00012708746823341446,
	"loss": 1.3599,
	"step": 735
	},
	{
	"epoch": 0.47436610125352446,
	"grad_norm": 0.053466796875,
	"learning_rate": 0.00012600805142791042,
	"loss": 1.3416,
	"step": 740
	},
	{
	"epoch": 0.47757127761334556,
	"grad_norm": 0.055419921875,
	"learning_rate": 0.000124925374546661,
	"loss": 1.3574,
	"step": 745
	},
	{
	"epoch": 0.48077645397316665,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.0001238395733018187,
	"loss": 1.3574,
	"step": 750
	},
	{
	"epoch": 0.4839816303329878,
	"grad_norm": 0.053466796875,
	"learning_rate": 0.00012275078379717089,
	"loss": 1.3341,
	"step": 755
	},
	{
	"epoch": 0.4871868066928089,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.00012165914251107952,
	"loss": 1.3241,
	"step": 760
	},
	{
	"epoch": 0.49039198305263,
	"grad_norm": 0.054443359375,
	"learning_rate": 0.00012056478627937365,
	"loss": 1.3788,
	"step": 765
	},
	{
	"epoch": 0.4935971594124511,
	"grad_norm": 0.049560546875,
	"learning_rate": 0.00011946785227819726,
	"loss": 1.3581,
	"step": 770
	},
	{
	"epoch": 0.49680233577227223,
	"grad_norm": 0.05615234375,
	"learning_rate": 0.00011836847800681443,
	"loss": 1.3328,
	"step": 775
	},
	{
	"epoch": 0.5000075121320934,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.00011726680127037401,
	"loss": 1.3533,
	"step": 780
	},
	{
	"epoch": 0.5032126884919145,
	"grad_norm": 0.05419921875,
	"learning_rate": 0.00011616296016263582,
	"loss": 1.3622,
	"step": 785
	},
	{
	"epoch": 0.5064178648517356,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.00011505709304866084,
	"loss": 1.3446,
	"step": 790
	},
	{
	"epoch": 0.5096230412115567,
	"grad_norm": 0.0712890625,
	"learning_rate": 0.00011394933854746733,
	"loss": 1.3384,
	"step": 795
	},
	{
	"epoch": 0.5128282175713778,
	"grad_norm": 0.055908203125,
	"learning_rate": 0.00011283983551465511,
	"loss": 1.3378,
	"step": 800
	},
	{
	"epoch": 0.5160333939311988,
	"grad_norm": 0.060791015625,
	"learning_rate": 0.00011172872302500017,
	"loss": 1.3656,
	"step": 805
	},
	{
	"epoch": 0.51923857029102,
	"grad_norm": 0.0791015625,
	"learning_rate": 0.00011061614035502193,
	"loss": 1.3521,
	"step": 810
	},
	{
	"epoch": 0.5224437466508411,
	"grad_norm": 0.05859375,
	"learning_rate": 0.00010950222696552486,
	"loss": 1.3614,
	"step": 815
	},
	{
	"epoch": 0.5256489230106622,
	"grad_norm": 0.08203125,
	"learning_rate": 0.00010838712248411753,
	"loss": 1.3314,
	"step": 820
	},
	{
	"epoch": 0.5288540993704833,
	"grad_norm": 0.05322265625,
	"learning_rate": 0.00010727096668771036,
	"loss": 1.338,
	"step": 825
	},
	{
	"epoch": 0.5320592757303044,
	"grad_norm": 0.0556640625,
	"learning_rate": 0.0001061538994849946,
	"loss": 1.3611,
	"step": 830
	},
	{
	"epoch": 0.5352644520901255,
	"grad_norm": 0.06201171875,
	"learning_rate": 0.00010503606089890529,
	"loss": 1.3175,
	"step": 835
	},
	{
	"epoch": 0.5384696284499466,
	"grad_norm": 0.05712890625,
	"learning_rate": 0.00010391759104906928,
	"loss": 1.3525,
	"step": 840
	},
	{
	"epoch": 0.5416748048097678,
	"grad_norm": 0.0498046875,
	"learning_rate": 0.00010279863013424154,
	"loss": 1.3313,
	"step": 845
	},
	{
	"epoch": 0.5448799811695889,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.00010167931841473142,
	"loss": 1.3349,
	"step": 850
	},
	{
	"epoch": 0.54808515752941,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00010055979619482112,
	"loss": 1.3408,
	"step": 855
	},
	{
	"epoch": 0.5512903338892311,
	"grad_norm": 0.058837890625,
	"learning_rate": 9.944020380517889e-05,
	"loss": 1.3175,
	"step": 860
	},
	{
	"epoch": 0.5544955102490522,
	"grad_norm": 0.050048828125,
	"learning_rate": 9.832068158526862e-05,
	"loss": 1.3375,
	"step": 865
	},
	{
	"epoch": 0.5577006866088733,
	"grad_norm": 0.0498046875,
	"learning_rate": 9.720136986575848e-05,
	"loss": 1.3475,
	"step": 870
	},
	{
	"epoch": 0.5609058629686945,
	"grad_norm": 0.051513671875,
	"learning_rate": 9.608240895093076e-05,
	"loss": 1.3295,
	"step": 875
	},
	{
	"epoch": 0.5641110393285156,
	"grad_norm": 0.046142578125,
	"learning_rate": 9.496393910109472e-05,
	"loss": 1.3429,
	"step": 880
	},
	{
	"epoch": 0.5673162156883367,
	"grad_norm": 0.04443359375,
	"learning_rate": 9.384610051500545e-05,
	"loss": 1.3293,
	"step": 885
	},
	{
	"epoch": 0.5705213920481578,
	"grad_norm": 0.052734375,
	"learning_rate": 9.272903331228968e-05,
	"loss": 1.3498,
	"step": 890
	},
	{
	"epoch": 0.5737265684079789,
	"grad_norm": 0.062255859375,
	"learning_rate": 9.161287751588248e-05,
	"loss": 1.3351,
	"step": 895
	},
	{
	"epoch": 0.5769317447678,
	"grad_norm": 0.064453125,
	"learning_rate": 9.049777303447516e-05,
	"loss": 1.353,
	"step": 900
	},
	{
	"epoch": 0.5801369211276212,
	"grad_norm": 0.0556640625,
	"learning_rate": 8.938385964497808e-05,
	"loss": 1.3363,
	"step": 905
	},
	{
	"epoch": 0.5833420974874423,
	"grad_norm": 0.06201171875,
	"learning_rate": 8.827127697499984e-05,
	"loss": 1.3696,
	"step": 910
	},
	{
	"epoch": 0.5865472738472634,
	"grad_norm": 0.080078125,
	"learning_rate": 8.71601644853449e-05,
	"loss": 1.3481,
	"step": 915
	},
	{
	"epoch": 0.5897524502070844,
	"grad_norm": 0.06884765625,
	"learning_rate": 8.605066145253268e-05,
	"loss": 1.3256,
	"step": 920
	},
	{
	"epoch": 0.5929576265669055,
	"grad_norm": 0.051513671875,
	"learning_rate": 8.494290695133917e-05,
	"loss": 1.3544,
	"step": 925
	},
	{
	"epoch": 0.5961628029267266,
	"grad_norm": 0.05810546875,
	"learning_rate": 8.383703983736419e-05,
	"loss": 1.3443,
	"step": 930
	},
	{
	"epoch": 0.5993679792865477,
	"grad_norm": 0.06103515625,
	"learning_rate": 8.2733198729626e-05,
	"loss": 1.3816,
	"step": 935
	},
	{
	"epoch": 0.6025731556463689,
	"grad_norm": 0.046142578125,
	"learning_rate": 8.163152199318558e-05,
	"loss": 1.3247,
	"step": 940
	},
	{
	"epoch": 0.60577833200619,
	"grad_norm": 0.053466796875,
	"learning_rate": 8.053214772180277e-05,
	"loss": 1.3532,
	"step": 945
	},
	{
	"epoch": 0.6089835083660111,
	"grad_norm": 0.05419921875,
	"learning_rate": 7.94352137206264e-05,
	"loss": 1.3443,
	"step": 950
	},
	{
	"epoch": 0.6121886847258322,
	"grad_norm": 0.047119140625,
	"learning_rate": 7.83408574889205e-05,
	"loss": 1.3327,
	"step": 955
	},
	{
	"epoch": 0.6153938610856533,
	"grad_norm": 0.0537109375,
	"learning_rate": 7.724921620282916e-05,
	"loss": 1.334,
	"step": 960
	},
	{
	"epoch": 0.6185990374454744,
	"grad_norm": 0.0703125,
	"learning_rate": 7.616042669818133e-05,
	"loss": 1.3572,
	"step": 965
	},
	{
	"epoch": 0.6218042138052956,
	"grad_norm": 0.055419921875,
	"learning_rate": 7.507462545333903e-05,
	"loss": 1.3322,
	"step": 970
	},
	{
	"epoch": 0.6250093901651167,
	"grad_norm": 0.07958984375,
	"learning_rate": 7.399194857208961e-05,
	"loss": 1.3222,
	"step": 975
	},
	{
	"epoch": 0.6282145665249378,
	"grad_norm": 0.05078125,
	"learning_rate": 7.291253176658561e-05,
	"loss": 1.3375,
	"step": 980
	},
	{
	"epoch": 0.6314197428847589,
	"grad_norm": 0.08251953125,
	"learning_rate": 7.183651034033313e-05,
	"loss": 1.3397,
	"step": 985
	},
	{
	"epoch": 0.63462491924458,
	"grad_norm": 0.04931640625,
	"learning_rate": 7.07640191712319e-05,
	"loss": 1.34,
	"step": 990
	},
	{
	"epoch": 0.6378300956044011,
	"grad_norm": 0.049072265625,
	"learning_rate": 6.969519269466857e-05,
	"loss": 1.3344,
	"step": 995
	},
	{
	"epoch": 0.6410352719642222,
	"grad_norm": 0.052490234375,
	"learning_rate": 6.863016488666517e-05,
	"loss": 1.3475,
	"step": 1000
	},
	{
	"epoch": 0.6442404483240434,
	"grad_norm": 0.04736328125,
	"learning_rate": 6.756906924708558e-05,
	"loss": 1.3317,
	"step": 1005
	},
	{
	"epoch": 0.6474456246838645,
	"grad_norm": 0.050537109375,
	"learning_rate": 6.651203878290139e-05,
	"loss": 1.3243,
	"step": 1010
	},
	{
	"epoch": 0.6506508010436856,
	"grad_norm": 0.053955078125,
	"learning_rate": 6.545920599151975e-05,
	"loss": 1.3351,
	"step": 1015
	},
	{
	"epoch": 0.6538559774035066,
	"grad_norm": 0.058837890625,
	"learning_rate": 6.441070284417487e-05,
	"loss": 1.3536,
	"step": 1020
	},
	{
	"epoch": 0.6570611537633277,
	"grad_norm": 0.060791015625,
	"learning_rate": 6.336666076938572e-05,
	"loss": 1.3064,
	"step": 1025
	},
	{
	"epoch": 0.6602663301231488,
	"grad_norm": 0.056396484375,
	"learning_rate": 6.232721063648148e-05,
	"loss": 1.3496,
	"step": 1030
	},
	{
	"epoch": 0.66347150648297,
	"grad_norm": 0.0478515625,
	"learning_rate": 6.12924827391975e-05,
	"loss": 1.3487,
	"step": 1035
	},
	{
	"epoch": 0.6666766828427911,
	"grad_norm": 0.05126953125,
	"learning_rate": 6.026260677934272e-05,
	"loss": 1.3241,
	"step": 1040
	},
	{
	"epoch": 0.6698818592026122,
	"grad_norm": 0.0478515625,
	"learning_rate": 5.9237711850542246e-05,
	"loss": 1.3454,
	"step": 1045
	},
	{
	"epoch": 0.6730870355624333,
	"grad_norm": 0.046142578125,
	"learning_rate": 5.8217926422055126e-05,
	"loss": 1.3364,
	"step": 1050
	},
	{
	"epoch": 0.6762922119222544,
	"grad_norm": 0.054443359375,
	"learning_rate": 5.7203378322671355e-05,
	"loss": 1.3152,
	"step": 1055
	},
	{
	"epoch": 0.6794973882820755,
	"grad_norm": 0.0546875,
	"learning_rate": 5.619419472468823e-05,
	"loss": 1.3486,
	"step": 1060
	},
	{
	"epoch": 0.6827025646418967,
	"grad_norm": 0.05029296875,
	"learning_rate": 5.519050212796986e-05,
	"loss": 1.3301,
	"step": 1065
	},
	{
	"epoch": 0.6859077410017178,
	"grad_norm": 0.051513671875,
	"learning_rate": 5.419242634409039e-05,
	"loss": 1.3279,
	"step": 1070
	},
	{
	"epoch": 0.6891129173615389,
	"grad_norm": 0.0478515625,
	"learning_rate": 5.32000924805637e-05,
	"loss": 1.3415,
	"step": 1075
	},
	{
	"epoch": 0.69231809372136,
	"grad_norm": 0.04638671875,
	"learning_rate": 5.2213624925161386e-05,
	"loss": 1.3449,
	"step": 1080
	},
	{
	"epoch": 0.6955232700811811,
	"grad_norm": 0.04541015625,
	"learning_rate": 5.123314733032074e-05,
	"loss": 1.3442,
	"step": 1085
	},
	{
	"epoch": 0.6987284464410022,
	"grad_norm": 0.04736328125,
	"learning_rate": 5.0258782597645446e-05,
	"loss": 1.3309,
	"step": 1090
	},
	{
	"epoch": 0.7019336228008233,
	"grad_norm": 0.0478515625,
	"learning_rate": 4.929065286249959e-05,
	"loss": 1.3564,
	"step": 1095
	},
	{
	"epoch": 0.7051387991606445,
	"grad_norm": 0.048095703125,
	"learning_rate": 4.832887947869841e-05,
	"loss": 1.3578,
	"step": 1100
	},
	{
	"epoch": 0.7083439755204656,
	"grad_norm": 0.047119140625,
	"learning_rate": 4.737358300329673e-05,
	"loss": 1.3417,
	"step": 1105
	},
	{
	"epoch": 0.7115491518802867,
	"grad_norm": 0.05029296875,
	"learning_rate": 4.642488318147723e-05,
	"loss": 1.3259,
	"step": 1110
	},
	{
	"epoch": 0.7147543282401078,
	"grad_norm": 0.052001953125,
	"learning_rate": 4.548289893154051e-05,
	"loss": 1.3568,
	"step": 1115
	},
	{
	"epoch": 0.7179595045999289,
	"grad_norm": 0.047607421875,
	"learning_rate": 4.4547748329998925e-05,
	"loss": 1.3211,
	"step": 1120
	},
	{
	"epoch": 0.72116468095975,
	"grad_norm": 0.05126953125,
	"learning_rate": 4.361954859677584e-05,
	"loss": 1.3398,
	"step": 1125
	},
	{
	"epoch": 0.7243698573195712,
	"grad_norm": 0.048095703125,
	"learning_rate": 4.2698416080512204e-05,
	"loss": 1.3266,
	"step": 1130
	},
	{
	"epoch": 0.7275750336793922,
	"grad_norm": 0.050048828125,
	"learning_rate": 4.1784466243982324e-05,
	"loss": 1.3447,
	"step": 1135
	},
	{
	"epoch": 0.7307802100392133,
	"grad_norm": 0.052001953125,
	"learning_rate": 4.0877813649621076e-05,
	"loss": 1.3385,
	"step": 1140
	},
	{
	"epoch": 0.7339853863990344,
	"grad_norm": 0.04638671875,
	"learning_rate": 3.997857194516319e-05,
	"loss": 1.3403,
	"step": 1145
	},
	{
	"epoch": 0.7371905627588555,
	"grad_norm": 0.05078125,
	"learning_rate": 3.9086853849398065e-05,
	"loss": 1.3503,
	"step": 1150
	},
	{
	"epoch": 0.7403957391186766,
	"grad_norm": 0.06396484375,
	"learning_rate": 3.8202771138040336e-05,
	"loss": 1.3354,
	"step": 1155
	},
	{
	"epoch": 0.7436009154784978,
	"grad_norm": 0.05078125,
	"learning_rate": 3.732643462971912e-05,
	"loss": 1.3258,
	"step": 1160
	},
	{
	"epoch": 0.7468060918383189,
	"grad_norm": 0.049560546875,
	"learning_rate": 3.6457954172086896e-05,
	"loss": 1.3493,
	"step": 1165
	},
	{
	"epoch": 0.75001126819814,
	"grad_norm": 0.046875,
	"learning_rate": 3.559743862805034e-05,
	"loss": 1.3275,
	"step": 1170
	},
	{
	"epoch": 0.7532164445579611,
	"grad_norm": 0.045654296875,
	"learning_rate": 3.47449958621245e-05,
	"loss": 1.3148,
	"step": 1175
	},
	{
	"epoch": 0.7564216209177822,
	"grad_norm": 0.051513671875,
	"learning_rate": 3.390073272691198e-05,
	"loss": 1.3338,
	"step": 1180
	},
	{
	"epoch": 0.7596267972776033,
	"grad_norm": 0.049072265625,
	"learning_rate": 3.306475504970931e-05,
	"loss": 1.2935,
	"step": 1185
	},
	{
	"epoch": 0.7628319736374244,
	"grad_norm": 0.04833984375,
	"learning_rate": 3.2237167619241495e-05,
	"loss": 1.3275,
	"step": 1190
	},
	{
	"epoch": 0.7660371499972456,
	"grad_norm": 0.056396484375,
	"learning_rate": 3.141807417252697e-05,
	"loss": 1.3461,
	"step": 1195
	},
	{
	"epoch": 0.7692423263570667,
	"grad_norm": 0.04345703125,
	"learning_rate": 3.060757738187409e-05,
	"loss": 1.3394,
	"step": 1200
	},
	{
	"epoch": 0.7724475027168878,
	"grad_norm": 0.053955078125,
	"learning_rate": 2.980577884201169e-05,
	"loss": 1.3511,
	"step": 1205
	},
	{
	"epoch": 0.7756526790767089,
	"grad_norm": 0.04736328125,
	"learning_rate": 2.9012779057353855e-05,
	"loss": 1.3213,
	"step": 1210
	},
	{
	"epoch": 0.77885785543653,
	"grad_norm": 0.0576171875,
	"learning_rate": 2.822867742940214e-05,
	"loss": 1.3384,
	"step": 1215
	},
	{
	"epoch": 0.7820630317963511,
	"grad_norm": 0.04833984375,
	"learning_rate": 2.745357224428563e-05,
	"loss": 1.343,
	"step": 1220
	},
	{
	"epoch": 0.7852682081561723,
	"grad_norm": 0.049560546875,
	"learning_rate": 2.6687560660440858e-05,
	"loss": 1.3541,
	"step": 1225
	},
	{
	"epoch": 0.7884733845159934,
	"grad_norm": 0.047607421875,
	"learning_rate": 2.593073869643312e-05,
	"loss": 1.3491,
	"step": 1230
	},
	{
	"epoch": 0.7916785608758145,
	"grad_norm": 0.04248046875,
	"learning_rate": 2.518320121892076e-05,
	"loss": 1.3439,
	"step": 1235
	},
	{
	"epoch": 0.7948837372356355,
	"grad_norm": 0.04736328125,
	"learning_rate": 2.4445041930763678e-05,
	"loss": 1.3236,
	"step": 1240
	},
	{
	"epoch": 0.7980889135954566,
	"grad_norm": 0.0478515625,
	"learning_rate": 2.371635335927781e-05,
	"loss": 1.3505,
	"step": 1245
	},
	{
	"epoch": 0.8012940899552777,
	"grad_norm": 0.0517578125,
	"learning_rate": 2.2997226844636977e-05,
	"loss": 1.3223,
	"step": 1250
	},
	{
	"epoch": 0.8044992663150989,
	"grad_norm": 0.046630859375,
	"learning_rate": 2.2287752528423468e-05,
	"loss": 1.3282,
	"step": 1255
	},
	{
	"epoch": 0.80770444267492,
	"grad_norm": 0.046875,
	"learning_rate": 2.1588019342328968e-05,
	"loss": 1.3294,
	"step": 1260
	},
	{
	"epoch": 0.8109096190347411,
	"grad_norm": 0.0439453125,
	"learning_rate": 2.089811499700699e-05,
	"loss": 1.3356,
	"step": 1265
	},
	{
	"epoch": 0.8141147953945622,
	"grad_norm": 0.045654296875,
	"learning_rate": 2.021812597107855e-05,
	"loss": 1.3486,
	"step": 1270
	},
	{
	"epoch": 0.8173199717543833,
	"grad_norm": 0.04931640625,
	"learning_rate": 1.954813750029216e-05,
	"loss": 1.3492,
	"step": 1275
	},
	{
	"epoch": 0.8205251481142044,
	"grad_norm": 0.05126953125,
	"learning_rate": 1.8888233566839653e-05,
	"loss": 1.329,
	"step": 1280
	},
	{
	"epoch": 0.8237303244740255,
	"grad_norm": 0.048095703125,
	"learning_rate": 1.8238496888828982e-05,
	"loss": 1.317,
	"step": 1285
	},
	{
	"epoch": 0.8269355008338467,
	"grad_norm": 0.051513671875,
	"learning_rate": 1.759900890991589e-05,
	"loss": 1.3177,
	"step": 1290
	},
	{
	"epoch": 0.8301406771936678,
	"grad_norm": 0.0458984375,
	"learning_rate": 1.696984978909476e-05,
	"loss": 1.323,
	"step": 1295
	},
	{
	"epoch": 0.8333458535534889,
	"grad_norm": 0.0439453125,
	"learning_rate": 1.6351098390650966e-05,
	"loss": 1.3517,
	"step": 1300
	},
	{
	"epoch": 0.83655102991331,
	"grad_norm": 0.052978515625,
	"learning_rate": 1.5742832274275288e-05,
	"loss": 1.35,
	"step": 1305
	},
	{
	"epoch": 0.8397562062731311,
	"grad_norm": 0.049072265625,
	"learning_rate": 1.514512768534193e-05,
	"loss": 1.3614,
	"step": 1310
	},
	{
	"epoch": 0.8429613826329522,
	"grad_norm": 0.0439453125,
	"learning_rate": 1.4558059545351143e-05,
	"loss": 1.3389,
	"step": 1315
	},
	{
	"epoch": 0.8461665589927734,
	"grad_norm": 0.04541015625,
	"learning_rate": 1.3981701442538153e-05,
	"loss": 1.3272,
	"step": 1320
	},
	{
	"epoch": 0.8493717353525945,
	"grad_norm": 0.048583984375,
	"learning_rate": 1.3416125622648668e-05,
	"loss": 1.3324,
	"step": 1325
	},
	{
	"epoch": 0.8525769117124156,
	"grad_norm": 0.04541015625,
	"learning_rate": 1.286140297988323e-05,
	"loss": 1.3352,
	"step": 1330
	},
	{
	"epoch": 0.8557820880722367,
	"grad_norm": 0.04443359375,
	"learning_rate": 1.231760304801054e-05,
	"loss": 1.3361,
	"step": 1335
	},
	{
	"epoch": 0.8589872644320578,
	"grad_norm": 0.047119140625,
	"learning_rate": 1.1784793991651621e-05,
	"loss": 1.3252,
	"step": 1340
	},
	{
	"epoch": 0.8621924407918788,
	"grad_norm": 0.044189453125,
	"learning_rate": 1.1263042597735362e-05,
	"loss": 1.3468,
	"step": 1345
	},
	{
	"epoch": 0.8653976171517,
	"grad_norm": 0.046630859375,
	"learning_rate": 1.0752414267126875e-05,
	"loss": 1.3301,
	"step": 1350
	},
	{
	"epoch": 0.8686027935115211,
	"grad_norm": 0.05029296875,
	"learning_rate": 1.0252973006429733e-05,
	"loss": 1.36,
	"step": 1355
	},
	{
	"epoch": 0.8718079698713422,
	"grad_norm": 0.047119140625,
	"learning_rate": 9.764781419962577e-06,
	"loss": 1.3482,
	"step": 1360
	},
	{
	"epoch": 0.8750131462311633,
	"grad_norm": 0.04638671875,
	"learning_rate": 9.287900701911944e-06,
	"loss": 1.3232,
	"step": 1365
	},
	{
	"epoch": 0.8782183225909844,
	"grad_norm": 0.04931640625,
	"learning_rate": 8.822390628661582e-06,
	"loss": 1.3571,
	"step": 1370
	},
	{
	"epoch": 0.8814234989508055,
	"grad_norm": 0.044921875,
	"learning_rate": 8.368309551299536e-06,
	"loss": 1.3274,
	"step": 1375
	},
	{
	"epoch": 0.8846286753106266,
	"grad_norm": 0.04541015625,
	"learning_rate": 7.92571438830394e-06,
	"loss": 1.3656,
	"step": 1380
	},
	{
	"epoch": 0.8878338516704478,
	"grad_norm": 0.046142578125,
	"learning_rate": 7.494660618408378e-06,
	"loss": 1.3659,
	"step": 1385
	},
	{
	"epoch": 0.8910390280302689,
	"grad_norm": 0.04541015625,
	"learning_rate": 7.075202273647652e-06,
	"loss": 1.3305,
	"step": 1390
	},
	{
	"epoch": 0.89424420439009,
	"grad_norm": 0.046875,
	"learning_rate": 6.667391932584999e-06,
	"loss": 1.36,
	"step": 1395
	},
	{
	"epoch": 0.8974493807499111,
	"grad_norm": 0.0458984375,
	"learning_rate": 6.271280713721317e-06,
	"loss": 1.3382,
	"step": 1400
	},
	{
	"epoch": 0.9006545571097322,
	"grad_norm": 0.04638671875,
	"learning_rate": 5.886918269087716e-06,
	"loss": 1.326,
	"step": 1405
	},
	{
	"epoch": 0.9038597334695533,
	"grad_norm": 0.046875,
	"learning_rate": 5.514352778021492e-06,
	"loss": 1.3602,
	"step": 1410
	},
	{
	"epoch": 0.9070649098293745,
	"grad_norm": 0.046142578125,
	"learning_rate": 5.153630941127063e-06,
	"loss": 1.3407,
	"step": 1415
	},
	{
	"epoch": 0.9102700861891956,
	"grad_norm": 0.046875,
	"learning_rate": 4.804797974422026e-06,
	"loss": 1.3241,
	"step": 1420
	},
	{
	"epoch": 0.9134752625490167,
	"grad_norm": 0.050537109375,
	"learning_rate": 4.4678976036694355e-06,
	"loss": 1.3324,
	"step": 1425
	},
	{
	"epoch": 0.9166804389088378,
	"grad_norm": 0.04443359375,
	"learning_rate": 4.142972058896811e-06,
	"loss": 1.3267,
	"step": 1430
	},
	{
	"epoch": 0.9198856152686589,
	"grad_norm": 0.044921875,
	"learning_rate": 3.830062069102602e-06,
	"loss": 1.3496,
	"step": 1435
	},
	{
	"epoch": 0.92309079162848,
	"grad_norm": 0.046630859375,
	"learning_rate": 3.529206857151035e-06,
	"loss": 1.3481,
	"step": 1440
	},
	{
	"epoch": 0.9262959679883012,
	"grad_norm": 0.04345703125,
	"learning_rate": 3.240444134855347e-06,
	"loss": 1.3433,
	"step": 1445
	},
	{
	"epoch": 0.9295011443481223,
	"grad_norm": 0.045654296875,
	"learning_rate": 2.963810098250841e-06,
	"loss": 1.3555,
	"step": 1450
	},
	{
	"epoch": 0.9327063207079433,
	"grad_norm": 0.044921875,
	"learning_rate": 2.6993394230576674e-06,
	"loss": 1.3218,
	"step": 1455
	},
	{
	"epoch": 0.9359114970677644,
	"grad_norm": 0.04638671875,
	"learning_rate": 2.4470652603343023e-06,
	"loss": 1.346,
	"step": 1460
	},
	{
	"epoch": 0.9391166734275855,
	"grad_norm": 0.044677734375,
	"learning_rate": 2.2070192323220607e-06,
	"loss": 1.3551,
	"step": 1465
	},
	{
	"epoch": 0.9423218497874066,
	"grad_norm": 0.0439453125,
	"learning_rate": 1.9792314284813986e-06,
	"loss": 1.3262,
	"step": 1470
	},
	{
	"epoch": 0.9455270261472277,
	"grad_norm": 0.04736328125,
	"learning_rate": 1.763730401720065e-06,
	"loss": 1.3257,
	"step": 1475
	},
	{
	"epoch": 0.9487322025070489,
	"grad_norm": 0.046142578125,
	"learning_rate": 1.5605431648141878e-06,
	"loss": 1.3158,
	"step": 1480
	},
	{
	"epoch": 0.95193737886687,
	"grad_norm": 0.044677734375,
	"learning_rate": 1.3696951870222018e-06,
	"loss": 1.3637,
	"step": 1485
	},
	{
	"epoch": 0.9551425552266911,
	"grad_norm": 0.053466796875,
	"learning_rate": 1.1912103908922945e-06,
	"loss": 1.3337,
	"step": 1490
	},
	{
	"epoch": 0.9583477315865122,
	"grad_norm": 0.050048828125,
	"learning_rate": 1.0251111492637244e-06,
	"loss": 1.3557,
	"step": 1495
	},
	{
	"epoch": 0.9615529079463333,
	"grad_norm": 0.05126953125,
	"learning_rate": 8.714182824624883e-07,
	"loss": 1.3373,
	"step": 1500
	},
	{
	"epoch": 0.9647580843061544,
	"grad_norm": 0.0458984375,
	"learning_rate": 7.301510556914859e-07,
	"loss": 1.3274,
	"step": 1505
	},
	{
	"epoch": 0.9679632606659756,
	"grad_norm": 0.05224609375,
	"learning_rate": 6.01327176615607e-07,
	"loss": 1.3894,
	"step": 1510
	},
	{
	"epoch": 0.9711684370257967,
	"grad_norm": 0.045166015625,
	"learning_rate": 4.84962793142163e-07,
	"loss": 1.3419,
	"step": 1515
	},
	{
	"epoch": 0.9743736133856178,
	"grad_norm": 0.044677734375,
	"learning_rate": 3.8107249139672783e-07,
	"loss": 1.3321,
	"step": 1520
	},
	{
	"epoch": 0.9775787897454389,
	"grad_norm": 0.0478515625,
	"learning_rate": 2.89669293894812e-07,
	"loss": 1.3497,
	"step": 1525
	},
	{
	"epoch": 0.98078396610526,
	"grad_norm": 0.049072265625,
	"learning_rate": 2.1076465790946798e-07,
	"loss": 1.3518,
	"step": 1530
	},
	{
	"epoch": 0.9839891424650811,
	"grad_norm": 0.04638671875,
	"learning_rate": 1.443684740351947e-07,
	"loss": 1.3224,
	"step": 1535
	},
	{
	"epoch": 0.9871943188249022,
	"grad_norm": 0.049072265625,
	"learning_rate": 9.048906494811826e-08,
	"loss": 1.3513,
	"step": 1540
	},
	{
	"epoch": 0.9903994951847234,
	"grad_norm": 0.050048828125,
	"learning_rate": 4.9133184362748497e-08,
	"loss": 1.3494,
	"step": 1545
	},
	{
	"epoch": 0.9936046715445445,
	"grad_norm": 0.04443359375,
	"learning_rate": 2.0306016185456244e-08,
	"loss": 1.3344,
	"step": 1550
	},
	{
	"epoch": 0.9968098479043656,
	"grad_norm": 0.047119140625,
	"learning_rate": 4.011173864637563e-09,
	"loss": 1.3662,
	"step": 1555
	},
	{
	"epoch": 0.9993739889922224,
	"eval_loss": 1.4191993474960327,
	"eval_runtime": 1938.5869,
	"eval_samples_per_second": 7.3,
	"eval_steps_per_second": 7.3,
	"step": 1559
	},
	{
	"epoch": 0.9993739889922224,
	"step": 1559,
	"total_flos": 3.232184148701479e+18,
	"train_loss": 0.016414370117774753,
	"train_runtime": 2971.8566,
	"train_samples_per_second": 67.189,
	"train_steps_per_second": 0.525
	}
	],
	"logging_steps": 5,
	"max_steps": 1559,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 20,
	"total_flos": 3.232184148701479e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}