Upload checkpoint-703/trainer_state.json with huggingface_hub

Browse files

Files changed (1) hide show

checkpoint-703/trainer_state.json +1131 -0

checkpoint-703/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1131 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9998222222222222,
+  "eval_steps": 200,
+  "global_step": 703,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.014222222222222223,
+      "grad_norm": 37.622314591135336,
+      "learning_rate": 2.8169014084507043e-07,
+      "logits/chosen": 0.22460369765758514,
+      "logits/rejected": 0.22931505739688873,
+      "logps/chosen": -169.9998321533203,
+      "logps/rejected": -165.81625366210938,
+      "loss": 0.692,
+      "rewards/accuracies": 0.4257812798023224,
+      "rewards/chosen": -0.00582541897892952,
+      "rewards/margins": 0.0030124844051897526,
+      "rewards/rejected": -0.008837902918457985,
+      "step": 10
+    },
+    {
+      "epoch": 0.028444444444444446,
+      "grad_norm": 34.645567235965046,
+      "learning_rate": 5.633802816901409e-07,
+      "logits/chosen": 0.21702095866203308,
+      "logits/rejected": 0.22135533392429352,
+      "logps/chosen": -158.21507263183594,
+      "logps/rejected": -159.20578002929688,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.10022798180580139,
+      "rewards/margins": 0.014327095821499825,
+      "rewards/rejected": -0.11455506831407547,
+      "step": 20
+    },
+    {
+      "epoch": 0.042666666666666665,
+      "grad_norm": 36.11162335188131,
+      "learning_rate": 8.450704225352112e-07,
+      "logits/chosen": 0.22448155283927917,
+      "logits/rejected": 0.22727997601032257,
+      "logps/chosen": -176.5776824951172,
+      "logps/rejected": -172.39144897460938,
+      "loss": 0.6743,
+      "rewards/accuracies": 0.5765625238418579,
+      "rewards/chosen": -0.4727466404438019,
+      "rewards/margins": 0.06264183670282364,
+      "rewards/rejected": -0.5353884696960449,
+      "step": 30
+    },
+    {
+      "epoch": 0.05688888888888889,
+      "grad_norm": 31.16390845270907,
+      "learning_rate": 1.1267605633802817e-06,
+      "logits/chosen": 0.23577681183815002,
+      "logits/rejected": 0.23861564695835114,
+      "logps/chosen": -170.12828063964844,
+      "logps/rejected": -173.585205078125,
+      "loss": 0.6274,
+      "rewards/accuracies": 0.649218738079071,
+      "rewards/chosen": -0.5824733376502991,
+      "rewards/margins": 0.20194238424301147,
+      "rewards/rejected": -0.7844158411026001,
+      "step": 40
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": 31.43717823219279,
+      "learning_rate": 1.408450704225352e-06,
+      "logits/chosen": 0.2460279017686844,
+      "logits/rejected": 0.24856708943843842,
+      "logps/chosen": -164.169189453125,
+      "logps/rejected": -168.471435546875,
+      "loss": 0.5882,
+      "rewards/accuracies": 0.7109375,
+      "rewards/chosen": -0.5867726802825928,
+      "rewards/margins": 0.354371041059494,
+      "rewards/rejected": -0.9411437511444092,
+      "step": 50
+    },
+    {
+      "epoch": 0.08533333333333333,
+      "grad_norm": 29.466665588707553,
+      "learning_rate": 1.6901408450704225e-06,
+      "logits/chosen": 0.26712918281555176,
+      "logits/rejected": 0.27090156078338623,
+      "logps/chosen": -168.39569091796875,
+      "logps/rejected": -174.5313262939453,
+      "loss": 0.5673,
+      "rewards/accuracies": 0.6929687857627869,
+      "rewards/chosen": -0.44874832034111023,
+      "rewards/margins": 0.5710285305976868,
+      "rewards/rejected": -1.0197768211364746,
+      "step": 60
+    },
+    {
+      "epoch": 0.09955555555555555,
+      "grad_norm": 29.29672362284883,
+      "learning_rate": 1.971830985915493e-06,
+      "logits/chosen": 0.26626870036125183,
+      "logits/rejected": 0.27328580617904663,
+      "logps/chosen": -170.83888244628906,
+      "logps/rejected": -175.48245239257812,
+      "loss": 0.5323,
+      "rewards/accuracies": 0.7390625476837158,
+      "rewards/chosen": -0.6967486143112183,
+      "rewards/margins": 0.8345546126365662,
+      "rewards/rejected": -1.5313031673431396,
+      "step": 70
+    },
+    {
+      "epoch": 0.11377777777777778,
+      "grad_norm": 32.075198095164076,
+      "learning_rate": 1.9989994283927284e-06,
+      "logits/chosen": 0.28503507375717163,
+      "logits/rejected": 0.2870316207408905,
+      "logps/chosen": -164.9480438232422,
+      "logps/rejected": -172.48333740234375,
+      "loss": 0.5101,
+      "rewards/accuracies": 0.7515625357627869,
+      "rewards/chosen": -0.805090606212616,
+      "rewards/margins": 0.9741694331169128,
+      "rewards/rejected": -1.7792601585388184,
+      "step": 80
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 28.794301270291456,
+      "learning_rate": 1.9955432328988433e-06,
+      "logits/chosen": 0.2928016185760498,
+      "logits/rejected": 0.2973910868167877,
+      "logps/chosen": -172.90721130371094,
+      "logps/rejected": -185.6675262451172,
+      "loss": 0.4841,
+      "rewards/accuracies": 0.7625000476837158,
+      "rewards/chosen": -1.0631386041641235,
+      "rewards/margins": 1.2136086225509644,
+      "rewards/rejected": -2.276747226715088,
+      "step": 90
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 30.037256928052916,
+      "learning_rate": 1.9896275971073322e-06,
+      "logits/chosen": 0.3249911367893219,
+      "logits/rejected": 0.3287336230278015,
+      "logps/chosen": -170.0114288330078,
+      "logps/rejected": -185.2743377685547,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.7625000476837158,
+      "rewards/chosen": -0.91056889295578,
+      "rewards/margins": 1.2012264728546143,
+      "rewards/rejected": -2.111795425415039,
+      "step": 100
+    },
+    {
+      "epoch": 0.15644444444444444,
+      "grad_norm": 23.930285809273254,
+      "learning_rate": 1.9812671353037137e-06,
+      "logits/chosen": 0.3139130473136902,
+      "logits/rejected": 0.319477915763855,
+      "logps/chosen": -169.1543426513672,
+      "logps/rejected": -184.03173828125,
+      "loss": 0.4571,
+      "rewards/accuracies": 0.80078125,
+      "rewards/chosen": -0.965703547000885,
+      "rewards/margins": 1.4910372495651245,
+      "rewards/rejected": -2.4567408561706543,
+      "step": 110
+    },
+    {
+      "epoch": 0.17066666666666666,
+      "grad_norm": 28.491945703626907,
+      "learning_rate": 1.9704825015952003e-06,
+      "logits/chosen": 0.3043367862701416,
+      "logits/rejected": 0.31123000383377075,
+      "logps/chosen": -171.40054321289062,
+      "logps/rejected": -187.75230407714844,
+      "loss": 0.4555,
+      "rewards/accuracies": 0.803906261920929,
+      "rewards/chosen": -1.192291259765625,
+      "rewards/margins": 1.632858395576477,
+      "rewards/rejected": -2.8251495361328125,
+      "step": 120
+    },
+    {
+      "epoch": 0.18488888888888888,
+      "grad_norm": 30.70726336010305,
+      "learning_rate": 1.9573003388857475e-06,
+      "logits/chosen": 0.3287965655326843,
+      "logits/rejected": 0.3384350836277008,
+      "logps/chosen": -178.2093505859375,
+      "logps/rejected": -200.10389709472656,
+      "loss": 0.44,
+      "rewards/accuracies": 0.8039062023162842,
+      "rewards/chosen": -1.2602012157440186,
+      "rewards/margins": 1.8096774816513062,
+      "rewards/rejected": -3.069878578186035,
+      "step": 130
+    },
+    {
+      "epoch": 0.1991111111111111,
+      "grad_norm": 30.33953791143264,
+      "learning_rate": 1.941753213056078e-06,
+      "logits/chosen": 0.3240712583065033,
+      "logits/rejected": 0.3240274488925934,
+      "logps/chosen": -178.25926208496094,
+      "logps/rejected": -204.4981689453125,
+      "loss": 0.4325,
+      "rewards/accuracies": 0.8109375238418579,
+      "rewards/chosen": -1.5995012521743774,
+      "rewards/margins": 2.0143957138061523,
+      "rewards/rejected": -3.6138970851898193,
+      "step": 140
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 26.883589478358978,
+      "learning_rate": 1.9238795325112867e-06,
+      "logits/chosen": 0.32417288422584534,
+      "logits/rejected": 0.324298620223999,
+      "logps/chosen": -170.05540466308594,
+      "logps/rejected": -193.8038330078125,
+      "loss": 0.4386,
+      "rewards/accuracies": 0.8093750476837158,
+      "rewards/chosen": -1.4086307287216187,
+      "rewards/margins": 2.022059679031372,
+      "rewards/rejected": -3.4306905269622803,
+      "step": 150
+    },
+    {
+      "epoch": 0.22755555555555557,
+      "grad_norm": 23.96004108690596,
+      "learning_rate": 1.9037234532947735e-06,
+      "logits/chosen": 0.3645060062408447,
+      "logits/rejected": 0.3710418939590454,
+      "logps/chosen": -173.90704345703125,
+      "logps/rejected": -191.5853729248047,
+      "loss": 0.4164,
+      "rewards/accuracies": 0.805468738079071,
+      "rewards/chosen": -1.3054120540618896,
+      "rewards/margins": 2.069995164871216,
+      "rewards/rejected": -3.3754072189331055,
+      "step": 160
+    },
+    {
+      "epoch": 0.24177777777777779,
+      "grad_norm": 23.17426643588145,
+      "learning_rate": 1.8813347700029242e-06,
+      "logits/chosen": 0.39987513422966003,
+      "logits/rejected": 0.40979668498039246,
+      "logps/chosen": -178.6532440185547,
+      "logps/rejected": -206.7698974609375,
+      "loss": 0.4369,
+      "rewards/accuracies": 0.8195312023162842,
+      "rewards/chosen": -1.8244224786758423,
+      "rewards/margins": 2.2108898162841797,
+      "rewards/rejected": -4.035312175750732,
+      "step": 170
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 24.91179023868515,
+      "learning_rate": 1.8567687927700252e-06,
+      "logits/chosen": 0.4278528094291687,
+      "logits/rejected": 0.4357163906097412,
+      "logps/chosen": -167.036376953125,
+      "logps/rejected": -198.56353759765625,
+      "loss": 0.4067,
+      "rewards/accuracies": 0.813281238079071,
+      "rewards/chosen": -1.3153953552246094,
+      "rewards/margins": 2.0069518089294434,
+      "rewards/rejected": -3.3223471641540527,
+      "step": 180
+    },
+    {
+      "epoch": 0.2702222222222222,
+      "grad_norm": 25.261537622265273,
+      "learning_rate": 1.8300862106273111e-06,
+      "logits/chosen": 0.3883928060531616,
+      "logits/rejected": 0.39530688524246216,
+      "logps/chosen": -176.3590087890625,
+      "logps/rejected": -208.9456024169922,
+      "loss": 0.3584,
+      "rewards/accuracies": 0.8414062261581421,
+      "rewards/chosen": -2.198540687561035,
+      "rewards/margins": 2.693372964859009,
+      "rewards/rejected": -4.891913890838623,
+      "step": 190
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 25.275402327404514,
+      "learning_rate": 1.8013529415737175e-06,
+      "logits/chosen": 0.3748525083065033,
+      "logits/rejected": 0.3877173960208893,
+      "logps/chosen": -173.32003784179688,
+      "logps/rejected": -214.57608032226562,
+      "loss": 0.4065,
+      "rewards/accuracies": 0.835156261920929,
+      "rewards/chosen": -1.989816665649414,
+      "rewards/margins": 2.6171391010284424,
+      "rewards/rejected": -4.606955528259277,
+      "step": 200
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "eval_logits/chosen": 0.3876859247684479,
+      "eval_logits/rejected": 0.3957110643386841,
+      "eval_logps/chosen": -171.17259216308594,
+      "eval_logps/rejected": -202.42398071289062,
+      "eval_loss": 0.3801611363887787,
+      "eval_rewards/accuracies": 0.8434999585151672,
+      "eval_rewards/chosen": -1.2062910795211792,
+      "eval_rewards/margins": 2.4256691932678223,
+      "eval_rewards/rejected": -3.631960153579712,
+      "eval_runtime": 557.8889,
+      "eval_samples_per_second": 17.925,
+      "eval_steps_per_second": 2.241,
+      "step": 200
+    },
+    {
+      "epoch": 0.2986666666666667,
+      "grad_norm": 24.072532739733493,
+      "learning_rate": 1.7706399697287258e-06,
+      "logits/chosen": 0.4026853144168854,
+      "logits/rejected": 0.412026047706604,
+      "logps/chosen": -167.03302001953125,
+      "logps/rejected": -200.06622314453125,
+      "loss": 0.3903,
+      "rewards/accuracies": 0.83203125,
+      "rewards/chosen": -1.3341785669326782,
+      "rewards/margins": 2.3634612560272217,
+      "rewards/rejected": -3.6976399421691895,
+      "step": 210
+    },
+    {
+      "epoch": 0.3128888888888889,
+      "grad_norm": 24.07534365113526,
+      "learning_rate": 1.7380231699696077e-06,
+      "logits/chosen": 0.4304381012916565,
+      "logits/rejected": 0.44892990589141846,
+      "logps/chosen": -181.48057556152344,
+      "logps/rejected": -214.39857482910156,
+      "loss": 0.3542,
+      "rewards/accuracies": 0.854687511920929,
+      "rewards/chosen": -2.030439853668213,
+      "rewards/margins": 2.744889736175537,
+      "rewards/rejected": -4.775330066680908,
+      "step": 220
+    },
+    {
+      "epoch": 0.32711111111111113,
+      "grad_norm": 22.108293550882866,
+      "learning_rate": 1.703583120486297e-06,
+      "logits/chosen": 0.4489140510559082,
+      "logits/rejected": 0.45542919635772705,
+      "logps/chosen": -184.29531860351562,
+      "logps/rejected": -207.33291625976562,
+      "loss": 0.3715,
+      "rewards/accuracies": 0.8335937857627869,
+      "rewards/chosen": -1.929568886756897,
+      "rewards/margins": 2.5038599967956543,
+      "rewards/rejected": -4.433429718017578,
+      "step": 230
+    },
+    {
+      "epoch": 0.3413333333333333,
+      "grad_norm": 23.925638393745633,
+      "learning_rate": 1.6674049037169562e-06,
+      "logits/chosen": 0.478533536195755,
+      "logits/rejected": 0.4951012134552002,
+      "logps/chosen": -171.228515625,
+      "logps/rejected": -202.62612915039062,
+      "loss": 0.3597,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -1.6307088136672974,
+      "rewards/margins": 2.4791078567504883,
+      "rewards/rejected": -4.109816551208496,
+      "step": 240
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 30.54556364244028,
+      "learning_rate": 1.629577896156024e-06,
+      "logits/chosen": 0.48382341861724854,
+      "logits/rejected": 0.49492910504341125,
+      "logps/chosen": -177.4665069580078,
+      "logps/rejected": -221.9366912841797,
+      "loss": 0.3629,
+      "rewards/accuracies": 0.8453124761581421,
+      "rewards/chosen": -2.1776082515716553,
+      "rewards/margins": 2.9196786880493164,
+      "rewards/rejected": -5.097287178039551,
+      "step": 250
+    },
+    {
+      "epoch": 0.36977777777777776,
+      "grad_norm": 25.498807701982457,
+      "learning_rate": 1.5901955475540083e-06,
+      "logits/chosen": 0.43249523639678955,
+      "logits/rejected": 0.4461674690246582,
+      "logps/chosen": -175.78306579589844,
+      "logps/rejected": -220.20843505859375,
+      "loss": 0.3714,
+      "rewards/accuracies": 0.8617187738418579,
+      "rewards/chosen": -2.1237916946411133,
+      "rewards/margins": 3.081571340560913,
+      "rewards/rejected": -5.2053632736206055,
+      "step": 260
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 21.98152324484991,
+      "learning_rate": 1.5493551500545005e-06,
+      "logits/chosen": 0.44403743743896484,
+      "logits/rejected": 0.45100969076156616,
+      "logps/chosen": -171.3573455810547,
+      "logps/rejected": -205.21868896484375,
+      "loss": 0.3192,
+      "rewards/accuracies": 0.867968738079071,
+      "rewards/chosen": -1.330743670463562,
+      "rewards/margins": 3.0044314861297607,
+      "rewards/rejected": -4.335175514221191,
+      "step": 270
+    },
+    {
+      "epoch": 0.3982222222222222,
+      "grad_norm": 26.597345332666173,
+      "learning_rate": 1.5071575978387502e-06,
+      "logits/chosen": 0.38800927996635437,
+      "logits/rejected": 0.4022008776664734,
+      "logps/chosen": -184.14996337890625,
+      "logps/rejected": -209.67626953125,
+      "loss": 0.3398,
+      "rewards/accuracies": 0.8523437976837158,
+      "rewards/chosen": -1.988921046257019,
+      "rewards/margins": 2.9822380542755127,
+      "rewards/rejected": -4.9711594581604,
+      "step": 280
+    },
+    {
+      "epoch": 0.41244444444444445,
+      "grad_norm": 21.215110311422276,
+      "learning_rate": 1.4637071378715804e-06,
+      "logits/chosen": 0.3857256770133972,
+      "logits/rejected": 0.39900335669517517,
+      "logps/chosen": -172.09994506835938,
+      "logps/rejected": -217.18148803710938,
+      "loss": 0.3144,
+      "rewards/accuracies": 0.8742187023162842,
+      "rewards/chosen": -2.315093755722046,
+      "rewards/margins": 3.1719839572906494,
+      "rewards/rejected": -5.487077236175537,
+      "step": 290
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 19.597986581568264,
+      "learning_rate": 1.419111112364422e-06,
+      "logits/chosen": 0.44452688097953796,
+      "logits/rejected": 0.45345011353492737,
+      "logps/chosen": -184.4666290283203,
+      "logps/rejected": -210.34649658203125,
+      "loss": 0.2989,
+      "rewards/accuracies": 0.8828125,
+      "rewards/chosen": -1.6965656280517578,
+      "rewards/margins": 3.0673210620880127,
+      "rewards/rejected": -4.763886451721191,
+      "step": 300
+    },
+    {
+      "epoch": 0.4408888888888889,
+      "grad_norm": 22.36768683602415,
+      "learning_rate": 1.3734796935916885e-06,
+      "logits/chosen": 0.4570707380771637,
+      "logits/rejected": 0.45680785179138184,
+      "logps/chosen": -173.09716796875,
+      "logps/rejected": -211.5676727294922,
+      "loss": 0.3123,
+      "rewards/accuracies": 0.8765625357627869,
+      "rewards/chosen": -2.017775297164917,
+      "rewards/margins": 3.1919538974761963,
+      "rewards/rejected": -5.2097296714782715,
+      "step": 310
+    },
+    {
+      "epoch": 0.45511111111111113,
+      "grad_norm": 26.62400911934529,
+      "learning_rate": 1.3269256117156266e-06,
+      "logits/chosen": 0.4452747702598572,
+      "logits/rejected": 0.46178725361824036,
+      "logps/chosen": -168.95912170410156,
+      "logps/rejected": -219.78575134277344,
+      "loss": 0.2951,
+      "rewards/accuracies": 0.889843761920929,
+      "rewards/chosen": -1.6834113597869873,
+      "rewards/margins": 3.441744804382324,
+      "rewards/rejected": -5.125155925750732,
+      "step": 320
+    },
+    {
+      "epoch": 0.4693333333333333,
+      "grad_norm": 22.453155219367574,
+      "learning_rate": 1.279563876292025e-06,
+      "logits/chosen": 0.5002372860908508,
+      "logits/rejected": 0.5076306462287903,
+      "logps/chosen": -175.60882568359375,
+      "logps/rejected": -206.75450134277344,
+      "loss": 0.3062,
+      "rewards/accuracies": 0.8726562857627869,
+      "rewards/chosen": -1.6064902544021606,
+      "rewards/margins": 3.4437012672424316,
+      "rewards/rejected": -5.050191402435303,
+      "step": 330
+    },
+    {
+      "epoch": 0.48355555555555557,
+      "grad_norm": 23.874159638189937,
+      "learning_rate": 1.231511492144801e-06,
+      "logits/chosen": 0.5309115052223206,
+      "logits/rejected": 0.5370917320251465,
+      "logps/chosen": -169.13853454589844,
+      "logps/rejected": -210.06500244140625,
+      "loss": 0.3079,
+      "rewards/accuracies": 0.87890625,
+      "rewards/chosen": -1.7956911325454712,
+      "rewards/margins": 3.3945703506469727,
+      "rewards/rejected": -5.1902618408203125,
+      "step": 340
+    },
+    {
+      "epoch": 0.49777777777777776,
+      "grad_norm": 25.16314769602878,
+      "learning_rate": 1.1828871703113684e-06,
+      "logits/chosen": 0.546948254108429,
+      "logits/rejected": 0.5572729110717773,
+      "logps/chosen": -176.99685668945312,
+      "logps/rejected": -211.9476318359375,
+      "loss": 0.2934,
+      "rewards/accuracies": 0.8859375715255737,
+      "rewards/chosen": -1.864843487739563,
+      "rewards/margins": 3.38896107673645,
+      "rewards/rejected": -5.253804683685303,
+      "step": 350
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 21.59285813836473,
+      "learning_rate": 1.133811034772897e-06,
+      "logits/chosen": 0.5784353613853455,
+      "logits/rejected": 0.5889633893966675,
+      "logps/chosen": -174.65452575683594,
+      "logps/rejected": -209.51783752441406,
+      "loss": 0.2762,
+      "rewards/accuracies": 0.8890625834465027,
+      "rewards/chosen": -1.494131088256836,
+      "rewards/margins": 3.530411958694458,
+      "rewards/rejected": -5.024543285369873,
+      "step": 360
+    },
+    {
+      "epoch": 0.5262222222222223,
+      "grad_norm": 25.616067480178305,
+      "learning_rate": 1.0844043256939583e-06,
+      "logits/chosen": 0.5757034420967102,
+      "logits/rejected": 0.5903257131576538,
+      "logps/chosen": -176.61965942382812,
+      "logps/rejected": -213.92478942871094,
+      "loss": 0.286,
+      "rewards/accuracies": 0.9007812142372131,
+      "rewards/chosen": -1.30091392993927,
+      "rewards/margins": 3.603193998336792,
+      "rewards/rejected": -4.904108047485352,
+      "step": 370
+    },
+    {
+      "epoch": 0.5404444444444444,
+      "grad_norm": 22.42460837898434,
+      "learning_rate": 1.0347890999046998e-06,
+      "logits/chosen": 0.5664804577827454,
+      "logits/rejected": 0.5777785778045654,
+      "logps/chosen": -170.44606018066406,
+      "logps/rejected": -217.41619873046875,
+      "loss": 0.2698,
+      "rewards/accuracies": 0.8921874761581421,
+      "rewards/chosen": -1.511139988899231,
+      "rewards/margins": 3.564502239227295,
+      "rewards/rejected": -5.075642108917236,
+      "step": 380
+    },
+    {
+      "epoch": 0.5546666666666666,
+      "grad_norm": 22.62116915500314,
+      "learning_rate": 9.850879293654827e-07,
+      "logits/chosen": 0.5146647691726685,
+      "logits/rejected": 0.519727349281311,
+      "logps/chosen": -184.5218505859375,
+      "logps/rejected": -216.04702758789062,
+      "loss": 0.2716,
+      "rewards/accuracies": 0.899218738079071,
+      "rewards/chosen": -1.9234856367111206,
+      "rewards/margins": 3.6874711513519287,
+      "rewards/rejected": -5.61095666885376,
+      "step": 390
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 19.796696127701463,
+      "learning_rate": 9.354235983589227e-07,
+      "logits/chosen": 0.5061088800430298,
+      "logits/rejected": 0.514001727104187,
+      "logps/chosen": -173.64303588867188,
+      "logps/rejected": -217.069580078125,
+      "loss": 0.2492,
+      "rewards/accuracies": 0.8960937857627869,
+      "rewards/chosen": -1.4420337677001953,
+      "rewards/margins": 3.665221691131592,
+      "rewards/rejected": -5.107255458831787,
+      "step": 400
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "eval_logits/chosen": 0.5132250785827637,
+      "eval_logits/rejected": 0.521979808807373,
+      "eval_logps/chosen": -172.3598175048828,
+      "eval_logps/rejected": -214.32054138183594,
+      "eval_loss": 0.264188677072525,
+      "eval_rewards/accuracies": 0.8984999656677246,
+      "eval_rewards/chosen": -1.3250131607055664,
+      "eval_rewards/margins": 3.49660587310791,
+      "eval_rewards/rejected": -4.821618556976318,
+      "eval_runtime": 557.5686,
+      "eval_samples_per_second": 17.935,
+      "eval_steps_per_second": 2.242,
+      "step": 400
+    },
+    {
+      "epoch": 0.5831111111111111,
+      "grad_norm": 19.738936537341292,
+      "learning_rate": 8.859188001573915e-07,
+      "logits/chosen": 0.5021483302116394,
+      "logits/rejected": 0.5080961585044861,
+      "logps/chosen": -177.53768920898438,
+      "logps/rejected": -220.1824188232422,
+      "loss": 0.2368,
+      "rewards/accuracies": 0.9117187261581421,
+      "rewards/chosen": -1.589120864868164,
+      "rewards/margins": 3.846306800842285,
+      "rewards/rejected": -5.435427665710449,
+      "step": 410
+    },
+    {
+      "epoch": 0.5973333333333334,
+      "grad_norm": 26.995300789664732,
+      "learning_rate": 8.366958339153598e-07,
+      "logits/chosen": 0.46122005581855774,
+      "logits/rejected": 0.47435277700424194,
+      "logps/chosen": -190.0319366455078,
+      "logps/rejected": -236.9222412109375,
+      "loss": 0.2476,
+      "rewards/accuracies": 0.8984375,
+      "rewards/chosen": -2.7638442516326904,
+      "rewards/margins": 4.4079084396362305,
+      "rewards/rejected": -7.171752452850342,
+      "step": 420
+    },
+    {
+      "epoch": 0.6115555555555555,
+      "grad_norm": 19.30988927869592,
+      "learning_rate": 7.878763025353874e-07,
+      "logits/chosen": 0.4701952338218689,
+      "logits/rejected": 0.4757159352302551,
+      "logps/chosen": -181.3089141845703,
+      "logps/rejected": -224.1280517578125,
+      "loss": 0.257,
+      "rewards/accuracies": 0.903124988079071,
+      "rewards/chosen": -2.4702322483062744,
+      "rewards/margins": 4.117379665374756,
+      "rewards/rejected": -6.587612152099609,
+      "step": 430
+    },
+    {
+      "epoch": 0.6257777777777778,
+      "grad_norm": 19.013100126792075,
+      "learning_rate": 7.395808122541695e-07,
+      "logits/chosen": 0.497684508562088,
+      "logits/rejected": 0.5002421140670776,
+      "logps/chosen": -183.77711486816406,
+      "logps/rejected": -220.78939819335938,
+      "loss": 0.2288,
+      "rewards/accuracies": 0.913281261920929,
+      "rewards/chosen": -1.9102922677993774,
+      "rewards/margins": 4.032773971557617,
+      "rewards/rejected": -5.943066120147705,
+      "step": 440
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 21.305103958890808,
+      "learning_rate": 6.919286746907962e-07,
+      "logits/chosen": 0.5036830902099609,
+      "logits/rejected": 0.5137404203414917,
+      "logps/chosen": -171.51963806152344,
+      "logps/rejected": -215.0752716064453,
+      "loss": 0.225,
+      "rewards/accuracies": 0.9210937023162842,
+      "rewards/chosen": -1.7843152284622192,
+      "rewards/margins": 3.941601037979126,
+      "rewards/rejected": -5.725916862487793,
+      "step": 450
+    },
+    {
+      "epoch": 0.6542222222222223,
+      "grad_norm": 14.039456923478271,
+      "learning_rate": 6.450376120933008e-07,
+      "logits/chosen": 0.49933820962905884,
+      "logits/rejected": 0.5057050585746765,
+      "logps/chosen": -179.2303466796875,
+      "logps/rejected": -222.6201934814453,
+      "loss": 0.2072,
+      "rewards/accuracies": 0.9195312261581421,
+      "rewards/chosen": -1.802661418914795,
+      "rewards/margins": 4.118900299072266,
+      "rewards/rejected": -5.9215617179870605,
+      "step": 460
+    },
+    {
+      "epoch": 0.6684444444444444,
+      "grad_norm": 21.70845956801297,
+      "learning_rate": 5.990234665116712e-07,
+      "logits/chosen": 0.5047470331192017,
+      "logits/rejected": 0.5078807473182678,
+      "logps/chosen": -177.2841339111328,
+      "logps/rejected": -217.75094604492188,
+      "loss": 0.2539,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -1.7726950645446777,
+      "rewards/margins": 4.051829814910889,
+      "rewards/rejected": -5.824525833129883,
+      "step": 470
+    },
+    {
+      "epoch": 0.6826666666666666,
+      "grad_norm": 20.038733770110362,
+      "learning_rate": 5.539999136157976e-07,
+      "logits/chosen": 0.5074894428253174,
+      "logits/rejected": 0.5155391693115234,
+      "logps/chosen": -170.88722229003906,
+      "logps/rejected": -215.5301055908203,
+      "loss": 0.2568,
+      "rewards/accuracies": 0.8976563215255737,
+      "rewards/chosen": -1.3999384641647339,
+      "rewards/margins": 3.897874116897583,
+      "rewards/rejected": -5.297812461853027,
+      "step": 480
+    },
+    {
+      "epoch": 0.6968888888888889,
+      "grad_norm": 22.766458720803445,
+      "learning_rate": 5.100781818653547e-07,
+      "logits/chosen": 0.49489301443099976,
+      "logits/rejected": 0.5095649361610413,
+      "logps/chosen": -169.5738525390625,
+      "logps/rejected": -226.97323608398438,
+      "loss": 0.2281,
+      "rewards/accuracies": 0.9101563096046448,
+      "rewards/chosen": -1.710286259651184,
+      "rewards/margins": 4.080615043640137,
+      "rewards/rejected": -5.790901184082031,
+      "step": 490
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 18.468814904555817,
+      "learning_rate": 4.6736677772539435e-07,
+      "logits/chosen": 0.5003610849380493,
+      "logits/rejected": 0.5155267119407654,
+      "logps/chosen": -175.24559020996094,
+      "logps/rejected": -229.2140655517578,
+      "loss": 0.2293,
+      "rewards/accuracies": 0.91015625,
+      "rewards/chosen": -1.8444459438323975,
+      "rewards/margins": 4.331246852874756,
+      "rewards/rejected": -6.175692558288574,
+      "step": 500
+    },
+    {
+      "epoch": 0.7253333333333334,
+      "grad_norm": 18.927760337307188,
+      "learning_rate": 4.25971217606493e-07,
+      "logits/chosen": 0.5157886743545532,
+      "logits/rejected": 0.522680401802063,
+      "logps/chosen": -178.0901641845703,
+      "logps/rejected": -230.22100830078125,
+      "loss": 0.222,
+      "rewards/accuracies": 0.9101563096046448,
+      "rewards/chosen": -2.1198782920837402,
+      "rewards/margins": 4.199809551239014,
+      "rewards/rejected": -6.319687366485596,
+      "step": 510
+    },
+    {
+      "epoch": 0.7395555555555555,
+      "grad_norm": 20.140088792509417,
+      "learning_rate": 3.8599376719168317e-07,
+      "logits/chosen": 0.5121567249298096,
+      "logits/rejected": 0.5149991512298584,
+      "logps/chosen": -179.66148376464844,
+      "logps/rejected": -230.49974060058594,
+      "loss": 0.2153,
+      "rewards/accuracies": 0.9195312261581421,
+      "rewards/chosen": -1.991065263748169,
+      "rewards/margins": 4.276262283325195,
+      "rewards/rejected": -6.267327785491943,
+      "step": 520
+    },
+    {
+      "epoch": 0.7537777777777778,
+      "grad_norm": 20.75390522143857,
+      "learning_rate": 3.475331887941387e-07,
+      "logits/chosen": 0.5080063343048096,
+      "logits/rejected": 0.5096886157989502,
+      "logps/chosen": -186.57594299316406,
+      "logps/rejected": -229.2224578857422,
+      "loss": 0.1914,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.9760907888412476,
+      "rewards/margins": 4.464825630187988,
+      "rewards/rejected": -6.440916061401367,
+      "step": 530
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 16.3742277038304,
+      "learning_rate": 3.106844973697701e-07,
+      "logits/chosen": 0.49205705523490906,
+      "logits/rejected": 0.4979478716850281,
+      "logps/chosen": -178.62518310546875,
+      "logps/rejected": -223.46412658691406,
+      "loss": 0.191,
+      "rewards/accuracies": 0.9210937023162842,
+      "rewards/chosen": -1.830776572227478,
+      "rewards/margins": 4.430363655090332,
+      "rewards/rejected": -6.261139869689941,
+      "step": 540
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": 19.143368164289804,
+      "learning_rate": 2.755387257874764e-07,
+      "logits/chosen": 0.4933924078941345,
+      "logits/rejected": 0.4951523244380951,
+      "logps/chosen": -181.7305145263672,
+      "logps/rejected": -217.41697692871094,
+      "loss": 0.2305,
+      "rewards/accuracies": 0.9078125357627869,
+      "rewards/chosen": -2.060739040374756,
+      "rewards/margins": 4.122097492218018,
+      "rewards/rejected": -6.182836055755615,
+      "step": 550
+    },
+    {
+      "epoch": 0.7964444444444444,
+      "grad_norm": 21.96744861713135,
+      "learning_rate": 2.421826999369473e-07,
+      "logits/chosen": 0.4906153082847595,
+      "logits/rejected": 0.4932625889778137,
+      "logps/chosen": -183.53819274902344,
+      "logps/rejected": -227.52142333984375,
+      "loss": 0.2108,
+      "rewards/accuracies": 0.921093761920929,
+      "rewards/chosen": -1.964367151260376,
+      "rewards/margins": 4.177182674407959,
+      "rewards/rejected": -6.141550064086914,
+      "step": 560
+    },
+    {
+      "epoch": 0.8106666666666666,
+      "grad_norm": 24.271191876696236,
+      "learning_rate": 2.1069882422959807e-07,
+      "logits/chosen": 0.4928551912307739,
+      "logits/rejected": 0.5002319812774658,
+      "logps/chosen": -188.65713500976562,
+      "logps/rejected": -226.8271942138672,
+      "loss": 0.2244,
+      "rewards/accuracies": 0.9148437976837158,
+      "rewards/chosen": -1.987341284751892,
+      "rewards/margins": 4.260203838348389,
+      "rewards/rejected": -6.24754524230957,
+      "step": 570
+    },
+    {
+      "epoch": 0.8248888888888889,
+      "grad_norm": 27.895786423828508,
+      "learning_rate": 1.8116487802254865e-07,
+      "logits/chosen": 0.4854698181152344,
+      "logits/rejected": 0.4915013611316681,
+      "logps/chosen": -186.431884765625,
+      "logps/rejected": -221.4644775390625,
+      "loss": 0.2135,
+      "rewards/accuracies": 0.917187511920929,
+      "rewards/chosen": -1.9210014343261719,
+      "rewards/margins": 4.495969295501709,
+      "rewards/rejected": -6.416970729827881,
+      "step": 580
+    },
+    {
+      "epoch": 0.8391111111111111,
+      "grad_norm": 20.02368922243424,
+      "learning_rate": 1.5365382346857002e-07,
+      "logits/chosen": 0.47555801272392273,
+      "logits/rejected": 0.4800643026828766,
+      "logps/chosen": -191.42140197753906,
+      "logps/rejected": -229.25775146484375,
+      "loss": 0.2006,
+      "rewards/accuracies": 0.9187500476837158,
+      "rewards/chosen": -1.8150303363800049,
+      "rewards/margins": 4.395279407501221,
+      "rewards/rejected": -6.210309982299805,
+      "step": 590
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 21.97442551311395,
+      "learning_rate": 1.2823362526669822e-07,
+      "logits/chosen": 0.47974154353141785,
+      "logits/rejected": 0.4813999831676483,
+      "logps/chosen": -180.21923828125,
+      "logps/rejected": -221.2357635498047,
+      "loss": 0.2323,
+      "rewards/accuracies": 0.9187500476837158,
+      "rewards/chosen": -1.812012791633606,
+      "rewards/margins": 4.236509799957275,
+      "rewards/rejected": -6.048522472381592,
+      "step": 600
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "eval_logits/chosen": 0.47913438081741333,
+      "eval_logits/rejected": 0.4873947501182556,
+      "eval_logps/chosen": -176.6701202392578,
+      "eval_logps/rejected": -227.0330047607422,
+      "eval_loss": 0.19954617321491241,
+      "eval_rewards/accuracies": 0.9228999614715576,
+      "eval_rewards/chosen": -1.7560443878173828,
+      "eval_rewards/margins": 4.33682107925415,
+      "eval_rewards/rejected": -6.092864990234375,
+      "eval_runtime": 559.4283,
+      "eval_samples_per_second": 17.875,
+      "eval_steps_per_second": 2.234,
+      "step": 600
+    },
+    {
+      "epoch": 0.8675555555555555,
+      "grad_norm": 20.727201948959458,
+      "learning_rate": 1.0496708275880495e-07,
+      "logits/chosen": 0.4797077775001526,
+      "logits/rejected": 0.49300915002822876,
+      "logps/chosen": -174.14083862304688,
+      "logps/rejected": -227.98280334472656,
+      "loss": 0.2275,
+      "rewards/accuracies": 0.9171875715255737,
+      "rewards/chosen": -1.7737774848937988,
+      "rewards/margins": 4.307715892791748,
+      "rewards/rejected": -6.081492900848389,
+      "step": 610
+    },
+    {
+      "epoch": 0.8817777777777778,
+      "grad_norm": 19.32455554790821,
+      "learning_rate": 8.39116747869324e-08,
+      "logits/chosen": 0.4717547595500946,
+      "logits/rejected": 0.48199859261512756,
+      "logps/chosen": -172.76864624023438,
+      "logps/rejected": -218.537353515625,
+      "loss": 0.2007,
+      "rewards/accuracies": 0.9234375357627869,
+      "rewards/chosen": -1.8634356260299683,
+      "rewards/margins": 4.253111839294434,
+      "rewards/rejected": -6.116547107696533,
+      "step": 620
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 17.115035377013502,
+      "learning_rate": 6.511941769465878e-08,
+      "logits/chosen": 0.46461522579193115,
+      "logits/rejected": 0.47582682967185974,
+      "logps/chosen": -175.53439331054688,
+      "logps/rejected": -228.54327392578125,
+      "loss": 0.1857,
+      "rewards/accuracies": 0.921875,
+      "rewards/chosen": -1.7527227401733398,
+      "rewards/margins": 4.385368347167969,
+      "rewards/rejected": -6.138091087341309,
+      "step": 630
+    },
+    {
+      "epoch": 0.9102222222222223,
+      "grad_norm": 24.05117025853252,
+      "learning_rate": 4.863673682329372e-08,
+      "logits/chosen": 0.4696626663208008,
+      "logits/rejected": 0.4753713011741638,
+      "logps/chosen": -188.87229919433594,
+      "logps/rejected": -220.46006774902344,
+      "loss": 0.1652,
+      "rewards/accuracies": 0.9390625357627869,
+      "rewards/chosen": -1.790077805519104,
+      "rewards/margins": 4.470815181732178,
+      "rewards/rejected": -6.260892391204834,
+      "step": 640
+    },
+    {
+      "epoch": 0.9244444444444444,
+      "grad_norm": 22.687745884337094,
+      "learning_rate": 3.4504351820371035e-08,
+      "logits/chosen": 0.4625004529953003,
+      "logits/rejected": 0.47136402130126953,
+      "logps/chosen": -169.65602111816406,
+      "logps/rejected": -224.8905792236328,
+      "loss": 0.2065,
+      "rewards/accuracies": 0.9281250238418579,
+      "rewards/chosen": -1.8549830913543701,
+      "rewards/margins": 4.536071300506592,
+      "rewards/rejected": -6.391055107116699,
+      "step": 650
+    },
+    {
+      "epoch": 0.9386666666666666,
+      "grad_norm": 20.655468362601958,
+      "learning_rate": 2.275717604377292e-08,
+      "logits/chosen": 0.47043246030807495,
+      "logits/rejected": 0.47785574197769165,
+      "logps/chosen": -167.5789794921875,
+      "logps/rejected": -219.5322265625,
+      "loss": 0.19,
+      "rewards/accuracies": 0.9281249642372131,
+      "rewards/chosen": -1.781938076019287,
+      "rewards/margins": 4.500768184661865,
+      "rewards/rejected": -6.2827067375183105,
+      "step": 660
+    },
+    {
+      "epoch": 0.9528888888888889,
+      "grad_norm": 23.64191207819105,
+      "learning_rate": 1.3424230310007945e-08,
+      "logits/chosen": 0.4662107229232788,
+      "logits/rejected": 0.46195337176322937,
+      "logps/chosen": -178.2125701904297,
+      "logps/rejected": -218.6712646484375,
+      "loss": 0.1855,
+      "rewards/accuracies": 0.926562488079071,
+      "rewards/chosen": -1.850870966911316,
+      "rewards/margins": 4.5877251625061035,
+      "rewards/rejected": -6.438596248626709,
+      "step": 670
+    },
+    {
+      "epoch": 0.9671111111111111,
+      "grad_norm": 23.288724727267372,
+      "learning_rate": 6.528571199719501e-09,
+      "logits/chosen": 0.47057247161865234,
+      "logits/rejected": 0.4725341200828552,
+      "logps/chosen": -183.8558349609375,
+      "logps/rejected": -223.68026733398438,
+      "loss": 0.1981,
+      "rewards/accuracies": 0.914843738079071,
+      "rewards/chosen": -2.0338704586029053,
+      "rewards/margins": 4.281328201293945,
+      "rewards/rejected": -6.315199375152588,
+      "step": 680
+    },
+    {
+      "epoch": 0.9813333333333333,
+      "grad_norm": 18.154834297575142,
+      "learning_rate": 2.087234097543855e-09,
+      "logits/chosen": 0.46398720145225525,
+      "logits/rejected": 0.47357380390167236,
+      "logps/chosen": -178.36524963378906,
+      "logps/rejected": -226.38392639160156,
+      "loss": 0.231,
+      "rewards/accuracies": 0.9148437976837158,
+      "rewards/chosen": -1.8794317245483398,
+      "rewards/margins": 4.372979640960693,
+      "rewards/rejected": -6.252411365509033,
+      "step": 690
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": 18.171321587345066,
+      "learning_rate": 1.1119110703561308e-10,
+      "logits/chosen": 0.4753006100654602,
+      "logits/rejected": 0.4783536493778229,
+      "logps/chosen": -184.14492797851562,
+      "logps/rejected": -221.58682250976562,
+      "loss": 0.218,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -2.036954879760742,
+      "rewards/margins": 4.29044246673584,
+      "rewards/rejected": -6.327397346496582,
+      "step": 700
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 703,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 334709022130176.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}