Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +14 -14
all_results.json +17 -17
eval_results.json +13 -13
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1052 -1052
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -19,15 +19,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) on the simonycl/llama3.1-ultrafeedback-annotate-armorm dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3984
-- Rewards/chosen: -3.3263
-- Rewards/rejected: -5.1260
-- Rewards/accuracies: 0.8286
-- Rewards/margins: 1.7997
-- Logps/rejected: -786.4965
-- Logps/chosen: -595.5199
-- Logits/rejected: -2.6865
-- Logits/chosen: -2.7593
 ## Model description
@@ -47,14 +47,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 2
-- eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
-- gradient_accumulation_steps: 16
 - total_train_batch_size: 128
-- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
@@ -64,7 +64,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.4222        | 0.8443 | 400  | 0.3984          | -3.3263        | -5.1260          | 0.8286             | 1.7997          | -786.4965      | -595.5199    | -2.6865         | -2.7593       |
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) on the simonycl/llama3.1-ultrafeedback-annotate-armorm dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3837
+- Rewards/chosen: -3.2511
+- Rewards/rejected: -5.1202
+- Rewards/accuracies: 0.8644
+- Rewards/margins: 1.8691
+- Logps/rejected: -797.6878
+- Logps/chosen: -602.0981
+- Logits/rejected: -1.3603
+- Logits/chosen: -1.3921
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 1
+- eval_batch_size: 1
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
+- gradient_accumulation_steps: 32
 - total_train_batch_size: 128
+- total_eval_batch_size: 4
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.4269        | 0.8444 | 400  | 0.3837          | -3.2511        | -5.1202          | 0.8644             | 1.8691          | -797.6878      | -602.0981    | -1.3603         | -1.3921       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 0.9984168865435357,
-    "eval_logits/chosen": -2.766282558441162,
-    "eval_logits/rejected": -2.6962404251098633,
-    "eval_logps/chosen": -612.2565307617188,
-    "eval_logps/rejected": -809.2787475585938,
-    "eval_loss": 0.3973737061023712,
-    "eval_rewards/accuracies": 0.8286290168762207,
-    "eval_rewards/chosen": -3.4936444759368896,
-    "eval_rewards/margins": 1.8601694107055664,
-    "eval_rewards/rejected": -5.353814125061035,
-    "eval_runtime": 316.1088,
     "eval_samples": 1976,
-    "eval_samples_per_second": 6.251,
-    "eval_steps_per_second": 0.392,
     "total_flos": 0.0,
-    "train_loss": 0.466365703316622,
-    "train_runtime": 19524.7969,
     "train_samples": 60634,
-    "train_samples_per_second": 3.105,
-    "train_steps_per_second": 0.024
 }

 {
+    "epoch": 0.9984827495217362,
+    "eval_logits/chosen": -1.4033699035644531,
+    "eval_logits/rejected": -1.3698593378067017,
+    "eval_logps/chosen": -627.2847900390625,
+    "eval_logps/rejected": -837.4208374023438,
+    "eval_loss": 0.3820858299732208,
+    "eval_rewards/accuracies": 0.8663967847824097,
+    "eval_rewards/chosen": -3.5029525756835938,
+    "eval_rewards/margins": 2.0145938396453857,
+    "eval_rewards/rejected": -5.517546653747559,
+    "eval_runtime": 316.7033,
     "eval_samples": 1976,
+    "eval_samples_per_second": 6.239,
+    "eval_steps_per_second": 1.56,
     "total_flos": 0.0,
+    "train_loss": 0.4645486564767285,
+    "train_runtime": 24049.7915,
     "train_samples": 60634,
+    "train_samples_per_second": 2.521,
+    "train_steps_per_second": 0.02
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 0.9984168865435357,
-    "eval_logits/chosen": -2.766282558441162,
-    "eval_logits/rejected": -2.6962404251098633,
-    "eval_logps/chosen": -612.2565307617188,
-    "eval_logps/rejected": -809.2787475585938,
-    "eval_loss": 0.3973737061023712,
-    "eval_rewards/accuracies": 0.8286290168762207,
-    "eval_rewards/chosen": -3.4936444759368896,
-    "eval_rewards/margins": 1.8601694107055664,
-    "eval_rewards/rejected": -5.353814125061035,
-    "eval_runtime": 316.1088,
     "eval_samples": 1976,
-    "eval_samples_per_second": 6.251,
-    "eval_steps_per_second": 0.392
 }

 {
+    "epoch": 0.9984827495217362,
+    "eval_logits/chosen": -1.4033699035644531,
+    "eval_logits/rejected": -1.3698593378067017,
+    "eval_logps/chosen": -627.2847900390625,
+    "eval_logps/rejected": -837.4208374023438,
+    "eval_loss": 0.3820858299732208,
+    "eval_rewards/accuracies": 0.8663967847824097,
+    "eval_rewards/chosen": -3.5029525756835938,
+    "eval_rewards/margins": 2.0145938396453857,
+    "eval_rewards/rejected": -5.517546653747559,
+    "eval_runtime": 316.7033,
     "eval_samples": 1976,
+    "eval_samples_per_second": 6.239,
+    "eval_steps_per_second": 1.56
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b99de5acafddb523c85352e26759ee31d3fd7367d7cd431aa6b2e78cb1e0cd8
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9ba9f8b42762f10643f8def0ec6cfddc799529412cca31ac9f19337c5249491
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baedc9d7e4a2f3e6703726c9aefe638306225965c932b69e48bdf92f2e35cf71
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:6acb42a4e8fa15ce25a4843b4ca4e825d92626a38e32dfaad5076e605dc736ec
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a82bb7fe8dd7c5f6344976f170b6aed710c845c48c5d193c73020f86712b9ed1
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a8af3d5fba0a84018754fe35dc14fde7ed61b7dc4799f667dd630e0798ab82d
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91d69130c212d01cd3d036336bfc584c3307c7f75402e95fc66b53cae79b0ccd
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a788bcf7589d73a13404a18ea27862b30c70bffb1514bb221b7aa5aa20773ae
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.9984168865435357,
     "total_flos": 0.0,
-    "train_loss": 0.466365703316622,
-    "train_runtime": 19524.7969,
     "train_samples": 60634,
-    "train_samples_per_second": 3.105,
-    "train_steps_per_second": 0.024
 }

 {
+    "epoch": 0.9984827495217362,
     "total_flos": 0.0,
+    "train_loss": 0.4645486564767285,
+    "train_runtime": 24049.7915,
     "train_samples": 60634,
+    "train_samples_per_second": 2.521,
+    "train_steps_per_second": 0.02
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9984168865435357,
   "eval_steps": 400,
   "global_step": 473,
   "is_hyper_param_search": false,
@@ -9,13 +9,13 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0021108179419525065,
-      "grad_norm": 3.841525938161017,
       "learning_rate": 1.0416666666666666e-08,
-      "logits/chosen": -1.5679885149002075,
-      "logits/rejected": -1.4838868379592896,
-      "logps/chosen": -273.748046875,
-      "logps/rejected": -278.32440185546875,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -24,1439 +24,1439 @@
       "step": 1
     },
     {
-      "epoch": 0.010554089709762533,
-      "grad_norm": 4.075044604292173,
       "learning_rate": 5.208333333333333e-08,
-      "logits/chosen": -1.8661268949508667,
-      "logits/rejected": -1.663633108139038,
-      "logps/chosen": -259.7994384765625,
-      "logps/rejected": -272.9507751464844,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.4453125,
-      "rewards/chosen": 0.0006091540562920272,
-      "rewards/margins": 0.0006048179930076003,
-      "rewards/rejected": 4.33622335549444e-06,
       "step": 5
     },
     {
-      "epoch": 0.021108179419525065,
-      "grad_norm": 3.8938427277220327,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -1.9186642169952393,
-      "logits/rejected": -1.7813522815704346,
-      "logps/chosen": -260.3355407714844,
-      "logps/rejected": -277.6410217285156,
       "loss": 0.6933,
-      "rewards/accuracies": 0.512499988079071,
-      "rewards/chosen": 0.0007230077171698213,
-      "rewards/margins": -0.0004294753889553249,
-      "rewards/rejected": 0.0011524828150868416,
       "step": 10
     },
     {
-      "epoch": 0.0316622691292876,
-      "grad_norm": 4.232192731720217,
       "learning_rate": 1.5624999999999999e-07,
-      "logits/chosen": -1.9166736602783203,
-      "logits/rejected": -1.6127517223358154,
-      "logps/chosen": -262.7110900878906,
-      "logps/rejected": -288.9376525878906,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.0007503399974666536,
-      "rewards/margins": 6.939703598618507e-05,
-      "rewards/rejected": 0.0006809430196881294,
       "step": 15
     },
     {
-      "epoch": 0.04221635883905013,
-      "grad_norm": 4.119849835606016,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -1.8074525594711304,
-      "logits/rejected": -1.6753528118133545,
-      "logps/chosen": -288.84808349609375,
-      "logps/rejected": -297.88995361328125,
-      "loss": 0.6932,
-      "rewards/accuracies": 0.48124998807907104,
-      "rewards/chosen": -0.0002116250980179757,
-      "rewards/margins": -0.000452941982075572,
-      "rewards/rejected": 0.00024131681129802018,
       "step": 20
     },
     {
-      "epoch": 0.052770448548812667,
-      "grad_norm": 4.422447549074996,
       "learning_rate": 2.604166666666667e-07,
-      "logits/chosen": -1.8519093990325928,
-      "logits/rejected": -1.6747506856918335,
-      "logps/chosen": -276.16290283203125,
-      "logps/rejected": -283.3067932128906,
-      "loss": 0.6924,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.0022073048166930676,
-      "rewards/margins": 0.001611467800103128,
-      "rewards/rejected": -0.0038187727332115173,
       "step": 25
     },
     {
-      "epoch": 0.0633245382585752,
-      "grad_norm": 4.140769853407654,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -1.8203039169311523,
-      "logits/rejected": -1.6214573383331299,
-      "logps/chosen": -254.4104461669922,
-      "logps/rejected": -275.9024353027344,
-      "loss": 0.6916,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.0038712085224688053,
-      "rewards/margins": 0.004021945409476757,
-      "rewards/rejected": -0.00789315439760685,
       "step": 30
     },
     {
-      "epoch": 0.07387862796833773,
-      "grad_norm": 4.0748094829519985,
       "learning_rate": 3.645833333333333e-07,
-      "logits/chosen": -1.7195453643798828,
-      "logits/rejected": -1.5980784893035889,
-      "logps/chosen": -277.2474060058594,
-      "logps/rejected": -279.6336364746094,
-      "loss": 0.6903,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.011106612160801888,
-      "rewards/margins": 0.005168012343347073,
-      "rewards/rejected": -0.016274623572826385,
       "step": 35
     },
     {
-      "epoch": 0.08443271767810026,
-      "grad_norm": 4.037161343642648,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -1.8530025482177734,
-      "logits/rejected": -1.6534423828125,
-      "logps/chosen": -250.5609893798828,
-      "logps/rejected": -266.48681640625,
-      "loss": 0.6878,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.013290290720760822,
-      "rewards/margins": 0.01362483762204647,
-      "rewards/rejected": -0.026915129274129868,
       "step": 40
     },
     {
-      "epoch": 0.09498680738786279,
-      "grad_norm": 4.20201566482073,
       "learning_rate": 4.6874999999999996e-07,
-      "logits/chosen": -1.8621238470077515,
-      "logits/rejected": -1.7357890605926514,
-      "logps/chosen": -259.96875,
-      "logps/rejected": -273.11651611328125,
-      "loss": 0.6849,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.02979857288300991,
-      "rewards/margins": 0.019030530005693436,
-      "rewards/rejected": -0.0488291010260582,
       "step": 45
     },
     {
-      "epoch": 0.10554089709762533,
-      "grad_norm": 4.392167523026418,
       "learning_rate": 4.999726797933858e-07,
-      "logits/chosen": -1.9742714166641235,
-      "logits/rejected": -1.761182188987732,
-      "logps/chosen": -272.1903381347656,
-      "logps/rejected": -285.57098388671875,
-      "loss": 0.6753,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.048685222864151,
-      "rewards/margins": 0.03682791069149971,
-      "rewards/rejected": -0.08551312983036041,
       "step": 50
     },
     {
-      "epoch": 0.11609498680738786,
-      "grad_norm": 6.0936366972280105,
       "learning_rate": 4.99665396039775e-07,
-      "logits/chosen": -1.9219143390655518,
-      "logits/rejected": -1.8215105533599854,
-      "logps/chosen": -269.31439208984375,
-      "logps/rejected": -276.80401611328125,
-      "loss": 0.659,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.10569655895233154,
-      "rewards/margins": 0.0726684108376503,
-      "rewards/rejected": -0.17836496233940125,
       "step": 55
     },
     {
-      "epoch": 0.1266490765171504,
-      "grad_norm": 7.231191310156758,
       "learning_rate": 4.99017099386437e-07,
-      "logits/chosen": -2.0729923248291016,
-      "logits/rejected": -1.9367930889129639,
-      "logps/chosen": -298.20849609375,
-      "logps/rejected": -349.7650146484375,
-      "loss": 0.6298,
       "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.31456637382507324,
-      "rewards/margins": 0.3051101565361023,
-      "rewards/rejected": -0.6196764707565308,
       "step": 60
     },
     {
-      "epoch": 0.13720316622691292,
-      "grad_norm": 67.13648614495237,
       "learning_rate": 4.980286753286194e-07,
-      "logits/chosen": -2.2857210636138916,
-      "logits/rejected": -2.1148781776428223,
-      "logps/chosen": -369.61749267578125,
-      "logps/rejected": -430.94732666015625,
-      "loss": 0.6277,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -1.1958519220352173,
-      "rewards/margins": 0.49135223031044006,
-      "rewards/rejected": -1.6872040033340454,
       "step": 65
     },
     {
-      "epoch": 0.14775725593667546,
-      "grad_norm": 9.715273109578154,
       "learning_rate": 4.967014739346915e-07,
-      "logits/chosen": -2.3191657066345215,
-      "logits/rejected": -2.0927023887634277,
-      "logps/chosen": -352.59075927734375,
-      "logps/rejected": -438.1763610839844,
-      "loss": 0.5858,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.8432434797286987,
-      "rewards/margins": 0.6638648509979248,
-      "rewards/rejected": -1.5071083307266235,
       "step": 70
     },
     {
-      "epoch": 0.158311345646438,
-      "grad_norm": 9.799570258257988,
       "learning_rate": 4.950373080021136e-07,
-      "logits/chosen": -2.159883499145508,
-      "logits/rejected": -2.089489459991455,
-      "logps/chosen": -327.1300964355469,
-      "logps/rejected": -372.9543762207031,
-      "loss": 0.5733,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.625116229057312,
-      "rewards/margins": 0.409213125705719,
-      "rewards/rejected": -1.0343292951583862,
       "step": 75
     },
     {
-      "epoch": 0.16886543535620052,
-      "grad_norm": 21.779152085184286,
       "learning_rate": 4.930384505813737e-07,
-      "logits/chosen": -2.304996967315674,
-      "logits/rejected": -2.1810271739959717,
-      "logps/chosen": -355.3009033203125,
-      "logps/rejected": -471.39892578125,
-      "loss": 0.5459,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.0548468828201294,
-      "rewards/margins": 0.9830275774002075,
-      "rewards/rejected": -2.037874221801758,
       "step": 80
     },
     {
-      "epoch": 0.17941952506596306,
-      "grad_norm": 14.56820002316678,
       "learning_rate": 4.907076318712738e-07,
-      "logits/chosen": -2.2340409755706787,
-      "logits/rejected": -2.080930233001709,
-      "logps/chosen": -413.451416015625,
-      "logps/rejected": -522.9191284179688,
-      "loss": 0.5408,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.4273126125335693,
-      "rewards/margins": 0.9603279829025269,
-      "rewards/rejected": -2.3876404762268066,
       "step": 85
     },
     {
-      "epoch": 0.18997361477572558,
-      "grad_norm": 15.919341883386638,
       "learning_rate": 4.88048035489807e-07,
-      "logits/chosen": -2.174340009689331,
-      "logits/rejected": -2.168853998184204,
-      "logps/chosen": -394.6278076171875,
-      "logps/rejected": -461.028564453125,
-      "loss": 0.5463,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.2512483596801758,
-      "rewards/margins": 0.6085057854652405,
-      "rewards/rejected": -1.859754204750061,
       "step": 90
     },
     {
-      "epoch": 0.20052770448548812,
-      "grad_norm": 23.30417545081651,
       "learning_rate": 4.85063294125718e-07,
-      "logits/chosen": -2.1903815269470215,
-      "logits/rejected": -2.19649076461792,
-      "logps/chosen": -459.72283935546875,
-      "logps/rejected": -530.1971435546875,
-      "loss": 0.5459,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.8961833715438843,
-      "rewards/margins": 0.6760674715042114,
-      "rewards/rejected": -2.5722508430480957,
       "step": 95
     },
     {
-      "epoch": 0.21108179419525067,
-      "grad_norm": 11.60980371327302,
       "learning_rate": 4.817574845766874e-07,
-      "logits/chosen": -2.358705997467041,
-      "logits/rejected": -2.307624340057373,
-      "logps/chosen": -447.1853942871094,
-      "logps/rejected": -532.86279296875,
-      "loss": 0.5137,
       "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.9070106744766235,
-      "rewards/margins": 0.7790099382400513,
-      "rewards/rejected": -2.686020612716675,
       "step": 100
     },
     {
-      "epoch": 0.22163588390501318,
-      "grad_norm": 14.306450146724028,
       "learning_rate": 4.781351221809166e-07,
-      "logits/chosen": -2.2865371704101562,
-      "logits/rejected": -2.176837921142578,
-      "logps/chosen": -432.4977111816406,
-      "logps/rejected": -542.9056396484375,
-      "loss": 0.5261,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.7739086151123047,
-      "rewards/margins": 0.9299384951591492,
-      "rewards/rejected": -2.7038469314575195,
       "step": 105
     },
     {
-      "epoch": 0.23218997361477572,
-      "grad_norm": 10.269899188048251,
       "learning_rate": 4.742011546497182e-07,
-      "logits/chosen": -2.2152955532073975,
-      "logits/rejected": -2.1580278873443604,
-      "logps/chosen": -439.315185546875,
-      "logps/rejected": -549.2676391601562,
-      "loss": 0.494,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.7390915155410767,
-      "rewards/margins": 0.9396551847457886,
-      "rewards/rejected": -2.6787467002868652,
       "step": 110
     },
     {
-      "epoch": 0.24274406332453827,
-      "grad_norm": 16.644175161757378,
       "learning_rate": 4.6996095530953875e-07,
-      "logits/chosen": -2.3286213874816895,
-      "logits/rejected": -2.2058520317077637,
-      "logps/chosen": -506.5923767089844,
-      "logps/rejected": -658.1654052734375,
-      "loss": 0.4994,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.3760502338409424,
-      "rewards/margins": 1.3993351459503174,
-      "rewards/rejected": -3.7753853797912598,
       "step": 115
     },
     {
-      "epoch": 0.2532981530343008,
-      "grad_norm": 18.458409874645245,
       "learning_rate": 4.654203157626399e-07,
-      "logits/chosen": -2.363788366317749,
-      "logits/rejected": -2.2831900119781494,
-      "logps/chosen": -476.95831298828125,
-      "logps/rejected": -650.87841796875,
-      "loss": 0.4745,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -2.333024501800537,
-      "rewards/margins": 1.5511460304260254,
-      "rewards/rejected": -3.8841705322265625,
       "step": 120
     },
     {
-      "epoch": 0.2638522427440633,
-      "grad_norm": 24.30561683820342,
       "learning_rate": 4.605854379764673e-07,
-      "logits/chosen": -2.2180769443511963,
-      "logits/rejected": -2.1058664321899414,
-      "logps/chosen": -458.69317626953125,
-      "logps/rejected": -573.3502807617188,
-      "loss": 0.4683,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -2.0290579795837402,
-      "rewards/margins": 1.0193411111831665,
-      "rewards/rejected": -3.048398971557617,
       "step": 125
     },
     {
-      "epoch": 0.27440633245382584,
-      "grad_norm": 25.019298570271868,
       "learning_rate": 4.5546292581250857e-07,
-      "logits/chosen": -2.2698774337768555,
-      "logits/rejected": -2.150057554244995,
-      "logps/chosen": -563.2131958007812,
-      "logps/rejected": -722.5281372070312,
-      "loss": 0.4752,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.93915057182312,
-      "rewards/margins": 1.441446304321289,
-      "rewards/rejected": -4.380597114562988,
       "step": 130
     },
     {
-      "epoch": 0.2849604221635884,
-      "grad_norm": 10.994821669390042,
       "learning_rate": 4.5005977600621275e-07,
-      "logits/chosen": -2.243281841278076,
-      "logits/rejected": -2.2170357704162598,
-      "logps/chosen": -536.69970703125,
-      "logps/rejected": -645.5635986328125,
-      "loss": 0.4739,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.6128830909729004,
-      "rewards/margins": 1.0102598667144775,
-      "rewards/rejected": -3.623142957687378,
       "step": 135
     },
     {
-      "epoch": 0.2955145118733509,
-      "grad_norm": 16.90701177792478,
       "learning_rate": 4.443833686102919e-07,
-      "logits/chosen": -2.1392781734466553,
-      "logits/rejected": -2.0879039764404297,
-      "logps/chosen": -433.86590576171875,
-      "logps/rejected": -533.6943359375,
-      "loss": 0.4645,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.7928444147109985,
-      "rewards/margins": 0.9198592901229858,
-      "rewards/rejected": -2.712703227996826,
       "step": 140
     },
     {
-      "epoch": 0.30606860158311344,
-      "grad_norm": 23.854657702935985,
       "learning_rate": 4.384414569144561e-07,
-      "logits/chosen": -2.3052217960357666,
-      "logits/rejected": -2.207017421722412,
-      "logps/chosen": -529.6088256835938,
-      "logps/rejected": -723.9100341796875,
-      "loss": 0.4979,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.7643752098083496,
-      "rewards/margins": 1.82810378074646,
-      "rewards/rejected": -4.592479228973389,
       "step": 145
     },
     {
-      "epoch": 0.316622691292876,
-      "grad_norm": 19.353784387057143,
       "learning_rate": 4.3224215685535287e-07,
-      "logits/chosen": -2.0858356952667236,
-      "logits/rejected": -1.950209617614746,
-      "logps/chosen": -505.2822265625,
-      "logps/rejected": -661.0929565429688,
-      "loss": 0.4656,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.391045093536377,
-      "rewards/margins": 1.4024264812469482,
-      "rewards/rejected": -3.793471097946167,
       "step": 150
     },
     {
-      "epoch": 0.32717678100263853,
-      "grad_norm": 17.72909970129764,
       "learning_rate": 4.2579393593117364e-07,
-      "logits/chosen": -2.0300238132476807,
-      "logits/rejected": -1.9049923419952393,
-      "logps/chosen": -496.39324951171875,
-      "logps/rejected": -680.350341796875,
-      "loss": 0.4412,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.427093982696533,
-      "rewards/margins": 1.5917612314224243,
-      "rewards/rejected": -4.018855094909668,
       "step": 155
     },
     {
-      "epoch": 0.33773087071240104,
-      "grad_norm": 17.1778742252489,
       "learning_rate": 4.191056016360699e-07,
-      "logits/chosen": -2.215439558029175,
-      "logits/rejected": -2.1087276935577393,
-      "logps/chosen": -615.9310302734375,
-      "logps/rejected": -818.6203002929688,
-      "loss": 0.4622,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -3.431640148162842,
-      "rewards/margins": 1.9439836740493774,
-      "rewards/rejected": -5.37562370300293,
       "step": 160
     },
     {
-      "epoch": 0.3482849604221636,
-      "grad_norm": 17.97809867221494,
       "learning_rate": 4.121862894301754e-07,
-      "logits/chosen": -2.0415732860565186,
-      "logits/rejected": -1.94220769405365,
-      "logps/chosen": -498.63116455078125,
-      "logps/rejected": -657.0416259765625,
-      "loss": 0.479,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -2.2521657943725586,
-      "rewards/margins": 1.3823236227035522,
-      "rewards/rejected": -3.6344895362854004,
       "step": 165
     },
     {
-      "epoch": 0.35883905013192613,
-      "grad_norm": 30.072934787327185,
       "learning_rate": 4.050454502616667e-07,
-      "logits/chosen": -2.118239164352417,
-      "logits/rejected": -2.090146541595459,
-      "logps/chosen": -526.2330322265625,
-      "logps/rejected": -668.2966918945312,
-      "loss": 0.4648,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -2.6902260780334473,
-      "rewards/margins": 1.3285554647445679,
-      "rewards/rejected": -4.0187811851501465,
       "step": 170
     },
     {
-      "epoch": 0.36939313984168864,
-      "grad_norm": 29.035498895998003,
       "learning_rate": 3.976928376579047e-07,
-      "logits/chosen": -2.3821628093719482,
-      "logits/rejected": -2.2632079124450684,
-      "logps/chosen": -557.0284423828125,
-      "logps/rejected": -771.6123657226562,
-      "loss": 0.4449,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.932424545288086,
-      "rewards/margins": 1.8806273937225342,
-      "rewards/rejected": -4.813051223754883,
       "step": 175
     },
     {
-      "epoch": 0.37994722955145116,
-      "grad_norm": 15.777007984898162,
       "learning_rate": 3.9013849440328945e-07,
-      "logits/chosen": -2.286719560623169,
-      "logits/rejected": -2.162851095199585,
-      "logps/chosen": -564.4080200195312,
-      "logps/rejected": -720.1937255859375,
-      "loss": 0.467,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.908557415008545,
-      "rewards/margins": 1.4215553998947144,
-      "rewards/rejected": -4.330113410949707,
       "step": 180
     },
     {
-      "epoch": 0.39050131926121373,
-      "grad_norm": 12.25325652821894,
       "learning_rate": 3.8239273882202473e-07,
-      "logits/chosen": -2.195413589477539,
-      "logits/rejected": -2.2209365367889404,
-      "logps/chosen": -495.92938232421875,
-      "logps/rejected": -645.3634643554688,
-      "loss": 0.469,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.377912759780884,
-      "rewards/margins": 1.3328666687011719,
-      "rewards/rejected": -3.7107791900634766,
       "step": 185
     },
     {
-      "epoch": 0.40105540897097625,
-      "grad_norm": 13.405956669044865,
       "learning_rate": 3.7446615068452804e-07,
-      "logits/chosen": -2.128485918045044,
-      "logits/rejected": -2.0320448875427246,
-      "logps/chosen": -500.07598876953125,
-      "logps/rejected": -665.8009643554688,
-      "loss": 0.4456,
       "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.381704092025757,
-      "rewards/margins": 1.4976516962051392,
-      "rewards/rejected": -3.8793559074401855,
       "step": 190
     },
     {
-      "epoch": 0.41160949868073876,
-      "grad_norm": 16.531263865887837,
       "learning_rate": 3.6636955675673743e-07,
-      "logits/chosen": -2.1537322998046875,
-      "logits/rejected": -2.151557207107544,
-      "logps/chosen": -563.8980102539062,
-      "logps/rejected": -719.9155883789062,
-      "loss": 0.4301,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -2.8693251609802246,
-      "rewards/margins": 1.4603594541549683,
-      "rewards/rejected": -4.329684734344482,
       "step": 195
     },
     {
-      "epoch": 0.42216358839050133,
-      "grad_norm": 25.62641100404869,
       "learning_rate": 3.5811401601205093e-07,
-      "logits/chosen": -2.1722164154052734,
-      "logits/rejected": -2.2210490703582764,
-      "logps/chosen": -547.766845703125,
-      "logps/rejected": -697.3842163085938,
-      "loss": 0.4585,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -2.807692766189575,
-      "rewards/margins": 1.545601725578308,
-      "rewards/rejected": -4.353294372558594,
       "step": 200
     },
     {
-      "epoch": 0.43271767810026385,
-      "grad_norm": 15.253711310557463,
       "learning_rate": 3.497108045260995e-07,
-      "logits/chosen": -2.0688979625701904,
-      "logits/rejected": -2.104271173477173,
-      "logps/chosen": -529.1517333984375,
-      "logps/rejected": -676.9817504882812,
-      "loss": 0.4423,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.4731733798980713,
-      "rewards/margins": 1.4461132287979126,
-      "rewards/rejected": -3.9192867279052734,
       "step": 205
     },
     {
-      "epoch": 0.44327176781002636,
-      "grad_norm": 24.083715768462596,
       "learning_rate": 3.411714000749838e-07,
-      "logits/chosen": -2.2706260681152344,
-      "logits/rejected": -2.135749340057373,
-      "logps/chosen": -541.0875854492188,
-      "logps/rejected": -750.7264404296875,
-      "loss": 0.4354,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.909759283065796,
-      "rewards/margins": 1.8729289770126343,
-      "rewards/rejected": -4.782688140869141,
       "step": 210
     },
     {
-      "epoch": 0.45382585751978893,
-      "grad_norm": 35.56607178592358,
       "learning_rate": 3.3250746645801287e-07,
-      "logits/chosen": -2.263277769088745,
-      "logits/rejected": -2.205223560333252,
-      "logps/chosen": -608.2554931640625,
-      "logps/rejected": -830.9841918945312,
-      "loss": 0.4321,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -3.611112117767334,
-      "rewards/margins": 2.0616540908813477,
-      "rewards/rejected": -5.672766208648682,
       "step": 215
     },
     {
-      "epoch": 0.46437994722955145,
-      "grad_norm": 15.718670222248921,
       "learning_rate": 3.237308375663571e-07,
-      "logits/chosen": -2.230881452560425,
-      "logits/rejected": -2.121683359146118,
-      "logps/chosen": -576.1820678710938,
-      "logps/rejected": -769.9691772460938,
-      "loss": 0.3944,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -3.302262783050537,
-      "rewards/margins": 1.794217824935913,
-      "rewards/rejected": -5.096480369567871,
       "step": 220
     },
     {
-      "epoch": 0.47493403693931396,
-      "grad_norm": 19.204923979579966,
       "learning_rate": 3.148535012193767e-07,
-      "logits/chosen": -2.1568782329559326,
-      "logits/rejected": -2.092639684677124,
-      "logps/chosen": -615.4882202148438,
-      "logps/rejected": -833.5153198242188,
-      "loss": 0.3871,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -3.338430881500244,
-      "rewards/margins": 2.001122236251831,
-      "rewards/rejected": -5.339552879333496,
       "step": 225
     },
     {
-      "epoch": 0.48548812664907653,
-      "grad_norm": 23.052920344271605,
       "learning_rate": 3.0588758279070183e-07,
-      "logits/chosen": -2.2185590267181396,
-      "logits/rejected": -2.13350772857666,
-      "logps/chosen": -622.9224853515625,
-      "logps/rejected": -836.8287353515625,
-      "loss": 0.4125,
       "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -3.6510891914367676,
-      "rewards/margins": 1.8919486999511719,
-      "rewards/rejected": -5.5430378913879395,
       "step": 230
     },
     {
-      "epoch": 0.49604221635883905,
-      "grad_norm": 16.46282996942275,
       "learning_rate": 2.968453286464312e-07,
-      "logits/chosen": -2.097414493560791,
-      "logits/rejected": -2.146594524383545,
-      "logps/chosen": -590.5551147460938,
-      "logps/rejected": -758.9312744140625,
-      "loss": 0.4164,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -3.0970864295959473,
-      "rewards/margins": 1.6357967853546143,
-      "rewards/rejected": -4.732882976531982,
       "step": 235
     },
     {
-      "epoch": 0.5065963060686016,
-      "grad_norm": 26.112494003766066,
       "learning_rate": 2.8773908941806877e-07,
-      "logits/chosen": -2.0698182582855225,
-      "logits/rejected": -2.076683521270752,
-      "logps/chosen": -617.1507568359375,
-      "logps/rejected": -853.2135620117188,
-      "loss": 0.3982,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.5680668354034424,
-      "rewards/margins": 2.141855001449585,
-      "rewards/rejected": -5.709921836853027,
       "step": 240
     },
     {
-      "epoch": 0.5171503957783641,
-      "grad_norm": 20.932946542012903,
       "learning_rate": 2.785813031330473e-07,
-      "logits/chosen": -2.1454832553863525,
-      "logits/rejected": -2.16323184967041,
-      "logps/chosen": -661.7200317382812,
-      "logps/rejected": -866.1280517578125,
-      "loss": 0.4092,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -4.027346134185791,
-      "rewards/margins": 1.9131158590316772,
-      "rewards/rejected": -5.940462112426758,
       "step": 245
     },
     {
-      "epoch": 0.5277044854881267,
-      "grad_norm": 15.896790069729533,
       "learning_rate": 2.693844782258779e-07,
-      "logits/chosen": -2.030596971511841,
-      "logits/rejected": -1.9922313690185547,
-      "logps/chosen": -571.3850708007812,
-      "logps/rejected": -776.018310546875,
-      "loss": 0.3852,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -3.086763620376587,
-      "rewards/margins": 1.9301198720932007,
-      "rewards/rejected": -5.016883850097656,
       "step": 250
     },
     {
-      "epoch": 0.5382585751978892,
-      "grad_norm": 40.59897974633979,
       "learning_rate": 2.601611764531342e-07,
-      "logits/chosen": -2.153049945831299,
-      "logits/rejected": -2.1268014907836914,
-      "logps/chosen": -659.8489990234375,
-      "logps/rejected": -876.6301879882812,
-      "loss": 0.4062,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -4.000391483306885,
-      "rewards/margins": 2.1393191814422607,
-      "rewards/rejected": -6.139710426330566,
       "step": 255
     },
     {
-      "epoch": 0.5488126649076517,
-      "grad_norm": 16.71817267029077,
       "learning_rate": 2.5092399573560323e-07,
-      "logits/chosen": -2.236642599105835,
-      "logits/rejected": -2.24824857711792,
-      "logps/chosen": -675.7197265625,
-      "logps/rejected": -906.6882934570312,
-      "loss": 0.4331,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -4.17581844329834,
-      "rewards/margins": 2.249803304672241,
-      "rewards/rejected": -6.42562198638916,
       "step": 260
     },
     {
-      "epoch": 0.5593667546174143,
-      "grad_norm": 21.83948507996357,
       "learning_rate": 2.4168555295104124e-07,
-      "logits/chosen": -2.185378313064575,
-      "logits/rejected": -2.1056790351867676,
-      "logps/chosen": -593.40283203125,
-      "logps/rejected": -796.1773071289062,
-      "loss": 0.4083,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -3.3149795532226562,
-      "rewards/margins": 1.8634592294692993,
-      "rewards/rejected": -5.178439140319824,
       "step": 265
     },
     {
-      "epoch": 0.5699208443271768,
-      "grad_norm": 20.351730101984266,
       "learning_rate": 2.3245846670103626e-07,
-      "logits/chosen": -2.268347978591919,
-      "logits/rejected": -2.2143301963806152,
-      "logps/chosen": -588.11474609375,
-      "logps/rejected": -783.8377075195312,
-      "loss": 0.3935,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -3.3238461017608643,
-      "rewards/margins": 1.8138678073883057,
-      "rewards/rejected": -5.13771390914917,
       "step": 270
     },
     {
-      "epoch": 0.5804749340369393,
-      "grad_norm": 18.56747674948443,
       "learning_rate": 2.232553400755159e-07,
-      "logits/chosen": -2.4159321784973145,
-      "logits/rejected": -2.3257503509521484,
-      "logps/chosen": -631.1921997070312,
-      "logps/rejected": -876.8099365234375,
-      "loss": 0.3663,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -3.7254486083984375,
-      "rewards/margins": 2.293728828430176,
-      "rewards/rejected": -6.0191779136657715,
       "step": 275
     },
     {
-      "epoch": 0.5910290237467019,
-      "grad_norm": 21.05078294350066,
       "learning_rate": 2.1408874343844294e-07,
-      "logits/chosen": -2.3609871864318848,
-      "logits/rejected": -2.229645013809204,
-      "logps/chosen": -681.2824096679688,
-      "logps/rejected": -997.8416748046875,
-      "loss": 0.3917,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -4.151437282562256,
-      "rewards/margins": 2.831943988800049,
-      "rewards/rejected": -6.9833807945251465,
       "step": 280
     },
     {
-      "epoch": 0.6015831134564644,
-      "grad_norm": 17.819286464723362,
       "learning_rate": 2.049711972582101e-07,
-      "logits/chosen": -2.2669837474823,
-      "logits/rejected": -2.1804003715515137,
-      "logps/chosen": -674.4667358398438,
-      "logps/rejected": -925.66650390625,
-      "loss": 0.3574,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -4.095311641693115,
-      "rewards/margins": 2.3263769149780273,
-      "rewards/rejected": -6.421689033508301,
       "step": 285
     },
     {
-      "epoch": 0.6121372031662269,
-      "grad_norm": 16.393917654235082,
       "learning_rate": 1.9591515500618588e-07,
-      "logits/chosen": -2.3980906009674072,
-      "logits/rejected": -2.307847261428833,
-      "logps/chosen": -668.3873901367188,
-      "logps/rejected": -880.75146484375,
-      "loss": 0.4484,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -4.07429313659668,
-      "rewards/margins": 1.9223320484161377,
-      "rewards/rejected": -5.9966254234313965,
       "step": 290
     },
     {
-      "epoch": 0.6226912928759895,
-      "grad_norm": 17.607056207364927,
       "learning_rate": 1.8693298614677112e-07,
-      "logits/chosen": -2.1555488109588623,
-      "logits/rejected": -2.051828145980835,
-      "logps/chosen": -596.3387451171875,
-      "logps/rejected": -825.14892578125,
-      "loss": 0.3679,
       "rewards/accuracies": 0.875,
-      "rewards/chosen": -3.2922072410583496,
-      "rewards/margins": 2.1459250450134277,
-      "rewards/rejected": -5.438132286071777,
       "step": 295
     },
     {
-      "epoch": 0.633245382585752,
-      "grad_norm": 18.598122517039727,
       "learning_rate": 1.7803695924219814e-07,
-      "logits/chosen": -2.2622170448303223,
-      "logits/rejected": -2.1897120475769043,
-      "logps/chosen": -639.8846435546875,
-      "logps/rejected": -850.0399169921875,
-      "loss": 0.4031,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -3.6260199546813965,
-      "rewards/margins": 2.0194387435913086,
-      "rewards/rejected": -5.645459175109863,
       "step": 300
     },
     {
-      "epoch": 0.6437994722955145,
-      "grad_norm": 16.59129232266985,
       "learning_rate": 1.6923922519515067e-07,
-      "logits/chosen": -2.2015440464019775,
-      "logits/rejected": -2.129885196685791,
-      "logps/chosen": -558.0819091796875,
-      "logps/rejected": -752.4927368164062,
-      "loss": 0.4095,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -3.0600318908691406,
-      "rewards/margins": 1.7260305881500244,
-      "rewards/rejected": -4.786062240600586,
       "step": 305
     },
     {
-      "epoch": 0.6543535620052771,
-      "grad_norm": 18.44006124052621,
       "learning_rate": 1.605518006520924e-07,
-      "logits/chosen": -2.301358461380005,
-      "logits/rejected": -2.184253215789795,
-      "logps/chosen": -583.1818237304688,
-      "logps/rejected": -801.277099609375,
-      "loss": 0.3928,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.176647663116455,
-      "rewards/margins": 2.0725767612457275,
-      "rewards/rejected": -5.249224662780762,
       "step": 310
     },
     {
-      "epoch": 0.6649076517150396,
-      "grad_norm": 43.00212859415373,
       "learning_rate": 1.519865515899731e-07,
-      "logits/chosen": -2.302088975906372,
-      "logits/rejected": -2.1100873947143555,
-      "logps/chosen": -601.4708251953125,
-      "logps/rejected": -821.9664916992188,
-      "loss": 0.3886,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -3.5313808917999268,
-      "rewards/margins": 1.985640287399292,
-      "rewards/rejected": -5.517021179199219,
       "step": 315
     },
     {
-      "epoch": 0.6754617414248021,
-      "grad_norm": 19.308206012998415,
       "learning_rate": 1.4355517710873182e-07,
-      "logits/chosen": -2.306898593902588,
-      "logits/rejected": -2.2703452110290527,
-      "logps/chosen": -637.2567138671875,
-      "logps/rejected": -900.8046875,
-      "loss": 0.3968,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -3.712189197540283,
-      "rewards/margins": 2.495907783508301,
-      "rewards/rejected": -6.208096981048584,
       "step": 320
     },
     {
-      "epoch": 0.6860158311345647,
-      "grad_norm": 24.048438044667563,
       "learning_rate": 1.3526919345173318e-07,
-      "logits/chosen": -2.2532455921173096,
-      "logits/rejected": -2.1278910636901855,
-      "logps/chosen": -607.2129516601562,
-      "logps/rejected": -847.1838989257812,
-      "loss": 0.4058,
       "rewards/accuracies": 0.84375,
-      "rewards/chosen": -3.399864912033081,
-      "rewards/margins": 2.236896514892578,
-      "rewards/rejected": -5.636761665344238,
       "step": 325
     },
     {
-      "epoch": 0.6965699208443272,
-      "grad_norm": 27.608112815101293,
       "learning_rate": 1.2713991827596443e-07,
-      "logits/chosen": -2.233346939086914,
-      "logits/rejected": -2.2035372257232666,
-      "logps/chosen": -589.2955322265625,
-      "logps/rejected": -793.0179443359375,
-      "loss": 0.3905,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -3.347853899002075,
-      "rewards/margins": 1.9631192684173584,
-      "rewards/rejected": -5.31097412109375,
       "step": 330
     },
     {
-      "epoch": 0.7071240105540897,
-      "grad_norm": 24.14881546063451,
       "learning_rate": 1.191784551934773e-07,
-      "logits/chosen": -2.3385255336761475,
-      "logits/rejected": -2.322145462036133,
-      "logps/chosen": -588.7033081054688,
-      "logps/rejected": -806.0431518554688,
-      "loss": 0.4061,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -3.393342971801758,
-      "rewards/margins": 2.0734634399414062,
-      "rewards/rejected": -5.466806888580322,
       "step": 335
     },
     {
-      "epoch": 0.7176781002638523,
-      "grad_norm": 19.815903375155614,
       "learning_rate": 1.1139567860518953e-07,
-      "logits/chosen": -2.0588958263397217,
-      "logits/rejected": -1.979034423828125,
-      "logps/chosen": -593.4244995117188,
-      "logps/rejected": -787.120361328125,
-      "loss": 0.4265,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.2387542724609375,
-      "rewards/margins": 1.854077696800232,
-      "rewards/rejected": -5.092832088470459,
       "step": 340
     },
     {
-      "epoch": 0.7282321899736148,
-      "grad_norm": 20.071301052736302,
       "learning_rate": 1.0380221884776128e-07,
-      "logits/chosen": -2.067850112915039,
-      "logits/rejected": -2.048149824142456,
-      "logps/chosen": -560.5596923828125,
-      "logps/rejected": -704.077880859375,
-      "loss": 0.4373,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.912015438079834,
-      "rewards/margins": 1.399601936340332,
-      "rewards/rejected": -4.311617374420166,
       "step": 345
     },
     {
-      "epoch": 0.7387862796833773,
-      "grad_norm": 18.162804393534355,
       "learning_rate": 9.640844767383405e-08,
-      "logits/chosen": -2.1664066314697266,
-      "logits/rejected": -2.08605694770813,
-      "logps/chosen": -543.7811279296875,
-      "logps/rejected": -715.3802490234375,
-      "loss": 0.4225,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -2.847567319869995,
-      "rewards/margins": 1.6358835697174072,
-      "rewards/rejected": -4.4834513664245605,
       "step": 350
     },
     {
-      "epoch": 0.7493403693931399,
-      "grad_norm": 22.0345662189636,
       "learning_rate": 8.922446408546378e-08,
-      "logits/chosen": -2.125089168548584,
-      "logits/rejected": -2.0595450401306152,
-      "logps/chosen": -593.4921875,
-      "logps/rejected": -794.3736572265625,
-      "loss": 0.4491,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -3.1958818435668945,
-      "rewards/margins": 1.8830915689468384,
-      "rewards/rejected": -5.078973293304443,
       "step": 355
     },
     {
-      "epoch": 0.7598944591029023,
-      "grad_norm": 37.283205456222554,
       "learning_rate": 8.22600805400994e-08,
-      "logits/chosen": -2.119860887527466,
-      "logits/rejected": -2.025869846343994,
-      "logps/chosen": -572.8893432617188,
-      "logps/rejected": -800.1495361328125,
-      "loss": 0.3879,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -3.0747852325439453,
-      "rewards/margins": 2.0609545707702637,
-      "rewards/rejected": -5.135739326477051,
       "step": 360
     },
     {
-      "epoch": 0.7704485488126649,
-      "grad_norm": 23.893898212231402,
       "learning_rate": 7.552480954794558e-08,
-      "logits/chosen": -2.0981643199920654,
-      "logits/rejected": -2.010963201522827,
-      "logps/chosen": -598.5560302734375,
-      "logps/rejected": -791.58349609375,
-      "loss": 0.4217,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -3.4471168518066406,
-      "rewards/margins": 1.8089519739151,
-      "rewards/rejected": -5.256069183349609,
       "step": 365
     },
     {
-      "epoch": 0.7810026385224275,
-      "grad_norm": 27.916098925400245,
       "learning_rate": 6.902785067901854e-08,
-      "logits/chosen": -2.1697256565093994,
-      "logits/rejected": -2.015242099761963,
-      "logps/chosen": -603.3410034179688,
-      "logps/rejected": -844.3304443359375,
-      "loss": 0.3863,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -3.3369498252868652,
-      "rewards/margins": 2.220611810684204,
-      "rewards/rejected": -5.557561874389648,
       "step": 370
     },
     {
-      "epoch": 0.7915567282321899,
-      "grad_norm": 27.790853080729732,
       "learning_rate": 6.277807799763973e-08,
-      "logits/chosen": -2.1927974224090576,
-      "logits/rejected": -2.077242136001587,
-      "logps/chosen": -604.877685546875,
-      "logps/rejected": -836.9320068359375,
-      "loss": 0.4036,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -3.460221767425537,
-      "rewards/margins": 2.2005088329315186,
-      "rewards/rejected": -5.660730361938477,
       "step": 375
     },
     {
-      "epoch": 0.8021108179419525,
-      "grad_norm": 26.505958464528764,
       "learning_rate": 5.678402794153145e-08,
-      "logits/chosen": -2.265552282333374,
-      "logits/rejected": -2.2187042236328125,
-      "logps/chosen": -644.1717529296875,
-      "logps/rejected": -856.8342895507812,
-      "loss": 0.4045,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -3.8418126106262207,
-      "rewards/margins": 2.0028209686279297,
-      "rewards/rejected": -5.844632625579834,
       "step": 380
     },
     {
-      "epoch": 0.8126649076517151,
-      "grad_norm": 28.453921770012606,
       "learning_rate": 5.105388766206969e-08,
-      "logits/chosen": -2.355292797088623,
-      "logits/rejected": -2.2420361042022705,
-      "logps/chosen": -691.5671997070312,
-      "logps/rejected": -934.6068115234375,
-      "loss": 0.443,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -4.222853660583496,
-      "rewards/margins": 2.315927028656006,
-      "rewards/rejected": -6.538781642913818,
       "step": 385
     },
     {
-      "epoch": 0.8232189973614775,
-      "grad_norm": 21.35738866439425,
       "learning_rate": 4.5595483841620484e-08,
-      "logits/chosen": -2.1776041984558105,
-      "logits/rejected": -2.1361899375915527,
-      "logps/chosen": -658.7529907226562,
-      "logps/rejected": -870.3590087890625,
-      "loss": 0.378,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.8739631175994873,
-      "rewards/margins": 2.0037648677825928,
-      "rewards/rejected": -5.877728462219238,
       "step": 390
     },
     {
-      "epoch": 0.8337730870712401,
-      "grad_norm": 25.73671420821126,
       "learning_rate": 4.0416272003232526e-08,
-      "logits/chosen": -2.1355865001678467,
-      "logits/rejected": -2.0880231857299805,
-      "logps/chosen": -632.5217895507812,
-      "logps/rejected": -861.2312622070312,
-      "loss": 0.44,
       "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -3.6603481769561768,
-      "rewards/margins": 2.233140230178833,
-      "rewards/rejected": -5.893488883972168,
       "step": 395
     },
     {
-      "epoch": 0.8443271767810027,
-      "grad_norm": 24.57511432896418,
       "learning_rate": 3.552332632729041e-08,
-      "logits/chosen": -2.040531873703003,
-      "logits/rejected": -2.077538251876831,
-      "logps/chosen": -628.4180908203125,
-      "logps/rejected": -797.4384765625,
-      "loss": 0.4222,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -3.6359188556671143,
-      "rewards/margins": 1.6638940572738647,
-      "rewards/rejected": -5.299813270568848,
       "step": 400
     },
     {
-      "epoch": 0.8443271767810027,
-      "eval_logits/chosen": -2.7593374252319336,
-      "eval_logits/rejected": -2.6865265369415283,
-      "eval_logps/chosen": -595.5198974609375,
-      "eval_logps/rejected": -786.4964599609375,
-      "eval_loss": 0.39839133620262146,
-      "eval_rewards/accuracies": 0.8286290168762207,
-      "eval_rewards/chosen": -3.3262782096862793,
-      "eval_rewards/margins": 1.799713134765625,
-      "eval_rewards/rejected": -5.125991344451904,
-      "eval_runtime": 315.3526,
-      "eval_samples_per_second": 6.266,
-      "eval_steps_per_second": 0.393,
       "step": 400
     },
     {
-      "epoch": 0.8548812664907651,
-      "grad_norm": 20.4806371393051,
       "learning_rate": 3.092332998903416e-08,
-      "logits/chosen": -2.1178812980651855,
-      "logits/rejected": -2.0984854698181152,
-      "logps/chosen": -637.4102783203125,
-      "logps/rejected": -846.5029296875,
-      "loss": 0.3953,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -3.625606060028076,
-      "rewards/margins": 2.061870574951172,
-      "rewards/rejected": -5.687476634979248,
       "step": 405
     },
     {
-      "epoch": 0.8654353562005277,
-      "grad_norm": 19.547579178485496,
       "learning_rate": 2.6622566030146455e-08,
-      "logits/chosen": -2.1973793506622314,
-      "logits/rejected": -2.171604633331299,
-      "logps/chosen": -557.0053100585938,
-      "logps/rejected": -746.3121337890625,
-      "loss": 0.4256,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -3.149854898452759,
-      "rewards/margins": 1.7529436349868774,
-      "rewards/rejected": -4.902798652648926,
       "step": 410
     },
     {
-      "epoch": 0.8759894459102903,
-      "grad_norm": 19.129911424402337,
       "learning_rate": 2.26269087768734e-08,
-      "logits/chosen": -2.1681036949157715,
-      "logits/rejected": -2.006333589553833,
-      "logps/chosen": -610.58837890625,
-      "logps/rejected": -869.3065185546875,
-      "loss": 0.3987,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -3.558450698852539,
-      "rewards/margins": 2.386261463165283,
-      "rewards/rejected": -5.9447126388549805,
       "step": 415
     },
     {
-      "epoch": 0.8865435356200527,
-      "grad_norm": 24.716365813368494,
       "learning_rate": 1.894181581640106e-08,
-      "logits/chosen": -2.2324867248535156,
-      "logits/rejected": -2.2453224658966064,
-      "logps/chosen": -601.86083984375,
-      "logps/rejected": -790.0075073242188,
-      "loss": 0.3941,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -3.448594331741333,
-      "rewards/margins": 1.7875158786773682,
-      "rewards/rejected": -5.236110210418701,
       "step": 420
     },
     {
-      "epoch": 0.8970976253298153,
-      "grad_norm": 32.13959851586395,
       "learning_rate": 1.5572320542448143e-08,
-      "logits/chosen": -2.2512707710266113,
-      "logits/rejected": -2.20418119430542,
-      "logps/chosen": -625.6372680664062,
-      "logps/rejected": -828.36083984375,
-      "loss": 0.4037,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -3.624408006668091,
-      "rewards/margins": 1.9519973993301392,
-      "rewards/rejected": -5.576405048370361,
       "step": 425
     },
     {
-      "epoch": 0.9076517150395779,
-      "grad_norm": 21.087098841456804,
       "learning_rate": 1.2523025280255729e-08,
-      "logits/chosen": -2.314072847366333,
-      "logits/rejected": -2.28322434425354,
-      "logps/chosen": -619.37060546875,
-      "logps/rejected": -859.1106567382812,
-      "loss": 0.3474,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -3.540250062942505,
-      "rewards/margins": 2.301335334777832,
-      "rewards/rejected": -5.841585159301758,
       "step": 430
     },
     {
-      "epoch": 0.9182058047493403,
-      "grad_norm": 18.102509884061345,
       "learning_rate": 9.798095000364214e-09,
-      "logits/chosen": -2.378577470779419,
-      "logits/rejected": -2.214040994644165,
-      "logps/chosen": -613.8382568359375,
-      "logps/rejected": -870.4904174804688,
-      "loss": 0.3723,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -3.5427989959716797,
-      "rewards/margins": 2.341104030609131,
-      "rewards/rejected": -5.8839030265808105,
       "step": 435
     },
     {
-      "epoch": 0.9287598944591029,
-      "grad_norm": 24.09594523964464,
       "learning_rate": 7.401251629764876e-09,
-      "logits/chosen": -2.230398416519165,
-      "logits/rejected": -2.044609308242798,
-      "logps/chosen": -635.7887573242188,
-      "logps/rejected": -865.6220703125,
-      "loss": 0.4132,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -3.677701473236084,
-      "rewards/margins": 2.0847156047821045,
-      "rewards/rejected": -5.762416839599609,
       "step": 440
     },
     {
-      "epoch": 0.9393139841688655,
-      "grad_norm": 18.69976567383702,
       "learning_rate": 5.335768968195098e-09,
-      "logits/chosen": -2.1324424743652344,
-      "logits/rejected": -2.0235095024108887,
-      "logps/chosen": -618.6690673828125,
-      "logps/rejected": -826.8605346679688,
-      "loss": 0.4125,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -3.5293784141540527,
-      "rewards/margins": 1.9530022144317627,
-      "rewards/rejected": -5.4823808670043945,
       "step": 445
     },
     {
-      "epoch": 0.9498680738786279,
-      "grad_norm": 15.92889127250539,
       "learning_rate": 3.604468216521883e-09,
-      "logits/chosen": -2.2540245056152344,
-      "logits/rejected": -2.232203960418701,
-      "logps/chosen": -600.1151123046875,
-      "logps/rejected": -796.59423828125,
-      "loss": 0.3844,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -3.402463912963867,
-      "rewards/margins": 1.903550148010254,
-      "rewards/rejected": -5.306014060974121,
       "step": 450
     },
     {
-      "epoch": 0.9604221635883905,
-      "grad_norm": 18.753569800561838,
       "learning_rate": 2.2097141233206884e-09,
-      "logits/chosen": -2.1656556129455566,
-      "logits/rejected": -2.1333932876586914,
-      "logps/chosen": -624.7294921875,
-      "logps/rejected": -828.1585693359375,
-      "loss": 0.3908,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -3.7328314781188965,
-      "rewards/margins": 1.9572765827178955,
-      "rewards/rejected": -5.690107345581055,
       "step": 455
     },
     {
-      "epoch": 0.9709762532981531,
-      "grad_norm": 19.85121890931105,
       "learning_rate": 1.1534117549133472e-09,
-      "logits/chosen": -2.364999294281006,
-      "logits/rejected": -2.1894242763519287,
-      "logps/chosen": -624.747802734375,
-      "logps/rejected": -858.8040161132812,
-      "loss": 0.3658,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -3.7442946434020996,
-      "rewards/margins": 2.1538589000701904,
-      "rewards/rejected": -5.898154258728027,
       "step": 460
     },
     {
-      "epoch": 0.9815303430079155,
-      "grad_norm": 39.10841866963654,
       "learning_rate": 4.3700389327672173e-10,
-      "logits/chosen": -2.2868332862854004,
-      "logits/rejected": -2.1618874073028564,
-      "logps/chosen": -634.08447265625,
-      "logps/rejected": -845.2247924804688,
-      "loss": 0.3908,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -3.793625593185425,
-      "rewards/margins": 1.9014127254486084,
-      "rewards/rejected": -5.695038318634033,
       "step": 465
     },
     {
-      "epoch": 0.9920844327176781,
-      "grad_norm": 18.498519136680624,
       "learning_rate": 6.146906537587982e-11,
-      "logits/chosen": -2.2575690746307373,
-      "logits/rejected": -2.1273903846740723,
-      "logps/chosen": -600.2813720703125,
-      "logps/rejected": -810.6456298828125,
-      "loss": 0.396,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -3.4551138877868652,
-      "rewards/margins": 1.9376386404037476,
-      "rewards/rejected": -5.392752647399902,
       "step": 470
     },
     {
-      "epoch": 0.9984168865435357,
       "step": 473,
       "total_flos": 0.0,
-      "train_loss": 0.466365703316622,
-      "train_runtime": 19524.7969,
-      "train_samples_per_second": 3.105,
-      "train_steps_per_second": 0.024
     }
   ],
   "logging_steps": 5,
@@ -1477,7 +1477,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9984827495217362,
   "eval_steps": 400,
   "global_step": 473,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.002110957187149548,
+      "grad_norm": 4.06041781261902,
       "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -0.9878771901130676,
+      "logits/rejected": -0.7230668663978577,
+      "logps/chosen": -251.34963989257812,
+      "logps/rejected": -287.15838623046875,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.01055478593574774,
+      "grad_norm": 4.105776204209711,
       "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -0.9975427985191345,
+      "logits/rejected": -0.6888133883476257,
+      "logps/chosen": -272.86993408203125,
+      "logps/rejected": -286.1126708984375,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.359375,
+      "rewards/chosen": -0.00011302110215183347,
+      "rewards/margins": -0.00016400158347096294,
+      "rewards/rejected": 5.0980423111468554e-05,
       "step": 5
     },
     {
+      "epoch": 0.02110957187149548,
+      "grad_norm": 4.582740122598074,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -1.0306963920593262,
+      "logits/rejected": -0.7614760398864746,
+      "logps/chosen": -274.9240417480469,
+      "logps/rejected": -293.0102233886719,
       "loss": 0.6933,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.0007906880346126854,
+      "rewards/margins": 0.00033544833422638476,
+      "rewards/rejected": 0.00045523978769779205,
       "step": 10
     },
     {
+      "epoch": 0.03166435780724322,
+      "grad_norm": 4.2774752538157,
       "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -0.9785528182983398,
+      "logits/rejected": -0.6860870122909546,
+      "logps/chosen": -253.0674285888672,
+      "logps/rejected": -277.63006591796875,
+      "loss": 0.693,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.00013054809824097902,
+      "rewards/margins": -4.017539322376251e-05,
+      "rewards/rejected": 0.0001707235351204872,
       "step": 15
     },
     {
+      "epoch": 0.04221914374299096,
+      "grad_norm": 4.154426876518502,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -0.8861902356147766,
+      "logits/rejected": -0.7466350793838501,
+      "logps/chosen": -303.89990234375,
+      "logps/rejected": -317.44354248046875,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.0017729544779285789,
+      "rewards/margins": 0.0007360944291576743,
+      "rewards/rejected": -0.0025090486742556095,
       "step": 20
     },
     {
+      "epoch": 0.0527739296787387,
+      "grad_norm": 4.391172268221911,
       "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -0.9347459077835083,
+      "logits/rejected": -0.7482324242591858,
+      "logps/chosen": -257.277099609375,
+      "logps/rejected": -276.6146240234375,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.0021017056424170732,
+      "rewards/margins": 0.001351111801341176,
+      "rewards/rejected": -0.003452816978096962,
       "step": 25
     },
     {
+      "epoch": 0.06332871561448644,
+      "grad_norm": 4.197922988205761,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -0.9495643377304077,
+      "logits/rejected": -0.722493052482605,
+      "logps/chosen": -271.043212890625,
+      "logps/rejected": -304.54779052734375,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.007976134307682514,
+      "rewards/margins": 0.006574218161404133,
+      "rewards/rejected": -0.014550352469086647,
       "step": 30
     },
     {
+      "epoch": 0.07388350155023418,
+      "grad_norm": 4.146928571575294,
       "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -0.9740797281265259,
+      "logits/rejected": -0.6511734127998352,
+      "logps/chosen": -269.66558837890625,
+      "logps/rejected": -282.5665588378906,
+      "loss": 0.6901,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.014239413663744926,
+      "rewards/margins": 0.006516980938613415,
+      "rewards/rejected": -0.020756395533680916,
       "step": 35
     },
     {
+      "epoch": 0.08443828748598192,
+      "grad_norm": 4.434625304551974,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -0.9476411938667297,
+      "logits/rejected": -0.8075205087661743,
+      "logps/chosen": -254.89315795898438,
+      "logps/rejected": -269.08843994140625,
+      "loss": 0.6872,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.025963688269257545,
+      "rewards/margins": 0.010111861862242222,
+      "rewards/rejected": -0.03607555106282234,
       "step": 40
     },
     {
+      "epoch": 0.09499307342172966,
+      "grad_norm": 4.334333725960549,
       "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -0.9668118357658386,
+      "logits/rejected": -0.7818160057067871,
+      "logps/chosen": -262.55804443359375,
+      "logps/rejected": -279.33416748046875,
+      "loss": 0.6841,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.03984779864549637,
+      "rewards/margins": 0.01882680132985115,
+      "rewards/rejected": -0.05867459625005722,
       "step": 45
     },
     {
+      "epoch": 0.1055478593574774,
+      "grad_norm": 4.672589574927753,
       "learning_rate": 4.999726797933858e-07,
+      "logits/chosen": -1.1188008785247803,
+      "logits/rejected": -0.7495776414871216,
+      "logps/chosen": -274.8739318847656,
+      "logps/rejected": -298.7273254394531,
+      "loss": 0.6736,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.0697299912571907,
+      "rewards/margins": 0.04492691531777382,
+      "rewards/rejected": -0.11465690284967422,
       "step": 50
     },
     {
+      "epoch": 0.11610264529322514,
+      "grad_norm": 6.181545467894853,
       "learning_rate": 4.99665396039775e-07,
+      "logits/chosen": -1.1051629781723022,
+      "logits/rejected": -0.9252668619155884,
+      "logps/chosen": -270.87841796875,
+      "logps/rejected": -289.1105651855469,
+      "loss": 0.6576,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.14251390099525452,
+      "rewards/margins": 0.10730250179767609,
+      "rewards/rejected": -0.2498163878917694,
       "step": 55
     },
     {
+      "epoch": 0.12665743122897288,
+      "grad_norm": 7.558458036407823,
       "learning_rate": 4.99017099386437e-07,
+      "logits/chosen": -1.3753994703292847,
+      "logits/rejected": -1.1374595165252686,
+      "logps/chosen": -306.73138427734375,
+      "logps/rejected": -341.1016845703125,
+      "loss": 0.6281,
       "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.37672942876815796,
+      "rewards/margins": 0.20342817902565002,
+      "rewards/rejected": -0.5801576375961304,
       "step": 60
     },
     {
+      "epoch": 0.13721221716472062,
+      "grad_norm": 66.9078697860869,
       "learning_rate": 4.980286753286194e-07,
+      "logits/chosen": -1.5234780311584473,
+      "logits/rejected": -1.2897632122039795,
+      "logps/chosen": -359.58074951171875,
+      "logps/rejected": -414.0733947753906,
+      "loss": 0.6211,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.063786506652832,
+      "rewards/margins": 0.41773301362991333,
+      "rewards/rejected": -1.4815195798873901,
       "step": 65
     },
     {
+      "epoch": 0.14776700310046836,
+      "grad_norm": 12.864645326069963,
       "learning_rate": 4.967014739346915e-07,
+      "logits/chosen": -1.4892756938934326,
+      "logits/rejected": -1.3145514726638794,
+      "logps/chosen": -410.1991271972656,
+      "logps/rejected": -467.57623291015625,
+      "loss": 0.6578,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.4497530460357666,
+      "rewards/margins": 0.4113241136074066,
+      "rewards/rejected": -1.8610769510269165,
       "step": 70
     },
     {
+      "epoch": 0.1583217890362161,
+      "grad_norm": 12.52823747211519,
       "learning_rate": 4.950373080021136e-07,
+      "logits/chosen": -1.2871811389923096,
+      "logits/rejected": -1.2107694149017334,
+      "logps/chosen": -333.7770080566406,
+      "logps/rejected": -356.77728271484375,
+      "loss": 0.5936,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.579529881477356,
+      "rewards/margins": 0.2453722506761551,
+      "rewards/rejected": -0.8249020576477051,
       "step": 75
     },
     {
+      "epoch": 0.16887657497196384,
+      "grad_norm": 17.45417402457315,
       "learning_rate": 4.930384505813737e-07,
+      "logits/chosen": -1.4544992446899414,
+      "logits/rejected": -1.3903002738952637,
+      "logps/chosen": -392.7482604980469,
+      "logps/rejected": -472.0469665527344,
+      "loss": 0.5588,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.0880345106124878,
+      "rewards/margins": 0.6102110147476196,
+      "rewards/rejected": -1.6982454061508179,
       "step": 80
     },
     {
+      "epoch": 0.17943136090771158,
+      "grad_norm": 36.09231440231977,
       "learning_rate": 4.907076318712738e-07,
+      "logits/chosen": -1.5770976543426514,
+      "logits/rejected": -1.4604318141937256,
+      "logps/chosen": -478.90264892578125,
+      "logps/rejected": -560.0563354492188,
+      "loss": 0.557,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.8632774353027344,
+      "rewards/margins": 0.6757477521896362,
+      "rewards/rejected": -2.53902530670166,
       "step": 85
     },
     {
+      "epoch": 0.18998614684345932,
+      "grad_norm": 12.93821128098639,
       "learning_rate": 4.88048035489807e-07,
+      "logits/chosen": -1.5192902088165283,
+      "logits/rejected": -1.3578670024871826,
+      "logps/chosen": -401.8139343261719,
+      "logps/rejected": -476.27557373046875,
+      "loss": 0.5413,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.2336255311965942,
+      "rewards/margins": 0.6196562051773071,
+      "rewards/rejected": -1.8532816171646118,
       "step": 90
     },
     {
+      "epoch": 0.20054093277920707,
+      "grad_norm": 10.174846260495245,
       "learning_rate": 4.85063294125718e-07,
+      "logits/chosen": -1.4184257984161377,
+      "logits/rejected": -1.349448561668396,
+      "logps/chosen": -405.37030029296875,
+      "logps/rejected": -465.87835693359375,
+      "loss": 0.584,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.2496789693832397,
+      "rewards/margins": 0.4809112548828125,
+      "rewards/rejected": -1.7305902242660522,
       "step": 95
     },
     {
+      "epoch": 0.2110957187149548,
+      "grad_norm": 11.934921621793764,
       "learning_rate": 4.817574845766874e-07,
+      "logits/chosen": -1.6645218133926392,
+      "logits/rejected": -1.4362655878067017,
+      "logps/chosen": -419.6376953125,
+      "logps/rejected": -511.97955322265625,
+      "loss": 0.5179,
       "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.6008678674697876,
+      "rewards/margins": 0.7449867129325867,
+      "rewards/rejected": -2.3458542823791504,
       "step": 100
     },
     {
+      "epoch": 0.22165050465070255,
+      "grad_norm": 11.911318908319176,
       "learning_rate": 4.781351221809166e-07,
+      "logits/chosen": -1.6439392566680908,
+      "logits/rejected": -1.5432502031326294,
+      "logps/chosen": -462.12249755859375,
+      "logps/rejected": -561.0224609375,
+      "loss": 0.563,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.0325913429260254,
+      "rewards/margins": 0.8397369384765625,
+      "rewards/rejected": -2.872328281402588,
       "step": 105
     },
     {
+      "epoch": 0.23220529058645029,
+      "grad_norm": 12.017204037189543,
       "learning_rate": 4.742011546497182e-07,
+      "logits/chosen": -1.5051389932632446,
+      "logits/rejected": -1.4414231777191162,
+      "logps/chosen": -449.30657958984375,
+      "logps/rejected": -550.5023803710938,
+      "loss": 0.5068,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.5960687398910522,
+      "rewards/margins": 0.8259360194206238,
+      "rewards/rejected": -2.4220046997070312,
       "step": 110
     },
     {
+      "epoch": 0.24276007652219803,
+      "grad_norm": 16.38172474746581,
       "learning_rate": 4.6996095530953875e-07,
+      "logits/chosen": -1.6456964015960693,
+      "logits/rejected": -1.4991674423217773,
+      "logps/chosen": -492.7826232910156,
+      "logps/rejected": -631.8049926757812,
+      "loss": 0.5084,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.1061949729919434,
+      "rewards/margins": 1.1719015836715698,
+      "rewards/rejected": -3.2780966758728027,
       "step": 115
     },
     {
+      "epoch": 0.25331486245794577,
+      "grad_norm": 19.153944069009537,
       "learning_rate": 4.654203157626399e-07,
+      "logits/chosen": -1.7168292999267578,
+      "logits/rejected": -1.5979254245758057,
+      "logps/chosen": -499.25775146484375,
+      "logps/rejected": -663.107177734375,
+      "loss": 0.5023,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.420952558517456,
+      "rewards/margins": 1.3582748174667358,
+      "rewards/rejected": -3.7792270183563232,
       "step": 120
     },
     {
+      "epoch": 0.26386964839369353,
+      "grad_norm": 15.209663016177657,
       "learning_rate": 4.605854379764673e-07,
+      "logits/chosen": -1.529827356338501,
+      "logits/rejected": -1.4732040166854858,
+      "logps/chosen": -422.29827880859375,
+      "logps/rejected": -505.83154296875,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.6309483051300049,
+      "rewards/margins": 0.74617999792099,
+      "rewards/rejected": -2.3771283626556396,
       "step": 125
     },
     {
+      "epoch": 0.27442443432944125,
+      "grad_norm": 11.779884218050361,
       "learning_rate": 4.5546292581250857e-07,
+      "logits/chosen": -1.5948470830917358,
+      "logits/rejected": -1.4933321475982666,
+      "logps/chosen": -455.269287109375,
+      "logps/rejected": -543.4944458007812,
+      "loss": 0.4868,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.7508251667022705,
+      "rewards/margins": 0.8269698023796082,
+      "rewards/rejected": -2.5777950286865234,
       "step": 130
     },
     {
+      "epoch": 0.284979220265189,
+      "grad_norm": 19.10994211444829,
       "learning_rate": 4.5005977600621275e-07,
+      "logits/chosen": -1.7589390277862549,
+      "logits/rejected": -1.5872992277145386,
+      "logps/chosen": -568.4318237304688,
+      "logps/rejected": -727.857666015625,
+      "loss": 0.4781,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.8650763034820557,
+      "rewards/margins": 1.3692649602890015,
+      "rewards/rejected": -4.234341621398926,
       "step": 135
     },
     {
+      "epoch": 0.2955340062009367,
+      "grad_norm": 15.492507693472131,
       "learning_rate": 4.443833686102919e-07,
+      "logits/chosen": -1.6332670450210571,
+      "logits/rejected": -1.4034180641174316,
+      "logps/chosen": -461.40826416015625,
+      "logps/rejected": -608.6381225585938,
+      "loss": 0.4705,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.9456875324249268,
+      "rewards/margins": 1.1761558055877686,
+      "rewards/rejected": -3.1218433380126953,
       "step": 140
     },
     {
+      "epoch": 0.3060887921366845,
+      "grad_norm": 16.867870056444893,
       "learning_rate": 4.384414569144561e-07,
+      "logits/chosen": -1.5909126996994019,
+      "logits/rejected": -1.5102109909057617,
+      "logps/chosen": -441.18670654296875,
+      "logps/rejected": -565.0006713867188,
+      "loss": 0.5053,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.909717321395874,
+      "rewards/margins": 1.0274746417999268,
+      "rewards/rejected": -2.937191963195801,
       "step": 145
     },
     {
+      "epoch": 0.3166435780724322,
+      "grad_norm": 12.53246744632567,
       "learning_rate": 4.3224215685535287e-07,
+      "logits/chosen": -1.6234986782073975,
+      "logits/rejected": -1.4319360256195068,
+      "logps/chosen": -540.7374267578125,
+      "logps/rejected": -702.7229614257812,
+      "loss": 0.4621,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.5035765171051025,
+      "rewards/margins": 1.4901249408721924,
+      "rewards/rejected": -3.993701457977295,
       "step": 150
     },
     {
+      "epoch": 0.32719836400818,
+      "grad_norm": 15.04185556896974,
       "learning_rate": 4.2579393593117364e-07,
+      "logits/chosen": -1.533140778541565,
+      "logits/rejected": -1.3760929107666016,
+      "logps/chosen": -481.59954833984375,
+      "logps/rejected": -652.427490234375,
+      "loss": 0.4563,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.2860851287841797,
+      "rewards/margins": 1.5269566774368286,
+      "rewards/rejected": -3.8130416870117188,
       "step": 155
     },
     {
+      "epoch": 0.3377531499439277,
+      "grad_norm": 13.12290477739756,
       "learning_rate": 4.191056016360699e-07,
+      "logits/chosen": -1.6271283626556396,
+      "logits/rejected": -1.5437796115875244,
+      "logps/chosen": -519.0302734375,
+      "logps/rejected": -663.0972900390625,
+      "loss": 0.4474,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.57169771194458,
+      "rewards/margins": 1.3303985595703125,
+      "rewards/rejected": -3.9020965099334717,
       "step": 160
     },
     {
+      "epoch": 0.34830793587967546,
+      "grad_norm": 15.784620667841397,
       "learning_rate": 4.121862894301754e-07,
+      "logits/chosen": -1.5655263662338257,
+      "logits/rejected": -1.5315742492675781,
+      "logps/chosen": -580.234375,
+      "logps/rejected": -725.3365478515625,
+      "loss": 0.4634,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.9336700439453125,
+      "rewards/margins": 1.4053281545639038,
+      "rewards/rejected": -4.338997840881348,
       "step": 165
     },
     {
+      "epoch": 0.35886272181542317,
+      "grad_norm": 18.950750373982537,
       "learning_rate": 4.050454502616667e-07,
+      "logits/chosen": -1.7045695781707764,
+      "logits/rejected": -1.6517536640167236,
+      "logps/chosen": -554.7913208007812,
+      "logps/rejected": -716.6380615234375,
+      "loss": 0.4487,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.823065757751465,
+      "rewards/margins": 1.4535109996795654,
+      "rewards/rejected": -4.276576519012451,
       "step": 170
     },
     {
+      "epoch": 0.36941750775117094,
+      "grad_norm": 17.91495880964947,
       "learning_rate": 3.976928376579047e-07,
+      "logits/chosen": -1.6950843334197998,
+      "logits/rejected": -1.582262396812439,
+      "logps/chosen": -520.1227416992188,
+      "logps/rejected": -664.7024536132812,
+      "loss": 0.445,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.5456645488739014,
+      "rewards/margins": 1.2352759838104248,
+      "rewards/rejected": -3.780940532684326,
       "step": 175
     },
     {
+      "epoch": 0.37997229368691865,
+      "grad_norm": 15.17521580280272,
       "learning_rate": 3.9013849440328945e-07,
+      "logits/chosen": -1.6940500736236572,
+      "logits/rejected": -1.5467922687530518,
+      "logps/chosen": -520.3582763671875,
+      "logps/rejected": -680.7635498046875,
+      "loss": 0.4665,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.551764726638794,
+      "rewards/margins": 1.372143268585205,
+      "rewards/rejected": -3.92390775680542,
       "step": 180
     },
     {
+      "epoch": 0.3905270796226664,
+      "grad_norm": 14.308326454629483,
       "learning_rate": 3.8239273882202473e-07,
+      "logits/chosen": -1.6619869470596313,
+      "logits/rejected": -1.5419933795928955,
+      "logps/chosen": -506.9136657714844,
+      "logps/rejected": -639.9857177734375,
+      "loss": 0.4574,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.3956522941589355,
+      "rewards/margins": 1.23929762840271,
+      "rewards/rejected": -3.6349494457244873,
       "step": 185
     },
     {
+      "epoch": 0.40108186555841413,
+      "grad_norm": 15.767200038387838,
       "learning_rate": 3.7446615068452804e-07,
+      "logits/chosen": -1.6123485565185547,
+      "logits/rejected": -1.4534804821014404,
+      "logps/chosen": -510.5772399902344,
+      "logps/rejected": -681.8480224609375,
+      "loss": 0.4326,
       "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.398505687713623,
+      "rewards/margins": 1.5248647928237915,
+      "rewards/rejected": -3.923370838165283,
       "step": 190
     },
     {
+      "epoch": 0.4116366514941619,
+      "grad_norm": 16.282324670439472,
       "learning_rate": 3.6636955675673743e-07,
+      "logits/chosen": -1.6264712810516357,
+      "logits/rejected": -1.4750279188156128,
+      "logps/chosen": -514.038330078125,
+      "logps/rejected": -647.3781127929688,
+      "loss": 0.4404,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.37794828414917,
+      "rewards/margins": 1.2105674743652344,
+      "rewards/rejected": -3.5885162353515625,
       "step": 195
     },
     {
+      "epoch": 0.4221914374299096,
+      "grad_norm": 21.312257244757074,
       "learning_rate": 3.5811401601205093e-07,
+      "logits/chosen": -1.5191190242767334,
+      "logits/rejected": -1.5369209051132202,
+      "logps/chosen": -559.904052734375,
+      "logps/rejected": -721.0767211914062,
+      "loss": 0.4493,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.823049545288086,
+      "rewards/margins": 1.5707520246505737,
+      "rewards/rejected": -4.393801689147949,
       "step": 200
     },
     {
+      "epoch": 0.4327462233656574,
+      "grad_norm": 18.951174802021,
       "learning_rate": 3.497108045260995e-07,
+      "logits/chosen": -1.6123138666152954,
+      "logits/rejected": -1.5209693908691406,
+      "logps/chosen": -508.78436279296875,
+      "logps/rejected": -680.7193603515625,
+      "loss": 0.4287,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.3978936672210693,
+      "rewards/margins": 1.566540002822876,
+      "rewards/rejected": -3.9644336700439453,
       "step": 205
     },
     {
+      "epoch": 0.4433010093014051,
+      "grad_norm": 28.219925216993275,
       "learning_rate": 3.411714000749838e-07,
+      "logits/chosen": -1.661116361618042,
+      "logits/rejected": -1.5592620372772217,
+      "logps/chosen": -547.822998046875,
+      "logps/rejected": -737.5689697265625,
+      "loss": 0.4248,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.826833724975586,
+      "rewards/margins": 1.727709412574768,
+      "rewards/rejected": -4.5545430183410645,
       "step": 210
     },
     {
+      "epoch": 0.45385579523715286,
+      "grad_norm": 27.445717175281757,
       "learning_rate": 3.3250746645801287e-07,
+      "logits/chosen": -1.6852436065673828,
+      "logits/rejected": -1.6252915859222412,
+      "logps/chosen": -603.220947265625,
+      "logps/rejected": -795.3065185546875,
+      "loss": 0.4409,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.4767067432403564,
+      "rewards/margins": 1.7523845434188843,
+      "rewards/rejected": -5.229090690612793,
       "step": 215
     },
     {
+      "epoch": 0.46441058117290057,
+      "grad_norm": 16.007752631407985,
       "learning_rate": 3.237308375663571e-07,
+      "logits/chosen": -1.762291669845581,
+      "logits/rejected": -1.5295162200927734,
+      "logps/chosen": -531.2833862304688,
+      "logps/rejected": -725.7946166992188,
+      "loss": 0.3819,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -2.7329602241516113,
+      "rewards/margins": 1.7636291980743408,
+      "rewards/rejected": -4.496589660644531,
       "step": 220
     },
     {
+      "epoch": 0.47496536710864834,
+      "grad_norm": 18.506003391111292,
       "learning_rate": 3.148535012193767e-07,
+      "logits/chosen": -1.754020094871521,
+      "logits/rejected": -1.6287786960601807,
+      "logps/chosen": -556.3197631835938,
+      "logps/rejected": -728.1083984375,
+      "loss": 0.3855,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.739107370376587,
+      "rewards/margins": 1.6264499425888062,
+      "rewards/rejected": -4.3655571937561035,
       "step": 225
     },
     {
+      "epoch": 0.48552015304439605,
+      "grad_norm": 20.68896480009483,
       "learning_rate": 3.0588758279070183e-07,
+      "logits/chosen": -1.6177418231964111,
+      "logits/rejected": -1.5763094425201416,
+      "logps/chosen": -562.428955078125,
+      "logps/rejected": -753.3512573242188,
+      "loss": 0.4092,
       "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.9177470207214355,
+      "rewards/margins": 1.7720897197723389,
+      "rewards/rejected": -4.6898369789123535,
       "step": 230
     },
     {
+      "epoch": 0.4960749389801438,
+      "grad_norm": 16.381736251716195,
       "learning_rate": 2.968453286464312e-07,
+      "logits/chosen": -1.4933600425720215,
+      "logits/rejected": -1.5784003734588623,
+      "logps/chosen": -504.9471740722656,
+      "logps/rejected": -648.5574951171875,
+      "loss": 0.4179,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.378976345062256,
+      "rewards/margins": 1.3860208988189697,
+      "rewards/rejected": -3.7649970054626465,
       "step": 235
     },
     {
+      "epoch": 0.5066297249158915,
+      "grad_norm": 22.296205809275865,
       "learning_rate": 2.8773908941806877e-07,
+      "logits/chosen": -1.6254231929779053,
+      "logits/rejected": -1.621469259262085,
+      "logps/chosen": -599.214599609375,
+      "logps/rejected": -809.9522705078125,
+      "loss": 0.39,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -3.3130722045898438,
+      "rewards/margins": 1.939295768737793,
+      "rewards/rejected": -5.2523674964904785,
       "step": 240
     },
     {
+      "epoch": 0.5171845108516393,
+      "grad_norm": 17.974418608052964,
       "learning_rate": 2.785813031330473e-07,
+      "logits/chosen": -1.6836649179458618,
+      "logits/rejected": -1.6946824789047241,
+      "logps/chosen": -636.5640869140625,
+      "logps/rejected": -862.1500244140625,
+      "loss": 0.407,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.709088087081909,
+      "rewards/margins": 2.079369068145752,
+      "rewards/rejected": -5.788456916809082,
       "step": 245
     },
     {
+      "epoch": 0.5277392967873871,
+      "grad_norm": 21.869860477038394,
       "learning_rate": 2.693844782258779e-07,
+      "logits/chosen": -1.597246766090393,
+      "logits/rejected": -1.4808999300003052,
+      "logps/chosen": -554.4249877929688,
+      "logps/rejected": -735.31103515625,
+      "loss": 0.377,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.8226776123046875,
+      "rewards/margins": 1.673805832862854,
+      "rewards/rejected": -4.49648380279541,
       "step": 250
     },
     {
+      "epoch": 0.5382940827231347,
+      "grad_norm": 35.342954704070486,
       "learning_rate": 2.601611764531342e-07,
+      "logits/chosen": -1.599726676940918,
+      "logits/rejected": -1.5378262996673584,
+      "logps/chosen": -625.1596069335938,
+      "logps/rejected": -838.8173828125,
+      "loss": 0.3907,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -3.5563435554504395,
+      "rewards/margins": 1.9609460830688477,
+      "rewards/rejected": -5.517289638519287,
       "step": 255
     },
     {
+      "epoch": 0.5488488686588825,
+      "grad_norm": 17.9297074159325,
       "learning_rate": 2.5092399573560323e-07,
+      "logits/chosen": -1.6411758661270142,
+      "logits/rejected": -1.6522302627563477,
+      "logps/chosen": -658.8689575195312,
+      "logps/rejected": -871.1637573242188,
+      "loss": 0.4168,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.866881847381592,
+      "rewards/margins": 2.113030195236206,
+      "rewards/rejected": -5.979912757873535,
       "step": 260
     },
     {
+      "epoch": 0.5594036545946303,
+      "grad_norm": 16.443040045807887,
       "learning_rate": 2.4168555295104124e-07,
+      "logits/chosen": -1.5852059125900269,
+      "logits/rejected": -1.5837304592132568,
+      "logps/chosen": -594.8711547851562,
+      "logps/rejected": -801.4606323242188,
+      "loss": 0.4093,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.3196072578430176,
+      "rewards/margins": 1.8402855396270752,
+      "rewards/rejected": -5.159893035888672,
       "step": 265
     },
     {
+      "epoch": 0.569958440530378,
+      "grad_norm": 15.035798283991243,
       "learning_rate": 2.3245846670103626e-07,
+      "logits/chosen": -1.5612332820892334,
+      "logits/rejected": -1.5125606060028076,
+      "logps/chosen": -579.2890014648438,
+      "logps/rejected": -773.1954956054688,
+      "loss": 0.3769,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.0682718753814697,
+      "rewards/margins": 1.7783126831054688,
+      "rewards/rejected": -4.846584320068359,
       "step": 270
     },
     {
+      "epoch": 0.5805132264661257,
+      "grad_norm": 20.761167206822886,
       "learning_rate": 2.232553400755159e-07,
+      "logits/chosen": -1.6236953735351562,
+      "logits/rejected": -1.5238358974456787,
+      "logps/chosen": -613.8088989257812,
+      "logps/rejected": -867.7283325195312,
+      "loss": 0.3697,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.327275037765503,
+      "rewards/margins": 2.372307538986206,
+      "rewards/rejected": -5.699582576751709,
       "step": 275
     },
     {
+      "epoch": 0.5910680124018735,
+      "grad_norm": 20.416122820074975,
       "learning_rate": 2.1408874343844294e-07,
+      "logits/chosen": -1.6903560161590576,
+      "logits/rejected": -1.5515328645706177,
+      "logps/chosen": -648.6663818359375,
+      "logps/rejected": -949.74609375,
+      "loss": 0.3701,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.67596435546875,
+      "rewards/margins": 2.625474214553833,
+      "rewards/rejected": -6.301438808441162,
       "step": 280
     },
     {
+      "epoch": 0.6016227983376212,
+      "grad_norm": 20.954462877817495,
       "learning_rate": 2.049711972582101e-07,
+      "logits/chosen": -1.7400896549224854,
+      "logits/rejected": -1.6318342685699463,
+      "logps/chosen": -647.7393798828125,
+      "logps/rejected": -899.9304809570312,
+      "loss": 0.3719,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.6654484272003174,
+      "rewards/margins": 2.371953010559082,
+      "rewards/rejected": -6.03740119934082,
       "step": 285
     },
     {
+      "epoch": 0.612177584273369,
+      "grad_norm": 17.14928736018049,
       "learning_rate": 1.9591515500618588e-07,
+      "logits/chosen": -1.6016016006469727,
+      "logits/rejected": -1.5183677673339844,
+      "logps/chosen": -670.8876342773438,
+      "logps/rejected": -865.2810668945312,
+      "loss": 0.4464,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -3.901280641555786,
+      "rewards/margins": 1.737006425857544,
+      "rewards/rejected": -5.638287544250488,
       "step": 290
     },
     {
+      "epoch": 0.6227323702091166,
+      "grad_norm": 15.631817925073218,
       "learning_rate": 1.8693298614677112e-07,
+      "logits/chosen": -1.4730761051177979,
+      "logits/rejected": -1.3837854862213135,
+      "logps/chosen": -539.0037231445312,
+      "logps/rejected": -730.4061279296875,
+      "loss": 0.3841,
       "rewards/accuracies": 0.875,
+      "rewards/chosen": -2.58305025100708,
+      "rewards/margins": 1.7921463251113892,
+      "rewards/rejected": -4.37519645690918,
       "step": 295
     },
     {
+      "epoch": 0.6332871561448644,
+      "grad_norm": 17.780553626895177,
       "learning_rate": 1.7803695924219814e-07,
+      "logits/chosen": -1.4669979810714722,
+      "logits/rejected": -1.4254872798919678,
+      "logps/chosen": -584.629150390625,
+      "logps/rejected": -784.3005981445312,
+      "loss": 0.4051,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -3.1204633712768555,
+      "rewards/margins": 1.9275195598602295,
+      "rewards/rejected": -5.047983169555664,
       "step": 300
     },
     {
+      "epoch": 0.6438419420806122,
+      "grad_norm": 19.866976638480853,
       "learning_rate": 1.6923922519515067e-07,
+      "logits/chosen": -1.4443576335906982,
+      "logits/rejected": -1.4355580806732178,
+      "logps/chosen": -523.0612182617188,
+      "logps/rejected": -729.1703491210938,
+      "loss": 0.4069,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.749462842941284,
+      "rewards/margins": 1.8047136068344116,
+      "rewards/rejected": -4.554176330566406,
       "step": 305
     },
     {
+      "epoch": 0.65439672801636,
+      "grad_norm": 19.42045257459303,
       "learning_rate": 1.605518006520924e-07,
+      "logits/chosen": -1.4894784688949585,
+      "logits/rejected": -1.4559067487716675,
+      "logps/chosen": -589.7485961914062,
+      "logps/rejected": -808.5824584960938,
+      "loss": 0.3816,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -3.1640734672546387,
+      "rewards/margins": 2.0186519622802734,
+      "rewards/rejected": -5.182725429534912,
       "step": 310
     },
     {
+      "epoch": 0.6649515139521076,
+      "grad_norm": 34.470860837004935,
       "learning_rate": 1.519865515899731e-07,
+      "logits/chosen": -1.5242574214935303,
+      "logits/rejected": -1.3928359746932983,
+      "logps/chosen": -588.0692138671875,
+      "logps/rejected": -841.7396240234375,
+      "loss": 0.3858,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.3201167583465576,
+      "rewards/margins": 2.1101181507110596,
+      "rewards/rejected": -5.430234432220459,
       "step": 315
     },
     {
+      "epoch": 0.6755062998878554,
+      "grad_norm": 30.007742834102533,
       "learning_rate": 1.4355517710873182e-07,
+      "logits/chosen": -1.546661615371704,
+      "logits/rejected": -1.4665791988372803,
+      "logps/chosen": -627.7368774414062,
+      "logps/rejected": -869.39453125,
+      "loss": 0.3914,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.6285042762756348,
+      "rewards/margins": 2.2051749229431152,
+      "rewards/rejected": -5.83367919921875,
       "step": 320
     },
     {
+      "epoch": 0.6860610858236031,
+      "grad_norm": 34.25630759725382,
       "learning_rate": 1.3526919345173318e-07,
+      "logits/chosen": -1.5128138065338135,
+      "logits/rejected": -1.4411523342132568,
+      "logps/chosen": -602.6571044921875,
+      "logps/rejected": -849.2667846679688,
+      "loss": 0.4211,
       "rewards/accuracies": 0.84375,
+      "rewards/chosen": -3.323326826095581,
+      "rewards/margins": 2.333648681640625,
+      "rewards/rejected": -5.656975269317627,
       "step": 325
     },
     {
+      "epoch": 0.6966158717593509,
+      "grad_norm": 28.233731363069086,
       "learning_rate": 1.2713991827596443e-07,
+      "logits/chosen": -1.495444655418396,
+      "logits/rejected": -1.4902544021606445,
+      "logps/chosen": -605.8360595703125,
+      "logps/rejected": -796.5411376953125,
+      "loss": 0.3791,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.165205478668213,
+      "rewards/margins": 1.914367914199829,
+      "rewards/rejected": -5.079573631286621,
       "step": 330
     },
     {
+      "epoch": 0.7071706576950986,
+      "grad_norm": 28.532009996830972,
       "learning_rate": 1.191784551934773e-07,
+      "logits/chosen": -1.5311321020126343,
+      "logits/rejected": -1.444746971130371,
+      "logps/chosen": -515.9117431640625,
+      "logps/rejected": -714.9118041992188,
+      "loss": 0.3985,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.741084575653076,
+      "rewards/margins": 1.8353731632232666,
+      "rewards/rejected": -4.5764570236206055,
       "step": 335
     },
     {
+      "epoch": 0.7177254436308463,
+      "grad_norm": 34.722496076575624,
       "learning_rate": 1.1139567860518953e-07,
+      "logits/chosen": -1.3724250793457031,
+      "logits/rejected": -1.3445093631744385,
+      "logps/chosen": -516.8666381835938,
+      "logps/rejected": -690.0352172851562,
+      "loss": 0.4182,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.5948445796966553,
+      "rewards/margins": 1.631908655166626,
+      "rewards/rejected": -4.226753234863281,
       "step": 340
     },
     {
+      "epoch": 0.7282802295665941,
+      "grad_norm": 29.539595863207374,
       "learning_rate": 1.0380221884776128e-07,
+      "logits/chosen": -1.4173920154571533,
+      "logits/rejected": -1.3776549100875854,
+      "logps/chosen": -542.7964477539062,
+      "logps/rejected": -722.7305297851562,
+      "loss": 0.4204,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.7417469024658203,
+      "rewards/margins": 1.6534277200698853,
+      "rewards/rejected": -4.395174980163574,
       "step": 345
     },
     {
+      "epoch": 0.7388350155023419,
+      "grad_norm": 17.47998143760053,
       "learning_rate": 9.640844767383405e-08,
+      "logits/chosen": -1.3427600860595703,
+      "logits/rejected": -1.2479599714279175,
+      "logps/chosen": -540.9366455078125,
+      "logps/rejected": -741.2656860351562,
+      "loss": 0.4206,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.7238881587982178,
+      "rewards/margins": 1.8479011058807373,
+      "rewards/rejected": -4.571789741516113,
       "step": 350
     },
     {
+      "epoch": 0.7493898014380895,
+      "grad_norm": 22.53665974937468,
       "learning_rate": 8.922446408546378e-08,
+      "logits/chosen": -1.3614610433578491,
+      "logits/rejected": -1.3304545879364014,
+      "logps/chosen": -564.0736694335938,
+      "logps/rejected": -796.0197143554688,
+      "loss": 0.4234,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.8989734649658203,
+      "rewards/margins": 2.1152186393737793,
+      "rewards/rejected": -5.0141921043396,
       "step": 355
     },
     {
+      "epoch": 0.7599445873738373,
+      "grad_norm": 34.016623930856696,
       "learning_rate": 8.22600805400994e-08,
+      "logits/chosen": -1.4026951789855957,
+      "logits/rejected": -1.3086416721343994,
+      "logps/chosen": -557.1563720703125,
+      "logps/rejected": -775.2821044921875,
+      "loss": 0.3918,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.755949020385742,
+      "rewards/margins": 1.9373924732208252,
+      "rewards/rejected": -4.6933417320251465,
       "step": 360
     },
     {
+      "epoch": 0.7704993733095851,
+      "grad_norm": 19.583973928513963,
       "learning_rate": 7.552480954794558e-08,
+      "logits/chosen": -1.4313266277313232,
+      "logits/rejected": -1.3103513717651367,
+      "logps/chosen": -564.1690673828125,
+      "logps/rejected": -756.8692626953125,
+      "loss": 0.4048,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.88138484954834,
+      "rewards/margins": 1.8533366918563843,
+      "rewards/rejected": -4.7347211837768555,
       "step": 365
     },
     {
+      "epoch": 0.7810541592453328,
+      "grad_norm": 18.206536925706505,
       "learning_rate": 6.902785067901854e-08,
+      "logits/chosen": -1.3645613193511963,
+      "logits/rejected": -1.3341350555419922,
+      "logps/chosen": -579.579833984375,
+      "logps/rejected": -779.4511108398438,
+      "loss": 0.3792,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.0597000122070312,
+      "rewards/margins": 1.8546708822250366,
+      "rewards/rejected": -4.914370536804199,
       "step": 370
     },
     {
+      "epoch": 0.7916089451810805,
+      "grad_norm": 25.99340540536939,
       "learning_rate": 6.277807799763973e-08,
+      "logits/chosen": -1.5334607362747192,
+      "logits/rejected": -1.4499049186706543,
+      "logps/chosen": -563.6980590820312,
+      "logps/rejected": -789.72119140625,
+      "loss": 0.3903,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -3.1820693016052246,
+      "rewards/margins": 1.9633289575576782,
+      "rewards/rejected": -5.145398139953613,
       "step": 375
     },
     {
+      "epoch": 0.8021637311168283,
+      "grad_norm": 27.363349380647865,
       "learning_rate": 5.678402794153145e-08,
+      "logits/chosen": -1.490678071975708,
+      "logits/rejected": -1.4118311405181885,
+      "logps/chosen": -635.3906860351562,
+      "logps/rejected": -841.986328125,
+      "loss": 0.3978,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -3.6473312377929688,
+      "rewards/margins": 1.8795642852783203,
+      "rewards/rejected": -5.526895523071289,
       "step": 380
     },
     {
+      "epoch": 0.812718517052576,
+      "grad_norm": 22.024184023637442,
       "learning_rate": 5.105388766206969e-08,
+      "logits/chosen": -1.6372134685516357,
+      "logits/rejected": -1.4456651210784912,
+      "logps/chosen": -670.1497802734375,
+      "logps/rejected": -900.1561279296875,
+      "loss": 0.4107,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -3.8800835609436035,
+      "rewards/margins": 2.1356186866760254,
+      "rewards/rejected": -6.015702724456787,
       "step": 385
     },
     {
+      "epoch": 0.8232733029883238,
+      "grad_norm": 18.957756630133876,
       "learning_rate": 4.5595483841620484e-08,
+      "logits/chosen": -1.4949450492858887,
+      "logits/rejected": -1.466933250427246,
+      "logps/chosen": -592.1412963867188,
+      "logps/rejected": -814.1785888671875,
+      "loss": 0.3793,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.3024775981903076,
+      "rewards/margins": 1.9800523519515991,
+      "rewards/rejected": -5.282530307769775,
       "step": 390
     },
     {
+      "epoch": 0.8338280889240715,
+      "grad_norm": 24.130033467348618,
       "learning_rate": 4.0416272003232526e-08,
+      "logits/chosen": -1.5286778211593628,
+      "logits/rejected": -1.4018694162368774,
+      "logps/chosen": -614.2500610351562,
+      "logps/rejected": -848.65673828125,
+      "loss": 0.4233,
       "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -3.3793911933898926,
+      "rewards/margins": 2.2501933574676514,
+      "rewards/rejected": -5.629584312438965,
       "step": 395
     },
     {
+      "epoch": 0.8443828748598192,
+      "grad_norm": 21.924780448040742,
       "learning_rate": 3.552332632729041e-08,
+      "logits/chosen": -1.3315622806549072,
+      "logits/rejected": -1.4189374446868896,
+      "logps/chosen": -591.8238525390625,
+      "logps/rejected": -745.0551147460938,
+      "loss": 0.4269,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.1886703968048096,
+      "rewards/margins": 1.4928715229034424,
+      "rewards/rejected": -4.68154239654541,
       "step": 400
     },
     {
+      "epoch": 0.8443828748598192,
+      "eval_logits/chosen": -1.3921160697937012,
+      "eval_logits/rejected": -1.360321283340454,
+      "eval_logps/chosen": -602.09814453125,
+      "eval_logps/rejected": -797.6878051757812,
+      "eval_loss": 0.38372838497161865,
+      "eval_rewards/accuracies": 0.8643724918365479,
+      "eval_rewards/chosen": -3.2510859966278076,
+      "eval_rewards/margins": 1.8691294193267822,
+      "eval_rewards/rejected": -5.120214939117432,
+      "eval_runtime": 313.5439,
+      "eval_samples_per_second": 6.302,
+      "eval_steps_per_second": 1.576,
       "step": 400
     },
     {
+      "epoch": 0.854937660795567,
+      "grad_norm": 19.316578134763,
       "learning_rate": 3.092332998903416e-08,
+      "logits/chosen": -1.4394410848617554,
+      "logits/rejected": -1.3752410411834717,
+      "logps/chosen": -601.6661987304688,
+      "logps/rejected": -783.7593994140625,
+      "loss": 0.3863,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.3254780769348145,
+      "rewards/margins": 1.7059745788574219,
+      "rewards/rejected": -5.031452655792236,
       "step": 405
     },
     {
+      "epoch": 0.8654924467313148,
+      "grad_norm": 28.757209433347523,
       "learning_rate": 2.6622566030146455e-08,
+      "logits/chosen": -1.4320390224456787,
+      "logits/rejected": -1.413570523262024,
+      "logps/chosen": -565.2530517578125,
+      "logps/rejected": -754.3922729492188,
+      "loss": 0.4213,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.987544298171997,
+      "rewards/margins": 1.7588831186294556,
+      "rewards/rejected": -4.7464280128479,
       "step": 410
     },
     {
+      "epoch": 0.8760472326670625,
+      "grad_norm": 18.43535305501894,
       "learning_rate": 2.26269087768734e-08,
+      "logits/chosen": -1.4583203792572021,
+      "logits/rejected": -1.3761074542999268,
+      "logps/chosen": -577.720703125,
+      "logps/rejected": -806.8515014648438,
+      "loss": 0.3829,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.2120673656463623,
+      "rewards/margins": 2.084867477416992,
+      "rewards/rejected": -5.296935081481934,
       "step": 415
     },
     {
+      "epoch": 0.8866020186028102,
+      "grad_norm": 20.96371705639774,
       "learning_rate": 1.894181581640106e-08,
+      "logits/chosen": -1.384445071220398,
+      "logits/rejected": -1.4241831302642822,
+      "logps/chosen": -569.5962524414062,
+      "logps/rejected": -749.0470581054688,
+      "loss": 0.3819,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -3.081413745880127,
+      "rewards/margins": 1.7126514911651611,
+      "rewards/rejected": -4.794064998626709,
       "step": 420
     },
     {
+      "epoch": 0.897156804538558,
+      "grad_norm": 26.21197116684321,
       "learning_rate": 1.5572320542448143e-08,
+      "logits/chosen": -1.3703296184539795,
+      "logits/rejected": -1.3327410221099854,
+      "logps/chosen": -617.3011474609375,
+      "logps/rejected": -836.2391357421875,
+      "loss": 0.3825,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -3.3691182136535645,
+      "rewards/margins": 2.073474407196045,
+      "rewards/rejected": -5.442592620849609,
       "step": 425
     },
     {
+      "epoch": 0.9077115904743057,
+      "grad_norm": 22.75331582162892,
       "learning_rate": 1.2523025280255729e-08,
+      "logits/chosen": -1.4123306274414062,
+      "logits/rejected": -1.4244548082351685,
+      "logps/chosen": -593.9744262695312,
+      "logps/rejected": -802.8662719726562,
+      "loss": 0.3422,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -3.253312349319458,
+      "rewards/margins": 1.9519180059432983,
+      "rewards/rejected": -5.205230712890625,
       "step": 430
     },
     {
+      "epoch": 0.9182663764100535,
+      "grad_norm": 17.924586145441417,
       "learning_rate": 9.798095000364214e-09,
+      "logits/chosen": -1.5641670227050781,
+      "logits/rejected": -1.4084519147872925,
+      "logps/chosen": -600.7659912109375,
+      "logps/rejected": -869.5779418945312,
+      "loss": 0.3553,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -3.2969956398010254,
+      "rewards/margins": 2.371945381164551,
+      "rewards/rejected": -5.668941020965576,
       "step": 435
     },
     {
+      "epoch": 0.9288211623458011,
+      "grad_norm": 25.268001512531786,
       "learning_rate": 7.401251629764876e-09,
+      "logits/chosen": -1.5503554344177246,
+      "logits/rejected": -1.3530725240707397,
+      "logps/chosen": -560.983154296875,
+      "logps/rejected": -772.5062255859375,
+      "loss": 0.4149,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.1528074741363525,
+      "rewards/margins": 1.8247524499893188,
+      "rewards/rejected": -4.977559566497803,
       "step": 440
     },
     {
+      "epoch": 0.9393759482815489,
+      "grad_norm": 18.848350951492684,
       "learning_rate": 5.335768968195098e-09,
+      "logits/chosen": -1.4744082689285278,
+      "logits/rejected": -1.370416283607483,
+      "logps/chosen": -589.2518920898438,
+      "logps/rejected": -806.16943359375,
+      "loss": 0.4069,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -3.1618690490722656,
+      "rewards/margins": 2.018306255340576,
+      "rewards/rejected": -5.180174827575684,
       "step": 445
     },
     {
+      "epoch": 0.9499307342172967,
+      "grad_norm": 14.44527353219914,
       "learning_rate": 3.604468216521883e-09,
+      "logits/chosen": -1.3630057573318481,
+      "logits/rejected": -1.2414896488189697,
+      "logps/chosen": -591.0068359375,
+      "logps/rejected": -788.7886352539062,
+      "loss": 0.371,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -3.234240770339966,
+      "rewards/margins": 1.8283990621566772,
+      "rewards/rejected": -5.0626397132873535,
       "step": 450
     },
     {
+      "epoch": 0.9604855201530444,
+      "grad_norm": 17.894278742200918,
       "learning_rate": 2.2097141233206884e-09,
+      "logits/chosen": -1.5407589673995972,
+      "logits/rejected": -1.4432313442230225,
+      "logps/chosen": -616.9603271484375,
+      "logps/rejected": -858.2979736328125,
+      "loss": 0.3764,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -3.5265698432922363,
+      "rewards/margins": 2.2084403038024902,
+      "rewards/rejected": -5.735010623931885,
       "step": 455
     },
     {
+      "epoch": 0.9710403060887921,
+      "grad_norm": 18.751457793725724,
       "learning_rate": 1.1534117549133472e-09,
+      "logits/chosen": -1.46907639503479,
+      "logits/rejected": -1.3426740169525146,
+      "logps/chosen": -629.7129516601562,
+      "logps/rejected": -850.1477661132812,
+      "loss": 0.3512,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -3.58038330078125,
+      "rewards/margins": 2.005390167236328,
+      "rewards/rejected": -5.585773468017578,
       "step": 460
     },
     {
+      "epoch": 0.9815950920245399,
+      "grad_norm": 29.39806840137654,
       "learning_rate": 4.3700389327672173e-10,
+      "logits/chosen": -1.469868779182434,
+      "logits/rejected": -1.3952000141143799,
+      "logps/chosen": -604.9054565429688,
+      "logps/rejected": -832.4953002929688,
+      "loss": 0.3768,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -3.387165069580078,
+      "rewards/margins": 2.0868310928344727,
+      "rewards/rejected": -5.473996162414551,
       "step": 465
     },
     {
+      "epoch": 0.9921498779602876,
+      "grad_norm": 22.359148428267968,
       "learning_rate": 6.146906537587982e-11,
+      "logits/chosen": -1.4432518482208252,
+      "logits/rejected": -1.4169013500213623,
+      "logps/chosen": -600.5186157226562,
+      "logps/rejected": -811.341796875,
+      "loss": 0.3939,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -3.3816261291503906,
+      "rewards/margins": 2.0300629138946533,
+      "rewards/rejected": -5.411688804626465,
       "step": 470
     },
     {
+      "epoch": 0.9984827495217362,
       "step": 473,
       "total_flos": 0.0,
+      "train_loss": 0.4645486564767285,
+      "train_runtime": 24049.7915,
+      "train_samples_per_second": 2.521,
+      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 5,
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1f5e554cceb99bd6f337e8a5aed371111e7e9f9e7e6a430c61cfbd978575d48
 size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d1448ab9c2dd3a69fc51142481a50485c35957226f08c9032026a3fb5687e76
 size 7544