Model save

Browse files

Files changed (7) hide show

README.md +62 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
emissions.csv +2 -0
runs/Sep28_21-39-26_gpu4-119-5/events.out.tfevents.1727523614.gpu4-119-5.12283.0 +2 -2
train_results.json +8 -0
trainer_state.json +2718 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/phi-2-sft-lora-ultrachat-merged
+model-index:
+- name: phi-2-kto-i0
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-kto-i0
+This model is a fine-tuned version of [DUAL-GPO/phi-2-sft-lora-ultrachat-merged](https://huggingface.co/DUAL-GPO/phi-2-sft-lora-ultrachat-merged) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65be6d18e888c900d7755837f1226dfe9579b05eda2b61f9cc57a7850c058f27
 size 335579632

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b481bae16a28ec9c1d5d85715b5a5373bcf2ceda3ead20d169ccf6d23ef0a42
 size 335579632

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.09940854217369519,
+    "train_runtime": 5146.4957,
+    "train_samples": 61135,
+    "train_samples_per_second": 11.879,
+    "train_steps_per_second": 0.371
+}

emissions.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2024-09-28T23:06:01,codecarbon,4ad68e38-f708-4965-8116-4cc9c3bca396,5146.503284215927,0.0029854159599475927,5.800862828755433e-07,42.5,519.923,188.74309015274048,0.0607566486707992,0.9262474175948083,0.2688400132142028,1.2558440794798107,Canada,CAN,quebec,,,Linux-5.15.0-84-generic-x86_64-with-glibc2.35,3.10.14,2.2.3,32,Intel(R) Xeon(R) W-3335 CPU @ 3.40GHz,4,4 x NVIDIA GeForce RTX 4090,-71.2,46.8,503.3149070739746,machine,N,1.0

runs/Sep28_21-39-26_gpu4-119-5/events.out.tfevents.1727523614.gpu4-119-5.12283.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ec31845e7575e7c44b4f47e9669c35c8ff5a7ed076194436c52f8a89cf8c258
-size 30238

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa5134d16c0b02dfad1fc80ca244c33555c4fb3dc31bec86ad9eb2901146c89e
+size 31226

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.09940854217369519,
+    "train_runtime": 5146.4957,
+    "train_samples": 61135,
+    "train_samples_per_second": 11.879,
+    "train_steps_per_second": 0.371
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2718 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9997382884061764,
+  "eval_steps": 500,
+  "global_step": 1910,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.617801047120419e-08,
+      "logits/chosen": 0.8436492085456848,
+      "logits/rejected": 1.1560968160629272,
+      "logps/chosen": -330.2955322265625,
+      "logps/rejected": -239.8994140625,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.617801047120419e-07,
+      "logits/chosen": 1.0090492963790894,
+      "logits/rejected": 1.0627849102020264,
+      "logps/chosen": -279.4153137207031,
+      "logps/rejected": -249.27322387695312,
+      "loss": 0.5,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -8.76396952662617e-05,
+      "rewards/margins": -9.456619591219351e-05,
+      "rewards/rejected": 6.926496553205652e-06,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.235602094240838e-07,
+      "logits/chosen": 1.0303412675857544,
+      "logits/rejected": 1.0532195568084717,
+      "logps/chosen": -321.72723388671875,
+      "logps/rejected": -270.56353759765625,
+      "loss": 0.5,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -6.834287341916934e-05,
+      "rewards/margins": -4.8897858505370095e-05,
+      "rewards/rejected": -1.9445011275820434e-05,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 7.853403141361258e-07,
+      "logits/chosen": 1.002454400062561,
+      "logits/rejected": 1.06557297706604,
+      "logps/chosen": -252.0704345703125,
+      "logps/rejected": -246.32705688476562,
+      "loss": 0.5,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": 1.5753510524518788e-05,
+      "rewards/margins": 5.4146301408763975e-05,
+      "rewards/rejected": -3.83927981602028e-05,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.0471204188481676e-06,
+      "logits/chosen": 1.0041682720184326,
+      "logits/rejected": 1.1504443883895874,
+      "logps/chosen": -235.38217163085938,
+      "logps/rejected": -230.2617645263672,
+      "loss": 0.5,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": 7.3400560722802766e-06,
+      "rewards/margins": 2.9947289021947654e-06,
+      "rewards/rejected": 4.3453355829115026e-06,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.3089005235602096e-06,
+      "logits/chosen": 0.9595837593078613,
+      "logits/rejected": 1.0130202770233154,
+      "logps/chosen": -294.26007080078125,
+      "logps/rejected": -249.2256317138672,
+      "loss": 0.5,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": 0.00017269175441469997,
+      "rewards/margins": 9.17307916097343e-05,
+      "rewards/rejected": 8.096096280496567e-05,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.5706806282722515e-06,
+      "logits/chosen": 0.9245076179504395,
+      "logits/rejected": 1.023485779762268,
+      "logps/chosen": -242.47689819335938,
+      "logps/rejected": -230.57373046875,
+      "loss": 0.5,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.0002746728132478893,
+      "rewards/margins": 0.00012865502503700554,
+      "rewards/rejected": 0.00014601778821088374,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.8324607329842933e-06,
+      "logits/chosen": 0.9357272386550903,
+      "logits/rejected": 1.0410839319229126,
+      "logps/chosen": -257.8460388183594,
+      "logps/rejected": -238.37973022460938,
+      "loss": 0.5,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": 0.00047300319420173764,
+      "rewards/margins": 0.00019578025967348367,
+      "rewards/rejected": 0.0002772229490801692,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.094240837696335e-06,
+      "logits/chosen": 1.0097007751464844,
+      "logits/rejected": 1.0268934965133667,
+      "logps/chosen": -263.69903564453125,
+      "logps/rejected": -256.5643615722656,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": 0.0005936628440394998,
+      "rewards/margins": 0.00022301140415947884,
+      "rewards/rejected": 0.0003706514835357666,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.356020942408377e-06,
+      "logits/chosen": 0.9857368469238281,
+      "logits/rejected": 1.050782561302185,
+      "logps/chosen": -252.1823272705078,
+      "logps/rejected": -253.6891326904297,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.000997263239696622,
+      "rewards/margins": 0.00041304732440039515,
+      "rewards/rejected": 0.0005842159152962267,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.617801047120419e-06,
+      "logits/chosen": 1.0416964292526245,
+      "logits/rejected": 1.0389362573623657,
+      "logps/chosen": -254.76235961914062,
+      "logps/rejected": -224.39559936523438,
+      "loss": 0.4998,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": 0.0013410584069788456,
+      "rewards/margins": 0.0005450797034427524,
+      "rewards/rejected": 0.0007959787035360932,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8795811518324613e-06,
+      "logits/chosen": 1.0654562711715698,
+      "logits/rejected": 1.1301515102386475,
+      "logps/chosen": -294.14031982421875,
+      "logps/rejected": -258.11077880859375,
+      "loss": 0.4998,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.001866974518634379,
+      "rewards/margins": 0.0006641600048169494,
+      "rewards/rejected": 0.0012028145138174295,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.141361256544503e-06,
+      "logits/chosen": 0.9807151556015015,
+      "logits/rejected": 1.125035285949707,
+      "logps/chosen": -303.8504943847656,
+      "logps/rejected": -249.7647705078125,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.002772308187559247,
+      "rewards/margins": 0.0014164599124342203,
+      "rewards/rejected": 0.001355848042294383,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.403141361256545e-06,
+      "logits/chosen": 1.096975564956665,
+      "logits/rejected": 1.1348248720169067,
+      "logps/chosen": -278.3834533691406,
+      "logps/rejected": -245.82968139648438,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.003960819449275732,
+      "rewards/margins": 0.0022526984103024006,
+      "rewards/rejected": 0.0017081208061426878,
+      "step": 130
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.6649214659685865e-06,
+      "logits/chosen": 1.0514932870864868,
+      "logits/rejected": 1.1338948011398315,
+      "logps/chosen": -275.76031494140625,
+      "logps/rejected": -258.5254821777344,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.004108738619834185,
+      "rewards/margins": 0.001808557310141623,
+      "rewards/rejected": 0.0023001814261078835,
+      "step": 140
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.926701570680629e-06,
+      "logits/chosen": 0.9971652030944824,
+      "logits/rejected": 1.0917918682098389,
+      "logps/chosen": -291.89044189453125,
+      "logps/rejected": -254.80679321289062,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.0049656108021736145,
+      "rewards/margins": 0.002658768789842725,
+      "rewards/rejected": 0.0023068420123308897,
+      "step": 150
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.18848167539267e-06,
+      "logits/chosen": 1.0320146083831787,
+      "logits/rejected": 1.053504228591919,
+      "logps/chosen": -285.04559326171875,
+      "logps/rejected": -244.1322784423828,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.005488889757543802,
+      "rewards/margins": 0.002789679216220975,
+      "rewards/rejected": 0.00269921007566154,
+      "step": 160
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.450261780104713e-06,
+      "logits/chosen": 1.0273762941360474,
+      "logits/rejected": 1.062558650970459,
+      "logps/chosen": -287.9652099609375,
+      "logps/rejected": -232.247314453125,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.007104066200554371,
+      "rewards/margins": 0.0033009883482009172,
+      "rewards/rejected": 0.0038030785508453846,
+      "step": 170
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.712041884816754e-06,
+      "logits/chosen": 1.0532909631729126,
+      "logits/rejected": 1.1673284769058228,
+      "logps/chosen": -274.5193786621094,
+      "logps/rejected": -238.21286010742188,
+      "loss": 0.499,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.00742004532366991,
+      "rewards/margins": 0.003918725997209549,
+      "rewards/rejected": 0.003501318860799074,
+      "step": 180
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.9738219895287965e-06,
+      "logits/chosen": 1.1504939794540405,
+      "logits/rejected": 1.1638376712799072,
+      "logps/chosen": -237.76797485351562,
+      "logps/rejected": -211.50613403320312,
+      "loss": 0.499,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": 0.007698298431932926,
+      "rewards/margins": 0.003723274450749159,
+      "rewards/rejected": 0.00397502351552248,
+      "step": 190
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.999661831436499e-06,
+      "logits/chosen": 1.0712188482284546,
+      "logits/rejected": 1.0771671533584595,
+      "logps/chosen": -288.3528747558594,
+      "logps/rejected": -265.5425109863281,
+      "loss": 0.4989,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.008598363026976585,
+      "rewards/margins": 0.005429488606750965,
+      "rewards/rejected": 0.003168874653056264,
+      "step": 200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.9984929711403395e-06,
+      "logits/chosen": 1.1236344575881958,
+      "logits/rejected": 1.2009334564208984,
+      "logps/chosen": -254.3011932373047,
+      "logps/rejected": -224.9448699951172,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.007906198501586914,
+      "rewards/margins": 0.005368872079998255,
+      "rewards/rejected": 0.0025373264215886593,
+      "step": 210
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.996489634487865e-06,
+      "logits/chosen": 1.0867538452148438,
+      "logits/rejected": 1.2004356384277344,
+      "logps/chosen": -258.08062744140625,
+      "logps/rejected": -240.8439483642578,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.007928581908345222,
+      "rewards/margins": 0.004648840986192226,
+      "rewards/rejected": 0.003279739525169134,
+      "step": 220
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9936524905772466e-06,
+      "logits/chosen": 1.0192543268203735,
+      "logits/rejected": 1.2005066871643066,
+      "logps/chosen": -274.07037353515625,
+      "logps/rejected": -256.2618713378906,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.006800153758376837,
+      "rewards/margins": 0.003369166050106287,
+      "rewards/rejected": 0.0034309872426092625,
+      "step": 230
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9899824869915e-06,
+      "logits/chosen": 1.111426830291748,
+      "logits/rejected": 1.1554086208343506,
+      "logps/chosen": -243.208984375,
+      "logps/rejected": -205.7252655029297,
+      "loss": 0.4984,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.007739508058875799,
+      "rewards/margins": 0.0072770556434988976,
+      "rewards/rejected": 0.0004624520370271057,
+      "step": 240
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.985480849482012e-06,
+      "logits/chosen": 1.1005799770355225,
+      "logits/rejected": 1.230799913406372,
+      "logps/chosen": -272.18597412109375,
+      "logps/rejected": -257.9790954589844,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.005292638670653105,
+      "rewards/margins": 0.0029095064383000135,
+      "rewards/rejected": 0.0023831322323530912,
+      "step": 250
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.980149081559142e-06,
+      "logits/chosen": 1.0777183771133423,
+      "logits/rejected": 1.155970573425293,
+      "logps/chosen": -294.93328857421875,
+      "logps/rejected": -261.9263610839844,
+      "loss": 0.4982,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.009707033634185791,
+      "rewards/margins": 0.008258306421339512,
+      "rewards/rejected": 0.00144872663076967,
+      "step": 260
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9739889639900655e-06,
+      "logits/chosen": 1.1088669300079346,
+      "logits/rejected": 1.1434690952301025,
+      "logps/chosen": -254.5012664794922,
+      "logps/rejected": -254.6510009765625,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.009705386124551296,
+      "rewards/margins": 0.009683574549853802,
+      "rewards/rejected": 2.181164381909184e-05,
+      "step": 270
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.967002554204009e-06,
+      "logits/chosen": 1.0548467636108398,
+      "logits/rejected": 1.1509649753570557,
+      "logps/chosen": -245.9481964111328,
+      "logps/rejected": -229.8827362060547,
+      "loss": 0.4985,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.009255246259272099,
+      "rewards/margins": 0.006528814323246479,
+      "rewards/rejected": 0.0027264312375336885,
+      "step": 280
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.959192185605089e-06,
+      "logits/chosen": 1.0842396020889282,
+      "logits/rejected": 1.1220932006835938,
+      "logps/chosen": -266.4988708496094,
+      "logps/rejected": -246.9526824951172,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.009208474308252335,
+      "rewards/margins": 0.007726150564849377,
+      "rewards/rejected": 0.0014823225792497396,
+      "step": 290
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.950560466792969e-06,
+      "logits/chosen": 1.1049131155014038,
+      "logits/rejected": 1.1441484689712524,
+      "logps/chosen": -275.13421630859375,
+      "logps/rejected": -246.1587677001953,
+      "loss": 0.4984,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.006010602228343487,
+      "rewards/margins": 0.00892153661698103,
+      "rewards/rejected": -0.0029109339229762554,
+      "step": 300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9411102806916185e-06,
+      "logits/chosen": 1.021583080291748,
+      "logits/rejected": 1.047163963317871,
+      "logps/chosen": -323.06097412109375,
+      "logps/rejected": -254.7588653564453,
+      "loss": 0.4977,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.008619217202067375,
+      "rewards/margins": 0.012051543220877647,
+      "rewards/rejected": -0.003432326018810272,
+      "step": 310
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.930844783586424e-06,
+      "logits/chosen": 1.024611473083496,
+      "logits/rejected": 1.0655776262283325,
+      "logps/chosen": -238.3491668701172,
+      "logps/rejected": -231.0393829345703,
+      "loss": 0.498,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.006629918701946735,
+      "rewards/margins": 0.010882768779993057,
+      "rewards/rejected": -0.004252850078046322,
+      "step": 320
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.919767404070033e-06,
+      "logits/chosen": 1.04720139503479,
+      "logits/rejected": 1.0630711317062378,
+      "logps/chosen": -261.62982177734375,
+      "logps/rejected": -247.97607421875,
+      "loss": 0.4981,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.0036115895491093397,
+      "rewards/margins": 0.009240304119884968,
+      "rewards/rejected": -0.005628715269267559,
+      "step": 330
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.907881841897216e-06,
+      "logits/chosen": 1.0087223052978516,
+      "logits/rejected": 1.059715986251831,
+      "logps/chosen": -314.62408447265625,
+      "logps/rejected": -248.10879516601562,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.003107100958004594,
+      "rewards/margins": 0.013965976424515247,
+      "rewards/rejected": -0.010858876630663872,
+      "step": 340
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.89519206674919e-06,
+      "logits/chosen": 0.9633463621139526,
+      "logits/rejected": 1.0100409984588623,
+      "logps/chosen": -241.84793090820312,
+      "logps/rejected": -252.7783203125,
+      "loss": 0.4976,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0028146414551883936,
+      "rewards/margins": 0.013054436072707176,
+      "rewards/rejected": -0.010239794850349426,
+      "step": 350
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.881702316907769e-06,
+      "logits/chosen": 0.9069837331771851,
+      "logits/rejected": 1.0270668268203735,
+      "logps/chosen": -210.9730987548828,
+      "logps/rejected": -243.6437225341797,
+      "loss": 0.4983,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": 0.0008282591588795185,
+      "rewards/margins": 0.010188087821006775,
+      "rewards/rejected": -0.009359828196465969,
+      "step": 360
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.86741709783982e-06,
+      "logits/chosen": 0.8630668520927429,
+      "logits/rejected": 0.9914480447769165,
+      "logps/chosen": -332.7330627441406,
+      "logps/rejected": -281.46807861328125,
+      "loss": 0.4977,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.0035103503614664078,
+      "rewards/margins": 0.01303508598357439,
+      "rewards/rejected": -0.009524735622107983,
+      "step": 370
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.852341180692471e-06,
+      "logits/chosen": 0.9135398864746094,
+      "logits/rejected": 0.9984884262084961,
+      "logps/chosen": -284.92620849609375,
+      "logps/rejected": -252.03970336914062,
+      "loss": 0.4976,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.0040648458525538445,
+      "rewards/margins": 0.0157476756721735,
+      "rewards/rejected": -0.011682827956974506,
+      "step": 380
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.836479600699579e-06,
+      "logits/chosen": 0.9406082034111023,
+      "logits/rejected": 0.9047748446464539,
+      "logps/chosen": -278.61248779296875,
+      "logps/rejected": -284.1888732910156,
+      "loss": 0.4972,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.006144961342215538,
+      "rewards/margins": 0.017049867659807205,
+      "rewards/rejected": -0.010904906317591667,
+      "step": 390
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.819837655500014e-06,
+      "logits/chosen": 0.8400663137435913,
+      "logits/rejected": 0.9222391843795776,
+      "logps/chosen": -230.8615264892578,
+      "logps/rejected": -221.2638397216797,
+      "loss": 0.4984,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0005404525436460972,
+      "rewards/margins": 0.011931750923395157,
+      "rewards/rejected": -0.011391298845410347,
+      "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.802420903368286e-06,
+      "logits/chosen": 0.8889272809028625,
+      "logits/rejected": 0.8912805318832397,
+      "logps/chosen": -268.0902099609375,
+      "logps/rejected": -250.4331512451172,
+      "loss": 0.4979,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.0009850022615864873,
+      "rewards/margins": 0.010063153691589832,
+      "rewards/rejected": -0.009078151546418667,
+      "step": 410
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.784235161358124e-06,
+      "logits/chosen": 0.8787338137626648,
+      "logits/rejected": 0.9284510612487793,
+      "logps/chosen": -288.6819152832031,
+      "logps/rejected": -265.958984375,
+      "loss": 0.4971,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.0032099136151373386,
+      "rewards/margins": 0.021029185503721237,
+      "rewards/rejected": -0.017819274216890335,
+      "step": 420
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.765286503359632e-06,
+      "logits/chosen": 0.8820232152938843,
+      "logits/rejected": 0.9475772976875305,
+      "logps/chosen": -270.6169738769531,
+      "logps/rejected": -259.78839111328125,
+      "loss": 0.4973,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.0021267482079565525,
+      "rewards/margins": 0.019616421312093735,
+      "rewards/rejected": -0.021743169054389,
+      "step": 430
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.745581258070654e-06,
+      "logits/chosen": 0.7767919301986694,
+      "logits/rejected": 0.87933349609375,
+      "logps/chosen": -254.14315795898438,
+      "logps/rejected": -252.87222290039062,
+      "loss": 0.498,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.0043312786146998405,
+      "rewards/margins": 0.013770043849945068,
+      "rewards/rejected": -0.018101321533322334,
+      "step": 440
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.725126006883047e-06,
+      "logits/chosen": 0.7937654256820679,
+      "logits/rejected": 0.8364180326461792,
+      "logps/chosen": -238.3746337890625,
+      "logps/rejected": -241.1796875,
+      "loss": 0.4977,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.00781493354588747,
+      "rewards/margins": 0.011845615692436695,
+      "rewards/rejected": -0.019660547375679016,
+      "step": 450
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.70392758168454e-06,
+      "logits/chosen": 0.7985974550247192,
+      "logits/rejected": 0.8068701028823853,
+      "logps/chosen": -345.21343994140625,
+      "logps/rejected": -304.43817138671875,
+      "loss": 0.4965,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.007276026997715235,
+      "rewards/margins": 0.02650422975420952,
+      "rewards/rejected": -0.033780258148908615,
+      "step": 460
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.68199306257695e-06,
+      "logits/chosen": 0.7760607004165649,
+      "logits/rejected": 0.773891806602478,
+      "logps/chosen": -327.35369873046875,
+      "logps/rejected": -314.1829528808594,
+      "loss": 0.4961,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.014054256491363049,
+      "rewards/margins": 0.03367748484015465,
+      "rewards/rejected": -0.04773174598813057,
+      "step": 470
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.659329775511478e-06,
+      "logits/chosen": 0.7017660140991211,
+      "logits/rejected": 0.7137667536735535,
+      "logps/chosen": -287.37652587890625,
+      "logps/rejected": -271.36358642578125,
+      "loss": 0.497,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.021392906084656715,
+      "rewards/margins": 0.025359559804201126,
+      "rewards/rejected": -0.04675246775150299,
+      "step": 480
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.635945289841902e-06,
+      "logits/chosen": 0.5314046144485474,
+      "logits/rejected": 0.5452633500099182,
+      "logps/chosen": -337.0295104980469,
+      "logps/rejected": -379.64593505859375,
+      "loss": 0.4958,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.05135764926671982,
+      "rewards/margins": 0.04310908168554306,
+      "rewards/rejected": -0.09446673840284348,
+      "step": 490
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.611847415796476e-06,
+      "logits/chosen": 0.29375532269477844,
+      "logits/rejected": 0.2797163724899292,
+      "logps/chosen": -427.3785095214844,
+      "logps/rejected": -405.41461181640625,
+      "loss": 0.4932,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.12762612104415894,
+      "rewards/margins": 0.03379129245877266,
+      "rewards/rejected": -0.16141743957996368,
+      "step": 500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.587044201869378e-06,
+      "logits/chosen": -0.2227209359407425,
+      "logits/rejected": -0.20223090052604675,
+      "logps/chosen": -787.1062622070312,
+      "logps/rejected": -1045.249267578125,
+      "loss": 0.4818,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.5222705602645874,
+      "rewards/margins": 0.26146870851516724,
+      "rewards/rejected": -0.7837392687797546,
+      "step": 510
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.561543932132574e-06,
+      "logits/chosen": -0.11980749666690826,
+      "logits/rejected": -0.12788312137126923,
+      "logps/chosen": -732.790283203125,
+      "logps/rejected": -833.4085693359375,
+      "loss": 0.4873,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.45401230454444885,
+      "rewards/margins": 0.1505609005689621,
+      "rewards/rejected": -0.6045731902122498,
+      "step": 520
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.535355123469009e-06,
+      "logits/chosen": -0.14909827709197998,
+      "logits/rejected": -0.18795037269592285,
+      "logps/chosen": -696.719482421875,
+      "logps/rejected": -1046.4390869140625,
+      "loss": 0.4836,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.42250218987464905,
+      "rewards/margins": 0.3782690167427063,
+      "rewards/rejected": -0.8007712364196777,
+      "step": 530
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.508486522728037e-06,
+      "logits/chosen": -0.18408063054084778,
+      "logits/rejected": -0.14851421117782593,
+      "logps/chosen": -893.5338134765625,
+      "logps/rejected": -1111.295654296875,
+      "loss": 0.4841,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.629914402961731,
+      "rewards/margins": 0.23182418942451477,
+      "rewards/rejected": -0.8617385625839233,
+      "step": 540
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.480947103804044e-06,
+      "logits/chosen": -0.20195765793323517,
+      "logits/rejected": -0.2249602973461151,
+      "logps/chosen": -970.3370971679688,
+      "logps/rejected": -1377.3724365234375,
+      "loss": 0.4747,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.7055306434631348,
+      "rewards/margins": 0.46008825302124023,
+      "rewards/rejected": -1.165618896484375,
+      "step": 550
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.452746064639239e-06,
+      "logits/chosen": -0.27148136496543884,
+      "logits/rejected": -0.24398574233055115,
+      "logps/chosen": -1213.016357421875,
+      "logps/rejected": -1345.276123046875,
+      "loss": 0.4846,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.8822624087333679,
+      "rewards/margins": 0.20509858429431915,
+      "rewards/rejected": -1.0873609781265259,
+      "step": 560
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.423892824151617e-06,
+      "logits/chosen": -0.32366353273391724,
+      "logits/rejected": -0.3419601321220398,
+      "logps/chosen": -1556.5191650390625,
+      "logps/rejected": -1787.370361328125,
+      "loss": 0.4843,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.2833073139190674,
+      "rewards/margins": 0.28631919622421265,
+      "rewards/rejected": -1.5696265697479248,
+      "step": 570
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.3943970190891164e-06,
+      "logits/chosen": -0.23246267437934875,
+      "logits/rejected": -0.25014322996139526,
+      "logps/chosen": -1218.4473876953125,
+      "logps/rejected": -1182.8861083984375,
+      "loss": 0.4809,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.9385588765144348,
+      "rewards/margins": 0.02590467967092991,
+      "rewards/rejected": -0.9644634127616882,
+      "step": 580
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.364268500811025e-06,
+      "logits/chosen": -0.17416557669639587,
+      "logits/rejected": -0.17902135848999023,
+      "logps/chosen": -985.0808715820312,
+      "logps/rejected": -1348.008056640625,
+      "loss": 0.4847,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.6908355951309204,
+      "rewards/margins": 0.41670989990234375,
+      "rewards/rejected": -1.1075454950332642,
+      "step": 590
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.333517331997704e-06,
+      "logits/chosen": -0.14922045171260834,
+      "logits/rejected": -0.19132760167121887,
+      "logps/chosen": -1128.3173828125,
+      "logps/rejected": -1489.837158203125,
+      "loss": 0.4745,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.8316856622695923,
+      "rewards/margins": 0.4227636754512787,
+      "rewards/rejected": -1.2544492483139038,
+      "step": 600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.302153783289737e-06,
+      "logits/chosen": -0.1274535059928894,
+      "logits/rejected": -0.17803938686847687,
+      "logps/chosen": -1048.890625,
+      "logps/rejected": -1506.1158447265625,
+      "loss": 0.4743,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.7957647442817688,
+      "rewards/margins": 0.4669608175754547,
+      "rewards/rejected": -1.2627254724502563,
+      "step": 610
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.270188329857613e-06,
+      "logits/chosen": -0.14815063774585724,
+      "logits/rejected": -0.15499570965766907,
+      "logps/chosen": -1084.8118896484375,
+      "logps/rejected": -1618.885009765625,
+      "loss": 0.4711,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.7856907844543457,
+      "rewards/margins": 0.5791957974433899,
+      "rewards/rejected": -1.3648868799209595,
+      "step": 620
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.237631647903115e-06,
+      "logits/chosen": -0.024261217564344406,
+      "logits/rejected": -0.038342759013175964,
+      "logps/chosen": -723.5900268554688,
+      "logps/rejected": -1155.1717529296875,
+      "loss": 0.4678,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.46949324011802673,
+      "rewards/margins": 0.45854002237319946,
+      "rewards/rejected": -0.9280332326889038,
+      "step": 630
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.204494611093548e-06,
+      "logits/chosen": -0.05518772080540657,
+      "logits/rejected": -0.100825235247612,
+      "logps/chosen": -1270.6005859375,
+      "logps/rejected": -1703.8551025390625,
+      "loss": 0.4819,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.9448369145393372,
+      "rewards/margins": 0.4941697120666504,
+      "rewards/rejected": -1.4390065670013428,
+      "step": 640
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.170788286930024e-06,
+      "logits/chosen": -0.06449203193187714,
+      "logits/rejected": -0.1527264416217804,
+      "logps/chosen": -1250.4991455078125,
+      "logps/rejected": -1752.0111083984375,
+      "loss": 0.4822,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.9863438606262207,
+      "rewards/margins": 0.5237391591072083,
+      "rewards/rejected": -1.5100830793380737,
+      "step": 650
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.136523933051005e-06,
+      "logits/chosen": -0.10980840772390366,
+      "logits/rejected": -0.13391873240470886,
+      "logps/chosen": -1053.7823486328125,
+      "logps/rejected": -1614.2884521484375,
+      "loss": 0.4762,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.8304306864738464,
+      "rewards/margins": 0.5787540078163147,
+      "rewards/rejected": -1.4091846942901611,
+      "step": 660
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.101712993472348e-06,
+      "logits/chosen": -0.10138118267059326,
+      "logits/rejected": -0.13220438361167908,
+      "logps/chosen": -1581.559326171875,
+      "logps/rejected": -1862.4993896484375,
+      "loss": 0.481,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -1.2885770797729492,
+      "rewards/margins": 0.32578420639038086,
+      "rewards/rejected": -1.6143611669540405,
+      "step": 670
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.066367094765091e-06,
+      "logits/chosen": -0.06212924048304558,
+      "logits/rejected": -0.09771373122930527,
+      "logps/chosen": -1470.7352294921875,
+      "logps/rejected": -1844.652587890625,
+      "loss": 0.4783,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -1.204660177230835,
+      "rewards/margins": 0.3980388641357422,
+      "rewards/rejected": -1.6026990413665771,
+      "step": 680
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.030498042172277e-06,
+      "logits/chosen": 0.01754361391067505,
+      "logits/rejected": -0.048445507884025574,
+      "logps/chosen": -979.1268310546875,
+      "logps/rejected": -1244.6566162109375,
+      "loss": 0.4726,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.7009618878364563,
+      "rewards/margins": 0.3003775477409363,
+      "rewards/rejected": -1.0013394355773926,
+      "step": 690
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.994117815666095e-06,
+      "logits/chosen": -0.04728760942816734,
+      "logits/rejected": -0.0919174998998642,
+      "logps/chosen": -1344.916015625,
+      "logps/rejected": -1900.5986328125,
+      "loss": 0.472,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -1.0581436157226562,
+      "rewards/margins": 0.5791832208633423,
+      "rewards/rejected": -1.6373268365859985,
+      "step": 700
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.957238565946672e-06,
+      "logits/chosen": 0.004687662236392498,
+      "logits/rejected": -0.06074858829379082,
+      "logps/chosen": -1193.521240234375,
+      "logps/rejected": -2065.345947265625,
+      "loss": 0.4653,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.8945425152778625,
+      "rewards/margins": 0.8969429731369019,
+      "rewards/rejected": -1.7914857864379883,
+      "step": 710
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.919872610383831e-06,
+      "logits/chosen": 0.07505255192518234,
+      "logits/rejected": -0.015723228454589844,
+      "logps/chosen": -1065.49365234375,
+      "logps/rejected": -1707.6328125,
+      "loss": 0.4739,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.7956100702285767,
+      "rewards/margins": 0.6891741752624512,
+      "rewards/rejected": -1.4847842454910278,
+      "step": 720
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.882032428903195e-06,
+      "logits/chosen": 0.02505052089691162,
+      "logits/rejected": -0.009700920432806015,
+      "logps/chosen": -1372.3634033203125,
+      "logps/rejected": -2129.860595703125,
+      "loss": 0.4656,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -1.0954824686050415,
+      "rewards/margins": 0.7768491506576538,
+      "rewards/rejected": -1.8723316192626953,
+      "step": 730
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.84373065981799e-06,
+      "logits/chosen": 0.1249980553984642,
+      "logits/rejected": 0.04747745767235756,
+      "logps/chosen": -956.18115234375,
+      "logps/rejected": -1541.792724609375,
+      "loss": 0.4693,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6708589792251587,
+      "rewards/margins": 0.6129963994026184,
+      "rewards/rejected": -1.2838553190231323,
+      "step": 740
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.8049800956079552e-06,
+      "logits/chosen": 0.23526708781719208,
+      "logits/rejected": 0.19636312127113342,
+      "logps/chosen": -1106.01513671875,
+      "logps/rejected": -1326.5162353515625,
+      "loss": 0.4752,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.8387149572372437,
+      "rewards/margins": 0.24964456260204315,
+      "rewards/rejected": -1.0883597135543823,
+      "step": 750
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.765793678646753e-06,
+      "logits/chosen": 0.19188269972801208,
+      "logits/rejected": 0.1782020926475525,
+      "logps/chosen": -802.7251586914062,
+      "logps/rejected": -1634.812255859375,
+      "loss": 0.4647,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.5356382727622986,
+      "rewards/margins": 0.8580523729324341,
+      "rewards/rejected": -1.3936904668807983,
+      "step": 760
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.726184496879323e-06,
+      "logits/chosen": 0.14159968495368958,
+      "logits/rejected": 0.08811040967702866,
+      "logps/chosen": -1127.4029541015625,
+      "logps/rejected": -1502.1641845703125,
+      "loss": 0.4756,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.8773125410079956,
+      "rewards/margins": 0.3974476158618927,
+      "rewards/rejected": -1.274760365486145,
+      "step": 770
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.686165779450619e-06,
+      "logits/chosen": 0.1939581334590912,
+      "logits/rejected": 0.1522776186466217,
+      "logps/chosen": -968.0919799804688,
+      "logps/rejected": -1507.5386962890625,
+      "loss": 0.4793,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.7149516344070435,
+      "rewards/margins": 0.5672934055328369,
+      "rewards/rejected": -1.2822450399398804,
+      "step": 780
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.645750892287178e-06,
+      "logits/chosen": 0.1306479275226593,
+      "logits/rejected": 0.05887848883867264,
+      "logps/chosen": -1289.082275390625,
+      "logps/rejected": -1864.7164306640625,
+      "loss": 0.4721,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.9888286590576172,
+      "rewards/margins": 0.6331573724746704,
+      "rewards/rejected": -1.6219860315322876,
+      "step": 790
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.604953333633009e-06,
+      "logits/chosen": 0.205116868019104,
+      "logits/rejected": 0.15303435921669006,
+      "logps/chosen": -848.7705078125,
+      "logps/rejected": -1336.090576171875,
+      "loss": 0.4708,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.5991231799125671,
+      "rewards/margins": 0.5247097015380859,
+      "rewards/rejected": -1.1238329410552979,
+      "step": 800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.56378672954129e-06,
+      "logits/chosen": 0.22229023277759552,
+      "logits/rejected": 0.17705193161964417,
+      "logps/chosen": -1094.6126708984375,
+      "logps/rejected": -1681.7445068359375,
+      "loss": 0.469,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.8267385363578796,
+      "rewards/margins": 0.6382580995559692,
+      "rewards/rejected": -1.4649966955184937,
+      "step": 810
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.5222648293233806e-06,
+      "logits/chosen": 0.1940724402666092,
+      "logits/rejected": 0.1474287211894989,
+      "logps/chosen": -1133.5128173828125,
+      "logps/rejected": -1901.333984375,
+      "loss": 0.4687,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.8616431951522827,
+      "rewards/margins": 0.8072026968002319,
+      "rewards/rejected": -1.6688458919525146,
+      "step": 820
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.4804015009566573e-06,
+      "logits/chosen": 0.14867620170116425,
+      "logits/rejected": 0.050886522978544235,
+      "logps/chosen": -1169.879638671875,
+      "logps/rejected": -2415.080078125,
+      "loss": 0.4639,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.9197257161140442,
+      "rewards/margins": 1.2611197233200073,
+      "rewards/rejected": -2.180845260620117,
+      "step": 830
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4382107264527244e-06,
+      "logits/chosen": 0.16670770943164825,
+      "logits/rejected": 0.11358609050512314,
+      "logps/chosen": -1215.7694091796875,
+      "logps/rejected": -1938.170654296875,
+      "loss": 0.4701,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.9481611251831055,
+      "rewards/margins": 0.7456313967704773,
+      "rewards/rejected": -1.6937923431396484,
+      "step": 840
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.3957065971875387e-06,
+      "logits/chosen": 0.24467554688453674,
+      "logits/rejected": 0.1815129816532135,
+      "logps/chosen": -1700.726806640625,
+      "logps/rejected": -2238.2724609375,
+      "loss": 0.4738,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -1.4334746599197388,
+      "rewards/margins": 0.5637392997741699,
+      "rewards/rejected": -1.9972139596939087,
+      "step": 850
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.352903309194999e-06,
+      "logits/chosen": 0.25681573152542114,
+      "logits/rejected": 0.22445912659168243,
+      "logps/chosen": -1175.2008056640625,
+      "logps/rejected": -1852.9886474609375,
+      "loss": 0.476,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.9056652784347534,
+      "rewards/margins": 0.6970826387405396,
+      "rewards/rejected": -1.6027476787567139,
+      "step": 860
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.309815158425591e-06,
+      "logits/chosen": 0.35658639669418335,
+      "logits/rejected": 0.23468701541423798,
+      "logps/chosen": -1126.1968994140625,
+      "logps/rejected": -1490.5289306640625,
+      "loss": 0.4765,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.8638699650764465,
+      "rewards/margins": 0.4017399847507477,
+      "rewards/rejected": -1.265609860420227,
+      "step": 870
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.266456535971654e-06,
+      "logits/chosen": 0.29603832960128784,
+      "logits/rejected": 0.2804957330226898,
+      "logps/chosen": -1391.908447265625,
+      "logps/rejected": -1630.26220703125,
+      "loss": 0.4842,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.103570580482483,
+      "rewards/margins": 0.2950761914253235,
+      "rewards/rejected": -1.3986468315124512,
+      "step": 880
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.2228419232608692e-06,
+      "logits/chosen": 0.25324004888534546,
+      "logits/rejected": 0.19424840807914734,
+      "logps/chosen": -1254.45947265625,
+      "logps/rejected": -1625.465087890625,
+      "loss": 0.483,
+      "rewards/accuracies": 0.4437499940395355,
+      "rewards/chosen": -1.0103174448013306,
+      "rewards/margins": 0.3879779279232025,
+      "rewards/rejected": -1.3982954025268555,
+      "step": 890
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.1789858872195888e-06,
+      "logits/chosen": 0.35612553358078003,
+      "logits/rejected": 0.2640685737133026,
+      "logps/chosen": -1018.1083984375,
+      "logps/rejected": -1447.966796875,
+      "loss": 0.4713,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.7736637592315674,
+      "rewards/margins": 0.4553070068359375,
+      "rewards/rejected": -1.2289707660675049,
+      "step": 900
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.1349030754075945e-06,
+      "logits/chosen": 0.32709187269210815,
+      "logits/rejected": 0.27523329854011536,
+      "logps/chosen": -996.7443237304688,
+      "logps/rejected": -1309.497802734375,
+      "loss": 0.4674,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.6882850527763367,
+      "rewards/margins": 0.3720100224018097,
+      "rewards/rejected": -1.0602951049804688,
+      "step": 910
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.0906082111259313e-06,
+      "logits/chosen": 0.28385213017463684,
+      "logits/rejected": 0.26248598098754883,
+      "logps/chosen": -1238.9512939453125,
+      "logps/rejected": -1446.0545654296875,
+      "loss": 0.4729,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.9621122479438782,
+      "rewards/margins": 0.24497418105602264,
+      "rewards/rejected": -1.207086443901062,
+      "step": 920
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.046116088499449e-06,
+      "logits/chosen": 0.20961081981658936,
+      "logits/rejected": 0.12288858741521835,
+      "logps/chosen": -1385.43359375,
+      "logps/rejected": -2388.202392578125,
+      "loss": 0.4591,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.1082097291946411,
+      "rewards/margins": 1.0280786752700806,
+      "rewards/rejected": -2.1362884044647217,
+      "step": 930
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.0014415675356813e-06,
+      "logits/chosen": 0.2143702507019043,
+      "logits/rejected": 0.12640917301177979,
+      "logps/chosen": -1842.924072265625,
+      "logps/rejected": -2572.03759765625,
+      "loss": 0.4703,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -1.5414974689483643,
+      "rewards/margins": 0.7958974838256836,
+      "rewards/rejected": -2.337394952774048,
+      "step": 940
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9565995691617242e-06,
+      "logits/chosen": 0.2267983853816986,
+      "logits/rejected": 0.19906947016716003,
+      "logps/chosen": -1659.0390625,
+      "logps/rejected": -1897.612548828125,
+      "loss": 0.4796,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -1.4338902235031128,
+      "rewards/margins": 0.23841390013694763,
+      "rewards/rejected": -1.672304391860962,
+      "step": 950
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9116050702407706e-06,
+      "logits/chosen": 0.2076607495546341,
+      "logits/rejected": 0.15953665971755981,
+      "logps/chosen": -1761.4957275390625,
+      "logps/rejected": -2119.157470703125,
+      "loss": 0.4733,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -1.521126627922058,
+      "rewards/margins": 0.37375563383102417,
+      "rewards/rejected": -1.8948824405670166,
+      "step": 960
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.8664730985699537e-06,
+      "logits/chosen": 0.2155609130859375,
+      "logits/rejected": 0.15363694727420807,
+      "logps/chosen": -1374.277587890625,
+      "logps/rejected": -2335.11962890625,
+      "loss": 0.4691,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -1.131838083267212,
+      "rewards/margins": 0.9804404973983765,
+      "rewards/rejected": -2.112278461456299,
+      "step": 970
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.8212187278611907e-06,
+      "logits/chosen": 0.3766547739505768,
+      "logits/rejected": 0.23996052145957947,
+      "logps/chosen": -978.6238403320312,
+      "logps/rejected": -1637.2352294921875,
+      "loss": 0.4666,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.6910273432731628,
+      "rewards/margins": 0.7083319425582886,
+      "rewards/rejected": -1.3993593454360962,
+      "step": 980
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7758570727066843e-06,
+      "logits/chosen": 0.3515971899032593,
+      "logits/rejected": 0.2718420922756195,
+      "logps/chosen": -945.19921875,
+      "logps/rejected": -1549.3182373046875,
+      "loss": 0.4667,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.6832455396652222,
+      "rewards/margins": 0.6422259211540222,
+      "rewards/rejected": -1.3254715204238892,
+      "step": 990
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.730403283530767e-06,
+      "logits/chosen": 0.3331068158149719,
+      "logits/rejected": 0.21990351378917694,
+      "logps/chosen": -957.8298950195312,
+      "logps/rejected": -1847.413330078125,
+      "loss": 0.4687,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.6945260167121887,
+      "rewards/margins": 0.9040031433105469,
+      "rewards/rejected": -1.5985292196273804,
+      "step": 1000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.6848725415297888e-06,
+      "logits/chosen": 0.24949748814105988,
+      "logits/rejected": 0.1596693992614746,
+      "logps/chosen": -1084.4876708984375,
+      "logps/rejected": -1898.144287109375,
+      "loss": 0.4618,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.8169393539428711,
+      "rewards/margins": 0.8545991778373718,
+      "rewards/rejected": -1.6715381145477295,
+      "step": 1010
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.639280053601719e-06,
+      "logits/chosen": 0.22901049256324768,
+      "logits/rejected": 0.1595744788646698,
+      "logps/chosen": -1491.752197265625,
+      "logps/rejected": -2144.299560546875,
+      "loss": 0.4707,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.2246992588043213,
+      "rewards/margins": 0.6539346575737,
+      "rewards/rejected": -1.8786340951919556,
+      "step": 1020
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.59364104726716e-06,
+      "logits/chosen": 0.31597059965133667,
+      "logits/rejected": 0.21497178077697754,
+      "logps/chosen": -1171.93212890625,
+      "logps/rejected": -1925.6861572265625,
+      "loss": 0.465,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.8903388977050781,
+      "rewards/margins": 0.8044350743293762,
+      "rewards/rejected": -1.6947739124298096,
+      "step": 1030
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.547970765583491e-06,
+      "logits/chosen": 0.35459914803504944,
+      "logits/rejected": 0.21209494769573212,
+      "logps/chosen": -1010.3555908203125,
+      "logps/rejected": -1694.515869140625,
+      "loss": 0.4642,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.7338335514068604,
+      "rewards/margins": 0.7184348106384277,
+      "rewards/rejected": -1.452268362045288,
+      "step": 1040
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.502284462053799e-06,
+      "logits/chosen": 0.2834840416908264,
+      "logits/rejected": 0.19832350313663483,
+      "logps/chosen": -1069.5567626953125,
+      "logps/rejected": -1713.046142578125,
+      "loss": 0.4653,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.781063437461853,
+      "rewards/margins": 0.6842104196548462,
+      "rewards/rejected": -1.4652738571166992,
+      "step": 1050
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.456597395532338e-06,
+      "logits/chosen": 0.23369982838630676,
+      "logits/rejected": 0.15703235566616058,
+      "logps/chosen": -1476.560546875,
+      "logps/rejected": -2163.74267578125,
+      "loss": 0.4708,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.1821922063827515,
+      "rewards/margins": 0.7186304330825806,
+      "rewards/rejected": -1.900822639465332,
+      "step": 1060
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.4109248251281953e-06,
+      "logits/chosen": 0.2690127491950989,
+      "logits/rejected": 0.1083533763885498,
+      "logps/chosen": -1436.783447265625,
+      "logps/rejected": -2573.591064453125,
+      "loss": 0.4639,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -1.1651248931884766,
+      "rewards/margins": 1.1516902446746826,
+      "rewards/rejected": -2.316815137863159,
+      "step": 1070
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.365282005108875e-06,
+      "logits/chosen": 0.2598133087158203,
+      "logits/rejected": 0.17415449023246765,
+      "logps/chosen": -1348.472412109375,
+      "logps/rejected": -1934.5325927734375,
+      "loss": 0.4721,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -1.0647830963134766,
+      "rewards/margins": 0.6361646056175232,
+      "rewards/rejected": -1.7009475231170654,
+      "step": 1080
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.319684179805491e-06,
+      "logits/chosen": 0.28293731808662415,
+      "logits/rejected": 0.16613037884235382,
+      "logps/chosen": -1299.3868408203125,
+      "logps/rejected": -2169.75830078125,
+      "loss": 0.4726,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -1.0253424644470215,
+      "rewards/margins": 0.8982712626457214,
+      "rewards/rejected": -1.9236137866973877,
+      "step": 1090
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2741465785212905e-06,
+      "logits/chosen": 0.3770299553871155,
+      "logits/rejected": 0.3206137418746948,
+      "logps/chosen": -845.8580322265625,
+      "logps/rejected": -1371.0318603515625,
+      "loss": 0.4754,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.573067843914032,
+      "rewards/margins": 0.5587201714515686,
+      "rewards/rejected": -1.1317881345748901,
+      "step": 1100
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2286844104451848e-06,
+      "logits/chosen": 0.29950836300849915,
+      "logits/rejected": 0.2572200298309326,
+      "logps/chosen": -1225.456298828125,
+      "logps/rejected": -1701.4114990234375,
+      "loss": 0.4717,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.9399654269218445,
+      "rewards/margins": 0.5411953926086426,
+      "rewards/rejected": -1.4811608791351318,
+      "step": 1110
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.183312859572008e-06,
+      "logits/chosen": 0.2056627720594406,
+      "logits/rejected": 0.13243384659290314,
+      "logps/chosen": -1311.5948486328125,
+      "logps/rejected": -2090.031494140625,
+      "loss": 0.473,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.03976309299469,
+      "rewards/margins": 0.8429223895072937,
+      "rewards/rejected": -1.8826854228973389,
+      "step": 1120
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1380470796311843e-06,
+      "logits/chosen": 0.26897698640823364,
+      "logits/rejected": 0.19322913885116577,
+      "logps/chosen": -1409.248779296875,
+      "logps/rejected": -1968.114013671875,
+      "loss": 0.4624,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.1417442560195923,
+      "rewards/margins": 0.591802716255188,
+      "rewards/rejected": -1.7335469722747803,
+      "step": 1130
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.092902189025507e-06,
+      "logits/chosen": 0.298466295003891,
+      "logits/rejected": 0.1567627638578415,
+      "logps/chosen": -1206.5018310546875,
+      "logps/rejected": -2206.86767578125,
+      "loss": 0.4604,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.9475823640823364,
+      "rewards/margins": 1.0231791734695435,
+      "rewards/rejected": -1.9707612991333008,
+      "step": 1140
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0478932657817105e-06,
+      "logits/chosen": 0.31211769580841064,
+      "logits/rejected": 0.1320025771856308,
+      "logps/chosen": -1475.707275390625,
+      "logps/rejected": -2485.997802734375,
+      "loss": 0.4686,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.1953158378601074,
+      "rewards/margins": 1.0596123933792114,
+      "rewards/rejected": -2.2549283504486084,
+      "step": 1150
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.0030353425145376e-06,
+      "logits/chosen": 0.29154402017593384,
+      "logits/rejected": 0.20484980940818787,
+      "logps/chosen": -1307.7490234375,
+      "logps/rejected": -1891.5804443359375,
+      "loss": 0.475,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -1.068193793296814,
+      "rewards/margins": 0.5871996879577637,
+      "rewards/rejected": -1.6553936004638672,
+      "step": 1160
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.958343401405964e-06,
+      "logits/chosen": 0.2675972282886505,
+      "logits/rejected": 0.20726804435253143,
+      "logps/chosen": -1136.7181396484375,
+      "logps/rejected": -1507.15234375,
+      "loss": 0.4705,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.8827505111694336,
+      "rewards/margins": 0.3945409953594208,
+      "rewards/rejected": -1.2772915363311768,
+      "step": 1170
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9138323692012734e-06,
+      "logits/chosen": 0.273415207862854,
+      "logits/rejected": 0.16786028444766998,
+      "logps/chosen": -1736.076416015625,
+      "logps/rejected": -2560.149169921875,
+      "loss": 0.4705,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -1.4262146949768066,
+      "rewards/margins": 0.8943548202514648,
+      "rewards/rejected": -2.3205695152282715,
+      "step": 1180
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.8695171122236443e-06,
+      "logits/chosen": 0.20894399285316467,
+      "logits/rejected": 0.10228965431451797,
+      "logps/chosen": -1324.954345703125,
+      "logps/rejected": -2638.982666015625,
+      "loss": 0.4668,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -1.0546363592147827,
+      "rewards/margins": 1.3503773212432861,
+      "rewards/rejected": -2.4050137996673584,
+      "step": 1190
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8254124314089225e-06,
+      "logits/chosen": 0.3430663049221039,
+      "logits/rejected": 0.2673262655735016,
+      "logps/chosen": -861.5838623046875,
+      "logps/rejected": -1974.1458740234375,
+      "loss": 0.4518,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.5944491624832153,
+      "rewards/margins": 1.1017727851867676,
+      "rewards/rejected": -1.696221947669983,
+      "step": 1200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.781533057362221e-06,
+      "logits/chosen": 0.3156498670578003,
+      "logits/rejected": 0.185347780585289,
+      "logps/chosen": -1168.6217041015625,
+      "logps/rejected": -1924.7115478515625,
+      "loss": 0.4583,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.8821272850036621,
+      "rewards/margins": 0.8161047101020813,
+      "rewards/rejected": -1.6982319355010986,
+      "step": 1210
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7378936454380277e-06,
+      "logits/chosen": 0.36333876848220825,
+      "logits/rejected": 0.26434630155563354,
+      "logps/chosen": -1027.678466796875,
+      "logps/rejected": -1634.684814453125,
+      "loss": 0.4654,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.7384849786758423,
+      "rewards/margins": 0.6454702615737915,
+      "rewards/rejected": -1.383955478668213,
+      "step": 1220
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.6945087708454273e-06,
+      "logits/chosen": 0.27189189195632935,
+      "logits/rejected": 0.18399885296821594,
+      "logps/chosen": -1334.14990234375,
+      "logps/rejected": -1880.106201171875,
+      "loss": 0.4767,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -1.090384840965271,
+      "rewards/margins": 0.5727940797805786,
+      "rewards/rejected": -1.66317880153656,
+      "step": 1230
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.651392923780105e-06,
+      "logits/chosen": 0.4100673794746399,
+      "logits/rejected": 0.2657643258571625,
+      "logps/chosen": -1111.376220703125,
+      "logps/rejected": -1941.037353515625,
+      "loss": 0.46,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -0.8117152452468872,
+      "rewards/margins": 0.8833802938461304,
+      "rewards/rejected": -1.695095419883728,
+      "step": 1240
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.608560504584737e-06,
+      "logits/chosen": 0.301455020904541,
+      "logits/rejected": 0.22863301634788513,
+      "logps/chosen": -1159.3509521484375,
+      "logps/rejected": -2089.1953125,
+      "loss": 0.4631,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.8735660314559937,
+      "rewards/margins": 0.9659594297409058,
+      "rewards/rejected": -1.839525580406189,
+      "step": 1250
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5660258189393945e-06,
+      "logits/chosen": 0.19146260619163513,
+      "logits/rejected": 0.14353962242603302,
+      "logps/chosen": -1484.316650390625,
+      "logps/rejected": -2343.659423828125,
+      "loss": 0.4687,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.2383463382720947,
+      "rewards/margins": 0.8734383583068848,
+      "rewards/rejected": -2.1117844581604004,
+      "step": 1260
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5238030730835578e-06,
+      "logits/chosen": 0.31026071310043335,
+      "logits/rejected": 0.19475135207176208,
+      "logps/chosen": -1738.6246337890625,
+      "logps/rejected": -2328.933349609375,
+      "loss": 0.4693,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -1.462491750717163,
+      "rewards/margins": 0.6261566281318665,
+      "rewards/rejected": -2.0886483192443848,
+      "step": 1270
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.4819063690713565e-06,
+      "logits/chosen": 0.26937440037727356,
+      "logits/rejected": 0.15669001638889313,
+      "logps/chosen": -1396.046630859375,
+      "logps/rejected": -2102.262939453125,
+      "loss": 0.4598,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.1547179222106934,
+      "rewards/margins": 0.7373046278953552,
+      "rewards/rejected": -1.892022728919983,
+      "step": 1280
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.4403497000615885e-06,
+      "logits/chosen": 0.3091123700141907,
+      "logits/rejected": 0.204463392496109,
+      "logps/chosen": -1624.702392578125,
+      "logps/rejected": -2571.47412109375,
+      "loss": 0.4654,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.3447537422180176,
+      "rewards/margins": 0.9728642702102661,
+      "rewards/rejected": -2.3176181316375732,
+      "step": 1290
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.3991469456441273e-06,
+      "logits/chosen": 0.31638103723526,
+      "logits/rejected": 0.23879094421863556,
+      "logps/chosen": -1413.901123046875,
+      "logps/rejected": -2330.88330078125,
+      "loss": 0.4546,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.1106030941009521,
+      "rewards/margins": 0.9651702642440796,
+      "rewards/rejected": -2.075773239135742,
+      "step": 1300
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3583118672042441e-06,
+      "logits/chosen": 0.274738609790802,
+      "logits/rejected": 0.18945345282554626,
+      "logps/chosen": -1652.8541259765625,
+      "logps/rejected": -2093.89990234375,
+      "loss": 0.4704,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -1.371697187423706,
+      "rewards/margins": 0.5045391917228699,
+      "rewards/rejected": -1.8762363195419312,
+      "step": 1310
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3178581033264218e-06,
+      "logits/chosen": 0.27669447660446167,
+      "logits/rejected": 0.16615034639835358,
+      "logps/chosen": -1164.213134765625,
+      "logps/rejected": -2034.477783203125,
+      "loss": 0.4566,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.9321501851081848,
+      "rewards/margins": 0.888770580291748,
+      "rewards/rejected": -1.820920705795288,
+      "step": 1320
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2777991652391757e-06,
+      "logits/chosen": 0.31228479743003845,
+      "logits/rejected": 0.21845977008342743,
+      "logps/chosen": -1202.439697265625,
+      "logps/rejected": -1930.3785400390625,
+      "loss": 0.4661,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.9665547609329224,
+      "rewards/margins": 0.7526635527610779,
+      "rewards/rejected": -1.7192184925079346,
+      "step": 1330
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2381484323024178e-06,
+      "logits/chosen": 0.35927221179008484,
+      "logits/rejected": 0.2287793606519699,
+      "logps/chosen": -1124.3046875,
+      "logps/rejected": -2056.501708984375,
+      "loss": 0.4623,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.8218294382095337,
+      "rewards/margins": 0.98065185546875,
+      "rewards/rejected": -1.8024810552597046,
+      "step": 1340
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1989191475388518e-06,
+      "logits/chosen": 0.3698425889015198,
+      "logits/rejected": 0.2954414486885071,
+      "logps/chosen": -1166.0611572265625,
+      "logps/rejected": -1549.630126953125,
+      "loss": 0.4695,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.8860333561897278,
+      "rewards/margins": 0.42343559861183167,
+      "rewards/rejected": -1.3094689846038818,
+      "step": 1350
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.160124413210918e-06,
+      "logits/chosen": 0.35506299138069153,
+      "logits/rejected": 0.2409767210483551,
+      "logps/chosen": -1092.040283203125,
+      "logps/rejected": -1912.9970703125,
+      "loss": 0.4582,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.802148163318634,
+      "rewards/margins": 0.8678997755050659,
+      "rewards/rejected": -1.6700481176376343,
+      "step": 1360
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.1217771864447396e-06,
+      "logits/chosen": 0.3243677616119385,
+      "logits/rejected": 0.17696735262870789,
+      "logps/chosen": -991.9781494140625,
+      "logps/rejected": -2300.01806640625,
+      "loss": 0.4563,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.6990408897399902,
+      "rewards/margins": 1.3517526388168335,
+      "rewards/rejected": -2.050793409347534,
+      "step": 1370
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.08389027490255e-06,
+      "logits/chosen": 0.27917546033859253,
+      "logits/rejected": 0.13479743897914886,
+      "logps/chosen": -1405.369384765625,
+      "logps/rejected": -2042.785888671875,
+      "loss": 0.4724,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -1.150667428970337,
+      "rewards/margins": 0.6895908713340759,
+      "rewards/rejected": -1.8402583599090576,
+      "step": 1380
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.046476332505036e-06,
+      "logits/chosen": 0.3343364894390106,
+      "logits/rejected": 0.23037847876548767,
+      "logps/chosen": -1098.7138671875,
+      "logps/rejected": -2268.34130859375,
+      "loss": 0.463,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.8331190347671509,
+      "rewards/margins": 1.2149721384048462,
+      "rewards/rejected": -2.048090934753418,
+      "step": 1390
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.0095478552050348e-06,
+      "logits/chosen": 0.26566246151924133,
+      "logits/rejected": 0.2032911777496338,
+      "logps/chosen": -956.0791015625,
+      "logps/rejected": -1707.116943359375,
+      "loss": 0.4575,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.7228320837020874,
+      "rewards/margins": 0.797810435295105,
+      "rewards/rejected": -1.5206425189971924,
+      "step": 1400
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.731171768139808e-07,
+      "logits/chosen": 0.3556608557701111,
+      "logits/rejected": 0.28849393129348755,
+      "logps/chosen": -1063.8748779296875,
+      "logps/rejected": -1503.830322265625,
+      "loss": 0.4712,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.8245790600776672,
+      "rewards/margins": 0.47296270728111267,
+      "rewards/rejected": -1.2975417375564575,
+      "step": 1410
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.371964648825221e-07,
+      "logits/chosen": 0.3505791425704956,
+      "logits/rejected": 0.22841492295265198,
+      "logps/chosen": -1045.915283203125,
+      "logps/rejected": -2175.98876953125,
+      "loss": 0.4619,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.7385074496269226,
+      "rewards/margins": 1.1998847723007202,
+      "rewards/rejected": -1.9383922815322876,
+      "step": 1420
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.017977166366445e-07,
+      "logits/chosen": 0.2420744001865387,
+      "logits/rejected": 0.17516903579235077,
+      "logps/chosen": -1474.8148193359375,
+      "logps/rejected": -1958.3011474609375,
+      "loss": 0.4696,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.2239506244659424,
+      "rewards/margins": 0.5244899988174438,
+      "rewards/rejected": -1.7484405040740967,
+      "step": 1430
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.669327549707096e-07,
+      "logits/chosen": 0.2893267571926117,
+      "logits/rejected": 0.18889647722244263,
+      "logps/chosen": -1455.797607421875,
+      "logps/rejected": -2097.127685546875,
+      "loss": 0.467,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -1.1924570798873901,
+      "rewards/margins": 0.6752533912658691,
+      "rewards/rejected": -1.8677103519439697,
+      "step": 1440
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.326132244986932e-07,
+      "logits/chosen": 0.24378347396850586,
+      "logits/rejected": 0.050407588481903076,
+      "logps/chosen": -1516.9559326171875,
+      "logps/rejected": -2759.12353515625,
+      "loss": 0.4595,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.2377126216888428,
+      "rewards/margins": 1.2976287603378296,
+      "rewards/rejected": -2.535341262817383,
+      "step": 1450
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.988505876649863e-07,
+      "logits/chosen": 0.2632651925086975,
+      "logits/rejected": 0.18519091606140137,
+      "logps/chosen": -1460.3145751953125,
+      "logps/rejected": -1786.594482421875,
+      "loss": 0.4719,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -1.1815235614776611,
+      "rewards/margins": 0.385366290807724,
+      "rewards/rejected": -1.566890001296997,
+      "step": 1460
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.656561209160248e-07,
+      "logits/chosen": 0.2761257290840149,
+      "logits/rejected": 0.16277745366096497,
+      "logps/chosen": -1284.623291015625,
+      "logps/rejected": -2513.677734375,
+      "loss": 0.4624,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.9854960441589355,
+      "rewards/margins": 1.282775640487671,
+      "rewards/rejected": -2.2682716846466064,
+      "step": 1470
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.330409109340563e-07,
+      "logits/chosen": 0.2461864948272705,
+      "logits/rejected": 0.16639626026153564,
+      "logps/chosen": -1436.0191650390625,
+      "logps/rejected": -2242.687744140625,
+      "loss": 0.4672,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -1.1464489698410034,
+      "rewards/margins": 0.8480439186096191,
+      "rewards/rejected": -1.9944928884506226,
+      "step": 1480
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.010158509342682e-07,
+      "logits/chosen": 0.2478228360414505,
+      "logits/rejected": 0.1436949521303177,
+      "logps/chosen": -1367.794921875,
+      "logps/rejected": -2203.85107421875,
+      "loss": 0.4721,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -1.1351174116134644,
+      "rewards/margins": 0.8538748621940613,
+      "rewards/rejected": -1.9889923334121704,
+      "step": 1490
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.695916370265529e-07,
+      "logits/chosen": 0.27428361773490906,
+      "logits/rejected": 0.18057170510292053,
+      "logps/chosen": -1440.5146484375,
+      "logps/rejected": -2161.803466796875,
+      "loss": 0.4628,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.1880239248275757,
+      "rewards/margins": 0.7238161563873291,
+      "rewards/rejected": -1.9118402004241943,
+      "step": 1500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.387787646430854e-07,
+      "logits/chosen": 0.25450989603996277,
+      "logits/rejected": 0.1020331159234047,
+      "logps/chosen": -1392.365966796875,
+      "logps/rejected": -2656.48974609375,
+      "loss": 0.4575,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.118877649307251,
+      "rewards/margins": 1.2837135791778564,
+      "rewards/rejected": -2.4025912284851074,
+      "step": 1510
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.085875250329401e-07,
+      "logits/chosen": 0.3250389099121094,
+      "logits/rejected": 0.23088189959526062,
+      "logps/chosen": -1277.065673828125,
+      "logps/rejected": -2237.5419921875,
+      "loss": 0.4588,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.98078453540802,
+      "rewards/margins": 1.0101826190948486,
+      "rewards/rejected": -1.9909673929214478,
+      "step": 1520
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.79028001824894e-07,
+      "logits/chosen": 0.34990447759628296,
+      "logits/rejected": 0.1642770618200302,
+      "logps/chosen": -1346.687744140625,
+      "logps/rejected": -3187.396484375,
+      "loss": 0.4642,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.0415836572647095,
+      "rewards/margins": 1.8741792440414429,
+      "rewards/rejected": -2.9157626628875732,
+      "step": 1530
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.501100676595761e-07,
+      "logits/chosen": 0.2536852955818176,
+      "logits/rejected": 0.1401246041059494,
+      "logps/chosen": -1562.163818359375,
+      "logps/rejected": -2294.75732421875,
+      "loss": 0.4614,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -1.2489855289459229,
+      "rewards/margins": 0.7926613092422485,
+      "rewards/rejected": -2.041646957397461,
+      "step": 1540
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.218433808920884e-07,
+      "logits/chosen": 0.2926151752471924,
+      "logits/rejected": 0.09962544590234756,
+      "logps/chosen": -1433.572509765625,
+      "logps/rejected": -2299.615478515625,
+      "loss": 0.4524,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -1.1709363460540771,
+      "rewards/margins": 0.9143635630607605,
+      "rewards/rejected": -2.0853002071380615,
+      "step": 1550
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.942373823661928e-07,
+      "logits/chosen": 0.23216836154460907,
+      "logits/rejected": 0.19754758477210999,
+      "logps/chosen": -1521.939208984375,
+      "logps/rejected": -2178.3291015625,
+      "loss": 0.4698,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.2342188358306885,
+      "rewards/margins": 0.6809908151626587,
+      "rewards/rejected": -1.9152095317840576,
+      "step": 1560
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.6730129226114363e-07,
+      "logits/chosen": 0.19226306676864624,
+      "logits/rejected": 0.13501006364822388,
+      "logps/chosen": -1532.320068359375,
+      "logps/rejected": -2355.093505859375,
+      "loss": 0.4712,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.2820327281951904,
+      "rewards/margins": 0.8527010679244995,
+      "rewards/rejected": -2.1347339153289795,
+      "step": 1570
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.4104410701222703e-07,
+      "logits/chosen": 0.15366807579994202,
+      "logits/rejected": 0.11835174262523651,
+      "logps/chosen": -1608.6761474609375,
+      "logps/rejected": -2489.91455078125,
+      "loss": 0.469,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -1.338335394859314,
+      "rewards/margins": 0.8876321911811829,
+      "rewards/rejected": -2.2259676456451416,
+      "step": 1580
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.154745963060197e-07,
+      "logits/chosen": 0.21381524205207825,
+      "logits/rejected": 0.0645713359117508,
+      "logps/chosen": -1354.0247802734375,
+      "logps/rejected": -2909.98828125,
+      "loss": 0.4559,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.0845643281936646,
+      "rewards/margins": 1.571176290512085,
+      "rewards/rejected": -2.655740737915039,
+      "step": 1590
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.9060130015138863e-07,
+      "logits/chosen": 0.25924235582351685,
+      "logits/rejected": 0.1109732836484909,
+      "logps/chosen": -1437.39501953125,
+      "logps/rejected": -2759.584228515625,
+      "loss": 0.4559,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.1647388935089111,
+      "rewards/margins": 1.3532658815383911,
+      "rewards/rejected": -2.5180046558380127,
+      "step": 1600
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.664325260271953e-07,
+      "logits/chosen": 0.22887060046195984,
+      "logits/rejected": 0.09053263813257217,
+      "logps/chosen": -1473.260009765625,
+      "logps/rejected": -1995.0269775390625,
+      "loss": 0.4712,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -1.2130258083343506,
+      "rewards/margins": 0.5937215089797974,
+      "rewards/rejected": -1.8067471981048584,
+      "step": 1610
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.429763461076677e-07,
+      "logits/chosen": 0.1899276226758957,
+      "logits/rejected": 0.12356813251972198,
+      "logps/chosen": -1743.064453125,
+      "logps/rejected": -2304.783203125,
+      "loss": 0.4677,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.4444160461425781,
+      "rewards/margins": 0.6152055859565735,
+      "rewards/rejected": -2.059621572494507,
+      "step": 1620
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.202405945663556e-07,
+      "logits/chosen": 0.22914421558380127,
+      "logits/rejected": 0.09422020614147186,
+      "logps/chosen": -1509.6998291015625,
+      "logps/rejected": -2195.837646484375,
+      "loss": 0.4638,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -1.2225978374481201,
+      "rewards/margins": 0.7319514155387878,
+      "rewards/rejected": -1.9545494318008423,
+      "step": 1630
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.982328649595856e-07,
+      "logits/chosen": 0.24722608923912048,
+      "logits/rejected": 0.10591373592615128,
+      "logps/chosen": -1233.9052734375,
+      "logps/rejected": -2268.322509765625,
+      "loss": 0.4653,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.9642356634140015,
+      "rewards/margins": 1.0845736265182495,
+      "rewards/rejected": -2.04880952835083,
+      "step": 1640
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.7696050769026954e-07,
+      "logits/chosen": 0.21008674800395966,
+      "logits/rejected": 0.05934596806764603,
+      "logps/chosen": -1442.0106201171875,
+      "logps/rejected": -2874.48388671875,
+      "loss": 0.4615,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.2054154872894287,
+      "rewards/margins": 1.4088830947875977,
+      "rewards/rejected": -2.6142985820770264,
+      "step": 1650
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.564306275529341e-07,
+      "logits/chosen": 0.18529877066612244,
+      "logits/rejected": 0.12559422850608826,
+      "logps/chosen": -1704.0299072265625,
+      "logps/rejected": -2808.08349609375,
+      "loss": 0.4591,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.4349021911621094,
+      "rewards/margins": 1.1065049171447754,
+      "rewards/rejected": -2.5414071083068848,
+      "step": 1660
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.3665008136077332e-07,
+      "logits/chosen": 0.19881121814250946,
+      "logits/rejected": 0.17202343046665192,
+      "logps/chosen": -1710.2633056640625,
+      "logps/rejected": -1984.5556640625,
+      "loss": 0.473,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.3971118927001953,
+      "rewards/margins": 0.33112001419067383,
+      "rewards/rejected": -1.7282320261001587,
+      "step": 1670
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.1762547565553293e-07,
+      "logits/chosen": 0.17657816410064697,
+      "logits/rejected": 0.11265295743942261,
+      "logps/chosen": -1725.0482177734375,
+      "logps/rejected": -1982.76953125,
+      "loss": 0.466,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -1.5021684169769287,
+      "rewards/margins": 0.2558698058128357,
+      "rewards/rejected": -1.7580381631851196,
+      "step": 1680
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.993631645009747e-07,
+      "logits/chosen": 0.19522444903850555,
+      "logits/rejected": 0.058800529688596725,
+      "logps/chosen": -1578.4208984375,
+      "logps/rejected": -2554.65185546875,
+      "loss": 0.4675,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -1.2845125198364258,
+      "rewards/margins": 1.006216049194336,
+      "rewards/rejected": -2.290728807449341,
+      "step": 1690
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.818692473606748e-07,
+      "logits/chosen": 0.2271948605775833,
+      "logits/rejected": 0.18108686804771423,
+      "logps/chosen": -1478.1927490234375,
+      "logps/rejected": -2156.734375,
+      "loss": 0.4747,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -1.2414519786834717,
+      "rewards/margins": 0.7026728391647339,
+      "rewards/rejected": -1.9441248178482056,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.6514956706084885e-07,
+      "logits/chosen": 0.23735575377941132,
+      "logits/rejected": 0.11482490599155426,
+      "logps/chosen": -1801.324462890625,
+      "logps/rejected": -2704.887939453125,
+      "loss": 0.4736,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.552073359489441,
+      "rewards/margins": 0.8944045901298523,
+      "rewards/rejected": -2.4464781284332275,
+      "step": 1710
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.4920970783889737e-07,
+      "logits/chosen": 0.22280173003673553,
+      "logits/rejected": 0.11919368803501129,
+      "logps/chosen": -1566.2589111328125,
+      "logps/rejected": -2471.8125,
+      "loss": 0.4684,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.2630040645599365,
+      "rewards/margins": 0.966931164264679,
+      "rewards/rejected": -2.229935646057129,
+      "step": 1720
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.340549934783164e-07,
+      "logits/chosen": 0.2689998745918274,
+      "logits/rejected": 0.12245997041463852,
+      "logps/chosen": -1098.0716552734375,
+      "logps/rejected": -2332.2578125,
+      "loss": 0.4659,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.8609301447868347,
+      "rewards/margins": 1.2441167831420898,
+      "rewards/rejected": -2.1050469875335693,
+      "step": 1730
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.196904855305961e-07,
+      "logits/chosen": 0.2383730709552765,
+      "logits/rejected": 0.15037932991981506,
+      "logps/chosen": -1544.904052734375,
+      "logps/rejected": -2499.219482421875,
+      "loss": 0.4561,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.2684749364852905,
+      "rewards/margins": 0.9886786341667175,
+      "rewards/rejected": -2.2571537494659424,
+      "step": 1740
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.0612098162470302e-07,
+      "logits/chosen": 0.20837631821632385,
+      "logits/rejected": 0.1260487288236618,
+      "logps/chosen": -1376.4371337890625,
+      "logps/rejected": -2311.586669921875,
+      "loss": 0.4467,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -1.126542329788208,
+      "rewards/margins": 0.9472710490226746,
+      "rewards/rejected": -2.0738134384155273,
+      "step": 1750
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.335101386471285e-08,
+      "logits/chosen": 0.2322504222393036,
+      "logits/rejected": 0.06627029925584793,
+      "logps/chosen": -1435.283447265625,
+      "logps/rejected": -2674.15576171875,
+      "loss": 0.4715,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.151064157485962,
+      "rewards/margins": 1.2704349756240845,
+      "rewards/rejected": -2.421499252319336,
+      "step": 1760
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.138484731612273e-08,
+      "logits/chosen": 0.2155352383852005,
+      "logits/rejected": 0.12622274458408356,
+      "logps/chosen": -1182.394287109375,
+      "logps/rejected": -2245.24462890625,
+      "loss": 0.4629,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.9620729684829712,
+      "rewards/margins": 1.0421679019927979,
+      "rewards/rejected": -2.0042405128479004,
+      "step": 1770
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.022647858135501e-08,
+      "logits/chosen": 0.30309510231018066,
+      "logits/rejected": 0.18017789721488953,
+      "logps/chosen": -1599.3291015625,
+      "logps/rejected": -2475.38720703125,
+      "loss": 0.465,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -1.3132779598236084,
+      "rewards/margins": 0.8995476961135864,
+      "rewards/rejected": -2.2128255367279053,
+      "step": 1780
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.987963446492384e-08,
+      "logits/chosen": 0.23334476351737976,
+      "logits/rejected": 0.17126549780368805,
+      "logps/chosen": -1491.8856201171875,
+      "logps/rejected": -2064.55078125,
+      "loss": 0.4679,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.2208709716796875,
+      "rewards/margins": 0.6093058586120605,
+      "rewards/rejected": -1.8301767110824585,
+      "step": 1790
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.034777072871394e-08,
+      "logits/chosen": 0.23894283175468445,
+      "logits/rejected": 0.16225464642047882,
+      "logps/chosen": -1209.31494140625,
+      "logps/rejected": -1923.9974365234375,
+      "loss": 0.4748,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.9387443661689758,
+      "rewards/margins": 0.7473281621932983,
+      "rewards/rejected": -1.6860727071762085,
+      "step": 1800
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.163407093778243e-08,
+      "logits/chosen": 0.30054157972335815,
+      "logits/rejected": 0.17386284470558167,
+      "logps/chosen": -1040.991455078125,
+      "logps/rejected": -2445.29541015625,
+      "loss": 0.4516,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.7577398419380188,
+      "rewards/margins": 1.4329960346221924,
+      "rewards/rejected": -2.1907360553741455,
+      "step": 1810
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.37414453970758e-08,
+      "logits/chosen": 0.303236186504364,
+      "logits/rejected": 0.1971709430217743,
+      "logps/chosen": -1248.239501953125,
+      "logps/rejected": -2541.384033203125,
+      "loss": 0.4512,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.9271729588508606,
+      "rewards/margins": 1.3627898693084717,
+      "rewards/rejected": -2.2899627685546875,
+      "step": 1820
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.6672530179410183e-08,
+      "logits/chosen": 0.25464674830436707,
+      "logits/rejected": 0.13462017476558685,
+      "logps/chosen": -1484.759521484375,
+      "logps/rejected": -2381.3857421875,
+      "loss": 0.4582,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.2104871273040771,
+      "rewards/margins": 0.955074667930603,
+      "rewards/rejected": -2.165562152862549,
+      "step": 1830
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.04296862450451e-08,
+      "logits/chosen": 0.34345191717147827,
+      "logits/rejected": 0.1766502857208252,
+      "logps/chosen": -1336.6195068359375,
+      "logps/rejected": -2531.597412109375,
+      "loss": 0.4675,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -1.0585607290267944,
+      "rewards/margins": 1.2248413562774658,
+      "rewards/rejected": -2.28340220451355,
+      "step": 1840
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.501499865314171e-08,
+      "logits/chosen": 0.31596893072128296,
+      "logits/rejected": 0.17752663791179657,
+      "logps/chosen": -1208.4625244140625,
+      "logps/rejected": -2460.017578125,
+      "loss": 0.4534,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.9176605939865112,
+      "rewards/margins": 1.2910888195037842,
+      "rewards/rejected": -2.208749294281006,
+      "step": 1850
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.0430275865371265e-08,
+      "logits/chosen": 0.30796024203300476,
+      "logits/rejected": 0.15131710469722748,
+      "logps/chosen": -1164.2542724609375,
+      "logps/rejected": -2230.33056640625,
+      "loss": 0.4555,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.8924150466918945,
+      "rewards/margins": 1.0938717126846313,
+      "rewards/rejected": -1.9862868785858154,
+      "step": 1860
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 6.677049141901315e-09,
+      "logits/chosen": 0.26449787616729736,
+      "logits/rejected": 0.12270595878362656,
+      "logps/chosen": -1493.645263671875,
+      "logps/rejected": -2633.17626953125,
+      "loss": 0.4614,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.2356170415878296,
+      "rewards/margins": 1.1605656147003174,
+      "rewards/rejected": -2.3961825370788574,
+      "step": 1870
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3.756572029968708e-09,
+      "logits/chosen": 0.23211045563220978,
+      "logits/rejected": 0.13400281965732574,
+      "logps/chosen": -1511.829345703125,
+      "logps/rejected": -2489.31494140625,
+      "loss": 0.4594,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.2328951358795166,
+      "rewards/margins": 1.0022671222686768,
+      "rewards/rejected": -2.2351622581481934,
+      "step": 1880
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.6698199452053199e-09,
+      "logits/chosen": 0.19983918964862823,
+      "logits/rejected": 0.11516892910003662,
+      "logps/chosen": -1396.664306640625,
+      "logps/rejected": -2378.28857421875,
+      "loss": 0.4543,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -1.1454143524169922,
+      "rewards/margins": 1.0044304132461548,
+      "rewards/rejected": -2.1498446464538574,
+      "step": 1890
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.1748984585560094e-10,
+      "logits/chosen": 0.2773471474647522,
+      "logits/rejected": 0.1175018697977066,
+      "logps/chosen": -1402.577392578125,
+      "logps/rejected": -2661.568603515625,
+      "loss": 0.4649,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -1.132912039756775,
+      "rewards/margins": 1.262406587600708,
+      "rewards/rejected": -2.3953185081481934,
+      "step": 1900
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "logits/chosen": 0.21633613109588623,
+      "logits/rejected": 0.111175537109375,
+      "logps/chosen": -1688.2955322265625,
+      "logps/rejected": -2615.567626953125,
+      "loss": 0.4707,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -1.4329384565353394,
+      "rewards/margins": 0.9476302862167358,
+      "rewards/rejected": -2.380568504333496,
+      "step": 1910
+    },
+    {
+      "epoch": 1.0,
+      "step": 1910,
+      "total_flos": 0.0,
+      "train_loss": 0.09940854217369519,
+      "train_runtime": 5146.4957,
+      "train_samples_per_second": 11.879,
+      "train_steps_per_second": 0.371
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1910,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}