End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +840 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: other
+base_model: yiran-wang3/ds_coder6.7b_reflct_adamw_iter5
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/ds_coder6.7b_reflct_sppo_hard_new_cn_mining_oj_iter5-binarized-reflection-scored
+model-index:
+- name: ds_coder6.7b_reflct_adamw_iter6
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# ds_coder6.7b_reflct_adamw_iter6
+This model is a fine-tuned version of [yiran-wang3/ds_coder6.7b_reflct_adamw_iter5](https://huggingface.co/yiran-wang3/ds_coder6.7b_reflct_adamw_iter5) on the self-generate/ds_coder6.7b_reflct_sppo_hard_new_cn_mining_oj_iter5-binarized-reflection-scored dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.3

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.47894636502391413,
+    "train_runtime": 421.3681,
+    "train_samples": 2378,
+    "train_samples_per_second": 5.644,
+    "train_steps_per_second": 0.09
+}

config.json CHANGED Viewed

@@ -29,6 +29,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "vocab_size": 32256
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "vocab_size": 32256
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.47894636502391413,
+    "train_runtime": 421.3681,
+    "train_samples": 2378,
+    "train_samples_per_second": 5.644,
+    "train_steps_per_second": 0.09
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,840 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 38,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": 1.8110721111297607,
+      "debug/policy_chosen_logps": -242.31497192382812,
+      "debug/policy_rejected_logits": 1.8570362329483032,
+      "debug/policy_rejected_logps": -306.15191650390625,
+      "debug/reference_chosen_logps": -242.31497192382812,
+      "debug/reference_rejected_logps": -306.15191650390625,
+      "epoch": 0.02631578947368421,
+      "grad_norm": 5.1162553610364885,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8110721111297607,
+      "logits/rejected": 1.8570362329483032,
+      "logps/chosen": -242.31497192382812,
+      "logps/rejected": -306.15191650390625,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": 1.535241723060608,
+      "debug/policy_chosen_logps": -233.50314331054688,
+      "debug/policy_rejected_logits": 1.5806331634521484,
+      "debug/policy_rejected_logps": -236.88345336914062,
+      "debug/reference_chosen_logps": -233.77830505371094,
+      "debug/reference_rejected_logps": -236.92105102539062,
+      "epoch": 0.05263157894736842,
+      "grad_norm": 4.391641485844322,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.535241723060608,
+      "logits/rejected": 1.5806331634521484,
+      "logps/chosen": -233.50314331054688,
+      "logps/rejected": -236.88345336914062,
+      "loss": 0.4982,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0027516556438058615,
+      "rewards/margins": 0.002375659765675664,
+      "rewards/rejected": 0.0003759957617148757,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": 1.6230586767196655,
+      "debug/policy_chosen_logps": -261.1310119628906,
+      "debug/policy_rejected_logits": 1.8340940475463867,
+      "debug/policy_rejected_logps": -378.02337646484375,
+      "debug/reference_chosen_logps": -261.3377685546875,
+      "debug/reference_rejected_logps": -378.5300598144531,
+      "epoch": 0.07894736842105263,
+      "grad_norm": 5.337649724861765,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6230586767196655,
+      "logits/rejected": 1.8340940475463867,
+      "logps/chosen": -261.1310119628906,
+      "logps/rejected": -378.02337646484375,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0020675850100815296,
+      "rewards/margins": -0.002999210264533758,
+      "rewards/rejected": 0.0050667948089540005,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": 1.801438570022583,
+      "debug/policy_chosen_logps": -233.70458984375,
+      "debug/policy_rejected_logits": 1.6214240789413452,
+      "debug/policy_rejected_logps": -303.5933837890625,
+      "debug/reference_chosen_logps": -233.42352294921875,
+      "debug/reference_rejected_logps": -302.8963623046875,
+      "epoch": 0.10526315789473684,
+      "grad_norm": 5.416209205950235,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.801438570022583,
+      "logits/rejected": 1.6214240789413452,
+      "logps/chosen": -233.70458984375,
+      "logps/rejected": -303.5933837890625,
+      "loss": 0.5002,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0028107455000281334,
+      "rewards/margins": 0.0041594123467803,
+      "rewards/rejected": -0.0069701578468084335,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": 1.62641179561615,
+      "debug/policy_chosen_logps": -220.23741149902344,
+      "debug/policy_rejected_logits": 1.7156729698181152,
+      "debug/policy_rejected_logps": -306.0166015625,
+      "debug/reference_chosen_logps": -219.86209106445312,
+      "debug/reference_rejected_logps": -305.0866394042969,
+      "epoch": 0.13157894736842105,
+      "grad_norm": 4.132996885138251,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.62641179561615,
+      "logits/rejected": 1.7156729698181152,
+      "logps/chosen": -220.23741149902344,
+      "logps/rejected": -306.0166015625,
+      "loss": 0.4991,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0037531470879912376,
+      "rewards/margins": 0.005546645727008581,
+      "rewards/rejected": -0.009299792349338531,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": 1.862275242805481,
+      "debug/policy_chosen_logps": -232.3478240966797,
+      "debug/policy_rejected_logits": 1.7659251689910889,
+      "debug/policy_rejected_logps": -222.363037109375,
+      "debug/reference_chosen_logps": -231.81625366210938,
+      "debug/reference_rejected_logps": -221.9506072998047,
+      "epoch": 0.15789473684210525,
+      "grad_norm": 4.973887804037034,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.862275242805481,
+      "logits/rejected": 1.7659251689910889,
+      "logps/chosen": -232.3478240966797,
+      "logps/rejected": -222.363037109375,
+      "loss": 0.4961,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.005315742455422878,
+      "rewards/margins": -0.0011914825299754739,
+      "rewards/rejected": -0.004124259576201439,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": 1.8720442056655884,
+      "debug/policy_chosen_logps": -241.5899658203125,
+      "debug/policy_rejected_logits": 1.792407751083374,
+      "debug/policy_rejected_logps": -224.8570556640625,
+      "debug/reference_chosen_logps": -241.32894897460938,
+      "debug/reference_rejected_logps": -224.58128356933594,
+      "epoch": 0.18421052631578946,
+      "grad_norm": 4.979808676717409,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8720442056655884,
+      "logits/rejected": 1.792407751083374,
+      "logps/chosen": -241.5899658203125,
+      "logps/rejected": -224.8570556640625,
+      "loss": 0.4938,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0026101875118911266,
+      "rewards/margins": 0.000147590646520257,
+      "rewards/rejected": -0.0027577781584113836,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": 1.626907467842102,
+      "debug/policy_chosen_logps": -217.16574096679688,
+      "debug/policy_rejected_logits": 1.626301646232605,
+      "debug/policy_rejected_logps": -300.71978759765625,
+      "debug/reference_chosen_logps": -216.7672119140625,
+      "debug/reference_rejected_logps": -298.59197998046875,
+      "epoch": 0.21052631578947367,
+      "grad_norm": 4.585134841741792,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.626907467842102,
+      "logits/rejected": 1.626301646232605,
+      "logps/chosen": -217.16574096679688,
+      "logps/rejected": -300.71978759765625,
+      "loss": 0.4937,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.0039853667840361595,
+      "rewards/margins": 0.01729259453713894,
+      "rewards/rejected": -0.021277960389852524,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": 2.008640766143799,
+      "debug/policy_chosen_logps": -246.12429809570312,
+      "debug/policy_rejected_logits": 1.8793882131576538,
+      "debug/policy_rejected_logps": -265.8034973144531,
+      "debug/reference_chosen_logps": -245.7059783935547,
+      "debug/reference_rejected_logps": -264.12457275390625,
+      "epoch": 0.23684210526315788,
+      "grad_norm": 4.595004508027087,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.008640766143799,
+      "logits/rejected": 1.8793882131576538,
+      "logps/chosen": -246.12429809570312,
+      "logps/rejected": -265.8034973144531,
+      "loss": 0.4933,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.004182987846434116,
+      "rewards/margins": 0.012606277130544186,
+      "rewards/rejected": -0.016789264976978302,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": 1.7032949924468994,
+      "debug/policy_chosen_logps": -232.8529815673828,
+      "debug/policy_rejected_logits": 1.5618568658828735,
+      "debug/policy_rejected_logps": -253.05532836914062,
+      "debug/reference_chosen_logps": -233.14126586914062,
+      "debug/reference_rejected_logps": -252.65480041503906,
+      "epoch": 0.2631578947368421,
+      "grad_norm": 4.0613383659805065,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7032949924468994,
+      "logits/rejected": 1.5618568658828735,
+      "logps/chosen": -232.8529815673828,
+      "logps/rejected": -253.05532836914062,
+      "loss": 0.4957,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0028829958755522966,
+      "rewards/margins": 0.006888084579259157,
+      "rewards/rejected": -0.004005088936537504,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": 1.684201717376709,
+      "debug/policy_chosen_logps": -232.94818115234375,
+      "debug/policy_rejected_logits": 1.8217120170593262,
+      "debug/policy_rejected_logps": -266.5169982910156,
+      "debug/reference_chosen_logps": -231.85365295410156,
+      "debug/reference_rejected_logps": -266.5830993652344,
+      "epoch": 0.2894736842105263,
+      "grad_norm": 4.384299997547265,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.684201717376709,
+      "logits/rejected": 1.8217120170593262,
+      "logps/chosen": -232.94818115234375,
+      "logps/rejected": -266.5169982910156,
+      "loss": 0.497,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.010945243760943413,
+      "rewards/margins": -0.011606387794017792,
+      "rewards/rejected": 0.0006611444987356663,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": 1.6037061214447021,
+      "debug/policy_chosen_logps": -271.25543212890625,
+      "debug/policy_rejected_logits": 1.5078108310699463,
+      "debug/policy_rejected_logps": -325.62957763671875,
+      "debug/reference_chosen_logps": -270.1516418457031,
+      "debug/reference_rejected_logps": -321.0948486328125,
+      "epoch": 0.3157894736842105,
+      "grad_norm": 4.955955505999082,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6037061214447021,
+      "logits/rejected": 1.5078108310699463,
+      "logps/chosen": -271.25543212890625,
+      "logps/rejected": -325.62957763671875,
+      "loss": 0.4883,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.011037863790988922,
+      "rewards/margins": 0.0343095026910305,
+      "rewards/rejected": -0.045347362756729126,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": 1.9024295806884766,
+      "debug/policy_chosen_logps": -230.404541015625,
+      "debug/policy_rejected_logits": 1.754141092300415,
+      "debug/policy_rejected_logps": -230.44754028320312,
+      "debug/reference_chosen_logps": -230.56103515625,
+      "debug/reference_rejected_logps": -230.1070556640625,
+      "epoch": 0.34210526315789475,
+      "grad_norm": 4.738162826032535,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9024295806884766,
+      "logits/rejected": 1.754141092300415,
+      "logps/chosen": -230.404541015625,
+      "logps/rejected": -230.44754028320312,
+      "loss": 0.4882,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0015649220440536737,
+      "rewards/margins": 0.004969825968146324,
+      "rewards/rejected": -0.0034049032256007195,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": 1.6058262586593628,
+      "debug/policy_chosen_logps": -256.1600341796875,
+      "debug/policy_rejected_logits": 1.8204787969589233,
+      "debug/policy_rejected_logps": -283.00579833984375,
+      "debug/reference_chosen_logps": -255.710205078125,
+      "debug/reference_rejected_logps": -283.3298034667969,
+      "epoch": 0.3684210526315789,
+      "grad_norm": 5.473371289645614,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6058262586593628,
+      "logits/rejected": 1.8204787969589233,
+      "logps/chosen": -256.1600341796875,
+      "logps/rejected": -283.00579833984375,
+      "loss": 0.4909,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.004498443566262722,
+      "rewards/margins": -0.007738151587545872,
+      "rewards/rejected": 0.003239707788452506,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": 1.6739165782928467,
+      "debug/policy_chosen_logps": -260.7919616699219,
+      "debug/policy_rejected_logits": 1.597163200378418,
+      "debug/policy_rejected_logps": -275.9894714355469,
+      "debug/reference_chosen_logps": -262.1143798828125,
+      "debug/reference_rejected_logps": -275.02569580078125,
+      "epoch": 0.39473684210526316,
+      "grad_norm": 4.973250917361795,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6739165782928467,
+      "logits/rejected": 1.597163200378418,
+      "logps/chosen": -260.7919616699219,
+      "logps/rejected": -275.9894714355469,
+      "loss": 0.4818,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.013224296271800995,
+      "rewards/margins": 0.022862261161208153,
+      "rewards/rejected": -0.009637965820729733,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": 1.7346552610397339,
+      "debug/policy_chosen_logps": -235.43736267089844,
+      "debug/policy_rejected_logits": 1.7165241241455078,
+      "debug/policy_rejected_logps": -291.98858642578125,
+      "debug/reference_chosen_logps": -238.7733154296875,
+      "debug/reference_rejected_logps": -289.6514587402344,
+      "epoch": 0.42105263157894735,
+      "grad_norm": 4.492419940892433,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7346552610397339,
+      "logits/rejected": 1.7165241241455078,
+      "logps/chosen": -235.43736267089844,
+      "logps/rejected": -291.98858642578125,
+      "loss": 0.4743,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.03335927799344063,
+      "rewards/margins": 0.05673057585954666,
+      "rewards/rejected": -0.023371294140815735,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": 1.7080655097961426,
+      "debug/policy_chosen_logps": -244.19293212890625,
+      "debug/policy_rejected_logits": 1.6485531330108643,
+      "debug/policy_rejected_logps": -293.0354309082031,
+      "debug/reference_chosen_logps": -245.80865478515625,
+      "debug/reference_rejected_logps": -287.3146667480469,
+      "epoch": 0.4473684210526316,
+      "grad_norm": 4.423794468647003,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7080655097961426,
+      "logits/rejected": 1.6485531330108643,
+      "logps/chosen": -244.19293212890625,
+      "logps/rejected": -293.0354309082031,
+      "loss": 0.4811,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.01615716889500618,
+      "rewards/margins": 0.07336486876010895,
+      "rewards/rejected": -0.05720769986510277,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": 1.799321174621582,
+      "debug/policy_chosen_logps": -238.0970458984375,
+      "debug/policy_rejected_logits": 1.5929076671600342,
+      "debug/policy_rejected_logps": -263.6419677734375,
+      "debug/reference_chosen_logps": -240.28492736816406,
+      "debug/reference_rejected_logps": -263.82159423828125,
+      "epoch": 0.47368421052631576,
+      "grad_norm": 6.480796436023613,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.799321174621582,
+      "logits/rejected": 1.5929076671600342,
+      "logps/chosen": -238.0970458984375,
+      "logps/rejected": -263.6419677734375,
+      "loss": 0.4842,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.021878758445382118,
+      "rewards/margins": 0.020082702860236168,
+      "rewards/rejected": 0.0017960541881620884,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": 1.5554420948028564,
+      "debug/policy_chosen_logps": -259.22515869140625,
+      "debug/policy_rejected_logits": 1.9916545152664185,
+      "debug/policy_rejected_logps": -345.74395751953125,
+      "debug/reference_chosen_logps": -258.97943115234375,
+      "debug/reference_rejected_logps": -340.2289123535156,
+      "epoch": 0.5,
+      "grad_norm": 4.996200485758474,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.5554420948028564,
+      "logits/rejected": 1.9916545152664185,
+      "logps/chosen": -259.22515869140625,
+      "logps/rejected": -345.74395751953125,
+      "loss": 0.4614,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.002457238733768463,
+      "rewards/margins": 0.05269308015704155,
+      "rewards/rejected": -0.05515032261610031,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": 1.8484898805618286,
+      "debug/policy_chosen_logps": -220.50599670410156,
+      "debug/policy_rejected_logits": 1.7760157585144043,
+      "debug/policy_rejected_logps": -262.2606201171875,
+      "debug/reference_chosen_logps": -222.98545837402344,
+      "debug/reference_rejected_logps": -261.75836181640625,
+      "epoch": 0.5263157894736842,
+      "grad_norm": 4.774581974562177,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8484898805618286,
+      "logits/rejected": 1.7760157585144043,
+      "logps/chosen": -220.50599670410156,
+      "logps/rejected": -262.2606201171875,
+      "loss": 0.4799,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.024794597178697586,
+      "rewards/margins": 0.029817257076501846,
+      "rewards/rejected": -0.005022658966481686,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": 1.560202717781067,
+      "debug/policy_chosen_logps": -221.38250732421875,
+      "debug/policy_rejected_logits": 1.6546127796173096,
+      "debug/policy_rejected_logps": -251.31719970703125,
+      "debug/reference_chosen_logps": -223.98187255859375,
+      "debug/reference_rejected_logps": -250.66644287109375,
+      "epoch": 0.5526315789473685,
+      "grad_norm": 4.351924103595798,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.560202717781067,
+      "logits/rejected": 1.6546127796173096,
+      "logps/chosen": -221.38250732421875,
+      "logps/rejected": -251.31719970703125,
+      "loss": 0.473,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.025993727147579193,
+      "rewards/margins": 0.032501161098480225,
+      "rewards/rejected": -0.006507434882223606,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": 1.7773959636688232,
+      "debug/policy_chosen_logps": -270.9798889160156,
+      "debug/policy_rejected_logits": 1.8666154146194458,
+      "debug/policy_rejected_logps": -288.00830078125,
+      "debug/reference_chosen_logps": -270.544189453125,
+      "debug/reference_rejected_logps": -285.48175048828125,
+      "epoch": 0.5789473684210527,
+      "grad_norm": 4.442244693551726,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7773959636688232,
+      "logits/rejected": 1.8666154146194458,
+      "logps/chosen": -270.9798889160156,
+      "logps/rejected": -288.00830078125,
+      "loss": 0.484,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.004356803838163614,
+      "rewards/margins": 0.020908568054437637,
+      "rewards/rejected": -0.025265369564294815,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": 1.6907881498336792,
+      "debug/policy_chosen_logps": -232.88339233398438,
+      "debug/policy_rejected_logits": 1.4464173316955566,
+      "debug/policy_rejected_logps": -248.91647338867188,
+      "debug/reference_chosen_logps": -235.3972625732422,
+      "debug/reference_rejected_logps": -248.42919921875,
+      "epoch": 0.6052631578947368,
+      "grad_norm": 4.8897128390396265,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6907881498336792,
+      "logits/rejected": 1.4464173316955566,
+      "logps/chosen": -232.88339233398438,
+      "logps/rejected": -248.91647338867188,
+      "loss": 0.4626,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.02513885498046875,
+      "rewards/margins": 0.03001151978969574,
+      "rewards/rejected": -0.004872665274888277,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": 1.990630030632019,
+      "debug/policy_chosen_logps": -231.47027587890625,
+      "debug/policy_rejected_logits": 2.0270304679870605,
+      "debug/policy_rejected_logps": -280.219482421875,
+      "debug/reference_chosen_logps": -235.265380859375,
+      "debug/reference_rejected_logps": -279.20245361328125,
+      "epoch": 0.631578947368421,
+      "grad_norm": 5.476293220693162,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.990630030632019,
+      "logits/rejected": 2.0270304679870605,
+      "logps/chosen": -231.47027587890625,
+      "logps/rejected": -280.219482421875,
+      "loss": 0.4767,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.037951141595840454,
+      "rewards/margins": 0.04812118411064148,
+      "rewards/rejected": -0.010170038789510727,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": 1.9207803010940552,
+      "debug/policy_chosen_logps": -227.99293518066406,
+      "debug/policy_rejected_logits": 1.9825800657272339,
+      "debug/policy_rejected_logps": -258.94189453125,
+      "debug/reference_chosen_logps": -232.88571166992188,
+      "debug/reference_rejected_logps": -259.89483642578125,
+      "epoch": 0.6578947368421053,
+      "grad_norm": 4.410674654649863,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9207803010940552,
+      "logits/rejected": 1.9825800657272339,
+      "logps/chosen": -227.99293518066406,
+      "logps/rejected": -258.94189453125,
+      "loss": 0.4653,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.04892778396606445,
+      "rewards/margins": 0.039398498833179474,
+      "rewards/rejected": 0.00952928513288498,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": 1.6559851169586182,
+      "debug/policy_chosen_logps": -242.3477020263672,
+      "debug/policy_rejected_logits": 1.9231914281845093,
+      "debug/policy_rejected_logps": -339.9230041503906,
+      "debug/reference_chosen_logps": -245.39537048339844,
+      "debug/reference_rejected_logps": -330.4933166503906,
+      "epoch": 0.6842105263157895,
+      "grad_norm": 5.841309481968776,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6559851169586182,
+      "logits/rejected": 1.9231914281845093,
+      "logps/chosen": -242.3477020263672,
+      "logps/rejected": -339.9230041503906,
+      "loss": 0.4356,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.030476529151201248,
+      "rewards/margins": 0.12477347999811172,
+      "rewards/rejected": -0.09429694712162018,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": 1.379979133605957,
+      "debug/policy_chosen_logps": -238.91958618164062,
+      "debug/policy_rejected_logits": 1.2741044759750366,
+      "debug/policy_rejected_logps": -281.7842712402344,
+      "debug/reference_chosen_logps": -237.88525390625,
+      "debug/reference_rejected_logps": -274.2608947753906,
+      "epoch": 0.7105263157894737,
+      "grad_norm": 4.822057229893986,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.379979133605957,
+      "logits/rejected": 1.2741044759750366,
+      "logps/chosen": -238.91958618164062,
+      "logps/rejected": -281.7842712402344,
+      "loss": 0.4389,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.010343209840357304,
+      "rewards/margins": 0.06489060819149017,
+      "rewards/rejected": -0.0752338171005249,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": 1.4645960330963135,
+      "debug/policy_chosen_logps": -242.5520477294922,
+      "debug/policy_rejected_logits": 1.5396175384521484,
+      "debug/policy_rejected_logps": -264.1595458984375,
+      "debug/reference_chosen_logps": -245.91339111328125,
+      "debug/reference_rejected_logps": -262.7462158203125,
+      "epoch": 0.7368421052631579,
+      "grad_norm": 6.865807807832916,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.4645960330963135,
+      "logits/rejected": 1.5396175384521484,
+      "logps/chosen": -242.5520477294922,
+      "logps/rejected": -264.1595458984375,
+      "loss": 0.4486,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.033613525331020355,
+      "rewards/margins": 0.047746483236551285,
+      "rewards/rejected": -0.01413295604288578,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": 1.6584521532058716,
+      "debug/policy_chosen_logps": -222.9864501953125,
+      "debug/policy_rejected_logits": 1.551990032196045,
+      "debug/policy_rejected_logps": -224.31863403320312,
+      "debug/reference_chosen_logps": -225.62203979492188,
+      "debug/reference_rejected_logps": -227.37957763671875,
+      "epoch": 0.7631578947368421,
+      "grad_norm": 15.12560724905019,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6584521532058716,
+      "logits/rejected": 1.551990032196045,
+      "logps/chosen": -222.9864501953125,
+      "logps/rejected": -224.31863403320312,
+      "loss": 0.5096,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.026355896145105362,
+      "rewards/margins": -0.0042535788379609585,
+      "rewards/rejected": 0.03060947358608246,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": 1.8109740018844604,
+      "debug/policy_chosen_logps": -227.47349548339844,
+      "debug/policy_rejected_logits": 2.0046234130859375,
+      "debug/policy_rejected_logps": -261.7398986816406,
+      "debug/reference_chosen_logps": -233.89767456054688,
+      "debug/reference_rejected_logps": -262.44354248046875,
+      "epoch": 0.7894736842105263,
+      "grad_norm": 4.507027381203014,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8109740018844604,
+      "logits/rejected": 2.0046234130859375,
+      "logps/chosen": -227.47349548339844,
+      "logps/rejected": -261.7398986816406,
+      "loss": 0.4523,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.06424173712730408,
+      "rewards/margins": 0.05720517784357071,
+      "rewards/rejected": 0.007036550901830196,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": 1.5493196249008179,
+      "debug/policy_chosen_logps": -274.53570556640625,
+      "debug/policy_rejected_logits": 1.4743030071258545,
+      "debug/policy_rejected_logps": -228.75210571289062,
+      "debug/reference_chosen_logps": -273.8138122558594,
+      "debug/reference_rejected_logps": -232.58795166015625,
+      "epoch": 0.8157894736842105,
+      "grad_norm": 4.855213218926067,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.5493196249008179,
+      "logits/rejected": 1.4743030071258545,
+      "logps/chosen": -274.53570556640625,
+      "logps/rejected": -228.75210571289062,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.007218838203698397,
+      "rewards/margins": -0.045577142387628555,
+      "rewards/rejected": 0.038358308374881744,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": 1.7340623140335083,
+      "debug/policy_chosen_logps": -245.35580444335938,
+      "debug/policy_rejected_logits": 1.691189169883728,
+      "debug/policy_rejected_logps": -267.03338623046875,
+      "debug/reference_chosen_logps": -249.91921997070312,
+      "debug/reference_rejected_logps": -264.17169189453125,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 5.812254879101492,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7340623140335083,
+      "logits/rejected": 1.691189169883728,
+      "logps/chosen": -245.35580444335938,
+      "logps/rejected": -267.03338623046875,
+      "loss": 0.4633,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.04563392326235771,
+      "rewards/margins": 0.07425111532211304,
+      "rewards/rejected": -0.028617190197110176,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": 1.8911277055740356,
+      "debug/policy_chosen_logps": -278.0496826171875,
+      "debug/policy_rejected_logits": 1.451691746711731,
+      "debug/policy_rejected_logps": -334.9330749511719,
+      "debug/reference_chosen_logps": -279.70513916015625,
+      "debug/reference_rejected_logps": -325.73175048828125,
+      "epoch": 0.868421052631579,
+      "grad_norm": 10.06399047030507,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8911277055740356,
+      "logits/rejected": 1.451691746711731,
+      "logps/chosen": -278.0496826171875,
+      "logps/rejected": -334.9330749511719,
+      "loss": 0.4856,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0165544506162405,
+      "rewards/margins": 0.10856754332780838,
+      "rewards/rejected": -0.09201309084892273,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": 1.5646555423736572,
+      "debug/policy_chosen_logps": -196.27777099609375,
+      "debug/policy_rejected_logits": 1.442307710647583,
+      "debug/policy_rejected_logps": -303.38470458984375,
+      "debug/reference_chosen_logps": -207.76614379882812,
+      "debug/reference_rejected_logps": -296.6465759277344,
+      "epoch": 0.8947368421052632,
+      "grad_norm": 4.5718455604745625,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.5646555423736572,
+      "logits/rejected": 1.442307710647583,
+      "logps/chosen": -196.27777099609375,
+      "logps/rejected": -303.38470458984375,
+      "loss": 0.4644,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.11488360911607742,
+      "rewards/margins": 0.18226474523544312,
+      "rewards/rejected": -0.0673811286687851,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": 1.9010899066925049,
+      "debug/policy_chosen_logps": -238.37425231933594,
+      "debug/policy_rejected_logits": 1.8657723665237427,
+      "debug/policy_rejected_logps": -261.541015625,
+      "debug/reference_chosen_logps": -242.17909240722656,
+      "debug/reference_rejected_logps": -260.426513671875,
+      "epoch": 0.9210526315789473,
+      "grad_norm": 10.019901070632033,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9010899066925049,
+      "logits/rejected": 1.8657723665237427,
+      "logps/chosen": -238.37425231933594,
+      "logps/rejected": -261.541015625,
+      "loss": 0.4921,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03804826736450195,
+      "rewards/margins": 0.04919330030679703,
+      "rewards/rejected": -0.011145040392875671,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": 1.3850834369659424,
+      "debug/policy_chosen_logps": -217.4523162841797,
+      "debug/policy_rejected_logits": 1.716528296470642,
+      "debug/policy_rejected_logps": -294.6310729980469,
+      "debug/reference_chosen_logps": -223.49221801757812,
+      "debug/reference_rejected_logps": -288.3724365234375,
+      "epoch": 0.9473684210526315,
+      "grad_norm": 7.371191589299899,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.3850834369659424,
+      "logits/rejected": 1.716528296470642,
+      "logps/chosen": -217.4523162841797,
+      "logps/rejected": -294.6310729980469,
+      "loss": 0.4547,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.06039898097515106,
+      "rewards/margins": 0.12298539280891418,
+      "rewards/rejected": -0.06258641928434372,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": 1.8597347736358643,
+      "debug/policy_chosen_logps": -215.003662109375,
+      "debug/policy_rejected_logits": 1.8925625085830688,
+      "debug/policy_rejected_logps": -247.18080139160156,
+      "debug/reference_chosen_logps": -224.59774780273438,
+      "debug/reference_rejected_logps": -249.6659393310547,
+      "epoch": 0.9736842105263158,
+      "grad_norm": 5.387832295644532,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8597347736358643,
+      "logits/rejected": 1.8925625085830688,
+      "logps/chosen": -215.003662109375,
+      "logps/rejected": -247.18080139160156,
+      "loss": 0.4668,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.09594079852104187,
+      "rewards/margins": 0.0710894912481308,
+      "rewards/rejected": 0.024851299822330475,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": 1.3891351222991943,
+      "debug/policy_chosen_logps": -240.48060607910156,
+      "debug/policy_rejected_logits": 1.173421025276184,
+      "debug/policy_rejected_logps": -255.14474487304688,
+      "debug/reference_chosen_logps": -245.025390625,
+      "debug/reference_rejected_logps": -254.23486328125,
+      "epoch": 1.0,
+      "grad_norm": 7.832224742495988,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.3891351222991943,
+      "logits/rejected": 1.173421025276184,
+      "logps/chosen": -240.48060607910156,
+      "logps/rejected": -255.14474487304688,
+      "loss": 0.452,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.04544801637530327,
+      "rewards/margins": 0.05454694479703903,
+      "rewards/rejected": -0.009098930284380913,
+      "step": 38
+    },
+    {
+      "epoch": 1.0,
+      "step": 38,
+      "total_flos": 0.0,
+      "train_loss": 0.47894636502391413,
+      "train_runtime": 421.3681,
+      "train_samples_per_second": 5.644,
+      "train_steps_per_second": 0.09
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 38,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}