Model save

Browse files

Files changed (16) hide show

README.md +92 -0
adapter_config.json +29 -0
adapter_model.safetensors +3 -0
all_results.json +21 -0
eval_results.json +16 -0
runs/Jan16_16-12-01_b00663e406e8/events.out.tfevents.1705421591.b00663e406e8.761.0 +3 -0
runs/Jan16_16-15-01_b00663e406e8/events.out.tfevents.1705421708.b00663e406e8.1025.0 +3 -0
runs/Jan16_16-15-55_b00663e406e8/events.out.tfevents.1705421760.b00663e406e8.1127.0 +3 -0
runs/Jan16_16-20-42_b00663e406e8/events.out.tfevents.1705422048.b00663e406e8.1277.0 +3 -0
runs/Jan16_16-20-42_b00663e406e8/events.out.tfevents.1705434982.b00663e406e8.1277.1 +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +43 -0
train_results.json +8 -0
trainer_state.json +344 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,92 @@

+---
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: alexredna/Tukan-1.1B-Chat-v0.6
+model-index:
+- name: Tukan-1.1B-Chat-v0.6_dpo
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Tukan-1.1B-Chat-v0.6_dpo
+This model is a fine-tuned version of [alexredna/Tukan-1.1B-Chat-v0.6](https://huggingface.co/alexredna/Tukan-1.1B-Chat-v0.6) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6664
+- Rewards/chosen: -0.0698
+- Rewards/rejected: -0.1297
+- Rewards/accuracies: 0.6667
+- Rewards/margins: 0.0600
+- Logps/rejected: -364.0182
+- Logps/chosen: -408.6165
+- Logits/rejected: -2.1219
+- Logits/chosen: -2.2568
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-07
+- train_batch_size: 5
+- eval_batch_size: 3
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 160
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6819        | 0.99  | 61   | 0.6804          | -0.0465        | -0.0746          | 0.6318             | 0.0281          | -363.4672      | -408.3842    | -2.1356         | -2.2671       |
+| 0.6718        | 2.0   | 123  | 0.6719          | -0.0689        | -0.1170          | 0.6269             | 0.0482          | -363.8911      | -408.6075    | -2.1242         | -2.2588       |
+| 0.6687        | 2.97  | 183  | 0.6664          | -0.0698        | -0.1297          | 0.6667             | 0.0600          | -364.0182      | -408.6165    | -2.1219         | -2.2568       |
+### Framework versions
+- Transformers 4.36.2
+- Pytorch 2.1.1+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.6.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "alexredna/Tukan-1.1B-Chat-v0.6",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "lm_head",
+    "o_proj",
+    "gate_proj",
+    "down_proj",
+    "v_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac7eff79678968cd1383f8a9706887efddbada917985a7d66a0b16de4652cf2f
+size 210608672

all_results.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "epoch": 2.97,
+    "eval_logits/chosen": -2.256798028945923,
+    "eval_logits/rejected": -2.121875524520874,
+    "eval_logps/chosen": -408.6165466308594,
+    "eval_logps/rejected": -364.0181884765625,
+    "eval_loss": 0.6663674712181091,
+    "eval_rewards/accuracies": 0.6666666865348816,
+    "eval_rewards/chosen": -0.06976744532585144,
+    "eval_rewards/margins": 0.05996997281908989,
+    "eval_rewards/rejected": -0.12973742187023163,
+    "eval_runtime": 39.1746,
+    "eval_samples": 201,
+    "eval_samples_per_second": 5.131,
+    "eval_steps_per_second": 1.71,
+    "train_loss": 0.6770667407682033,
+    "train_runtime": 12894.8655,
+    "train_samples": 9845,
+    "train_samples_per_second": 2.29,
+    "train_steps_per_second": 0.014
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 2.97,
+    "eval_logits/chosen": -2.256798028945923,
+    "eval_logits/rejected": -2.121875524520874,
+    "eval_logps/chosen": -408.6165466308594,
+    "eval_logps/rejected": -364.0181884765625,
+    "eval_loss": 0.6663674712181091,
+    "eval_rewards/accuracies": 0.6666666865348816,
+    "eval_rewards/chosen": -0.06976744532585144,
+    "eval_rewards/margins": 0.05996997281908989,
+    "eval_rewards/rejected": -0.12973742187023163,
+    "eval_runtime": 39.1746,
+    "eval_samples": 201,
+    "eval_samples_per_second": 5.131,
+    "eval_steps_per_second": 1.71
+}

runs/Jan16_16-12-01_b00663e406e8/events.out.tfevents.1705421591.b00663e406e8.761.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf628bddf30f09ceee5b9cd3c5285e1bce1a84b39b03c238a1adc87f99abd9b1
+size 5616

runs/Jan16_16-15-01_b00663e406e8/events.out.tfevents.1705421708.b00663e406e8.1025.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d66c79026e42a3a7ce0d99f35acfa712939abf9f9313d43043cca7291e42277
+size 4994

runs/Jan16_16-15-55_b00663e406e8/events.out.tfevents.1705421760.b00663e406e8.1127.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:682f7df8232dec135263b58fcae453e8c84456001b89574ade19c16f00c47764
+size 5617

runs/Jan16_16-20-42_b00663e406e8/events.out.tfevents.1705422048.b00663e406e8.1277.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faf026aeac0d86a0949e222312ed11c0d29b4c07da39dcaf1a9f9dd8dfa6f002
+size 19445

runs/Jan16_16-20-42_b00663e406e8/events.out.tfevents.1705434982.b00663e406e8.1277.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c23866f489067034e29508e7bc9c521794c8bcf49cb304899890b6d8a72fff3
+size 828

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.97,
+    "train_loss": 0.6770667407682033,
+    "train_runtime": 12894.8655,
+    "train_samples": 9845,
+    "train_samples_per_second": 2.29,
+    "train_steps_per_second": 0.014
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,344 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9740985271711526,
+  "eval_steps": 100,
+  "global_step": 183,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.5789473684210525e-08,
+      "logits/chosen": -2.2486207485198975,
+      "logits/rejected": -2.1592307090759277,
+      "logps/chosen": -384.7846984863281,
+      "logps/rejected": -317.2812805175781,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.5789473684210525e-07,
+      "logits/chosen": -2.2348005771636963,
+      "logits/rejected": -2.178800344467163,
+      "logps/chosen": -394.6236572265625,
+      "logps/rejected": -356.31573486328125,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.44583335518836975,
+      "rewards/chosen": -0.001932556857354939,
+      "rewards/margins": 0.0004956678603775799,
+      "rewards/rejected": -0.002428224543109536,
+      "step": 10
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.9817073170731707e-07,
+      "logits/chosen": -2.249009609222412,
+      "logits/rejected": -2.1796250343322754,
+      "logps/chosen": -389.2425842285156,
+      "logps/rejected": -345.89288330078125,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.5162500143051147,
+      "rewards/chosen": -0.00907914899289608,
+      "rewards/margins": 0.0023889499716460705,
+      "rewards/rejected": -0.011468099430203438,
+      "step": 20
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.798780487804878e-07,
+      "logits/chosen": -2.260974645614624,
+      "logits/rejected": -2.17901873588562,
+      "logps/chosen": -385.93841552734375,
+      "logps/rejected": -346.94970703125,
+      "loss": 0.6872,
+      "rewards/accuracies": 0.5725000500679016,
+      "rewards/chosen": -0.018068989738821983,
+      "rewards/margins": 0.013102496974170208,
+      "rewards/rejected": -0.031171485781669617,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 2.615853658536585e-07,
+      "logits/chosen": -2.24247670173645,
+      "logits/rejected": -2.1864609718322754,
+      "logps/chosen": -388.5516357421875,
+      "logps/rejected": -351.4178466796875,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.5887500047683716,
+      "rewards/chosen": -0.029972827062010765,
+      "rewards/margins": 0.017685705795884132,
+      "rewards/rejected": -0.0476585291326046,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 2.4329268292682927e-07,
+      "logits/chosen": -2.234823703765869,
+      "logits/rejected": -2.1762919425964355,
+      "logps/chosen": -395.30572509765625,
+      "logps/rejected": -348.18743896484375,
+      "loss": 0.6845,
+      "rewards/accuracies": 0.5837500095367432,
+      "rewards/chosen": -0.038403529673814774,
+      "rewards/margins": 0.019298262894153595,
+      "rewards/rejected": -0.05770179629325867,
+      "step": 50
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.25e-07,
+      "logits/chosen": -2.2393314838409424,
+      "logits/rejected": -2.1633594036102295,
+      "logps/chosen": -398.8902282714844,
+      "logps/rejected": -351.87567138671875,
+      "loss": 0.6819,
+      "rewards/accuracies": 0.6031250357627869,
+      "rewards/chosen": -0.042560458183288574,
+      "rewards/margins": 0.02526494860649109,
+      "rewards/rejected": -0.06782540678977966,
+      "step": 60
+    },
+    {
+      "epoch": 0.99,
+      "eval_logits/chosen": -2.267106294631958,
+      "eval_logits/rejected": -2.135558605194092,
+      "eval_logps/chosen": -408.3842468261719,
+      "eval_logps/rejected": -363.4671630859375,
+      "eval_loss": 0.6804352402687073,
+      "eval_rewards/accuracies": 0.6318407654762268,
+      "eval_rewards/chosen": -0.04653656482696533,
+      "eval_rewards/margins": 0.028099289163947105,
+      "eval_rewards/rejected": -0.07463585585355759,
+      "eval_runtime": 39.5616,
+      "eval_samples_per_second": 5.081,
+      "eval_steps_per_second": 1.694,
+      "step": 61
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 2.0670731707317071e-07,
+      "logits/chosen": -2.2363815307617188,
+      "logits/rejected": -2.161525249481201,
+      "logps/chosen": -383.36749267578125,
+      "logps/rejected": -351.52716064453125,
+      "loss": 0.6761,
+      "rewards/accuracies": 0.6212500333786011,
+      "rewards/chosen": -0.04697619006037712,
+      "rewards/margins": 0.03767210990190506,
+      "rewards/rejected": -0.08464829623699188,
+      "step": 70
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.8841463414634146e-07,
+      "logits/chosen": -2.2267136573791504,
+      "logits/rejected": -2.1534907817840576,
+      "logps/chosen": -390.09552001953125,
+      "logps/rejected": -340.2105407714844,
+      "loss": 0.6743,
+      "rewards/accuracies": 0.6318750381469727,
+      "rewards/chosen": -0.05278144031763077,
+      "rewards/margins": 0.04189059138298035,
+      "rewards/rejected": -0.09467203170061111,
+      "step": 80
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.7012195121951216e-07,
+      "logits/chosen": -2.235853910446167,
+      "logits/rejected": -2.1650447845458984,
+      "logps/chosen": -383.0482482910156,
+      "logps/rejected": -348.92327880859375,
+      "loss": 0.6747,
+      "rewards/accuracies": 0.6206250190734863,
+      "rewards/chosen": -0.06036309152841568,
+      "rewards/margins": 0.0413818284869194,
+      "rewards/rejected": -0.10174493491649628,
+      "step": 90
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.518292682926829e-07,
+      "logits/chosen": -2.216538667678833,
+      "logits/rejected": -2.151155471801758,
+      "logps/chosen": -393.03411865234375,
+      "logps/rejected": -351.6760559082031,
+      "loss": 0.6739,
+      "rewards/accuracies": 0.6306250095367432,
+      "rewards/chosen": -0.0625002533197403,
+      "rewards/margins": 0.04337610676884651,
+      "rewards/rejected": -0.10587634891271591,
+      "step": 100
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.3353658536585366e-07,
+      "logits/chosen": -2.2359976768493652,
+      "logits/rejected": -2.1719553470611572,
+      "logps/chosen": -396.144775390625,
+      "logps/rejected": -347.8782653808594,
+      "loss": 0.676,
+      "rewards/accuracies": 0.6212500333786011,
+      "rewards/chosen": -0.06705383211374283,
+      "rewards/margins": 0.03948701545596123,
+      "rewards/rejected": -0.10654083639383316,
+      "step": 110
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.1524390243902439e-07,
+      "logits/chosen": -2.2277469635009766,
+      "logits/rejected": -2.140388011932373,
+      "logps/chosen": -403.00335693359375,
+      "logps/rejected": -347.174072265625,
+      "loss": 0.6718,
+      "rewards/accuracies": 0.6387500166893005,
+      "rewards/chosen": -0.06794509291648865,
+      "rewards/margins": 0.04841512814164162,
+      "rewards/rejected": -0.11636020988225937,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -2.258761167526245,
+      "eval_logits/rejected": -2.1242141723632812,
+      "eval_logps/chosen": -408.6074523925781,
+      "eval_logps/rejected": -363.89111328125,
+      "eval_loss": 0.6719397306442261,
+      "eval_rewards/accuracies": 0.6268656849861145,
+      "eval_rewards/chosen": -0.06885469704866409,
+      "eval_rewards/margins": 0.04817221686244011,
+      "eval_rewards/rejected": -0.1170269101858139,
+      "eval_runtime": 39.3145,
+      "eval_samples_per_second": 5.113,
+      "eval_steps_per_second": 1.704,
+      "step": 123
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.695121951219512e-08,
+      "logits/chosen": -2.206012725830078,
+      "logits/rejected": -2.150679588317871,
+      "logps/chosen": -391.74652099609375,
+      "logps/rejected": -360.0486755371094,
+      "loss": 0.6714,
+      "rewards/accuracies": 0.6306250095367432,
+      "rewards/chosen": -0.07042767852544785,
+      "rewards/margins": 0.04965236037969589,
+      "rewards/rejected": -0.12008003145456314,
+      "step": 130
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.865853658536585e-08,
+      "logits/chosen": -2.221883535385132,
+      "logits/rejected": -2.152527332305908,
+      "logps/chosen": -389.9949645996094,
+      "logps/rejected": -348.03179931640625,
+      "loss": 0.6705,
+      "rewards/accuracies": 0.6293750405311584,
+      "rewards/chosen": -0.07382883131504059,
+      "rewards/margins": 0.051857102662324905,
+      "rewards/rejected": -0.1256859302520752,
+      "step": 140
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.036585365853659e-08,
+      "logits/chosen": -2.2389044761657715,
+      "logits/rejected": -2.171718120574951,
+      "logps/chosen": -391.4035949707031,
+      "logps/rejected": -351.60931396484375,
+      "loss": 0.6689,
+      "rewards/accuracies": 0.6475000381469727,
+      "rewards/chosen": -0.07051853090524673,
+      "rewards/margins": 0.055325280874967575,
+      "rewards/rejected": -0.1258438229560852,
+      "step": 150
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.207317073170732e-08,
+      "logits/chosen": -2.2196097373962402,
+      "logits/rejected": -2.141348361968994,
+      "logps/chosen": -396.71124267578125,
+      "logps/rejected": -345.557861328125,
+      "loss": 0.6678,
+      "rewards/accuracies": 0.6568750739097595,
+      "rewards/chosen": -0.07177285104990005,
+      "rewards/margins": 0.057598698884248734,
+      "rewards/rejected": -0.1293715536594391,
+      "step": 160
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.3780487804878048e-08,
+      "logits/chosen": -2.226057767868042,
+      "logits/rejected": -2.160684108734131,
+      "logps/chosen": -401.338623046875,
+      "logps/rejected": -358.25018310546875,
+      "loss": 0.6708,
+      "rewards/accuracies": 0.6156250238418579,
+      "rewards/chosen": -0.07205704599618912,
+      "rewards/margins": 0.05227302759885788,
+      "rewards/rejected": -0.1243300810456276,
+      "step": 170
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.48780487804878e-09,
+      "logits/chosen": -2.21893572807312,
+      "logits/rejected": -2.1349940299987793,
+      "logps/chosen": -383.5135498046875,
+      "logps/rejected": -338.13592529296875,
+      "loss": 0.6687,
+      "rewards/accuracies": 0.6456249952316284,
+      "rewards/chosen": -0.07878817617893219,
+      "rewards/margins": 0.05617079883813858,
+      "rewards/rejected": -0.13495896756649017,
+      "step": 180
+    },
+    {
+      "epoch": 2.97,
+      "eval_logits/chosen": -2.256798028945923,
+      "eval_logits/rejected": -2.121875524520874,
+      "eval_logps/chosen": -408.6165466308594,
+      "eval_logps/rejected": -364.0181884765625,
+      "eval_loss": 0.6663674712181091,
+      "eval_rewards/accuracies": 0.6666666865348816,
+      "eval_rewards/chosen": -0.06976744532585144,
+      "eval_rewards/margins": 0.05996997281908989,
+      "eval_rewards/rejected": -0.12973742187023163,
+      "eval_runtime": 39.4977,
+      "eval_samples_per_second": 5.089,
+      "eval_steps_per_second": 1.696,
+      "step": 183
+    },
+    {
+      "epoch": 2.97,
+      "step": 183,
+      "total_flos": 0.0,
+      "train_loss": 0.6770667407682033,
+      "train_runtime": 12894.8655,
+      "train_samples_per_second": 2.29,
+      "train_steps_per_second": 0.014
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 183,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 0.0,
+  "train_batch_size": 5,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:557ca6e635d24ea7237db9d29d8fbec0a8b9e0c93bcc70aaaf903828aae78bc2
+size 4920