Model save

Browse files

Files changed (9) hide show

README.md +4 -7
all_results.json +3 -3
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +3 -3
trainer_state.json +20 -20
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,15 +2,12 @@
 license: apache-2.0
 base_model: BioMistral/BioMistral-7B
 tags:
-- alignment-handbook
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- HuggingFaceH4/deita-10k-v0-sft
 model-index:
 - name: biomistral-7b-1e-6-wo-kqa_silver_wogold-iter-sft-step1_lr
   results: []
@@ -21,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 # biomistral-7b-1e-6-wo-kqa_silver_wogold-iter-sft-step1_lr
-This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on the HuggingFaceH4/deita-10k-v0-sft dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.8593
@@ -61,7 +58,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
 | 1.7014        | 0.96  | 6    | 1.9007          |
-| 1.6285        | 1.92  | 12   | 1.8676          |
 | 1.5573        | 2.88  | 18   | 1.8593          |

 license: apache-2.0
 base_model: BioMistral/BioMistral-7B
 tags:
 - trl
 - sft
+- alignment-handbook
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: biomistral-7b-1e-6-wo-kqa_silver_wogold-iter-sft-step1_lr
   results: []
 # biomistral-7b-1e-6-wo-kqa_silver_wogold-iter-sft-step1_lr
+This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on the generator dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.8593
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
 | 1.7014        | 0.96  | 6    | 1.9007          |
+| 1.6286        | 1.92  | 12   | 1.8676          |
 | 1.5573        | 2.88  | 18   | 1.8593          |

all_results.json CHANGED Viewed

@@ -5,9 +5,9 @@
     "eval_samples": 904,
     "eval_samples_per_second": 11.397,
     "eval_steps_per_second": 0.76,
-    "train_loss": 1.6118707987997267,
-    "train_runtime": 322.7432,
     "train_samples": 4047,
-    "train_samples_per_second": 3.625,
     "train_steps_per_second": 0.056
 }

     "eval_samples": 904,
     "eval_samples_per_second": 11.397,
     "eval_steps_per_second": 0.76,
+    "train_loss": 1.6118529703882005,
+    "train_runtime": 323.9524,
     "train_samples": 4047,
+    "train_samples_per_second": 3.612,
     "train_steps_per_second": 0.056
 }

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
+  "use_cache": false,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31f127cd02a3bf51168e566309eedc16bd6f8a26d8411875db56b442610c3124
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8297138653b893c49719f137e7ab7ab967c7f84a67590b8926db3065d3ed8c97
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99f6030f49ed6dc82696a145e6f31c62037ba7ad1920a569c8fa2fd0d3988087
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1a7ef2aac167b812aed6e137d98a0bb018c58745a0bcce324c05385232dc108
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3074bb494885b3e4657c12c64650763105c56e73c183931df7bb9cde8f93419
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f85a7c4cd93f2e154c58c6533469d614beb02201e1425004b4bb84d1eb59a23
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.88,
-    "train_loss": 1.6118707987997267,
-    "train_runtime": 322.7432,
     "train_samples": 4047,
-    "train_samples_per_second": 3.625,
     "train_steps_per_second": 0.056
 }

 {
     "epoch": 2.88,
+    "train_loss": 1.6118529703882005,
+    "train_runtime": 323.9524,
     "train_samples": 4047,
+    "train_samples_per_second": 3.612,
     "train_steps_per_second": 0.056
 }

trainer_state.json CHANGED Viewed

@@ -10,63 +10,63 @@
   "log_history": [
     {
       "epoch": 0.16,
-      "grad_norm": 10.593756006766313,
       "learning_rate": 5e-07,
       "loss": 1.7036,
       "step": 1
     },
     {
       "epoch": 0.8,
-      "grad_norm": 7.23312775238484,
       "learning_rate": 9.157348061512726e-07,
       "loss": 1.7014,
       "step": 5
     },
     {
       "epoch": 0.96,
-      "eval_loss": 1.9007213115692139,
-      "eval_runtime": 5.4737,
-      "eval_samples_per_second": 10.961,
-      "eval_steps_per_second": 0.731,
       "step": 6
     },
     {
       "epoch": 1.6,
-      "grad_norm": 5.80431534123651,
       "learning_rate": 5e-07,
-      "loss": 1.6285,
       "step": 10
     },
     {
       "epoch": 1.92,
-      "eval_loss": 1.8675754070281982,
-      "eval_runtime": 5.3012,
-      "eval_samples_per_second": 11.318,
-      "eval_steps_per_second": 0.755,
       "step": 12
     },
     {
       "epoch": 2.4,
-      "grad_norm": 4.830213221606365,
       "learning_rate": 8.426519384872732e-08,
       "loss": 1.5573,
       "step": 15
     },
     {
       "epoch": 2.88,
-      "eval_loss": 1.859323263168335,
-      "eval_runtime": 5.2878,
-      "eval_samples_per_second": 11.347,
-      "eval_steps_per_second": 0.756,
       "step": 18
     },
     {
       "epoch": 2.88,
       "step": 18,
       "total_flos": 3716488888320.0,
-      "train_loss": 1.6118707987997267,
-      "train_runtime": 322.7432,
-      "train_samples_per_second": 3.625,
       "train_steps_per_second": 0.056
     }
   ],

   "log_history": [
     {
       "epoch": 0.16,
+      "grad_norm": 10.590332717346035,
       "learning_rate": 5e-07,
       "loss": 1.7036,
       "step": 1
     },
     {
       "epoch": 0.8,
+      "grad_norm": 7.214343866416259,
       "learning_rate": 9.157348061512726e-07,
       "loss": 1.7014,
       "step": 5
     },
     {
       "epoch": 0.96,
+      "eval_loss": 1.9007039070129395,
+      "eval_runtime": 5.4927,
+      "eval_samples_per_second": 10.924,
+      "eval_steps_per_second": 0.728,
       "step": 6
     },
     {
       "epoch": 1.6,
+      "grad_norm": 5.81180350509424,
       "learning_rate": 5e-07,
+      "loss": 1.6286,
       "step": 10
     },
     {
       "epoch": 1.92,
+      "eval_loss": 1.8676100969314575,
+      "eval_runtime": 5.3411,
+      "eval_samples_per_second": 11.234,
+      "eval_steps_per_second": 0.749,
       "step": 12
     },
     {
       "epoch": 2.4,
+      "grad_norm": 4.832124501533971,
       "learning_rate": 8.426519384872732e-08,
       "loss": 1.5573,
       "step": 15
     },
     {
       "epoch": 2.88,
+      "eval_loss": 1.859337568283081,
+      "eval_runtime": 5.2859,
+      "eval_samples_per_second": 11.351,
+      "eval_steps_per_second": 0.757,
       "step": 18
     },
     {
       "epoch": 2.88,
       "step": 18,
       "total_flos": 3716488888320.0,
+      "train_loss": 1.6118529703882005,
+      "train_runtime": 323.9524,
+      "train_samples_per_second": 3.612,
       "train_steps_per_second": 0.056
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fef48fe19ee49be96461e1e68e3e6c8577ba3fa2893dcbbc1ab65e5bfc0ef3a5
 size 6328

 version https://git-lfs.github.com/spec/v1
+oid sha256:3198a07998eb6e49380b77fcbaae1efc9d388db270fe16f6b81061e68888540b
 size 6328