Model save

Browse files

Files changed (9) hide show

README.md +6 -7
all_results.json +5 -5
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Sep12_14-33-22_cs420n/events.out.tfevents.1726122939.cs420n.2362893.0 +2 -2
train_results.json +5 -5
trainer_state.json +45 -45

README.md CHANGED Viewed

@@ -1,5 +1,4 @@
 ---
-library_name: transformers
 tags:
 - trl
 - sft
@@ -18,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0593
 ## Model description
@@ -55,14 +54,14 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.3697        | 0.9389 | 12   | 1.2250          |
-| 1.0231        | 1.9560 | 25   | 1.0662          |
-| 0.901         | 2.8166 | 36   | 1.0593          |
 ### Framework versions
-- Transformers 4.44.2
 - Pytorch 2.4.1+cu121
-- Datasets 2.21.0
 - Tokenizers 0.19.1

 ---
 tags:
 - trl
 - sft
 This model was trained from scratch on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0547
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.4332        | 0.9505 | 12   | 1.2468          |
+| 1.0421        | 1.9802 | 25   | 1.0650          |
+| 0.9193        | 2.8515 | 36   | 1.0547          |
 ### Framework versions
+- Transformers 4.42.4
 - Pytorch 2.4.1+cu121
+- Datasets 2.20.0
 - Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.8166259168704157,
     "total_flos": 120497991843840.0,
-    "train_loss": 1.135702931218677,
-    "train_runtime": 11898.7844,
     "train_samples": 49800,
-    "train_samples_per_second": 3.299,
-    "train_steps_per_second": 0.003
 }

 {
+    "epoch": 2.8514851485148514,
     "total_flos": 120497991843840.0,
+    "train_loss": 1.160024169418547,
+    "train_runtime": 9224.6118,
     "train_samples": 49800,
+    "train_samples_per_second": 4.198,
+    "train_steps_per_second": 0.004
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.44.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.42.4"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce7d89f4744a014e2bfbeb450afe7ff389ba2708f0b4f6adb0c84831ebba7bb2
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b48679daa36443b5ff8f888d574e8252a4a5751270673ad02fc4f60703a0a6d
 size 4949453792

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22237e24f10cddb852a9b337a3ffae56e4dfe3fe4837650ea0b7f1725daa5f08
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:249978ba656652f2370256a901f63dcdf5bae38a75e510bc953005243e05cc37
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48dbf98abfd3926d37e2a5a966ec2d135ca7c774d82c3aec9e5c38c39a9df30c
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d637cd17384a9c92db142d4fb9e1d05dfb5e6d7e6bb895474f685ab708e4205
 size 4546807800

runs/Sep12_14-33-22_cs420n/events.out.tfevents.1726122939.cs420n.2362893.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1608a2cfeb31f0abc670dc88846f164d1a873be6047c2847f575ab7edc163740
-size 7653

 version https://git-lfs.github.com/spec/v1
+oid sha256:e83e579f50df8b8cbf38e93ef1ea62323815a3dede5459ad3b1ea79d3bd7de21
+size 8267

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.8166259168704157,
     "total_flos": 120497991843840.0,
-    "train_loss": 1.135702931218677,
-    "train_runtime": 11898.7844,
     "train_samples": 49800,
-    "train_samples_per_second": 3.299,
-    "train_steps_per_second": 0.003
 }

 {
+    "epoch": 2.8514851485148514,
     "total_flos": 120497991843840.0,
+    "train_loss": 1.160024169418547,
+    "train_runtime": 9224.6118,
     "train_samples": 49800,
+    "train_samples_per_second": 4.198,
+    "train_steps_per_second": 0.004
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8166259168704157,
   "eval_steps": 500,
   "global_step": 36,
   "is_hyper_param_search": false,
@@ -9,93 +9,93 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.07823960880195599,
-      "grad_norm": 24.32354215756571,
       "learning_rate": 5e-06,
-      "loss": 1.579,
       "step": 1
     },
     {
-      "epoch": 0.39119804400978,
-      "grad_norm": 49.96314997488065,
       "learning_rate": 1.995184726672197e-05,
-      "loss": 1.4677,
       "step": 5
     },
     {
-      "epoch": 0.78239608801956,
-      "grad_norm": 4.9439904702205855,
       "learning_rate": 1.8314696123025456e-05,
-      "loss": 1.3697,
       "step": 10
     },
     {
-      "epoch": 0.9388753056234719,
-      "eval_loss": 1.2249956130981445,
-      "eval_runtime": 6.2806,
-      "eval_samples_per_second": 8.439,
-      "eval_steps_per_second": 0.318,
       "step": 12
     },
     {
-      "epoch": 1.17359413202934,
-      "grad_norm": 5.393870573942289,
       "learning_rate": 1.4713967368259981e-05,
-      "loss": 1.2118,
       "step": 15
     },
     {
-      "epoch": 1.56479217603912,
-      "grad_norm": 1.7797044387765701,
       "learning_rate": 1e-05,
-      "loss": 1.0764,
       "step": 20
     },
     {
-      "epoch": 1.9559902200488999,
-      "grad_norm": 1.307540863093363,
       "learning_rate": 5.286032631740023e-06,
-      "loss": 1.0231,
       "step": 25
     },
     {
-      "epoch": 1.9559902200488999,
-      "eval_loss": 1.066247820854187,
-      "eval_runtime": 8.3677,
-      "eval_samples_per_second": 6.334,
-      "eval_steps_per_second": 0.239,
       "step": 25
     },
     {
-      "epoch": 2.34718826405868,
-      "grad_norm": 1.1252690680547968,
       "learning_rate": 1.6853038769745466e-06,
-      "loss": 0.93,
       "step": 30
     },
     {
-      "epoch": 2.73838630806846,
-      "grad_norm": 0.7799666146844121,
       "learning_rate": 4.815273327803183e-08,
-      "loss": 0.901,
       "step": 35
     },
     {
-      "epoch": 2.8166259168704157,
-      "eval_loss": 1.0592604875564575,
-      "eval_runtime": 8.1855,
-      "eval_samples_per_second": 6.475,
-      "eval_steps_per_second": 0.244,
       "step": 36
     },
     {
-      "epoch": 2.8166259168704157,
       "step": 36,
       "total_flos": 120497991843840.0,
-      "train_loss": 1.135702931218677,
-      "train_runtime": 11898.7844,
-      "train_samples_per_second": 3.299,
-      "train_steps_per_second": 0.003
     }
   ],
   "logging_steps": 5,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8514851485148514,
   "eval_steps": 500,
   "global_step": 36,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.07920792079207921,
+      "grad_norm": 25.20428267668325,
       "learning_rate": 5e-06,
+      "loss": 1.5917,
       "step": 1
     },
     {
+      "epoch": 0.39603960396039606,
+      "grad_norm": 36.917025665063875,
       "learning_rate": 1.995184726672197e-05,
+      "loss": 1.4728,
       "step": 5
     },
     {
+      "epoch": 0.7920792079207921,
+      "grad_norm": 8.149660114746355,
       "learning_rate": 1.8314696123025456e-05,
+      "loss": 1.4332,
       "step": 10
     },
     {
+      "epoch": 0.9504950495049505,
+      "eval_loss": 1.2468267679214478,
+      "eval_runtime": 5.7996,
+      "eval_samples_per_second": 8.966,
+      "eval_steps_per_second": 0.345,
       "step": 12
     },
     {
+      "epoch": 1.188118811881188,
+      "grad_norm": 7.683983380513048,
       "learning_rate": 1.4713967368259981e-05,
+      "loss": 1.2317,
       "step": 15
     },
     {
+      "epoch": 1.5841584158415842,
+      "grad_norm": 2.458006119450546,
       "learning_rate": 1e-05,
+      "loss": 1.1031,
       "step": 20
     },
     {
+      "epoch": 1.9801980198019802,
+      "grad_norm": 1.4615528467429235,
       "learning_rate": 5.286032631740023e-06,
+      "loss": 1.0421,
       "step": 25
     },
     {
+      "epoch": 1.9801980198019802,
+      "eval_loss": 1.065010666847229,
+      "eval_runtime": 5.6499,
+      "eval_samples_per_second": 9.204,
+      "eval_steps_per_second": 0.354,
       "step": 25
     },
     {
+      "epoch": 2.376237623762376,
+      "grad_norm": 1.251106845075615,
       "learning_rate": 1.6853038769745466e-06,
+      "loss": 0.9444,
       "step": 30
     },
     {
+      "epoch": 2.772277227722772,
+      "grad_norm": 0.8336224848562745,
       "learning_rate": 4.815273327803183e-08,
+      "loss": 0.9193,
       "step": 35
     },
     {
+      "epoch": 2.8514851485148514,
+      "eval_loss": 1.0546845197677612,
+      "eval_runtime": 5.7189,
+      "eval_samples_per_second": 9.093,
+      "eval_steps_per_second": 0.35,
       "step": 36
     },
     {
+      "epoch": 2.8514851485148514,
       "step": 36,
       "total_flos": 120497991843840.0,
+      "train_loss": 1.160024169418547,
+      "train_runtime": 9224.6118,
+      "train_samples_per_second": 4.198,
+      "train_steps_per_second": 0.004
     }
   ],
   "logging_steps": 5,