Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d78dc3e0bd5990b19125d061cf92c9fffcc40289c8f405656909a0ba80dc472
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e5cf0934d96dfe28717fa2229d994c80527ef023207f243b57514858b8bd579
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bba4c62dd25567c204f063b0fafc5c4985f052b397406bd383f09b2b38e77e4e
 size 85723732

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff8b34569149f07072774feb376adbbdea51365b03038ecd3fa04b42dd5ef060
 size 85723732

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9cb603926f102b1049cbecb608406534648028d4b9f2161b8e0adc0526d5557
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4e8b35f67b259a837f34954ebb1959a4e5e3124f0d5cdafc6e97484486cbd92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bb9c0d62d6b3cf0976c16f73e9bd814b298ebffa1786831bc2a68d8e48809b9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ad54995b081fae25638228c5d9c8f38ca277e5c5ad00bc3e49897b543f84405
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0987598896026611,
-  "best_model_checkpoint": "miner_id_24/checkpoint-550",
-  "epoch": 0.0370426495596976,
   "eval_steps": 50,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -488,6 +488,49 @@
       "eval_samples_per_second": 22.994,
       "eval_steps_per_second": 5.749,
       "step": 550
     }
   ],
   "logging_steps": 10,
@@ -511,12 +554,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.3678613819621376e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0986908674240112,
+  "best_model_checkpoint": "miner_id_24/checkpoint-600",
+  "epoch": 0.04041016315603374,
   "eval_steps": 50,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.994,
       "eval_steps_per_second": 5.749,
       "step": 550
+    },
+    {
+      "epoch": 0.037716152278964826,
+      "grad_norm": 0.6875719428062439,
+      "learning_rate": 2.259661018213333e-06,
+      "loss": 0.9373,
+      "step": 560
+    },
+    {
+      "epoch": 0.038389654998232055,
+      "grad_norm": 0.7366085648536682,
+      "learning_rate": 1.2731645278655445e-06,
+      "loss": 1.0159,
+      "step": 570
+    },
+    {
+      "epoch": 0.03906315771749928,
+      "grad_norm": 0.7185921669006348,
+      "learning_rate": 5.665199789862907e-07,
+      "loss": 1.1235,
+      "step": 580
+    },
+    {
+      "epoch": 0.03973666043676651,
+      "grad_norm": 0.9113447666168213,
+      "learning_rate": 1.4173043232380557e-07,
+      "loss": 1.1926,
+      "step": 590
+    },
+    {
+      "epoch": 0.04041016315603374,
+      "grad_norm": 1.7428311109542847,
+      "learning_rate": 0.0,
+      "loss": 1.2627,
+      "step": 600
+    },
+    {
+      "epoch": 0.04041016315603374,
+      "eval_loss": 1.0986908674240112,
+      "eval_runtime": 1086.2477,
+      "eval_samples_per_second": 23.021,
+      "eval_steps_per_second": 5.756,
+      "step": 600
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.761061642249175e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null