Training in progress, step 270, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c81d175e794ab238d63b2a692ce503c5c4dfef3174dfee2601e03d21ee7e7ff
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:75a3e84096039afb527d22d691d180e109ca9921f708bdaa27632df4487a4260
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6588d9206907a6c00235f951ec1e76bb5c61306e975035df3959233feba0de44
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc194bba403caad9cbc17f9f6c4159d35cde33e5cba286cd96d11edced40608d
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1be1448f42a3a082b7043ab2c191269d82518d2f41873081925d363ddc8352ea
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3991cb24901cdd4ded826a1eb99233632b9b31143f5465b97735bc74e1caa25
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fac612e1de34a13e54762dd7927b1179494a688e77b41a80ece98fe382c45710
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:765f5571460aced30b253ddf135511867127c526d96f703a3f7058177ad62b46
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.020062446594238,
-  "best_model_checkpoint": "miner_id_24/checkpoint-260",
-  "epoch": 0.011751146866737476,
   "eval_steps": 5,
-  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2251,6 +2251,92 @@
       "eval_samples_per_second": 52.852,
       "eval_steps_per_second": 26.429,
       "step": 260
     }
   ],
   "logging_steps": 1,
@@ -2279,7 +2365,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2731750195200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.01980209350586,
+  "best_model_checkpoint": "miner_id_24/checkpoint-270",
+  "epoch": 0.012203114053919686,
   "eval_steps": 5,
+  "global_step": 270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.852,
       "eval_steps_per_second": 26.429,
       "step": 260
+    },
+    {
+      "epoch": 0.011796343585455695,
+      "grad_norm": 0.50531005859375,
+      "learning_rate": 9.615410055896015e-05,
+      "loss": 44.0094,
+      "step": 261
+    },
+    {
+      "epoch": 0.011841540304173916,
+      "grad_norm": 0.6205224990844727,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 44.1,
+      "step": 262
+    },
+    {
+      "epoch": 0.011886737022892137,
+      "grad_norm": 0.5274375081062317,
+      "learning_rate": 9.48731177926821e-05,
+      "loss": 44.1223,
+      "step": 263
+    },
+    {
+      "epoch": 0.011931933741610359,
+      "grad_norm": 0.5149595141410828,
+      "learning_rate": 9.423292936646257e-05,
+      "loss": 44.1192,
+      "step": 264
+    },
+    {
+      "epoch": 0.01197713046032858,
+      "grad_norm": 0.5359209179878235,
+      "learning_rate": 9.359297800192872e-05,
+      "loss": 44.1155,
+      "step": 265
+    },
+    {
+      "epoch": 0.01197713046032858,
+      "eval_loss": 11.019892692565918,
+      "eval_runtime": 176.1866,
+      "eval_samples_per_second": 52.881,
+      "eval_steps_per_second": 26.444,
+      "step": 265
+    },
+    {
+      "epoch": 0.012022327179046801,
+      "grad_norm": 0.5752252340316772,
+      "learning_rate": 9.29532900049746e-05,
+      "loss": 44.0821,
+      "step": 266
+    },
+    {
+      "epoch": 0.012067523897765022,
+      "grad_norm": 0.5125178098678589,
+      "learning_rate": 9.231389167066837e-05,
+      "loss": 44.061,
+      "step": 267
+    },
+    {
+      "epoch": 0.012112720616483243,
+      "grad_norm": 0.5295204520225525,
+      "learning_rate": 9.167480928217108e-05,
+      "loss": 43.9889,
+      "step": 268
+    },
+    {
+      "epoch": 0.012157917335201465,
+      "grad_norm": 0.40016570687294006,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 44.0684,
+      "step": 269
+    },
+    {
+      "epoch": 0.012203114053919686,
+      "grad_norm": 0.42660149931907654,
+      "learning_rate": 9.039769740923183e-05,
+      "loss": 44.0547,
+      "step": 270
+    },
+    {
+      "epoch": 0.012203114053919686,
+      "eval_loss": 11.01980209350586,
+      "eval_runtime": 176.1599,
+      "eval_samples_per_second": 52.889,
+      "eval_steps_per_second": 26.448,
+      "step": 270
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2836817510400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null