Training in progress, step 80, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b3090f899b46d492f32633e4515d9d6ae108238f6d47c3e88688671dccb48c
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:819d34c3c14db785e0dd28311c01d0c8f6dcd03cdecfe856b6d00ab306a6259e
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2046aeb674d75035e95a8d14adfeee0462127d510df5daeba02a5d1eab404340
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf9b6d9e891724bb31db21c88f9512591eca8a4a6ad4e8699987a16aa8a16498
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:670916a94714b472f443269033bde75c99b199370216d2fe1fb8611619905402
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:77d6b80ff98d1964921d012a443cb87b248a1f2b5da6296fdc6b0c8c5f518f22
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1074437c4c638775a20a86de2e689d1a14d0ff4e4137df2ddeb45e94a776caef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7803647d52fbd7429a283dc695ba7cf653ff890c06d5c50f67d0a09610438889
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.046669960021973,
-  "best_model_checkpoint": "miner_id_24/checkpoint-70",
-  "epoch": 0.003163770310275474,
   "eval_steps": 5,
-  "global_step": 70,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -617,6 +617,92 @@
       "eval_samples_per_second": 52.828,
       "eval_steps_per_second": 26.417,
       "step": 70
     }
   ],
   "logging_steps": 1,
@@ -645,7 +731,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 735471206400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.038910865783691,
+  "best_model_checkpoint": "miner_id_24/checkpoint-80",
+  "epoch": 0.0036157374974576844,
   "eval_steps": 5,
+  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.828,
       "eval_steps_per_second": 26.417,
       "step": 70
+    },
+    {
+      "epoch": 0.003208967028993695,
+      "grad_norm": 0.7522275447845459,
+      "learning_rate": 0.00019244917309000817,
+      "loss": 44.2246,
+      "step": 71
+    },
+    {
+      "epoch": 0.0032541637477119163,
+      "grad_norm": 0.7135974168777466,
+      "learning_rate": 0.00019220287022200707,
+      "loss": 44.2111,
+      "step": 72
+    },
+    {
+      "epoch": 0.003299360466430137,
+      "grad_norm": 0.7275662422180176,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 44.1464,
+      "step": 73
+    },
+    {
+      "epoch": 0.003344557185148358,
+      "grad_norm": 0.6742229461669922,
+      "learning_rate": 0.00019169890446976454,
+      "loss": 44.2105,
+      "step": 74
+    },
+    {
+      "epoch": 0.0033897539038665794,
+      "grad_norm": 0.6085646152496338,
+      "learning_rate": 0.00019144126230158127,
+      "loss": 44.0926,
+      "step": 75
+    },
+    {
+      "epoch": 0.0033897539038665794,
+      "eval_loss": 11.042237281799316,
+      "eval_runtime": 176.114,
+      "eval_samples_per_second": 52.903,
+      "eval_steps_per_second": 26.454,
+      "step": 75
+    },
+    {
+      "epoch": 0.0034349506225848005,
+      "grad_norm": 0.7245734333992004,
+      "learning_rate": 0.0001911798613412557,
+      "loss": 44.2154,
+      "step": 76
+    },
+    {
+      "epoch": 0.0034801473413030213,
+      "grad_norm": 0.7311281561851501,
+      "learning_rate": 0.0001909147123339575,
+      "loss": 44.1687,
+      "step": 77
+    },
+    {
+      "epoch": 0.0035253440600212425,
+      "grad_norm": 0.6399495601654053,
+      "learning_rate": 0.0001906458261789238,
+      "loss": 44.1596,
+      "step": 78
+    },
+    {
+      "epoch": 0.0035705407787394636,
+      "grad_norm": 0.5650178790092468,
+      "learning_rate": 0.00019037321392901136,
+      "loss": 44.1466,
+      "step": 79
+    },
+    {
+      "epoch": 0.0036157374974576844,
+      "grad_norm": 0.6039579510688782,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 44.1955,
+      "step": 80
+    },
+    {
+      "epoch": 0.0036157374974576844,
+      "eval_loss": 11.038910865783691,
+      "eval_runtime": 176.3853,
+      "eval_samples_per_second": 52.822,
+      "eval_steps_per_second": 26.414,
+      "step": 80
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 840538521600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null