Training in progress, step 240, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28ca0f5984758b0a6bc98d2b9fa3a918322dfc9def650fc2cedeb7b80033ea95
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:0288bde0e0adee15a0cc1db17a7449a8eca313277f1482d1ff0cfd7cab7bec74
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:206af652e7f3377e6c0aecfa1c36bcdf508e6b891b0a50e079a3425838b06728
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f2703fce501b87978e19b3c7bea6d1358a28ff7aa7dadc828ac8570470d59c
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c41bdc40b014e3f55ca8563ea9de673fa395c6cc93a6cb821cfa7f874d5565c3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:89ab1cc6b91f586f7f2f0ee2f276603d7276cb565be5c7500e1ed6a5a0584bb2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95105769f4fba521c26686a89d84be3ea680f62dc39a9c9254e214e0a5a6bc5e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:161da1490be78a40723a580aa2c4f8fdf6c7186d93d25be9a77bba0a93a1a4c9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.021036148071289,
-  "best_model_checkpoint": "miner_id_24/checkpoint-230",
-  "epoch": 0.010395245305190844,
   "eval_steps": 5,
-  "global_step": 230,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1993,6 +1993,92 @@
       "eval_samples_per_second": 52.862,
       "eval_steps_per_second": 26.434,
       "step": 230
     }
   ],
   "logging_steps": 1,
@@ -2021,7 +2107,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2416548249600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.020767211914062,
+  "best_model_checkpoint": "miner_id_24/checkpoint-240",
+  "epoch": 0.010847212492373054,
   "eval_steps": 5,
+  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.862,
       "eval_steps_per_second": 26.434,
       "step": 230
+    },
+    {
+      "epoch": 0.010440442023909063,
+      "grad_norm": 0.4731612503528595,
+      "learning_rate": 0.00011532674274409159,
+      "loss": 44.1151,
+      "step": 231
+    },
+    {
+      "epoch": 0.010485638742627285,
+      "grad_norm": 0.47020676732063293,
+      "learning_rate": 0.00011469286596248181,
+      "loss": 44.0772,
+      "step": 232
+    },
+    {
+      "epoch": 0.010530835461345506,
+      "grad_norm": 0.4738229215145111,
+      "learning_rate": 0.00011405838521470029,
+      "loss": 44.1274,
+      "step": 233
+    },
+    {
+      "epoch": 0.010576032180063727,
+      "grad_norm": 0.5980152487754822,
+      "learning_rate": 0.00011342332658176555,
+      "loss": 44.0543,
+      "step": 234
+    },
+    {
+      "epoch": 0.010621228898781948,
+      "grad_norm": 0.45920702815055847,
+      "learning_rate": 0.00011278771616845061,
+      "loss": 44.0846,
+      "step": 235
+    },
+    {
+      "epoch": 0.010621228898781948,
+      "eval_loss": 11.02093505859375,
+      "eval_runtime": 176.025,
+      "eval_samples_per_second": 52.93,
+      "eval_steps_per_second": 26.468,
+      "step": 235
+    },
+    {
+      "epoch": 0.01066642561750017,
+      "grad_norm": 0.48931440711021423,
+      "learning_rate": 0.00011215158010221005,
+      "loss": 44.0991,
+      "step": 236
+    },
+    {
+      "epoch": 0.01071162233621839,
+      "grad_norm": 0.4345873296260834,
+      "learning_rate": 0.00011151494453210596,
+      "loss": 44.0491,
+      "step": 237
+    },
+    {
+      "epoch": 0.010756819054936612,
+      "grad_norm": 0.43655380606651306,
+      "learning_rate": 0.00011087783562773311,
+      "loss": 44.0903,
+      "step": 238
+    },
+    {
+      "epoch": 0.010802015773654833,
+      "grad_norm": 0.616533637046814,
+      "learning_rate": 0.00011024027957814314,
+      "loss": 44.1318,
+      "step": 239
+    },
+    {
+      "epoch": 0.010847212492373054,
+      "grad_norm": 0.45536908507347107,
+      "learning_rate": 0.00010960230259076818,
+      "loss": 44.0812,
+      "step": 240
+    },
+    {
+      "epoch": 0.010847212492373054,
+      "eval_loss": 11.020767211914062,
+      "eval_runtime": 176.3636,
+      "eval_samples_per_second": 52.828,
+      "eval_steps_per_second": 26.417,
+      "step": 240
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2521615564800.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null