Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44ac53318cef16db2c1f3ebf4ebf7492f6dc6fce86073fe04feffb8fb63b9642
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:4343dd8d1a3cae2275c1b0775c85aafda99ba00210dc9cbfd6d2effd170b7b85
 size 323014168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c75c7dea273f524b3f5ffbc10fdbc12e406b3579c12503f7f4c8c4a1731f0da
 size 646253418

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd42158c3831bab1671ace88d8baad72e71cdec3f442f9320594be4bf179907c
 size 646253418

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7550234f3654f47ef268ddebed5f7ca0593527b2051f8a462946f6efc1354fba
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c172fb92d30a3997e4403c7053678be36d697a289f64f1d5bf73cdcda2e89547
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4674c1ecea3fb20b0e4d1bb402c7a39e33c2fa1f9bb9e7c0c9a279cf7173975a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eefced3cc3821b717603a74ca9084a0add144eee88dcae3a554a7a32cfb5b8c
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9c357a8462dc9b8384b2ba89f44ce3ff70acc445c57c40a1fb4112fd6c0dd94
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4f0a25f271ba57cea38506e22ec2fac7b5f3b817d44cfc3220b45decdd324f2
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90cefe94b05ef9a9611cf4d51c2632e86145d2186490af2725ad80cc0784fdf5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:62b20abbb823060076b1a3eb033cb16f6b5fc1c0d26dfa41bcc3cd89efd53e2e
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38b483de1bf1f4ff353f1ec4a8c9df2b2847b745cbf851617486bbe747b1c0c0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b88cf1ca29131bea6a1c678610dbfd2c6c90cc06115bb015c84ed8386046423a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.017774144187569618,
-  "best_model_checkpoint": "miner_id_24/checkpoint-75",
-  "epoch": 0.3665241295051924,
   "eval_steps": 25,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -564,6 +564,189 @@
       "eval_samples_per_second": 15.49,
       "eval_steps_per_second": 4.027,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -592,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.436086715973632e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.012017174623906612,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.48869883934025654,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.49,
       "eval_steps_per_second": 4.027,
       "step": 75
+    },
+    {
+      "epoch": 0.371411117898595,
+      "grad_norm": 0.3393837809562683,
+      "learning_rate": 5.696287243144013e-05,
+      "loss": 0.0564,
+      "step": 76
+    },
+    {
+      "epoch": 0.37629810629199756,
+      "grad_norm": 0.19871211051940918,
+      "learning_rate": 5.598166982655526e-05,
+      "loss": 0.0472,
+      "step": 77
+    },
+    {
+      "epoch": 0.3811850946854001,
+      "grad_norm": 0.20391109585762024,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.0435,
+      "step": 78
+    },
+    {
+      "epoch": 0.3860720830788027,
+      "grad_norm": 0.18788817524909973,
+      "learning_rate": 5.4018330173444754e-05,
+      "loss": 0.0379,
+      "step": 79
+    },
+    {
+      "epoch": 0.39095907147220527,
+      "grad_norm": 0.14316879212856293,
+      "learning_rate": 5.303712756855988e-05,
+      "loss": 0.0283,
+      "step": 80
+    },
+    {
+      "epoch": 0.39584605986560784,
+      "grad_norm": 0.17786382138729095,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 0.027,
+      "step": 81
+    },
+    {
+      "epoch": 0.4007330482590104,
+      "grad_norm": 0.21436955034732819,
+      "learning_rate": 5.107799157635538e-05,
+      "loss": 0.0309,
+      "step": 82
+    },
+    {
+      "epoch": 0.405620036652413,
+      "grad_norm": 0.16341635584831238,
+      "learning_rate": 5.0100990631661606e-05,
+      "loss": 0.0287,
+      "step": 83
+    },
+    {
+      "epoch": 0.41050702504581554,
+      "grad_norm": 0.19714505970478058,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 0.0267,
+      "step": 84
+    },
+    {
+      "epoch": 0.41539401343921806,
+      "grad_norm": 0.1616361290216446,
+      "learning_rate": 4.8154447621453744e-05,
+      "loss": 0.0217,
+      "step": 85
+    },
+    {
+      "epoch": 0.4202810018326206,
+      "grad_norm": 0.11600978672504425,
+      "learning_rate": 4.718583200498814e-05,
+      "loss": 0.0178,
+      "step": 86
+    },
+    {
+      "epoch": 0.4251679902260232,
+      "grad_norm": 0.10082818567752838,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 0.0108,
+      "step": 87
+    },
+    {
+      "epoch": 0.43005497861942577,
+      "grad_norm": 0.21947574615478516,
+      "learning_rate": 4.526021737278538e-05,
+      "loss": 0.0339,
+      "step": 88
+    },
+    {
+      "epoch": 0.43494196701282833,
+      "grad_norm": 0.231426402926445,
+      "learning_rate": 4.430413484532222e-05,
+      "loss": 0.0479,
+      "step": 89
+    },
+    {
+      "epoch": 0.4398289554062309,
+      "grad_norm": 0.23115426301956177,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 0.0427,
+      "step": 90
+    },
+    {
+      "epoch": 0.4447159437996335,
+      "grad_norm": 0.19273918867111206,
+      "learning_rate": 4.240769436860537e-05,
+      "loss": 0.0372,
+      "step": 91
+    },
+    {
+      "epoch": 0.44960293219303604,
+      "grad_norm": 0.17096419632434845,
+      "learning_rate": 4.146823902230772e-05,
+      "loss": 0.0293,
+      "step": 92
+    },
+    {
+      "epoch": 0.4544899205864386,
+      "grad_norm": 0.15599671006202698,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 0.0252,
+      "step": 93
+    },
+    {
+      "epoch": 0.4593769089798412,
+      "grad_norm": 0.14636379480361938,
+      "learning_rate": 3.960909355034491e-05,
+      "loss": 0.0289,
+      "step": 94
+    },
+    {
+      "epoch": 0.46426389737324375,
+      "grad_norm": 0.1349724531173706,
+      "learning_rate": 3.8690288277233435e-05,
+      "loss": 0.021,
+      "step": 95
+    },
+    {
+      "epoch": 0.4691508857666463,
+      "grad_norm": 0.18591056764125824,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.0206,
+      "step": 96
+    },
+    {
+      "epoch": 0.4740378741600489,
+      "grad_norm": 0.1168551817536354,
+      "learning_rate": 3.687639895635684e-05,
+      "loss": 0.017,
+      "step": 97
+    },
+    {
+      "epoch": 0.47892486255345146,
+      "grad_norm": 0.15066345036029816,
+      "learning_rate": 3.598217822166854e-05,
+      "loss": 0.0151,
+      "step": 98
+    },
+    {
+      "epoch": 0.483811850946854,
+      "grad_norm": 0.10822492092847824,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 0.0098,
+      "step": 99
+    },
+    {
+      "epoch": 0.48869883934025654,
+      "grad_norm": 0.09653550386428833,
+      "learning_rate": 3.422131240442349e-05,
+      "loss": 0.0064,
+      "step": 100
+    },
+    {
+      "epoch": 0.48869883934025654,
+      "eval_loss": 0.012017174623906612,
+      "eval_runtime": 3.2213,
+      "eval_samples_per_second": 15.522,
+      "eval_steps_per_second": 4.036,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1248115621298176e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null