Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba84f8991e498e4ff4d2e3637f6f7cae3d3eece5e57657811a668ef5a51b723
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:e28a0ade156e8c4b26ecd907545666d899ade98439696b7d0e2a4fc781bef549
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:583032bb7204a61a7ccc571f2813cdedef8c069d7683ea38534ce05bbb879a67
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:255a16a598ec7878a5cd367bb9d9c59ebd6fbf2ddcc6c9d6353c1a7414268368
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dfabff07c61a2224791ea9e9d5fbd8de2ed3046e538773d52df97071cf648d3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:033d5cb5501dc23f58f6ebfb31ad04107193f4d086b49784640d1e6bdaa4cd13
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ea7ff16b0c30a914eb0d145e3fb06ff9027c6cd2408e766ce8a09accab89a4d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e69e2b49ea642509f0c688c16fb190b7cf27dac0a18903a5e2d1467d0343d8b8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.2418150901794434,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.06056935190793458,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.513,
       "eval_steps_per_second": 1.756,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.70943641780224e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.1881558895111084,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.12113870381586916,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.513,
       "eval_steps_per_second": 1.756,
       "step": 25
+    },
+    {
+      "epoch": 0.06299212598425197,
+      "grad_norm": 1.1748727560043335,
+      "learning_rate": 0.0001,
+      "loss": 3.0056,
+      "step": 26
+    },
+    {
+      "epoch": 0.06541490006056935,
+      "grad_norm": 3.2900516986846924,
+      "learning_rate": 9.345968707698569e-05,
+      "loss": 3.601,
+      "step": 27
+    },
+    {
+      "epoch": 0.06783767413688674,
+      "grad_norm": 2.351978063583374,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 2.9973,
+      "step": 28
+    },
+    {
+      "epoch": 0.07026044821320412,
+      "grad_norm": 5.829685211181641,
+      "learning_rate": 8.049096779838719e-05,
+      "loss": 3.0943,
+      "step": 29
+    },
+    {
+      "epoch": 0.0726832222895215,
+      "grad_norm": 6.204741954803467,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 3.156,
+      "step": 30
+    },
+    {
+      "epoch": 0.07510599636583888,
+      "grad_norm": 2.1339845657348633,
+      "learning_rate": 6.785605346968386e-05,
+      "loss": 3.2766,
+      "step": 31
+    },
+    {
+      "epoch": 0.07752877044215627,
+      "grad_norm": 1.808945655822754,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 2.9227,
+      "step": 32
+    },
+    {
+      "epoch": 0.07995154451847365,
+      "grad_norm": 2.8036043643951416,
+      "learning_rate": 5.577113097809989e-05,
+      "loss": 3.0523,
+      "step": 33
+    },
+    {
+      "epoch": 0.08237431859479104,
+      "grad_norm": 1.0157161951065063,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 2.8263,
+      "step": 34
+    },
+    {
+      "epoch": 0.08479709267110842,
+      "grad_norm": 1.2105307579040527,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 2.7368,
+      "step": 35
+    },
+    {
+      "epoch": 0.08721986674742581,
+      "grad_norm": 5.625417709350586,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 3.132,
+      "step": 36
+    },
+    {
+      "epoch": 0.08964264082374318,
+      "grad_norm": 2.4896271228790283,
+      "learning_rate": 3.406541848999312e-05,
+      "loss": 2.8508,
+      "step": 37
+    },
+    {
+      "epoch": 0.09206541490006057,
+      "grad_norm": 3.5829272270202637,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 3.223,
+      "step": 38
+    },
+    {
+      "epoch": 0.09448818897637795,
+      "grad_norm": 2.3777010440826416,
+      "learning_rate": 2.4816019252102273e-05,
+      "loss": 2.8025,
+      "step": 39
+    },
+    {
+      "epoch": 0.09691096305269534,
+      "grad_norm": 2.8074324131011963,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 3.0763,
+      "step": 40
+    },
+    {
+      "epoch": 0.09933373712901272,
+      "grad_norm": 2.213160753250122,
+      "learning_rate": 1.6853038769745467e-05,
+      "loss": 2.7823,
+      "step": 41
+    },
+    {
+      "epoch": 0.10175651120533011,
+      "grad_norm": 3.2287349700927734,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 3.2519,
+      "step": 42
+    },
+    {
+      "epoch": 0.10417928528164748,
+      "grad_norm": 2.1493735313415527,
+      "learning_rate": 1.0312725846731175e-05,
+      "loss": 2.7395,
+      "step": 43
+    },
+    {
+      "epoch": 0.10660205935796487,
+      "grad_norm": 4.258261680603027,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 2.8477,
+      "step": 44
+    },
+    {
+      "epoch": 0.10902483343428225,
+      "grad_norm": 10.491841316223145,
+      "learning_rate": 5.306987050489442e-06,
+      "loss": 3.1237,
+      "step": 45
+    },
+    {
+      "epoch": 0.11144760751059964,
+      "grad_norm": 3.0685977935791016,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 2.8701,
+      "step": 46
+    },
+    {
+      "epoch": 0.11387038158691702,
+      "grad_norm": 1.838558316230774,
+      "learning_rate": 1.921471959676957e-06,
+      "loss": 2.8348,
+      "step": 47
+    },
+    {
+      "epoch": 0.11629315566323441,
+      "grad_norm": 1.4132007360458374,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 2.6871,
+      "step": 48
+    },
+    {
+      "epoch": 0.11871592973955179,
+      "grad_norm": 1.1663188934326172,
+      "learning_rate": 2.141076761396521e-07,
+      "loss": 2.6572,
+      "step": 49
+    },
+    {
+      "epoch": 0.12113870381586916,
+      "grad_norm": 1.921555757522583,
+      "learning_rate": 0.0,
+      "loss": 3.009,
+      "step": 50
+    },
+    {
+      "epoch": 0.12113870381586916,
+      "eval_loss": 3.1881558895111084,
+      "eval_runtime": 49.5621,
+      "eval_samples_per_second": 3.511,
+      "eval_steps_per_second": 1.755,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.41887283560448e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null