Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7463990c1e300d5fa5796d829a813bf676d7e27fa1e42c838f422cb85af51f4
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:22acae3b40fa36e7f617740e1548909fea577c613f93fdbd6e6effce62e8bc85
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e1130cc005d5a4b5f17cf163abe6c249ee0a13756e29e7873e53a1ca70dc296
 size 323290986

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccb362c5af154687ad4559de28d0ee0604183f38b9b8f0e1f553504dfa7cae30
 size 323290986

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c4f34f633b515e228cfb42c8f6207fc3e2da5c8eb3b454c6e0793dbdadc7fe7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd729b5adb8d520cfa3682cf9eae18767fa6db0e7ff2b24350e70f0d6c22eee7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67bdc1680e75e7cf9661cc84482edc217f841c56aca5f9a3979c1c72a436f392
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a60c7d771c1fd156acee762fba03c724cb41829a3f71df370ecd1d20b134982
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.72480046749115,
-  "best_model_checkpoint": "miner_id_24/checkpoint-75",
-  "epoch": 0.0020372407611131483,
   "eval_steps": 25,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -564,6 +564,189 @@
       "eval_samples_per_second": 3.138,
       "eval_steps_per_second": 1.569,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -587,12 +770,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.048558039990272e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4111242294311523,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.002716321014817531,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.138,
       "eval_steps_per_second": 1.569,
       "step": 75
+    },
+    {
+      "epoch": 0.0020644039712613238,
+      "grad_norm": 5.678736209869385,
+      "learning_rate": 2.9876321572751144e-05,
+      "loss": 1.3472,
+      "step": 76
+    },
+    {
+      "epoch": 0.002091567181409499,
+      "grad_norm": 4.438100337982178,
+      "learning_rate": 2.7557479520891104e-05,
+      "loss": 0.9681,
+      "step": 77
+    },
+    {
+      "epoch": 0.0021187303915576744,
+      "grad_norm": 4.892179489135742,
+      "learning_rate": 2.5317852301584643e-05,
+      "loss": 1.8868,
+      "step": 78
+    },
+    {
+      "epoch": 0.0021458936017058495,
+      "grad_norm": 6.8021721839904785,
+      "learning_rate": 2.315988891431412e-05,
+      "loss": 2.0332,
+      "step": 79
+    },
+    {
+      "epoch": 0.002173056811854025,
+      "grad_norm": 8.236583709716797,
+      "learning_rate": 2.1085949060360654e-05,
+      "loss": 2.6374,
+      "step": 80
+    },
+    {
+      "epoch": 0.0022002200220022,
+      "grad_norm": 6.180249214172363,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 1.4887,
+      "step": 81
+    },
+    {
+      "epoch": 0.0022273832321503756,
+      "grad_norm": 7.254570960998535,
+      "learning_rate": 1.7199116885197995e-05,
+      "loss": 1.1575,
+      "step": 82
+    },
+    {
+      "epoch": 0.0022545464422985507,
+      "grad_norm": 8.42436695098877,
+      "learning_rate": 1.5390474757906446e-05,
+      "loss": 3.5707,
+      "step": 83
+    },
+    {
+      "epoch": 0.0022817096524467262,
+      "grad_norm": 10.011573791503906,
+      "learning_rate": 1.3674351904242611e-05,
+      "loss": 2.7595,
+      "step": 84
+    },
+    {
+      "epoch": 0.0023088728625949013,
+      "grad_norm": 14.180951118469238,
+      "learning_rate": 1.2052624879351104e-05,
+      "loss": 2.8382,
+      "step": 85
+    },
+    {
+      "epoch": 0.002336036072743077,
+      "grad_norm": 8.804574966430664,
+      "learning_rate": 1.0527067017923654e-05,
+      "loss": 2.1888,
+      "step": 86
+    },
+    {
+      "epoch": 0.002363199282891252,
+      "grad_norm": 13.689722061157227,
+      "learning_rate": 9.09934649508375e-06,
+      "loss": 1.9997,
+      "step": 87
+    },
+    {
+      "epoch": 0.0023903624930394275,
+      "grad_norm": 11.819232940673828,
+      "learning_rate": 7.771024502261526e-06,
+      "loss": 2.6427,
+      "step": 88
+    },
+    {
+      "epoch": 0.0024175257031876026,
+      "grad_norm": 12.048958778381348,
+      "learning_rate": 6.543553540053926e-06,
+      "loss": 2.2121,
+      "step": 89
+    },
+    {
+      "epoch": 0.002444688913335778,
+      "grad_norm": 11.276795387268066,
+      "learning_rate": 5.418275829936537e-06,
+      "loss": 2.3042,
+      "step": 90
+    },
+    {
+      "epoch": 0.002471852123483953,
+      "grad_norm": 11.966928482055664,
+      "learning_rate": 4.3964218465642355e-06,
+      "loss": 2.4619,
+      "step": 91
+    },
+    {
+      "epoch": 0.0024990153336321287,
+      "grad_norm": 11.749384880065918,
+      "learning_rate": 3.4791089722651436e-06,
+      "loss": 1.9723,
+      "step": 92
+    },
+    {
+      "epoch": 0.002526178543780304,
+      "grad_norm": 14.021724700927734,
+      "learning_rate": 2.667340275199426e-06,
+      "loss": 1.7505,
+      "step": 93
+    },
+    {
+      "epoch": 0.0025533417539284793,
+      "grad_norm": 11.984750747680664,
+      "learning_rate": 1.9620034125190644e-06,
+      "loss": 1.7284,
+      "step": 94
+    },
+    {
+      "epoch": 0.0025805049640766544,
+      "grad_norm": 16.160961151123047,
+      "learning_rate": 1.3638696597277679e-06,
+      "loss": 1.4425,
+      "step": 95
+    },
+    {
+      "epoch": 0.00260766817422483,
+      "grad_norm": 13.533823013305664,
+      "learning_rate": 8.735930673024806e-07,
+      "loss": 1.4981,
+      "step": 96
+    },
+    {
+      "epoch": 0.002634831384373005,
+      "grad_norm": 15.886064529418945,
+      "learning_rate": 4.917097454988584e-07,
+      "loss": 2.1016,
+      "step": 97
+    },
+    {
+      "epoch": 0.0026619945945211805,
+      "grad_norm": 14.708796501159668,
+      "learning_rate": 2.1863727812254653e-07,
+      "loss": 1.9247,
+      "step": 98
+    },
+    {
+      "epoch": 0.0026891578046693556,
+      "grad_norm": 12.61458969116211,
+      "learning_rate": 5.467426590739511e-08,
+      "loss": 1.7707,
+      "step": 99
+    },
+    {
+      "epoch": 0.002716321014817531,
+      "grad_norm": 13.842378616333008,
+      "learning_rate": 0.0,
+      "loss": 1.1258,
+      "step": 100
+    },
+    {
+      "epoch": 0.002716321014817531,
+      "eval_loss": 1.4111242294311523,
+      "eval_runtime": 4940.2688,
+      "eval_samples_per_second": 3.138,
+      "eval_steps_per_second": 1.569,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.398077386653696e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null